Spelling suggestions: "subject:"linguagem natural"" "subject:"1inguagem natural""
101 |
Uma proposta para descoberta autom?tica de rela??es n?o-taxon?micas a partir de corpus em l?ngua portuguesaFerreira, Vinicius Hartmann 11 December 2012 (has links)
Made available in DSpace on 2015-04-14T14:49:58Z (GMT). No. of bitstreams: 1
446187.pdf: 2000156 bytes, checksum: d69c6168cd6efd48f1f38ca794de2813 (MD5)
Previous issue date: 2012-12-11 / The construction of ontologies is a complex process that includes steps such as extraction of domain concepts, as well as the extraction of taxonomic and non-taxonomic relations between these concepts. The step of extracting non-taxonomic relations is the most neglected, specially for texts in portuguese. This dissertation presents a proposal for extracting non-taxonomic relations from texts in portuguese (corpora). These texts are represented by a list of domain concepts and contextual informations extracted by the tool ExATOlp. An application of the proposed process was performed with corpora of five domains and analysis on the relevance of the concepts, the specificity of relations and relations extracted application was made. Through this analysis, the proposed process seemed to be relevant and is considered the main contribution of this dissertation. Additionally, a tool for visualizing the extracted non-taxonomic relations, useful for various linguistic applications, is also proposed. / A constru??o de ontologias ? um processo complexo que compreende etapas como a extra??o de conceitos de dom?nio, bem como a extra??o de rela??es taxon?micas e n?o-taxon?micas entre esses conceitos. A etapa de extra??o de rela??es n?o-taxon?micas ? a mais negligenciada, especialmente para textos na l?ngua portuguesa. Essa disserta??o apresenta uma proposta de extra??o de rela??es n?o-taxon?micas a partir de textos em l?ngua portuguesa (corpora). Esses textos s?o representados por uma lista de conceitos e informa??es contextuais automaticamente extra?dos pela ferramenta ExATOlp. Uma aplica??o do processo proposto foi realizada com corpora de cinco dom?nios e uma an?lise sobre a relev?ncia dos conceitos, a especifidade das rela??es e a aplica??o das rela??es extra?das foi realizada. Atrav?s dessa an?lise o processo proposto mostrou-se relevante, sendo considerado a principal contribui??o dessa disserta??o. Adicionalmente, uma ferramenta para visualiza??o das rela??es n?o-taxon?micas extra?das, ?til para diversas aplica??es lingu?sticas, tamb?m ? proposta.
|
102 |
Minera??o de opini?es aplicada a m?dias sociaisSouza, Marlo Vieira dos Santos e 19 March 2012 (has links)
Made available in DSpace on 2015-04-14T14:50:01Z (GMT). No. of bitstreams: 1
448645.pdf: 990116 bytes, checksum: 3ad832cb853385fcbb55975315370396 (MD5)
Previous issue date: 2012-03-19 / The competitive environment has become more dynamic in the last few decades due to the great development of information and comunication technologies and to the globalization process.A company manager must, thus, always be well informed about the competitive landscape before making strategic decisions. In this sense, the Competitive Intelligence (CI) emerges as a discipline that aims to systematize the collection and analysis of information in the competitive environment willing to assist decision making. There is, however, an increasing amount of information being produced and released in Internet and traditional media, which become unwieldy. Associated with this, managers still suffer with time constraints to respond to the market stimuli and remain competitive. Thus, it is necessary to maintain a constant staff monitoring the competitive environment to be able to handle the amount of information from this various sources. We believe that the application Text Analysis techniques can help in various stages of such process. This work presents a proposal to use such techniques to aid the process of Competitive Intelligence. We discuss the use of Sentiment Analysis techniques coupled with Named Entity Recognition in texts from social media - especially Twitter - which helps in the analysis of the attitudes of the consumer market towards a brand. We also present a system implementing the proposed techniques, the evaluations made with it and present our conclusions. / O ambiente competitivo se tornou, nas ultimas d?cadas, mais din?mico gra?as ?s tecnologias de informa??o e comunica??o e ? globaliza??o. O gestor, assim, precisa estar sempre bem informado sobre o panorama competitivo antes de tomar decis?es estrat?gicas. Nessa dire??o, a Intelig?ncia Competitiva (IC) surge como uma disciplina que pretende sistematizar a obten??o e an?lise de informa??es do ambiente competitivo com fun??o de auxiliar a tomada de decis?o. H? entretanto uma quantidade crescente de informa??o sendo produzida e disponibilizada em meios como a Internet e m?dias tradicionais, as quais se tornam de dif?cil manejo. Associado a isso, os gestores sofrem ainda com restri??es temporais para responder ao est?mulo do mercado e manteremse competitivos. Dessa forma, ? necess?rio manter uma equipe de monitoramento constante do ambiente competitivo para que se possa lidar com a quantidade de informa??o proveniente de diversas fontes. Acreditamos que a aplica??o de t?cnicas de An?lise de Texto podem auxiliar nas diversas fases do processo de IC. O presente trabalho apresenta uma proposta de utiliza??o de tais t?cnicas para auxiliar o processo de Intelig?ncia Competitiva. Discutimos aqui a utiliza??o de um m?todo de An?lise de Sentimentos aliado ao Reconhecimento de Entidades Nomeadas em textos provenientes de m?dias sociais - particularmente o Twitter - que permitam analisar as atitudes do mercado consumidor quanto a uma determinada marca. S?o apresentados ainda o sistema desenvolvido, as avalia??es realizadas e as conclus?es que tiramos.
|
103 |
Extra??o de rela??es do dom?nio de organiza??es para o portugu?sAbreu, Sandra Collovini de 16 January 2014 (has links)
Made available in DSpace on 2015-04-14T14:50:10Z (GMT). No. of bitstreams: 1
457562.pdf: 2425407 bytes, checksum: fefac4edf439614aa48e880ee5b36971 (MD5)
Previous issue date: 2014-01-16 / The task of Relation Extraction from texts is one of the main challenges in the area of Information
Extraction, considering the required linguistic knowledge and the sophistication of the language
processing techniques employed. This task aims at identifying and classifying semantic relations that
occur between entities recognized in a given text. For example, the sentence Next Saturday, Ronaldo
Lemos, director of Creative Commons, will participate in a debate [...]" expresses a institutionalbond"
relation that occurs between the named entities Ronaldo Lemos" and Creative Commons".
This thesis proposes a process for extraction of relation descriptors, which describes the explicit
relations between named entities in the Organization domain (Person, Organization and Location)
by applying, to texts in Portuguese, Conditional Random Fields (CRF), a probabilistic model that
has been used in various tasks e⇥ciently in processing sequential text, including the task of Relation
Extraction. In order to implement the proposed process, a reference corpus for extracting relations,
necessary for learning, was manually annotated based on a reference corpus for named entities
(HAREM). Based on an extensive literature review on the automatic extraction of relations task,
features of different types were defined. An experimental evaluation was performed to evaluate
the learned model utilizing the defined features. Different input feature configurations for CRF were
evaluated. Among them, the highlight was the inclusion of the semantic feature based on the named
entity category, since this feature could express, in a better way, the kind of relationship between the
pair of named entities we want to identify. Finally, the best results correspond to the extraction of
relations between the named entities of Organization and Person categories, in which the F -measure
rates were 57% and 63%, considering the correct and partially correct extractions, respectively. / A tarefa de Extra??o de Rela??es a partir de textos ? um dos principais desafios da ?rea de Extra??o de Informa??o, tendo em vista o conhecimento lingu?stico exigido e a sofistica??o das t?cnicas de processamento da l?ngua empregados. Essa tarefa visa identificar e classificar rela??es sem?nticas que ocorrem entre entidades reconhecidas em um determinado texto. Por exemplo, o trecho No pr?ximo S?bado, Ronaldo Lemos, diretor da Creative Commons, ir? participar de um debate (...)" expressa uma rela??o de v?nculo-institucional" que ocorre entre as entidades nomeadas Ronaldo Lemos" e Creative Commons". Esta tese prop?e um processo para extra??o de descritores de rela??o, os quais descrevem rela??es expl?citas entre entidades nomeadas do dom?nio de Organiza??es (Pessoa, Organiza??o e Local) utilizando o modelo probabil?stico Conditional Random Fields (CRF), e sua aplica??o em textos da L?ngua Portuguesa. O modelo probabil?stico CRF tem sido aplicado eficientemente em diversas tarefas de processamento de texto sequencial, incluindo recentemente a tarefa de Extra??o de Rela??es. A fim de aplicar o processo proposto, um corpus de refer?ncia para extra??o de rela??es, necess?rio para o aprendizado, foi anotado manualmente, tomando como base um corpus de refer?ncia para entidades nomeadas (HAREM). Com base em uma extensa revis?o da literatura sobre a tarefa de extra??o autom?tica de rela??es, features de diferentes naturezas foram definidas. Uma avalia??o experimental foi realizada com o objetivo de avaliar o modelo aprendido utilizando as features definidas. Diferentes configura??es de features de entrada para o CRF foram avaliadas. Dentre elas, destacou-se a inclus?o da feature sem?ntica baseada na categoria da entidade nomeada, j? que essa feature conseguiu expressar melhor o tipo de rela??o que se deseja identificar entre o par de entidades nomeadas. Por fim, os melhores resultados obtidos correspondem ? extra??o de rela??es entre as entidades nomeadas das categorias Organiza??o e Pessoa, na qual as taxas de F-measure foram de 57% e 63%, considerando as extra??es corretas e parcialmente corretas, respectivamente.
|
104 |
Learning non-verbal relations under open information extraction paradigmXavier, Clarissa Castell? 12 March 2014 (has links)
Made available in DSpace on 2015-04-14T14:50:19Z (GMT). No. of bitstreams: 1
466321.pdf: 1994049 bytes, checksum: fbbeef81814a876679c25f4e015925f5 (MD5)
Previous issue date: 2014-03-12 / O paradigma Open Information Extraction - Open IE (Extra??o Aberta de Informa??es) de extra??o de rela??es trabalha com a identifica??o de rela??es n?o definidas previamente, buscando superar as limita??es impostas pelos m?todos tradicionais de Extra??o de Informa??es como a depend?ncia de dom?nio e a dif?cil escalabilidade. Visando estender o paradigma Open IE para que sejam extra?das rela??es n?o expressas por verbos a partir de textos em ingl?s, apresentamos CompIE, um componente que aprende rela??es expressas em compostos nominais (CNs), como (oil, extracted from, olive) - (?leo, extra?do da, oliva) - do composto nominal olive oil - ?leo de oliva, ou em pares do tipo adjetivo-substantivo (ASs), como (moon, that is, gorgeous) - (lua, que ?, linda) - do AS gorgeous moon (linda lua). A entrada do CompIE ? um arquivo texto, e sua sa?da ? um conjunto de triplas descrevendo rela??es bin?rias. Sua arquitetura ? composta por duas tarefas principais: Extrator de CNs e ASs (1) e Interpretador de CNs e ASs (2). A primeira tarefa gera uma lista de CNs e ASs a partir do corpus de entrada. A segunda tarefa realiza a interpreta??o dos CNs e ASs gerando as triplas que descrevem as rela??es extra?das do corpus. Para estudar a viabilidade da solu??o apresentada, realizamos uma avalia??o baseada em hip?teses. Um prot?tipo foi constru?do com o intuito de validar cada uma das hip?teses. Os resultados obtidos mostram que nossa solu??o alcan?a 89% de Precis?o e demonstram que o CompIE atinge sua meta de estender o paradigma Open IE extraindo rela??es expressas dentro dos CNs e ASs. / The Open Information Extraction (Open IE) is a relation extraction paradigm in which the target relationships cannot be specified in advance, and it aims to overcome the limitations imposed by traditional IE methods, such as domain-dependence and scalability. In order to extend Open IE to extract relationships that are not expressed by verbs from texts in English, we introduce CompIE, a component that learns relations expressed in noun compounds (NCs), such as (oil, extracted from, olive) from olive oil, or in adjectivenoun pairs (ANs), such as (moon, that is, gorgeous) from gorgeous moon. CompIE input is a text file, and the output is a set of triples describing binary relationships. The architecture comprises two main tasks: NCs and ANs Extraction (1) and NCs and ANs Interpretation (2). The first task generates a list of NCs and ANs from the input corpus. The second task performs the interpretation of NCs and ANs and generates the tuples that describe the relations extracted from the corpus. In order to study CompIE s feasibility, we perform an evaluation based on hypotheses. In order to implement the strategies to validate each hypothesis we have built a prototype. The results show that our solution achieves 89% Precision and demonstrate that CompIE reaches its goal of extending Open IE paradigm extracting relationships within NCs and ANs.
|
105 |
SiSe : medida de similaridade sem?ntica entre ontologias em portugu?sFreitas, Juliano Baldez de 26 January 2007 (has links)
Made available in DSpace on 2015-04-14T14:50:24Z (GMT). No. of bitstreams: 1
393159.pdf: 2682367 bytes, checksum: de7318c27ade99fcf0f367ee38778cfb (MD5)
Previous issue date: 2007-01-26 / Este trabalho consiste na adapta??o de uma medida de similaridade sem?ntica para o mapeamento entre ontologias em portugu?s. A medida SiSe (Similaridade Sem?ntica) apresentada neste trabalho adapta a proposta Mapeamento Taxon?mico, de Maedche e Staab [Maedche e Staab 2002]. A medida SiSe faz uma compara??o da similaridade entre termos de ontologias distintas atrav?s da an?lise da hierarquia dos mesmos. Utilizamos o conceito de "Semantic Cotopy" e "Common Semantic Cotopy", os quais formam um conjunto para cada um dos termos comparados. Cada conjunto ? composto pelo termo, pelos subconceitos e superconceitos deste termo, todos representados por seus stems, atrav?s de um recurso de Processamento da Linguagem Natural, o stemmer PortugueseStemmer desenvolvido por Orengo e Huyck [Orengo e Huyck 2001]. Nossa medida adota uma estrat?gia para o mapeamento entre ontologias que envolve a an?lise das linguagens utilizadas na descri??o das ontologias (OWL, RFDS, etc), abstraindo as sintaxes e normalizando em uma linguagem XML com as rela??es hier?rquicas de hipon?mia e hiperon?mia das ontologias. A medida de similaridade SiSe compara as ontologias atrav?s das rela??es hier?rquicas que as mesmas possuem, desta forma o coeficiente resultante ? a similaridade sem?ntico-estrutural entre os termos das ontologias. A avalia??o da medida SiSe ? realizada atrav?s de um "Golden mapping", ou mapeamento dourado, que consiste na avalia??o da similaridade de algumas ontologias por humanos confrontando com os resultados da medida SiSe. Esta medida ? utilizada para auxiliar no mapeamento entre ontologias visando o reuso e a integra??o de informa??o
|
106 |
A proposal for an architecture to extract information from sms messages during emergency situationsMonteiro, Douglas Machado 16 March 2015 (has links)
Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-05-15T11:49:34Z
No. of bitstreams: 1
468523 - Texto Completo.pdf: 3578868 bytes, checksum: 4d26c3b12a22330579e4b83f7414ebc4 (MD5) / Made available in DSpace on 2015-05-15T11:49:34Z (GMT). No. of bitstreams: 1
468523 - Texto Completo.pdf: 3578868 bytes, checksum: 4d26c3b12a22330579e4b83f7414ebc4 (MD5)
Previous issue date: 2015-03-16 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior - CAPES / In mass emergencies, a fair amount of information is exchanged via SMS messages.
These messages tend to be informal and to contain abbreviations and misspellings,
which makes them difficult to treat. This is a problem for current Information Extraction
tools, especially for messages in Portuguese. This work proposes an architecture to extract
information from SMS messages during emergencies. The architecture comprises four
components: Linguistic Processing, Temporal Processing, Event Processing, and Information
Fusion. We also defined an SMS corpus building process. From the proposal of this
architecture, we conducted a case study, which included building BraCorpSMS, a corpus of
SMS messages received by an electric utility company. We built a prototype in Python using
NLTK to validate the architecture. The prototype had its Information Extraction components
evaluated achieving Precision of 88%, Recall of 59% and balanced F-measure of 71%. The
results indicate improvement opportunities, but as this is the first work for Portuguese facing
processing SMS messages during emergency situations, it also serves as a roadmap for
future work in the area. / Durante situa??es de emerg?ncia, uma grande quantidade de informa??o ? trocada
via mensagens SMS. Estas mensagens costumam ter escrita informal e cont?m abrevia??es
e erros de grafia, o que dificulta seu processamento. Este ? um problema para as
ferramentas de Extra??o de Informa??o atuais, especialmente para o Portugu?s. Este trabalho
prop?e uma arquitetura de extra??o de informa??o de mensagens SMS em situa??es
de emerg?ncia. A arquitetura contempla quatro componentes: processamento lingu?stico,
processamento temporal, processamento de eventos e fus?o da informa??o. Tamb?m se
define um processo para cria??o de corpus de SMSs. A partir da arquitetura proposta, foi
realizado um estudo de caso que incluiu a constru??o do BraCorpSMS, um corpus de mensagens
SMS recebidos por uma companhia de energia el?trica e um prot?tipo em Python
utilizando NLTK para validar a arquitetura. O prot?tipo teve seus componentes de Extra??o
de Informa??o avaliados, obtendo 88% de Precis?o, 59% de Cobertura e 71% de Medida-F.
Os resultados indicam oportunidades de avan?os, mas, sendo este o primeiro trabalho para
o Portugu?s voltado para o processamento de mensagens SMS em situa??es de emerg?ncia,
tamb?m serve de roteiro para trabalhos futuros nesta ?rea.
|
107 |
Feature-level sentiment analysis applied to brazilian portuguese reviewsFreitas, Larissa Astrogildo de 23 March 2015 (has links)
Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-05-19T12:00:48Z
No. of bitstreams: 1
468945 - Txto Completo.pdf: 990591 bytes, checksum: 7d04b4b3b2f91050851802c6d65349f1 (MD5) / Made available in DSpace on 2015-05-19T12:00:48Z (GMT). No. of bitstreams: 1
468945 - Txto Completo.pdf: 990591 bytes, checksum: 7d04b4b3b2f91050851802c6d65349f1 (MD5)
Previous issue date: 2015-03-23 / Funda??o de Amparo ? Pesquisa do Estado do Rio Grande do Sul - FAPERGS / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior - CAPES / Sentiment Analysis is the field of study that analyzes people?s opinions in texts. In the last decade, humans have come to share their opinions in social media on the Web (e.g., forum discussions and posts in social network sites). Opinions are important because whenever we need to take a decision, we want to know others? points of view. The interest of industry and academia in this field of study is partly due to its potential applications, such as: marketing, public relations and political campaign. Research in this field often considers English data, while data from other languages are less explored. It is possible realize data analysis in different levels, in this work we choose a finer-grain analysis, at aspect-level. Ontologies can represent aspects, that are ?part-of? an object or property of ?part-of? an object, we proposed a method for feature-level sentiment analysis using ontologies applied to Brazilian Portuguese reviews. In order to obtain a complete analysis, we recognized features explicit and implicit using ontologies. Relatively less work has been done about implicit feature identification. Finally, determine whether the sentiment in relation to the aspects is positive or negative using sentiment lexicons and linguistic rules. Our method is comprised of four steps: preprocessing, feature identification, polarity identification and summarizing. For evaluate this work, we apply our proposal method to a dataset of accommodation sector. According to our experiments, in general the best results were obtained when using TreeTagger, synsets with polarities from Onto.PT and linguistic rule (adjective position) for negative polarity identification and (baseline) for positive polarity identificatio / An?lise de sentimento ? o campo de estudo que analisa a opini?o de pessoas em textos. Na ?ltima d?cada, humanos t?m compartilhado suas opini?es em m?dias sociais na Web (por exemplo, f?runs de discuss?o e posts em sites de redes sociais). Opini?es s?o importantes porque sempre que necessitamos tomar uma decis?o, queremos saber o ponto de vista de outras pessoas. O interesse da ind?stria e da academia neste campo de estudo se deve a aplica??es potenciais, tais como: compra/venda, rela??es p?blicas e campanhas pol?ticas. Pesquisas neste campo muitas vezes consideram dados em ingl?s, enquanto dados em outros idiomas s?o pouco explorados. ? poss?vel realizar a an?lise dos dados em diferentes n?veis, neste trabalho optamos pela an?lise no n?vel de aspecto, na qual a granularidade ? mais fina. Como ontologias podem ser utilizadas para representar aspectos, que s?o ?parte-de? um objeto ou propriedade de ?parte-de? um objeto, propomos um m?todo para an?lise de sentimento aplicado a coment?rios em portugu?s brasileiro, sob o n?vel de aspecto usando ontologias. A fim de obter uma an?lise completa, reconhecemos aspectos expl?citos e impl?citos usando ontologias. Relativamente poucos trabalhos t?m sido feitos sobre identifica??o de aspectos impl?citos. Finalmente determinamos se o sentimento em rela??o aos aspectos ? positivo ou negativo usando l?xicos de sentimento e regras lingu?sticas. Nosso m?todo ? composto de quatro etapas: pr?-processamento, identifica??o de aspecto, identifica??o de polaridade e sumariza??o. Para avaliar este trabalho, aplicamos o m?todo proposto nos coment?rios do setor hoteleiro. De acordo com nosso experimento, o melhor resultado obtido foi quando utilizamos o TreeTagger, o synset com polaridade do Onto.PT e a regra lingu?stica (posi??o do adjetivo) na identifica??o da polaridade negativa e (baseline) na identifica??o da polaridade positiva
|
108 |
Extra??o de rela??es hipon?micas em corpora de l?ngua portuguesaMachado, Pablo Neves 26 March 2015 (has links)
Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-06-08T11:20:00Z
No. of bitstreams: 1
470106 - Texto Completo.pdf: 1241867 bytes, checksum: fb5ae9bcc63565dabf9bfb2f5c3ed3ad (MD5) / Made available in DSpace on 2015-06-08T11:20:00Z (GMT). No. of bitstreams: 1
470106 - Texto Completo.pdf: 1241867 bytes, checksum: fb5ae9bcc63565dabf9bfb2f5c3ed3ad (MD5)
Previous issue date: 2015-03-26 / Natural Language Processing (NLP) is a Computer Science area featured by its relevance
to the development of applications that process large amounts of text or speech.
In this paper we focus on texts in Portuguese, extracting from them hyponymic relations
between entities, using a rules-based approach adapted from Hearst to English, and
Freitas and Quental and Taba and Caseli to Portuguese. The prototype was executed over
a corpus of Portuguese texts and the output was analyzed according to the reference
author and rule sets. The evaluation process followed the one proposed by Freitas and
Quental with human judgment, and the results are compared to those reported in the main
references. The dissertation also studies in detail the most common errors identified. / O Processamento da Linguagem Natural (PLN) ? uma ?rea da Ci?ncia da Computa??o
destacada por sua relev?ncia para o desenvolvimento de aplica??es em processamento
de grandes quantidades de documentos textuais ou orais.
Neste trabalho focamos nos textos em l?ngua portuguesa, deles extraindo rela??es
hipon?micas entre entidades, usando uma abordagem baseada em regras adaptadas dos
trabalhos de Hearst para o ingl?s, Freitas e Quental e Taba e Caseli para o portugu?s,
aqui complementadas.
Para validar a proposta foi desenvolvido um prot?tipo que extrai rela??es hipon?micas de
corpora em l?ngua portuguesa. O prot?tipo foi executado sobre corpus de textos e os
resultados obtidos foram analisados tanto por fonte de refer?ncia como por grupos de
regras. O processo avaliativo seguiu o proposto por Freitas e Quental com avalia??o
humana, e as medidas obtidas s?o comparadas com as relatadas nas principais fontes de
refer?ncia. A disserta??o ainda estuda em detalhe os erros mais frequentes identificados.
|
109 |
Constru??o de um corpus anotado para classifica??o de entidades nomeadas utilizando a Wikipedia e a DBpediaWeber, Cristofer 16 March 2015 (has links)
Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-12-14T19:55:10Z
No. of bitstreams: 1
476712 - Texto Completo.pdf: 1416751 bytes, checksum: 0b603e0667dd53303efd13181a62d31e (MD5) / Made available in DSpace on 2015-12-14T19:55:11Z (GMT). No. of bitstreams: 1
476712 - Texto Completo.pdf: 1416751 bytes, checksum: 0b603e0667dd53303efd13181a62d31e (MD5)
Previous issue date: 2015-03-16 / Some natural language processing tasks can be learned from example corpora, but having enough examples for the task at hands can be a bottleneck. In this work we address how Wikipedia and DBpedia, two freely available language resources, can be used to support Named Entity Recognition, a fundamental task in Information Extraction and a necessary step of other tasks such as Co-reference Resolution and Relation Extraction. / Algumas tarefas de processamento de linguagem natural podem ser aprendidas por algoritmos
a partir de corpus de exemplo, mas a obten??o destes exemplos pode ser um gargalo. Neste
trabalho n?s investigamos como a Wikipedia e a DBpedia, dois recursos de linguagem dispon?veis
de forma gratuita, podem ser utilizados como corpus para a classifica??o de entidades nomeadas,
uma tarefa fundamental de extra??o de informa??es e um passo necess?rio para outras tarefas como
extra??o de rela??es e resolu??o de co-refer?ncias.
|
110 |
Identifying potential conflicts between norms in contractsAires, Jo?o Paulo de Souza 07 August 2015 (has links)
Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2016-04-18T11:41:31Z
No. of bitstreams: 1
DIS_JOAO_PAULO_DE_SOUZA_AIRES_COMPLETO.pdf: 962726 bytes, checksum: 42f46ef4c73e4f45496827e72b7fbf27 (MD5) / Made available in DSpace on 2016-04-18T11:41:31Z (GMT). No. of bitstreams: 1
DIS_JOAO_PAULO_DE_SOUZA_AIRES_COMPLETO.pdf: 962726 bytes, checksum: 42f46ef4c73e4f45496827e72b7fbf27 (MD5)
Previous issue date: 2015-08-07 / Contracts formally represent agreements between parties and often involve the exchange
of goods and services. In contracts, norms define the expected behaviors of the parties using deontic statements, such as obligations, permissions, and prohibitions. However, norms may conflict invalidating themselves and producing a contract inconsistency. A conflict arises when two or more norms are applied to the same context but have different deontic statements, such as permissions x obligations and prohibitions x obligations. The identification of such conflicts is often made by humans, which makes the task time consuming and error-prone. In order to automate such identification, in this work we propose an approach to identify potential conflicts between norms in contracts written in natural language. We build a two-phase approach that extracts norms and norm elements from contracts, creating a norm representation that we use to compare norms and identify
potential conflicts. We evaluated the approach using a corpus of contracts with norm conflicts inserted, and we measured the accuracy for different cases of conflict, which resulted on values higher than 70%. / Contratos s?o utilizados para formalizar acordos envolvendo troca de bens e servi?os entre
duas ou mais partes. Eles definem a??es esperadas durante o per?odo de vig?ncia do contrato
atrav?s de normas. Tais normas seguem conceitos baseados em l?gica de?ntica, definindo permiss?es,
proibi??es e obriga??es. No entanto, conflitos podem ser gerados quando duas normas s?o
aplicadas a um mesmo contexto tendo sentidos de?nticos diferentes, como a proibi??o e a obriga??o
da realiza??o de uma mesma a??o. Estes conflitos invalidam as normas e criam uma inconsist?ncia
para o contrato. Para evit?-los ? necess?rio que um revisor leia as normas e encontre quais
apresentam elementos conflitantes. Uma vez que contratos podem ser longos e complexos, esta
tarefa consome tempo e ? pass?vel de erro humano. Para automatizar o processo de identifica??o
de conflitos, neste trabalho criamos uma abordagem que busca identificar potenciais conflitos entre
normas atrav?s da compara??o de suas estruturas. Nossa abordagem ? dividida em duas fases: na
primeira, identificamos as normas e seus elementos dentro de um contrato; na segunda, utilizamos os
elementos extra?dos para comparar diferentes normas e identificar quais apresentam caracter?sticas
de um conflito normativo. N?s avaliamos a abordagem aplicando-a em contratos contendo conflitos
e obtivemos resultados com acur?cia superior a 70%.
|
Page generated in 0.0604 seconds