1 |
Métricas para ontologias: revisão sistemática e aplicação ao portal OntoLPFreitas, Larissa Astrogildo de January 2010 (has links)
Made available in DSpace on 2013-08-07T18:43:37Z (GMT). No. of bitstreams: 1
000424821-Texto+Completo-0.pdf: 3171152 bytes, checksum: a78ee68d263086112f2f0e141fc7879b (MD5)
Previous issue date: 2010 / Ontology construction and availability face various constraints such as the necessity of domain experts (leading to high costs). Besides that ontologies may have protected data, which can prevent it from being publicly available. In addition to that, there is the problem of where to find the ontologies, once they are not restricted. In face of that, the OntoLP Project aims to collaborate in the task of sharing ontologies in Portuguese language, as well as ontology research related tools and publications. Given an ontology set it is important to gather information that can support researchers to inspect the available resources in a general way. In this context, metrics for ontology is a novel area. Although there are many proposal for metrics in the literature, they are not standardized. So, this work aims to do a survey about metrics for ontologies by doing a systematic review of the literature. After this exhaustive search the gathered metrics were selected and implemented to be applied to a group of ontologies written in OWL. The goal was giving support to the reuse of Portuguese ontologies. The usage of metrics for ontologies in the OntoLP portal was evaluated through a survey. The survey results were satisfactory, the utility of metrics for ontologies in specialized repositories for ontologies was considered relevant by the portal potential users. / Ao tratarmos da construção e da disponibilização de ontologias nos deparamos com as seguintes limitações: a construção de ontologias exige a presença de especialistas do domínio e portanto apresenta um custo elevado, muitas ontologias podem conter dados protegidos por algum tipo de direito o que dificulta sua disponibilização, além disso para aquelas que podem ser compartilhadas existe o problema como encontrá-las. O Projeto OntoLP visa atenuar os problemas acima, uma vez que se propõe a colaborar na disponibilização de ontologias em língua portuguesa, ferramentas e publicações relacionadas. Dado um conjunto de ontologias é importante reunir informações que ajudem os pesquisadores a conhecer os recursos disponíveis de forma ágil. Uma área em desenvolvimento neste cenário é a área de métricas para ontologias, porém existem muitas propostas, não padronizadas, de métricas na literatura. Sendo assim, procuramos neste trabalho fazer um levantamento exaustivo sobre métricas para ontologias através de uma revisão sistemática. Depois de analisadas as métricas, um sistema que realiza o cálculo de métricas em ontologias OWL foi desenvolvido e aplicado ao portal de ontologias OntoLP. O objetivo é ajudar na busca por ontologias. Por fim, o uso das métricas no portal foi avaliado por meio de um questionário. Os resultados do questionário de maneira geral se mostraram satisfatórios, uma vez que foi possível detectar um alto nível de concordância perante respostas das questões sobre a utilidade das métricas em repositórios específicos para ontologias.
|
2 |
Um método para incrementar a extração automática de palavras-chave de textos baseado na expansão do conjunto de treinamento com termos candidatos inferidos a partir de modelos de conhecimento / A method to increment the automatic keyphrases extraction of texts based on the expansion of the training set with candidate terms inferred from knowledge models (Inglês)Silveira, Francisca Raquel de Vasconcelos 18 April 2018 (has links)
Made available in DSpace on 2019-03-30T00:06:02Z (GMT). No. of bitstreams: 0
Previous issue date: 2018-04-18 / Extraction keyphrase systems traditionally use classification algorithms and do not consider the fact that part of the keyphrases may not be found in the text, reducing the accuracy of such algorithms a priori. In this work, it is proposed to improve the accuracy of these systems, expanding the training set used by classification algorithms with terms that are not in the text (not-in-text terms) inferred from knowledge models such as knowledge bases and distributional semantics. The basic assumption of the thesis is that not-in-text terms have a semantic relationship with terms that are in the text. For capturing and representing this relationship, we have defined three new heuristics to characterize the relevance of the not-in-text terms to be keyphrases. The first heuristic have the objective of capturing if the semantic relatedness of a not-in-text term (in relation to the other terms in the text) is higher than the semantic relatedness of the textual term from which it was inferred. The intuition is that terms that are more semantically related to other terms in the document are more likely to represent the text. The second feature refers to the power of discrimination of the inferred not-in-text term. The intuition behind this is that good candidates to be a keyphrase are those that are deduced from various textual terms in a specific document and that are not often deduced in other documents. The other feature represents the descriptive strength of a not-in-text candidate. We argue that not-in-text keyphrases must have a strong semantic relationship with the text and that the power of this semantic relationship can be measured in a similar way as popular metrics like TFxIDF. The method proposed in this work was compared with state-of-the-art systems using seven corpora and the results show that it has significantly improved automatic keyphrase extraction, dealing with the limitation of extracting keyphrases absent of the text.
Keywords: Keyphrases extraction. Keyphrases absent from the text. Deduction of keyphrases. Knowledge models. / Sistemas de extração de palavras-chave tradicionalmente usam algoritmos de classificação e não consideram o fato que parte das palavras-chave podem não ser encontradas no texto, reduzindo a acurácia desses algoritmos. Neste trabalho, propõe-se melhorar a acurácia desses sistemas, expandindo o conjunto de treinamento usado pelos algoritmos de classificação com termos que não estão no texto (termos não-texto) inferidos de modelos de conhecimento, tais como bases de conhecimento e semântica distributiva. A suposição básica da tese é que termos não-texto têm um relacionamento semântico com os termos que estão no texto. Para capturar e representar esse relacionamento, foram definidas três novas heurísticas para caracterizar a relevância dos termos não-texto a serem palavras-chave. A primeira heurística tem o objetivo de capturar se o relacionamento semântico de um termo não-texto (em relação aos outros termos no texto) é maior que o relacionamento semântico do termo do texto que o inferiu. A intuição é que termos que são mais relacionados semanticamente a outros termos no documento são mais prováveis para representar o texto. A segunda heurística refere-se ao poder de discriminação do termo não-texto. A intuição é que bons candidatos para ser uma palavra-chave são aqueles que são deduzidos de vários termos do texto em um documento específico e que não são frequentemente deduzidos em outros documentos. A outra heurística representa o poder descritivo de um candidato não-texto. Argumenta-se que palavras-chave não-texto devem ter um forte relacionamento semântico com o texto e que o poder desse relacionamento semântico pode ser medido em uma maneira similar como métricas populares, tal como TFxIDF. O método proposto neste trabalho foi comparado com sistemas de estado-da-arte usando sete corpora e os resultados exibem que o método proposto tem melhorado significativamente a extração automática de palavras-chave em documentos desses corpora, lidando com a limitação de extrair palavras-chave ausentes do texto.
Palavras-chave: Extração de palavras-chave. Palavras-chave ausentes do texto. Dedução de palavras-chave. Modelos de conhecimento.
|
3 |
Desenvolvimento de regras de pronúncia para a síntese de fala em língua portuguesaOstermann Filho, Paulo Eduardo January 2002 (has links)
Sabe-se que a fala é a principal maneira de comunicação entre as pessoas. A Síntese de fala (geração automática da fala pelo computador) tem recebido atenção da comunidade acadêmica e profissional por várias décadas. Ela envolve a conversão de um texto de entrada em fala, usando algoritmos e algumas formas de fala codificada. O texto pode ser digitado pelo teclado ou obtido por reconhecimento de caracteres ou, ainda, obtido de um banco de dados. A síntese de fala pode ser usada em vários domínios de aplicação, tais como: auxílio para deficientes visuais, telecomunicações, multimídia, etc. Este trabalho apresenta um estudo sobre a produção da fala e da área de síntese de fala visando servir de subsídio para dissertações e pesquisas futuras, bem como para o Projeto Spoltech, um projeto de cooperação entre os Estados Unidos e o Brasil para o avanço da tecnologia da língua falada no Brasil (Português Brasileiro). Dentro deste estudo serão apresentadas as principais técnicas de síntese de fala, entre as quais destaca-se: Texto para Fala (TPF). Problemas de separação de sílabas, determinação da sílaba tônica, pronunciação das vogais “e” e “o” como um fonema aberto ou fechado, etc, são enfrentados dentro do contexto da área de síntese de fala para o português falado no Brasil. Tendo conhecimento destes problemas, o principal objetivo deste trabalho será criar regras para resolver o problema de pronunciação das vogais “e” e “o” de forma automática, visando obter produção sonora mais inteligível, por intermédio da implementação de um analisador estatístico, o qual verificará a letra anterior e posterior ao “e” ou “o” de uma palavra e, com isso, determinar a pronúncia dos mesmos para aquela seqüência de letras. As mesmas poderão tornar-se regras válidas para a solução do problema se atingirem 80% dos casos de ocorrência no dicionário com fonema “e” ou “o” aberto (limiar), sendo que elas serão lidas por um interpretador Scheme utilizado pelo programa Festival - ferramenta para a construção de sistemas de síntese de fala desenvolvida pelo Centre for Speech Technology Research (University of Edinburgh, Reino Unido), a qual utiliza TPF como método de síntese. Sabendo-se que o Festival gera os fonemas “e” e “o” como fechados se não há uma regra para inferir o contrário, serão consideradas apenas as regras encontradas para os fonemas abertos. Para possibilitar esta análise será utilizado um dicionário eletrônico de pronunciação (com 19.156 palavras), o qual possui a palavra e a sua respectiva pronúncia, conforme pode-se verificar no exemplo do Anexo 1.
|
4 |
Desenvolvimento de regras de pronúncia para a síntese de fala em língua portuguesaOstermann Filho, Paulo Eduardo January 2002 (has links)
Sabe-se que a fala é a principal maneira de comunicação entre as pessoas. A Síntese de fala (geração automática da fala pelo computador) tem recebido atenção da comunidade acadêmica e profissional por várias décadas. Ela envolve a conversão de um texto de entrada em fala, usando algoritmos e algumas formas de fala codificada. O texto pode ser digitado pelo teclado ou obtido por reconhecimento de caracteres ou, ainda, obtido de um banco de dados. A síntese de fala pode ser usada em vários domínios de aplicação, tais como: auxílio para deficientes visuais, telecomunicações, multimídia, etc. Este trabalho apresenta um estudo sobre a produção da fala e da área de síntese de fala visando servir de subsídio para dissertações e pesquisas futuras, bem como para o Projeto Spoltech, um projeto de cooperação entre os Estados Unidos e o Brasil para o avanço da tecnologia da língua falada no Brasil (Português Brasileiro). Dentro deste estudo serão apresentadas as principais técnicas de síntese de fala, entre as quais destaca-se: Texto para Fala (TPF). Problemas de separação de sílabas, determinação da sílaba tônica, pronunciação das vogais “e” e “o” como um fonema aberto ou fechado, etc, são enfrentados dentro do contexto da área de síntese de fala para o português falado no Brasil. Tendo conhecimento destes problemas, o principal objetivo deste trabalho será criar regras para resolver o problema de pronunciação das vogais “e” e “o” de forma automática, visando obter produção sonora mais inteligível, por intermédio da implementação de um analisador estatístico, o qual verificará a letra anterior e posterior ao “e” ou “o” de uma palavra e, com isso, determinar a pronúncia dos mesmos para aquela seqüência de letras. As mesmas poderão tornar-se regras válidas para a solução do problema se atingirem 80% dos casos de ocorrência no dicionário com fonema “e” ou “o” aberto (limiar), sendo que elas serão lidas por um interpretador Scheme utilizado pelo programa Festival - ferramenta para a construção de sistemas de síntese de fala desenvolvida pelo Centre for Speech Technology Research (University of Edinburgh, Reino Unido), a qual utiliza TPF como método de síntese. Sabendo-se que o Festival gera os fonemas “e” e “o” como fechados se não há uma regra para inferir o contrário, serão consideradas apenas as regras encontradas para os fonemas abertos. Para possibilitar esta análise será utilizado um dicionário eletrônico de pronunciação (com 19.156 palavras), o qual possui a palavra e a sua respectiva pronúncia, conforme pode-se verificar no exemplo do Anexo 1.
|
5 |
Desenvolvimento de regras de pronúncia para a síntese de fala em língua portuguesaOstermann Filho, Paulo Eduardo January 2002 (has links)
Sabe-se que a fala é a principal maneira de comunicação entre as pessoas. A Síntese de fala (geração automática da fala pelo computador) tem recebido atenção da comunidade acadêmica e profissional por várias décadas. Ela envolve a conversão de um texto de entrada em fala, usando algoritmos e algumas formas de fala codificada. O texto pode ser digitado pelo teclado ou obtido por reconhecimento de caracteres ou, ainda, obtido de um banco de dados. A síntese de fala pode ser usada em vários domínios de aplicação, tais como: auxílio para deficientes visuais, telecomunicações, multimídia, etc. Este trabalho apresenta um estudo sobre a produção da fala e da área de síntese de fala visando servir de subsídio para dissertações e pesquisas futuras, bem como para o Projeto Spoltech, um projeto de cooperação entre os Estados Unidos e o Brasil para o avanço da tecnologia da língua falada no Brasil (Português Brasileiro). Dentro deste estudo serão apresentadas as principais técnicas de síntese de fala, entre as quais destaca-se: Texto para Fala (TPF). Problemas de separação de sílabas, determinação da sílaba tônica, pronunciação das vogais “e” e “o” como um fonema aberto ou fechado, etc, são enfrentados dentro do contexto da área de síntese de fala para o português falado no Brasil. Tendo conhecimento destes problemas, o principal objetivo deste trabalho será criar regras para resolver o problema de pronunciação das vogais “e” e “o” de forma automática, visando obter produção sonora mais inteligível, por intermédio da implementação de um analisador estatístico, o qual verificará a letra anterior e posterior ao “e” ou “o” de uma palavra e, com isso, determinar a pronúncia dos mesmos para aquela seqüência de letras. As mesmas poderão tornar-se regras válidas para a solução do problema se atingirem 80% dos casos de ocorrência no dicionário com fonema “e” ou “o” aberto (limiar), sendo que elas serão lidas por um interpretador Scheme utilizado pelo programa Festival - ferramenta para a construção de sistemas de síntese de fala desenvolvida pelo Centre for Speech Technology Research (University of Edinburgh, Reino Unido), a qual utiliza TPF como método de síntese. Sabendo-se que o Festival gera os fonemas “e” e “o” como fechados se não há uma regra para inferir o contrário, serão consideradas apenas as regras encontradas para os fonemas abertos. Para possibilitar esta análise será utilizado um dicionário eletrônico de pronunciação (com 19.156 palavras), o qual possui a palavra e a sua respectiva pronúncia, conforme pode-se verificar no exemplo do Anexo 1.
|
6 |
Análise de medidas de similaridade semântica na tarefa de reconhecimento de implicação textual / Analysis of Semantic Similarity Measures in the Textual Implication Recognition Task (Inglês)Feitosa, David Barbosa 19 December 2017 (has links)
Made available in DSpace on 2019-03-30T00:08:54Z (GMT). No. of bitstreams: 0
Previous issue date: 2017-12-19 / Textual Entailment is one of the topics treated by Natural Language Processing, a
subarea of computer science, artifical intelligence and linguistics. The focus of the textual entailment is the directional verification of the similarity relation between two fragments of text that can include syntatic and semantic aspects. Many automated methods for the recognition task have been advanced by virtue of the research and competitions conducted by the community in order to advance the quality of RTE (Recognizing Text Entailment). Challenges have become increasingly complex because of applications where textual entailment is used as Questions and Answers, Information Extraction, Summarization, Machine Translation Evaluation, and so on. This dissertation explores a range of approaches applied to the RTE task, starting with the recent methodologies used in the competitions for the task and proposes a framework with a hybrid approach to introduce semantic knowledge based on textual semantic similarity, ie, application of semantic similarity metrics between terms, generating semantic components - features - for an automatic learning process. In addition to textit framework, this paper analyzes the overlap of terms in two corpus, ASSIN and SNLI, showing the impact of the overlap in the RTE task.
Keywords: Computational Linguistics. Artificial Intelligence. Natural Language Process-
ing. Textual Entailment. Recognizing Text Entailment Task. Portuguese Language. / Implicação Textual é um dos temas tratados pelo Processamento de Linguagem Natural,
uma subárea da ciência da computação, inteligência artificial e da linguística. O foco
da implicação textual é a verificação direcional da relação de similaridade entre dois
fragmentos de texto que podem incluir aspectos sintáticos e semânticos. Muitos métodos
automatizados para a tarefa de reconhecimento tem avançado em virtude das pesquisas e
competições realizadas pela comunidade com o intuito de fomentar o avanço qualitativo
de RTE (Recognizing Textual Entailment). Os desafios têm se tornado cada vez mais
complexos em virtude das aplicações em que a implicação textual é usada como Resposta
a Perguntas, Extração de Informação, Sumarização, Avaliação de Tradução por Máquina
etc. Esta dissertação explora uma faixa de abordagens aplicada à tarefa de RTE, iniciando
com as metodologias recentes utilizadas nas competições para a tarefa, assim como
propõe um framework com abordagem híbrida para introduzir conhecimento semântico
baseado em similaridade semântica textual, ou seja, aplicação de métricas de similaridade
semântica entre os termos, gerando componentes semânticos - features - como entrada
para um processo de aprendizagem automática. Além do framework, este trabalho analisa
a sobreposição dos termos em dois corpus, ASSIN e SNLI, evidenciando o impacto da
sobreposição na tarefa de RTE.
Palavras-chave: Linguística Computacional. Inteligência Artificial. Processamento de
Linguagem Natural. Implicação Textual. Tarefa de Reconhecimento de Implicação Textual.
Língua Portuguesa.
|
7 |
Um modelo híbrido para o WSD em biomedicinaGoulart, Rodrigo Rafael Vilarreal January 2013 (has links)
Made available in DSpace on 2013-08-07T18:43:20Z (GMT). No. of bitstreams: 1
000448850-Texto+Completo-0.pdf: 2763654 bytes, checksum: 430bc12ce50b74821fe6a8aa37994260 (MD5)
Previous issue date: 2013 / This work studies Word Sense Disambiguation (WSD) in the Biomedicine domain for English language, using external knowledge sources. Among the existing proposals for the selection of a sense for an ambiguous word, there is the graph-based approach. This approach uses a metric in the evaluation of graphs containing candidates to the correct sense for the ambiguous word. In this research, a set of metrics is analyzed individually, and, based on this evaluation, we propose a hybrid model for the selection of the metrics in order to determine the most adequate metric to be employed. The model makes use of a set of features and heuristics that determine a semi-supervised solution for WSD. The results obtained with experiments show an improvement in performance and reveal new perspectives of research. The proposed model raises the hit rate to 68,48%, increasing significantly in 3,52% the rate reported in literature. / Este trabalho estuda o Word Sense Disambiguation no domínio da Biomedicina, para a língua inglesa, com uso de fontes externas de conhecimento. Dentre as propostas existentes para a seleção de um sentido para uma palavra ambígua, está a abordagem baseadas em grafos. Essa abordagem emprega uma métrica na avaliação de grafos que contêm candidatos ao sentido correto da palavra ambígua. Nesta pesquisa um conjunto de métricas é analisado individualmente e, com base nas avaliações, propõe-se um modelo híbrido de seleção de métricas com o objetivo de determinar a métrica mais adequada a ser empregada. O modelo faz uso de um conjunto de features e heurísticas que determinam uma solução semi-supervisionada para o WSD. Os resultados obtidos com experimentos apontam melhoria na performance e revelam novas perspectivas de pesquisa. O modelo proposto eleva a taxa de acerto a 68,48%, aumentando significativamente em 3,52% a taxa reportada na literatura.
|
8 |
Descrição de Formalização de Verbos de Ação-Processo para Elaboração de ParserRODRIGUES, C. A. S. 07 March 2009 (has links)
Made available in DSpace on 2016-08-29T15:08:39Z (GMT). No. of bitstreams: 1
tese_3447_Dissertação Carlos Rodrigues.pdf: 5099942 bytes, checksum: b851f71871ce262bfad43557c2685b8a (MD5)
Previous issue date: 2009-03-07 / Chafe (1970) elaborou um programa de pesquisa que deu origem a seis subcategorias semânticas para a classificação dos verbos, entre elas os verbos de ação-processo. No entanto, a literatura que versa sobre o assunto fornece um referencial teórico-metodológico bastante conciso, tanto com relação às propriedades semânticas da subcategoria em questão, quanto com relação a suas propriedades sintáticas. Com o intuito de ampliar a quantidade de informações sintático-semânticas sobre os verbos de ação-processo, pautou-se a presente pesquisa num programa de pesquisa que visa à identificação das valências verbais, proposto por Borba (1996) e Welker (2005). Assim sendo, foram investigados quatro tipos de valência verbal: a lógica (Tesnière, 1959; Helbig e Schenkel, 1975); a sintática (Borba, 1996; Ignácio, 2001); a semântica e a sintático-semântica (Fillmore, 1968; Travaglia, 1985; Dik, 1989; Dowty, 1989). Ao final dessa etapa de investigação lingüística, foi possível confirmar a heterogeneidade da subcategoria dos verbos de ação-processo, que puderam ser divididos em nove subgrupos. Além disso, pôde-se explicitar tanto as estruturas argumentais pertencentes aos subgrupos, quanto os elementos que representam os actantes que compõem tais configurações sintáticas. Ao final, o conhecimento lingüístico obtido nesta pesquisa possibilitou a construção de três recursos lingüísticos que fornecem base para a construção de recursos computacionais para processamento de linguagem natural: (i) uma tábua de léxico-gramática, contendo as propriedades morfossintático-semânticas dos verbos e de seus actantes; (ii) uma base de dados lexicais, com as propriedades morfossintático-semânticas dos verbos analisados; e (ii) as estruturas argumentais identificadas em cada subgrupo.
|
9 |
descrição de Expressões Fixas do Português Brasileiro para o Processamento Automático de Linguagem NaturalSANTOS, V. C. 31 March 2011 (has links)
Made available in DSpace on 2016-08-29T15:08:48Z (GMT). No. of bitstreams: 1
tese_4945_DISSERTACAO - Vangevaldo Santos.pdf: 1442046 bytes, checksum: 37b860e3d0dd518deaf26cd46e623a3e (MD5)
Previous issue date: 2011-03-31 / Esta pesquisa propõe um estudo das expressões fixas do português do Brasil, em especial, aquelas com nomes de partes do corpo, identificadas em dicionários e textos jornalísticos. A descrição e a formalização dessas expressões fixas são de suma importância para o Processamento Automático de Linguagem Natural. Seleciou-se um corpus com 558 expressões fixas, 351 são de estruturas argumentais verbais e 207 de estruturas argumentais substantivais. Essas expressões são analisadas a partir de critérios linguísticos formais, para se identificar o comportamento morfossintático-semântico de cada uma delas e, a partir dessas propriedades estruturais, observadas em contexto de uso, propõe-se uma codificação para formalizá-las, com intuito de serem inseridas em um ambiente computacional, ampliando os estudos descritivos sobre o léxico do português e corrigindo falhas que possam prejudicar a qualidade de um texto processado automaticamente. A representação formal dessas expressões fixas é essencial para que se possa incluí-las em um dicionário eletrônico e, assim, utilizá-las pelo software Unitex ou por qualquer outro analisador morfossintático.
Palavras-chave: Expressões fixas; Linguística computacional; Léxico-gramática.
|
10 |
Feature-level sentiment analysis applied to brazilian portuguese reviewsFreitas, Larissa Astrogildo de January 2015 (has links)
Made available in DSpace on 2015-05-22T12:36:36Z (GMT). No. of bitstreams: 1
000468945-Texto+Completo-0.pdf: 990591 bytes, checksum: 7d04b4b3b2f91050851802c6d65349f1 (MD5)
Previous issue date: 2015 / Sentiment Analysis is the field of study that analyzes people’s opinions in texts. In the last decade, humans have come to share their opinions in social media on the Web (e.g., forum discussions and posts in social network sites). Opinions are important because whenever we need to take a decision, we want to know others’ points of view. The interest of industry and academia in this field of study is partly due to its potential applications, such as: marketing, public relations and political campaign. Research in this field often considers English data, while data from other languages are less explored. It is possible realize data analysis in different levels, in this work we choose a finer-grain analysis, at aspect-level. Ontologies can represent aspects, that are “part-of” an object or property of “part-of” an object, we proposed a method for feature-level sentiment analysis using ontologies applied to Brazilian Portuguese reviews. In order to obtain a complete analysis, we recognized features explicit and implicit using ontologies. Relatively less work has been done about implicit feature identification. Finally, determine whether the sentiment in relation to the aspects is positive or negative using sentiment lexicons and linguistic rules. Our method is comprised of four steps: preprocessing, feature identification, polarity identification and summarizing. For evaluate this work, we apply our proposal method to a dataset of accommodation sector. According to our experiments, in general the best results were obtained when using TreeTagger, synsets with polarities from Onto. PT and linguistic rule (adjective position) for negative polarity identification and (baseline) for positive polarity identificatio / Análise de sentimento é o campo de estudo que analisa a opinião de pessoas em textos. Na última década, humanos têm compartilhado suas opiniões em mídias sociais na Web (por exemplo, fóruns de discussão e posts em sites de redes sociais). Opiniões são importantes porque sempre que necessitamos tomar uma decisão, queremos saber o ponto de vista de outras pessoas. O interesse da indústria e da academia neste campo de estudo se deve a aplicações potenciais, tais como: compra/venda, relações públicas e campanhas políticas. Pesquisas neste campo muitas vezes consideram dados em inglês, enquanto dados em outros idiomas são pouco explorados. É possível realizar a análise dos dados em diferentes níveis, neste trabalho optamos pela análise no nível de aspecto, na qual a granularidade é mais fina. Como ontologias podem ser utilizadas para representar aspectos, que são “parte-de” um objeto ou propriedade de “parte-de” um objeto, propomos um método para análise de sentimento aplicado a comentários em português brasileiro, sob o nível de aspecto usando ontologias. A fim de obter uma análise completa, reconhecemos aspectos explícitos e implícitos usando ontologias. Relativamente poucos trabalhos têm sido feitos sobre identificação de aspectos implícitos. Finalmente determinamos se o sentimento em relação aos aspectos é positivo ou negativo usando léxicos de sentimento e regras linguísticas. Nosso método é composto de quatro etapas: pré-processamento, identificação de aspecto, identificação de polaridade e sumarização. Para avaliar este trabalho, aplicamos o método proposto nos comentários do setor hoteleiro. De acordo com nosso experimento, o melhor resultado obtido foi quando utilizamos o TreeTagger, o synset com polaridade do Onto. PT e a regra linguística (posição do adjetivo) na identificação da polaridade negativa e (baseline) na identificação da polaridade positiva
|
Page generated in 0.142 seconds