1 |
Indexação automática de acórdãos por meio de processamento de linguagem naturalCâmara Júnior, Auto Tavares da 11 June 2007 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Economia, Administração, Contabilidade e Ciência da Informação e Documentação, Departamento de Ciência da Informação e Documentação, 2007. / Submitted by Kathryn Cardim Araujo (kathryn.cardim@gmail.com) on 2009-11-27T16:52:36Z
No. of bitstreams: 1
2007_AutoTavaresdaCamaraJunior.PDF: 932269 bytes, checksum: b454ad4e3f15f3bf1695b52952f3e4bf (MD5) / Approved for entry into archive by Daniel Ribeiro(daniel@bce.unb.br) on 2009-12-03T22:39:10Z (GMT) No. of bitstreams: 1
2007_AutoTavaresdaCamaraJunior.PDF: 932269 bytes, checksum: b454ad4e3f15f3bf1695b52952f3e4bf (MD5) / Made available in DSpace on 2009-12-03T22:39:10Z (GMT). No. of bitstreams: 1
2007_AutoTavaresdaCamaraJunior.PDF: 932269 bytes, checksum: b454ad4e3f15f3bf1695b52952f3e4bf (MD5)
Previous issue date: 2007-06-11 / A indexação é uma área pesquisada há muito tempo, ferramenta fundamental para a qualidade da recuperação da informação. Indexação automática é uma área mais recente cujos resultados melhoram com a evolução de técnicas de inteligência artificial. Com o recorrente crescimento de demanda judicial, os tribunais do País, em particular o Tribunal de Justiça do Distrito Federal e dos Territórios, têm de buscar mecanismos, em sua maioria apoiados em tecnologia da informação, para acelerar seus trâmites. A indexação automática oferece ganhos estratégicos aos tribunais, diminuindo seu custo com pessoal, melhorando a qualidade das pesquisas e acelerando seus processos organizacionais. Esta pesquisa insere-se nesta área e propõe um modelo de indexação automática de acórdãos que atenda a essas necessidades. A utilização de PLN sobrepõe-se aos métodos estritamente estatísticos com o objetivo de alcançar melhores resultados. Para isso, foram desenvolvidas ferramentas que constroem um corpus de língua portuguesa com jargão jurídico e indexam automaticamente uma base de jurisprudência de direito penal do TJDFT. Os resultados demonstram que a indexação automática utilizando PLN atinge níveis de revocação e precisão equivalentes à base indexada manualmente. Entre as contribuições dessa pesquisa encontram-se as ferramentas desenvolvidas, a metodologia de indexação automática proposta e o estudo sobre uma área muito pouco pesquisada em língua portuguesa. _______________________________________________________________________________ ABSTRACT / Indexing is an area that has been researched for a long time, crucial tool to information retrieval quality. Automatic indexing is a more recent area, in which results are improved with the evolution of artificial intelligence techniques. As judicial claims increase repeatedly, Country’s courthouses, Tribunal de Justiça do Distrito Federal e dos Territórios in particular, have to search for mechanisms, in their majority based on information technology, to speed up their workflows. Automatic indexing offers strategic gains to courthouses, diminishing their personnel costs, improving research quality and accelerating their organizational processes. This research inserts itself in this area and proposes a sentence automatic indexing model which fulfills these needs. NLP utilization is chosen instead of strictly statistic methods with the purpose of achieving better results. In order to do so, tools have been developed which build a corpus of portuguese language containing common juridical vocabulary and automatically index a criminal law jurisprudence base from TJDFT. Results demonstrate that automatic indexing using NLP obtains equivalent revocation and precision levels than manual indexing. Between this research contributions are mentioned the developed tools, the automatic indexing methodology proposed and the study of a very little researched area in portuguese language.
|
2 |
Indexação automática por atribuição de artigos científicos da área de ciência da informaçãoBANDIM, Marcio Aercio Silva 20 February 2017 (has links)
Submitted by Fernanda Rodrigues de Lima (fernanda.rlima@ufpe.br) on 2018-07-25T20:45:05Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Marcio Aercio Silva Bandim.pdf: 2955859 bytes, checksum: f785e2c570d629491a68df048840c67b (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-07-30T18:30:33Z (GMT) No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Marcio Aercio Silva Bandim.pdf: 2955859 bytes, checksum: f785e2c570d629491a68df048840c67b (MD5) / Made available in DSpace on 2018-07-30T18:30:33Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Marcio Aercio Silva Bandim.pdf: 2955859 bytes, checksum: f785e2c570d629491a68df048840c67b (MD5)
Previous issue date: 2017-02-20 / Investiga o processo de indexação automática por atribuiçãona representaçãode documentos no contexto da construção de base de dados científicana área de Ciência da Informação, visando a associação entre palavras-chaves e o conhecimento registrado em artigos científicos. O problema de pesquisa deste trabalho está configurado na análise do processo e da qualidade resultante na representação do assunto mediante a indexação automática por atribuição de artigos científicos na área da Ciência da Informação. Realiza levantamento das linguagens documentárias e tipo de indexação automática utilizadas em bases de dados científicas. Investiga o uso do Tesauro Brasileiro em Ciência da Informação (TBCI) conjuntamente com o Sistema de Indexação Semi-Automática (SISA), na indexação automática por atribuição de publicações científicas da área de Ciência da Informação.Utiliza como metodologia a pesquisa exploratória, com base em revisão da literatura brasileira em Ciência da Informação sobre indexação automática por atribuição e em estudo de caso via experimento. Utiliza o corpus composto por 60 artigos científicos referenciados na tese de doutorado de Souza (2005) para comparar as palavras-chave destes artigos com os termos atribuídos pelo sistema SISA usando o vocabulário controlado Tesauro TBCI.Na etapa pragmática desta pesquisafoi realizada a indexação automática por atribuição do corpus formado por estes 60 artigos científicos, bem como, análise e avaliação intrínseca qualitativa, via índices de consistência e, avaliação extrínseca quantitativa, via índices de precisão, revocação e medida F, dos termos propostos para indexação.Ao se avaliar os índices de consistência, adotando-se o critério de consistência relaxada, foi constatada uma média de 15 % nos índices de consistência, com uma variação de um mínimo de 0% a um máximo de 42 %.Quanto aos índices de revocação, precisão e medida F analisados neste experimento foram obtidos os seguintes resultados: Precisão média de 20 %; Revocação média de 42 % e Medida F média de 25 %. Os resultados da pesquisa permitem concluirsobre a importância do emprego do vocabulário controlado em um sistema indexação automática por atribuição uma vez que o Tesauro tem forte influência nos resultados da indexação automática. Também é possível afirmar que neste tipo de indexação feita pelo sistema SISA a habilitação do arquivo de termos gerais TCITG tem forte influência nos índices de qualidade os quais foram analisados pelos valores médios obtidos pelos indicadores de qualidade ou índices de consistência. Foi constatado ainda, que o uso de palavras-chave como termos de indexação precisa ser melhor estudado e pesquisado no sentido de se criar instrumentos que propiciem aos autores dos artigos científicos melhor definição conceitual destes termos e maior controle terminológico. / This work investigates the process of automatic indexing by attribution in the representation of documents within the context of scientific database construction in the area of Information Science, aiming to associate keywords to the knowledge recorded in scientific papers. This work‟s research problem is the analysis of the process and the resulting quality in the representation of the subject through automatic indexing by attribution of scientific papers in the area of Information Science. It appraises documentary language and type of automatic indexing used in scientific databases. Investigates the use of the Brazilian Thesaurus of Information Science (TBCI) along with the Semi-Automatic Indexing System (SISA) in automatic indexing by attribution of scientific publications in the area of Information Science. Its methodology is exploratory research, based on the revision of Brazilian Information Science literature on automatic indexing by attribution and a case study through an experiment. Utilizes the corpus made up of 60 scientific papers referenced in Souza‟s doctorate thesis to compare the keywords used in those papers with the terms attributed by SISA using the TBCI controlled vocabulary. In the pragmatic stage of this research, automatic indexing by attribution of the 60-paper corpus was used, as well as intrinsic qualitative analysis and evaluation, through consistency indices, and extrinsic quantitative evaluation, through precision, recall and F-measure indices of the terms proposed for indexing. Evaluation of the consistency indices, adopting the relaxed consistency criteria, showed an average of 15% in the consistency indices, with a variation going from a minimum of 0% to a maximum of 42%. As to recall, precision and F-measure indices analyzed in this experiment, the following results were obtained: average precision of 20%; average recall of 42%; and average F-measure of 25%. The research results allow us to conclude the importance of the use of controlled vocabulary in an automatic indexing by attribution system since the thesaurus has a strong influence in the results of automatic indexing. It is also possible to assert that in this type of indexing by the SISA system, the habilitation of the general terms archive has a strong influence in the quality indices, which were analyzed through the average values obtained by quality indicators as consistency indices. It was also evidenced that the use of keywords as indexing terms needs to be further studied and researched in order to create tools that provide the authors of scientific papers with a better conceptual definition of these terms and better terminology control.
|
3 |
Anotação ad-hoc de conteúdos audiovisuais : reutilização de descritores de baixo e alto nível para extracção de conhecimentoCordeiro, Mário Miguel Fernandes January 2008 (has links)
Tese de mestrado. Engenharia Informática. Faculdade de Engenharia. Universidade do Porto. 2008
|
4 |
Processamento de linguagem natural para indexação automática semântico-ontológicaCâmara Júnior, Auto Tavares da 11 April 2013 (has links)
Tese (doutorado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2013. / Submitted by Elna Araújo (elna@bce.unb.br) on 2013-07-29T21:19:34Z
No. of bitstreams: 1
2013_AutoTavaresDaCamaraJunior.pdf: 1417675 bytes, checksum: 57e0a94a4470cf0e11089ed79a440dfc (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2013-07-30T15:57:34Z (GMT) No. of bitstreams: 1
2013_AutoTavaresDaCamaraJunior.pdf: 1417675 bytes, checksum: 57e0a94a4470cf0e11089ed79a440dfc (MD5) / Made available in DSpace on 2013-07-30T15:57:34Z (GMT). No. of bitstreams: 1
2013_AutoTavaresDaCamaraJunior.pdf: 1417675 bytes, checksum: 57e0a94a4470cf0e11089ed79a440dfc (MD5) / A pesquisa propõe uma arquitetura de indexação automática de documentos utilizando mecanismos de processamento de linguagem natural em nível semântico. Por meio do arranjo de ferramentas e recursos existentes, agregado ao desenvolvimento de software para integração, é construído um sistema de indexação automática que utiliza conhecimento modelado em uma ontologia para análise semântica. A aplicação da arquitetura é exemplificada e posta à prova em um conjunto de laudos periciais de crimes cibernéticos produzidos pela Perícia Criminal da Polícia Federal. Os resultados de pesquisa apontam para a melhoria que o aprofundamento à análise semântica do processamento de linguagem natural oferece para a seleção automática de descritores e, por extensão, para a recuperação da informação. Dentre as contribuições inéditas desta tese incluem-se a arquitetura de sistema de informação para indexação automática proposta, a ontologia construída para a análise semântica e as implementações em linguagem de programação Python. Por fim, o trabalho insere-se em uma área de pesquisa que tem sido cada vez mais investigada, no entanto ainda carece de resultados amadurecidos, qual seja o processamento de linguagem natural em língua portuguesa. __________________________________________________________________________ ABSTRACT / The research proposes an automatic indexing architecture of documents using natural language processing mechanisms on semantic level. By organizing existing tools and resources, added to software development for integration, an automatic indexing system which uses knowledge modeled by ontology to semantic analysis is built. The applicability of the architecture is exemplified and put into proof on forensics reports of cybercrimes produced by Federal Police Forensics Experts. The research results point to the benefits that semantic analysis on natural language processing offers to automatic descriptor selection and information retrieval. As contributions of this thesis there are the proposed automatic indexing information system architecture, the ontology built to semantic analysis and the implementations on Python programming language. Concluding, the work inserts itself in a research area that has been increasingly more investigated, however still demanding mature results, which is natural language processing on portuguese language.
|
5 |
Política de indexação automática para documentação digital do Acordo de Basileia II : o caso do Banco do Brasil / Automatic indexing policy for digital documentation of Basel II : case of Banco do BrasilAllievi, Georgea 18 June 2013 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2013. / Submitted by Alaíde Gonçalves dos Santos (alaide@unb.br) on 2014-02-19T15:10:01Z
No. of bitstreams: 1
2013_GeorgeaAllieviFrizon.pdf: 2342321 bytes, checksum: 05488cb3df65ff4535e7af17b6e0a145 (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2014-02-19T15:31:53Z (GMT) No. of bitstreams: 1
2013_GeorgeaAllieviFrizon.pdf: 2342321 bytes, checksum: 05488cb3df65ff4535e7af17b6e0a145 (MD5) / Made available in DSpace on 2014-02-19T15:31:53Z (GMT). No. of bitstreams: 1
2013_GeorgeaAllieviFrizon.pdf: 2342321 bytes, checksum: 05488cb3df65ff4535e7af17b6e0a145 (MD5) / A pesquisa é um estudo, no âmbito da Ciência da Informação, sobre a representação da informação bancária. O objetivo é identificar os aspectos relacionados com a indexação de documentos digitais de conteúdo textual, que devem ser considerados na elaboração de uma política de indexação. A metodologia utilizada foi baseada em estudo de caso. Foi proposta uma política de indexação voltada à representação de documentos digitais produzidos na instituição financeira Banco do Brasil e relacionados ao Acordo de Basiléia II. _________________________________________________________________________________ ABSTRACT / Presents research a study, in scope of Information Science, about representation of bank information. The goal is to identify issues related to the indexing digital document unstructured textual content, which should be considered in developing a policy of indexing. The methodology was based on case study. Proposed an indexing policy focused on representation of digital documents produced in the financial institution Banco do Brasil and related to Basel II.
|
6 |
Proposition d'un Systeme de Recherche d'Information Assistee par Ordinateur: avec application a la langue portugaiseKuramoto, Hélio January 1999 (has links)
Submitted by Sonia Burnier (sdesouza@ibict.br) on 2012-07-16T18:08:53Z
No. of bitstreams: 2
Kuramoto_Annexes1999.pdf: 663725 bytes, checksum: 78993a62f1fac81212a4135937bcc950 (MD5)
Kuramoto_phd.pdf: 1068072 bytes, checksum: 5db7ba292c8250e6a7c9b39740be3026 (MD5) / Made available in DSpace on 2012-07-16T18:08:53Z (GMT). No. of bitstreams: 2
Kuramoto_Annexes1999.pdf: 663725 bytes, checksum: 78993a62f1fac81212a4135937bcc950 (MD5)
Kuramoto_phd.pdf: 1068072 bytes, checksum: 5db7ba292c8250e6a7c9b39740be3026 (MD5)
Previous issue date: 1999
|
7 |
Recuperação de informação baseada em ontologia : uma proposta utilizando o modelo vetorial /Janaite Neto, Jorge. January 2018 (has links)
Orientador: Edberto Ferneda / Banca: Rachel Cristina Vesu Alves / Banca: Rogério Aparecido Sá Ramalho / Resumo: A recuperação de informação ocorre por meio da comparação entre as representações dos documentos de um acervo e a representação da necessidade de informação do usuário. Um documento é recuperado quando sua representação coincidir total ou parcialmente com a representação da necessidade de informação do usuário. O processo de recuperação de informação pode ser visto como um problema linguístico no qual o conteúdo informacional dos documentos e a necessidade de informação do usuário são representados por um conjunto de termos. A eficiência do processo de recuperação de informação depende da qualidade das representações dos documentos e dos termos empregados pelo usuário para representar sua necessidade de informação. Quanto mais compatíveis forem essas representações maior será a eficiência do processo de recuperação. A partir de uma pesquisa exploratória e descritiva fundamentada em bibliografia específica, este trabalho propõe a utilização de ontologias computacionais em sistemas de recuperação de informação baseados no Modelo Espaço Vetorial. As ontologias são empregadas como estrutura terminológica externa utilizadas tanto na expansão dos termos de indexação quanto na expansão dos termos que compõe a expressão de busca. A expansão dos termos de indexação é feita logo após a extração dos termos mais representativos do documento em análise durante o processo de indexação, consistindo na adição de novos termos conceitualmente relacionados a fim de enriquecer a representação do... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: The information retrieval occurs by means of match between the representations of documents from a collection and the representation of user information's needs. A document is retrieved when its representation matches totally or partially to the user information's needs. The process of information retrieval can be seen as a linguistic issue in which the document information content and the user information need are represented by a set of terms. Its efficiency depends on the quality of the representations of the documents and the terms used to represent the user's information need. The more compatible these representations were, the more efficient the retrieval process. Based on an exploratory and descriptive research substantiated in a specific bibliography, this paper offers to use computational ontologies in information retrieval systems based on the Vector Space Model. The ontologies are applied as external terminological structures used in the indexing terms expansion as well as in the expansion of the terms which compound the query expression. The indexing terms expansion is made as soon as the extraction of the more representative terms of the document in analysis during the indexing process, consisting on the adding of new conceptually related terms in order to improve the document representation. Query expansion is obtained from adding new related terms to the existent ones in the query expression to better contextualize them. In this propose, only the terminological... (Complete abstract click electronic access below) / Mestre
|
8 |
Análise automática do sistema lingüístico português : o sistema linga e suas aplicaçõesScher, Nelmo Roque 06 1900 (has links)
Submitted by Guimaraes Jacqueline (jacqueline.guimaraes@bce.unb.br) on 2017-09-06T14:47:07Z
No. of bitstreams: 1
1985_NelmoRoqueScher.pdf: 62068510 bytes, checksum: a3e9dbd113ad798cdf84b81940e83d7d (MD5) / Approved for entry into archive by Guimaraes Jacqueline (jacqueline.guimaraes@bce.unb.br) on 2017-09-06T14:57:37Z (GMT) No. of bitstreams: 1
1985_NelmoRoqueScher.pdf: 62068510 bytes, checksum: a3e9dbd113ad798cdf84b81940e83d7d (MD5) / Made available in DSpace on 2017-09-06T14:57:37Z (GMT). No. of bitstreams: 1
1985_NelmoRoqueScher.pdf: 62068510 bytes, checksum: a3e9dbd113ad798cdf84b81940e83d7d (MD5) / A Lingüística Computacional tem tido influência considerável sobre o desenvolvimento da teoria lingüística nos últimos anos, pois induz os lingüístas a definirem com a maior precisão possível as regras e as idiossincrasias de um sistema lingüístico para que o mesmo possa ser submetido à análise automática e, então, receber as mais diversas aplicações, como, por exemplo, a indexação automática, a tradução automática, a criação automática de um tesauro de uma ciência, aplicações na Informática, nos meios modernos de comunicação, no ensino de línguas estrangeiras, etc. Nesta dissertação, objetivou-se apresentar o desenvolvimento de um sistema de análise automática da língua portuguesa, denominado LINGA ("Linguistic Analysis"). Esse sistema está organizado em tabelas, dicionários, rotinas e algoritmos obedecendo à distinção entre as categorias lexicais e não-lexicais. Os passos da análise linguística operados pela LINGA são: segmentação de um texto em frases e das frases em palavras: busca nos dicionários desenvolvidos no sistema, análise morfológica, sintática e das homografias. A partir das definições das categorias lexicais e não-lexicais, o sistema LINGA define a posição sintática das palavras por meio de uma sofisticada rotina estruturada a partir dos traços configuracionais dos itens lexicais. Assim, toda a estrutura gramatical nos níveis morfológicos e sintáticos é abrangida por procedimentos pré-estabelecidos. Com o desenvolvimento de procedimentos que analisam a estrutura morfossintática da língua portuguesa, o sistema LINGA está apto a diversas aplicações. Como objetivo prático desta dissertação oferecemos contribuições da análise lingüística para a área da Teoria da Informação. Especificamente tratamos da análise do sintagma nominal (SN) e de suas implicações na indexação automática. / Computacional linguistics has had a large influence in the development of the linguistic theory in the last years because it contributes to the accuracy in the definition of the linguistic rules. Its main applications have been in indexing systems, automatic translation, development of scientific thesauri, modern system of mass midia, language teaching, retrieval of information, etc. The purpose of the present dissertation is to describe in detail the system of automatica analysis of the Portuguese language - LINGA. This system comprises tables, dictionaires, routines and algorithms wich are organized according distinction between lexical and non-lexical categories. The procedures of linguistic analysis performed by LINGA are: text segmentation into sentences and sentence segmentation into words; research in the dictionary and morphological analysis; syntactic analysis and analysis of homographies. After the definition of the lexical and non-lexical categories, the LINGA system defines the syntactic position of the words through a sophisticated structured routine wich takes into account the configurational features of the lexical items. It covers therefore all the morphological and syntactic structure of the grammar. With the development of procedures to analyse the morpho-syntactic structure of the Portuguese language, the LINGA system can have several applications. The practical purposeof this dissertation was to offer contributions of linguistic analysis to the theory of infomration. We deal in particular with the noun phrase analysis and offer a discussion of its implication to indexing systems.
|
9 |
B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionáriaAfonso, Alexandre Ribeiro 11 November 2013 (has links)
Tese (doutorado)—Universidade de Brasília,
Faculdade de Ciência da Informação,
Programa de Pós-Graduação em Ciência da Informação, 2013. / Submitted by Alaíde Gonçalves dos Santos (alaide@unb.br) on 2014-04-08T12:57:37Z
No. of bitstreams: 1
2013_AlexandreRibeiroAfonso.pdf: 2162448 bytes, checksum: 65e0879f67cfb9f2deb91c9642e5d9ac (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2014-04-23T13:20:38Z (GMT) No. of bitstreams: 1
2013_AlexandreRibeiroAfonso.pdf: 2162448 bytes, checksum: 65e0879f67cfb9f2deb91c9642e5d9ac (MD5) / Made available in DSpace on 2014-04-23T13:20:38Z (GMT). No. of bitstreams: 1
2013_AlexandreRibeiroAfonso.pdf: 2162448 bytes, checksum: 65e0879f67cfb9f2deb91c9642e5d9ac (MD5) / Nesta tese é apresentado um estudo estatístico sobre o agrupamento automático de artigos científicos escritos em português do Brasil, são propostos novos métodos de indexação e agrupamento de textos com o objetivo futuro de desenvolver um software para indexar e agrupar textos por área de conhecimento. Foram testadas três classes conhecidas de termos simples para representar (indexar) os textos de entrada a agrupar: (substantivos), (substantivos e adjetivos), (substantivos, adjetivos e verbos) e também foram desenvolvidas três novas classes de termos compostos para representação (indexação) dos textos: classes de termos mais complexos, onde um termo pode ser composto pela junção de substantivos, adjetivos e preposições. Durante a fase de agrupamento textual dos experimentos foram testados os algoritmos de agrupamento: Expectation-Maximization (EM), X-Means, um Algoritmo Evolucionário de Agrupamento Convencional e, ainda, um novo Algoritmo Evolucionário de Agrupamento Proposto cujo diferencial é trabalhar em duas etapas de processamento: uma etapa para localização do agrupamento subótimo genérico e outra etapa para melhorar tal solução. Adicionalmente, o novo algoritmo permite ao usuário definir a formação de mais grupos ou menos grupos no resultado de agrupamento. Os algoritmos de indexação e agrupamento propostos foram codificados e implementados em um protótipo denominado B2, no entanto, para testar os algoritmos de agrupamento EM e X-Means foi utilizado o pacote de mineração de dados WEKA. Quatro corpora de artigos científicos, diferentes entre si por guardarem artigos de áreas científicas distintas, foram reunidos para testar as combinações de indexação e algoritmo de agrupamento propostas. Melhores resultados de agrupamento (por área de conhecimento dos artigos) foram obtidos utilizando termos compostos na indexação, ao invés do uso de termos simples, quando combinados com o uso do novo Algoritmo Evolucionário de Agrupamento Proposto, porém, para obter grupos bem formados, um número excessivo de grupos é gerado pelo protótipo, consumindo alto tempo de computação para executar tais novos métodos, em um computador pessoal convencional do ano de 2012. Pode-se concluir que o problema de agrupar automaticamente artigos científicos em suas áreas originais é uma tarefa complexa. Logo, acredita-se que os métodos de indexação e agrupamento desenvolvidos possam ser aprimorados para utilização futura em situações específicas, onde a fragmentação e geração adicional de grupos além do esperado não seja um problema maior. ______________________________________________________________________________________ ABSTRACT / This thesis presents an empirical study about automated text clustering for scientific articles written in Brazilian Portuguese. We tested three already known classes of simple terms for representing (or indexing) the input texts: (nouns), (nouns and adjectives) and (nouns, adjectives and verbs); we also developed three new classes of composed terms for text representation (or indexing): the new classes consist of more complex terms, where a complex term could be composed by the joint of nouns, adjectives and prepositions. Our final goal is to develop new software for text indexing and clustering. During the clustering stage of the experiments we tested the Expectation-Maximization (EM) Clustering Algorithm, the X-Means Clustering Algorithm, the Conventional Clustering Evolutionary Algorithm and, finally, we also proposed a new Two Phase Clustering Evolutionary Algorithm which works in two phases, the first phase finds the sub-optimal text clustering and the second one improves the result found by the first phase. The Two Phase Clustering Evolutionary Algorithm also permits the user to define whether the system should create a high number or a low number of clusters. The new indexing and clustering algorithmic strategies presented were implemented in a prototype named B2, but for testing the EM and X-Means algorithms we used the known WEKA data mining package. Four different scientific corpora having different sets of scientific topics were assembled and applied for testing the combinations of indexing and clustering methods. Although considerable better results were achieved when indexing with the classes of composed terms combined with the new Two Phase Clustering Evolutionary Algorithm, a considerable higher number of clusters was generated and a considerable additional time was consumed when running the new system over a 2012 conventional personal computer. We conclude that the problem of clustering scientific articles in their original topics is a complex task. Good results of clustering correctness were achieved by the new methods but producing many fragmented additional clusters as output, so, in the future, the methods can be improved and applied in specific situations where the fragmentation and additional production of clusters are not a major problem.
|
10 |
Indexação automática e visualização de informações: um estudo baseado em lógica paraconsistente / Automatic indexing and information visualization: a research based on Paraconsistent logicCorrêa, Carlos Alberto 17 May 2011 (has links)
Pode-se afirmar que os processos de organização, recuperação e visualização de informações estão interligados por pelo menos um ponto em comum: a indexação de textos ou documentos. A indexação, um componente essencial do tratamento e organização de informações, é também importante tanto para a recuperação quanto para a visualização de informações. Nesse contexto, destacam-se as soluções que objetivam automatizar a indexação. As pesquisas que propõe soluções de indexação automática são desenvolvidas com base em diferentes pressupostos teóricos, entre os quais podem ser destacados: a Estatística, a Lingüística e o Controle de Vocabulários (Leiva, 1999). A grande maioria dessas soluções utiliza modelos híbridos que combinam dois ou três desses pressupostos. Outras abordagens para o problema da indexação automática utilizam, além dos pressupostos anteriormente citados, teorias que permitem o tratamento da incerteza, da imprecisão e da vagueza, tais como a teoria de Dempster-Shafer e a lógica difusa. O objetivo desta pesquisa é avaliar o potencial de utilização da lógica paraconsistente, uma lógica não clássica, com capacidade para tratar situações que envolvem incerteza, imprecisão e vagueza nos procedimentos de indexação automática. A hipótese de trabalho sustentada nesta pesquisa apóia-se teoricamente nos princípios da Lógica Paraconsistente. A utilização dessa lógica e de métodos derivados da mesma, por ser flexível e comportar estados lógicos que vão além das dicotomias sim e não, permite adiantar a hipótese de que os resultados da indexação poderão ser melhores do que os obtidos por métodos tradicionais. Do ponto de vista metodológico, optou-se pela utilização de um algoritmo para tratamento de incerteza e imprecisão, desenvolvido no âmbito da lógica paraconsistente, para modificar os valores dos pesos atribuídos aos termos de indexação. Os testes foram realizados em um sistema de visualização de informações, com código fonte disponível. As coleções utilizadas são disponibilizadas com o sistema. Os resultados obtidos foram avaliados por meio de critérios e índices embutidos no próprio sistema de visualização, e demonstram ganhos mensuráveis de qualidade na construção das visualizações, confirmando, assim a hipótese de pesquisa elencada. / It can be argued that the processes of organization, retrieval and visualization of information are conected, presenting one point in common: the indexing of texts or documents. Indexing, an essential component of text analysis, is important to information retrieval and visualization. In this context, we highlight solutions to automate indexing. Researchs that propose solutions for automatic indexing are developed based on different theoretical assumptions as, for example: Statistics, Linguistics and Controlled vocabularies (Leiva, 1999). Most of these solutions uses hybrid models combining two or three of these theoretical assumptions. Other approaches to the problem of automatic indexing uses, besides the aforementioned assumptions, theories that allow the treatment of uncertainty, imprecision and vagueness, as the Dempster-Shafer theory and the fuzzy logic. The aim of this research is to evaluate the use of paraconsistent logic, a nonclassical logic, capable of dealing with situations involving uncertainty, imprecision and vagueness, in the procedures of automatic indexing. The working hypothesis supported in this research is based theoretically on the principles of Paraconsistent Logic. The utilization of this logic, being flexible and containing logical states that go beyond the dichotomies yes and no, permit to advance the hypothesis that the results of indexing could be better than those obtained by traditional methods. From the methodological point of view, we chose to use an algorithm for treatment of uncertainty and imprecision, developed under the paraconsistent logic, to modify the values of the weights assigned to index terms. The tests were performed on a information visualization system, with source code available. The collections used are available with the system. The results were evaluated by criteria and indices built into the information visualization system itself, and demonstrate measurable gains in the construction quality of the displays, thus confirming the hypothesis listed.
|
Page generated in 0.0912 seconds