Global ETD Search

1	Emprego de técnicas de pré-processamento textual e algoritmos de comparação como suporte à correção de questões dissertativas: experimentos, análises e contribuições / Employing texts preprocessing techniques and string-matching algorithms to support correction of essay questions: experiments, analyzes and contributions Ávila, Ricardo Lima Feitosa de 23 August 2013 (has links) ÁVILA, R. L. F. Emprego de técnicas de pré-processamento textual e algoritmos de comparação como suporte à correção de questões dissertativas: experimentos, análises e contribuições. 2013. 150 f. Dissertação (Mestrado em Engenharia de Teleinformática) - Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2013. / Submitted by Marlene Sousa (mmarlene@ufc.br) on 2014-01-03T13:42:42Z No. of bitstreams: 1 2013_dis_rlfavila.pdf: 2826073 bytes, checksum: c58e537d75e1dffcbe4a0a4cd829ef97 (MD5) / Approved for entry into archive by Marlene Sousa(mmarlene@ufc.br) on 2014-01-09T16:42:46Z (GMT) No. of bitstreams: 1 2013_dis_rlfavila.pdf: 2826073 bytes, checksum: c58e537d75e1dffcbe4a0a4cd829ef97 (MD5) / Made available in DSpace on 2014-01-09T16:42:46Z (GMT). No. of bitstreams: 1 2013_dis_rlfavila.pdf: 2826073 bytes, checksum: c58e537d75e1dffcbe4a0a4cd829ef97 (MD5) Previous issue date: 2013-08-23 / This master thesis presents a study of techniques used as support for a correction of essay questions based in an adaptation of string-matching algorithms combined with text preprocessing techniques. The main challenge to design a tool like this is an ambiguity of natural language. To analyze a correction of subjective questions, tests were performed with these algorithms, and a tool have been developed for this purpose. Comparing student responses with response pattern of questions proposed in subjective tests, we analyzed the performance of individual algorithms and a set of pre-processing techniques that are found in the literature, in isolation and combined. Seeking to neutralize specific situations of false negative and false positive, some techniques have been proposed as auxiliary contribution of this work. After analyzing the experiments, the results of similarity index between responses indicate the use of the solution to support the correction of essay questions, and may also be applied in the detection of plagiarism and be integrated to a learning management system. / Esta dissertação apresenta um estudo de técnicas que podem ser empregadas como apoio para a correção de questões dissertativas com base na adaptação de algoritmos de comparação textual combinados a técnicas de pré-processamento de textos. O principal desafio na concepção de uma ferramenta para este tipo de aplicação é a ambiguidade da linguagem natural. Para analisar situações de correção de questões subjetivas, foram efetuados testes com esses algoritmos, tendo-se desenvolvido uma ferramenta para tal propósito. Confrontando respostas de alunos ao padrão de resposta de questões propostas em provas subjetivas, foram analisados o desempenho individual dos algoritmos e de um conjunto de técnicas de pré-processamento que são encontrados na literatura, de maneira isolada e combinada. Buscando contornar situações específicas de falso negativo e falso positivo, foram propostas algumas técnicas auxiliares como contribuição deste trabalho. Após a análise dos experimentos realizados, os resultados de índice de similaridade entre respostas indicam o uso da solução como suporte a correção de questões discursivas, podendo, ainda, ser aplicado na detecção de plágio e ser integrado a um ambiente virtual de ensino e aprendizagem. Teleinformática Processamento de textos (Computação)
2	Método fuzzy para a sumarização automática de texto com base em um modelo extrativo (FSumm) Goularte, Fábio Bif January 2015 (has links) Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2015. / Made available in DSpace on 2015-05-12T04:08:08Z (GMT). No. of bitstreams: 1 333183.pdf: 2374355 bytes, checksum: 5f9767cf299ef07fe986ed50487dfcd7 (MD5) Previous issue date: 2015 / A sumarização automática de texto procura condensar o conteúdo do documento, extraindo as informações mais relevantes. Esse processo normalmente é executado através de métodos computacionais que incorporam o método estatístico e o linguístico. O rápido desenvolvimento das tecnologias emergentes e a crescente quantidade de informação disponível inserem novos desafios para esta área de pesquisa. Um desses desafios está na identificação das sentenças mais informativas no momento da geração do sumário. Como a tarefa de sumarizar informações de texto traz consigo a incerteza inerente à linguagem natural, a lógica fuzzy pode ser aplicada nessa tarefa para contribuir nos resultados gerados. Portanto, esta dissertação propõe um método de sumarização automática de texto utilizando a lógica fuzzy para a classificação das sentenças. O método foi desenvolvido por meio da técnica de sumarização extrativa ao qual se associam tarefas de Recuperação de Informação (RI) e de Processamento de Linguagem Natural (PLN). Para a avaliação deste método, considerou-se um corpus de textos em língua portuguesa e uma ferramenta que automatiza o processo. A ferramenta de avaliação analisa a sobreposição das unidades textuais entre os sumários automáticos e o modelo humano, dadas pelas medidas de precisão, cobertura e medida-f. Foram realizados experimentos que demonstram a efetividade do método na classificação da informatividade das sentenças.<br> / Abstract : Automatic text summarization attempts to condense the document content, extracting the most relevant information. This process is usually performed by computational methods such as statistical and linguistic. The rapid development of emerging technologies and the increasing amount of information available insert new research challenges. One of these challenges is to identify the most informative sentences at the time of the summary generation. The textual information summarization task brings with it the uncertainty inherent in natural language where fuzzy logic can be applied and contribute to the results. Therefore, this dissertation proposes a method of automatic text summarization using fuzzy logic to the classification of sentences. The method was developed by extractive summarization techniques which are associated with information retrieval tasks (IR) and natural language processing (NLP). The evaluation method considers a corpus of Brazilian Portuguese news texts and a tool for evaluation of summaries. The assessment tool analyzes the text units overlaps between automatic summaries and human model producing measures (precision, recall, F-measure) that express the informativeness of the summaries. We also present experiments showing the effectiveness of our method in the informativeness sentences classification. Computação Processamento de textos (Computação) Lógica difusa
3	Combinação de classificadores na categorização de textos Linden, Gustavo Sandini January 2008 (has links) Made available in DSpace on 2013-08-07T18:42:16Z (GMT). No. of bitstreams: 1 000409150-Texto+Completo-0.pdf: 923910 bytes, checksum: 44e59b532fd1e8f249aeacfa7777f126 (MD5) Previous issue date: 2008 / This study presents and evaluates a proposal for Hierarchical Text Categorization combining k- Nearest Neighbors (k-NN) and Support VectorMachines (SVM) classifiers. The study was based on several experiments which made use of Folha-RIcol text collection in Portuguese language. The texts in this collection are hierarchically organized in categories. In the experiments, the performance of k-NN and SVM classifiers was analyzed, individually first, with a variant of hold-out evaluation methodology, and then combined. The proposed combination, referred to as k-NN+SVM, had its performance compared to the individual classifiers and also to the combination by vote. In synthesis, the k-NN+SVM combination did not present better performance to the alternative ones, however the study allowed to observe the classifiers’ behavior and its combined use, the identification of problems and possible solutions, as well as taking into consideration the document collection used. / Este trabalho apresenta e avalia uma proposta para Categorização Hierárquica de Textos com uso combinado dos classificadores k-Nearest Neighbors (k-NN) e Support Vector Machines (SVM). O estudo foi embasado numa série de experimentos os quais fizeram uso da coleção Folha-RIcol de textos em língua portuguesa, que se encontram hierarquicamente organizados em categorias. Nos experimentos realizados, os classificadores k-NN e SVM tiveram seu desempenho analisado, primeiro individualmente, com uma variante da metodologia de avaliação hold-out, e após, de modo combinado. A combinação proposta, denominada k-NN+SVM, teve seu desempenho comparado com aquele dos classificadores individuais e com o da combinação por voto. Em síntese, a combinação k-NN+SVM não apresentou desempenho superior às demais alternativas, todavia o estudo permitiu a observação do comportamento dos classificadores e seu uso combinado, a identificação de problemas e possíveis soluções, bem como algumas considerações sobre a coleção de documentos utilizada. INFORMÁTICA CATEGORIZAÇÃO (LINGUÍSTICA) LINGUÍSTICA COMPUTACIONAL PROCESSAMENTO DE TEXTOS (COMPUTAÇÃO) APRENDIZAGEM DE MÁQUINA
4	Agrupamento e categorização de documentos jurídicos Furquim, Luis Otávio de Colla January 2011 (has links) Made available in DSpace on 2013-08-07T18:43:19Z (GMT). No. of bitstreams: 1 000439389-Texto+Completo-0.pdf: 2902269 bytes, checksum: 8e1dea861e0b5f7c53712bc7f1561efe (MD5) Previous issue date: 2011 / In this work we study the use of machine learning (clustering and classification) in judicial decisions search under electronic legal proceedings. We discuss and develop alternatives for precedent clustering, automatically generating classes to use to categorize when a user attaches new documents to its electronic legal proceeding. A changed version of the algorithm TClus, authored by Aggarwal, Gates and Yu was selected to be the use example, we propose removing its document and cluster discarding features and adding a cluster division feature. We introduce here a new paradigm “bag of terms and law references” instead of “bag of words” by generating attributes using two thesauri from the Brazilian Federal Senate and the Brazilian Federal Justice to detect legal terms a regular expressions to detect law references. In our use example, we build a corpus with precedents of the 4th Region’s Federal Court. The clustering results were evaluated with the Relative Hardness Measure and the p-Measure which were then tested with Wilcoxon’s Signed-ranks Test and the Count of Wins and Losses Test to determine its significance. The categorization results were evaluated by human specialists. The analysis and discussion of these results covered comparations of true/false positives against document similarity with the centroid, quantity of documents in the clusters, quantity and type of the attributes in the centroids e cluster cohesion. We also discuss attribute generation and its implications in the classification results. Contributions in this work: we confirmed that it is possible to use machine learning techniques in judicial decisions search, we developed an evolution of the TClus algorithm by removing its document and group discarding features and creating a group division feature, we proposed a new paradigm called “bag of terms and law references” evaluated by a prototype of the proposed process in a use case and automatic evaluation in the clustering phase and a human specialist evaluation in the categorization phase. / Este trabalho estuda a aplicação de técnicas de aprendizado de máquina (agrupamento e classificação) à pesquisa de jurisprudência, no âmbito do processo judicial eletrônico. Discute e implementa alternativas para o agrupamento dos documentos da jurisprudência, gerando automaticamente classes que servem ao posterior processo de categorização dos documentos anexados ao processo jurídico. O algoritmo TClus de Aggarwal, Gates e Yu é selecionado para desenvolvimento de exemplo de uso, com propostas de alteração no descarte de documentos e grupos, e passando a incluir a divisão de grupos. A proposta ainda introduz um paradigma "bag of terms and law references" em lugar do "bag of words", quando utiliza, na geração dos atributos, os tesauros do Senado Federal e da Justiça Federal para detectar termos jurídicos nos documentos e expressões regulares para detectar referências legislativas. No exemplo de uso, empregam-se documentos oriundos da jurisprudência do Tribunal Regional Federal da 4a Região. Os resultados dos agrupamentos foram avaliados pelas medidas Relative Hardness e p- e submetidos aos testes de significância de Wilcoxon e contagem de vitórias e derrotas. Os resultados da categorização foram avaliados por avaliadores humanos. A discussão e análise desses resultados abrangeu a comparação do sucesso e falha na classificação em relação à similaridade do documento com o centróide no momento da categorização, à quantidade de documentos nos grupos, à quantidade e tipo de atributos nos centróides e à coesão dos grupos. Discute-se, ainda, a geração dos atributos e suas implicações nos resultados da classificação. Contribuições deste estudo: confirmação da possibilidade de uso do aprendizado de máquina na pesquisa jurisprudencial, evolução do algoritmo TClus ao eliminar os descartes de documentos e grupos e ao implementar a divisão de grupos, proposta de novo paradigma “bag of terms and law references”, através de prototipação do processo proposto com exemplo de uso e avaliações automáticas na fase de clustering, e por especialista humano na fase de categorização. INFORMÁTICA PROCESSAMENTO DE TEXTOS (COMPUTAÇÃO) CATEGORIZAÇÃO (LINGUÍSTICA) ALGORITMOS (PROGRAMAÇÃO)
5	Integração de ferramentas para compilação e exploração de corpora Silveira, Filipe Pereira da January 2008 (has links) Made available in DSpace on 2013-08-07T18:43:21Z (GMT). No. of bitstreams: 1 000414886-Texto+Completo-0.pdf: 1368148 bytes, checksum: 096cd52430fb611a7d24242f6cc7ff92 (MD5) Previous issue date: 2008 / In this work we present a brief study on the taxonomy and availability of text corpora in order to introduce questions concerning corpus design and corpus compiling. We present corpus exploring functionalities and we bring comments on available tools and resources to work with corpora. Selecting the suitable tools for corpora compiling and analysis is still a challenge to researchers in the field. Many of the available tools are commercially distributed, depend on specific platforms, restrict file format usage or create their own standards for corpus codification and annotation, what makes it more difficult to interoperate and to share linguistic resources among research groups. In this context we present and detail ENTRELINHAS, the corpus linguistics tool we built and we make available to Portuguese language researchers in this field. ENTRELINHAS eases corpus compiling and makes basic resources for Portuguese language corpora exploring available. The tool adheres to an encoding standard that keeps it compatible with NILC/USP's Portal de Córpus. A discussion on the report of the use of ENTRELINHAS is also presented. / Este trabalho realiza um estudo da tipologia e disponibilidade de corpora. São discutidas questões referentes ao projeto de um corpus no que se refere a sua compilação. São apresentadas funcionalidades para exploração de corpora e analisadas ferramentas e recursos disponíveis para trabalhar com corpus. A seleção de ferramentas adequadas para compilação e exploração de corpora de textos em língua natural representa hoje um desafio aos pesquisadores da área. Muitas das ferramentas disponíveis dependem de licenças e plataformas específicas para serem executadas, limitam o uso de vários formatos de documento ou criam padrões próprios de codificação de corpus e de anotações, dificultando a criação, a interoperabilidade e o compartilhamento de recursos lingüísticos entre grupos de pesquisas. Nesse sentido é apresentada e descrita uma ferramenta para a lingüística de corpus que construímos e oferecemos à comunidade de pesquisadores em língua portuguesa – a ferramenta ENTRELINHAS. Esta ferramenta facilita a compilação e agrega funcionalidades essenciais para exploração de corpora. A ferramenta adere a um formato de codificação compatível com o Portal de Córpus do NILC/USP contribuindo com o intercâmbio de recursos para o processamento da língua portuguesa. Uma análise quanto ao uso dessa ferramenta também é apresentada. INFORMÁTICA LINGUÍSTICA COMPUTACIONAL PROCESSAMENTO DE TEXTOS (COMPUTAÇÃO) LINGUÍSTICA DE CORPUS
6	Uma proposta metodológica para compilação de corpus paralelo bilíngue e de pequena dimensão Fleuri, Lilian Jurkevicz January 2013 (has links) Tese (doutorado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão, Programa de Pós-Graduação em Estudos da Tradução, Florianópolis, 2013. / Made available in DSpace on 2014-08-06T17:22:31Z (GMT). No. of bitstreams: 1 326306.pdf: 10379029 bytes, checksum: 5aa65bff66aad532aefa8422854a97c0 (MD5) Previous issue date: 2013 / Localizando-se no contexto de pesquisa do projeto CORDIALL (Corpus Discursivo para Análises Linguísticas e Literárias) (UFMG) e do Grupo de Pesquisa TRACOR (Grupo de Pesquisa em Tradução e Corpora) (UFSC), esta tese apresenta uma proposta metodológica de compilação de corpus, pautada no perfil e nas necessidades emergentes em 20 dissertações de mestrado produzidas entre 2003 e 2010 em Estudos da Tradução, utilizando simultaneamente o arcabouço metodológico de corpus e teórico da Linguística Sistêmico-Funcional. Nesta tese a Linguística de Corpus oferece os fundamentos teórico-metodológicos, no que tange à Metodologia de Corpus(Barnbrook, 1996 Kennedy, 1998; Bowker, 2001; Mason, 2008) e os Estudos da Tradução Baseados em Corpus (ETBC) oferecem os fundamentos teórico-metodológicos voltados aos Estudos da Tradução (cf. Baker, 1995; Olohan, 2004; Vasconcellos, 2009; Assis, 2012; Feitosa, 2005; Fernandes, 2006). Para o desenvolvimento da pesquisa, são adotados procedimentos metodológicos para: a coleta e a descrição dos métodos das 20 pesquisas analisadas; a criação de uma proposta metodológica, por meio de Templates em Processadores de Texto, como o MS Word, e Aplicativos de Planilhas, como o MS Excel; e o teste destes Templates em um Estudo Piloto. A análise do perfil metodológico das 20 dissertações identifica que a maioria das dissertações passa pelos seguintes processos de compilação de corpus: (i) preparação do corpus para um alinhamento semiautomático; (ii) alinhamento das unidades desalinhadas; (iii) anotação do corpus e revisão da anotação e (iv) quantificação dos dados. A análise dessas dissertações evidencia, entretanto, algumas inconsistências metodológicas nos processos de compilação do corpus, o que pode comprometer a eficiência e a continuidade da pesquisa, tais como: (a) ausência de padronização metodológica que implica desperdício de tempo de pesquisa na fase de compilação do corpus; (b) excesso de etapas metodológicas para a execução de um único procedimento; (c) demasiadas transições de um programa a outro durante a fase de compilação do corpus e (d) produção de inúmeros documentos. Com base nos resultados dessas análises, propõe-se um método mais eficiente, que implica em: (a) agilizar os processos de compilação de corpora paralelos bilíngues de pequena dimensão, (b) reduzir o número das etapas em cada processo, (c) reduzir o número dos programas utilizados; (d) reduzir o número da geração de diferentes documentos e (e) flexibilizar o modo de anotação do corpus. O modelo metodológico desenvolvido em um Template no processador de texto e outro em um aplicativo de planilha. Esses Templates são testados em um Estudo Piloto e seus resultados comparados ao método de compilação adotado em Fleuri (2006), tendo utilizado ambos o mesmo corpus. Os resultados desse Estudo apontam para a produtividade e viabilidade da proposta metodológica, que mostra ser capaz de agilizar o processo (i) de preparação do corpus para o alinhamento, (ii) de correção das unidades desalinhadas no corpus paralelo, (iii) de quantificação dos dados, assim como, ser capaz de flexibilizar o código de anotação do corpus e de organizar a exposição em tabela e gráficos dos elementos anotados e dos dados quantificados. O Estudo Piloto, em comparação a Fleuri (2006), mostrou ter reduzido a ¼ o tempo total de compilação, a metade o número de etapas totais executadas, a 1/5 o número de programas utilizados e a menos da metade o número de documentos gerado.<br> / Abstract : Within the context of research in the project CORDIALL and TRACOR developed at UFMG and UFSC (Brazil), this PhD thesis presents a methodological proposal for corpus compilation, based on the profiles and the needs of 20 Master's thesis in the interface with Translation Studies, Corpus Linguistics, and Systemic-Functional Linguistics, developed in Brazil between 2003 and 2010. The methodological and theoretical concepts that conduces this thesis are presented by the Corpus-Based Method presented in Corpus Linguistics (Barnbrook, 1996 Kennedy, 1998; Bowker, 2001; Mason, 2008), and the Corpus-Based Translation Studies (cf. Baker, 1995; Olohan, 2004; Vasconcellos., 2009; Assis, 2012; Feitosa, 2005; Fernandes, 2006). The methods followed in this research consist in: colecting and describing the 20 MA thesis mencioned before; studying their methods; creating a fast and economic methodological proposal for corpora compiling, using programming features of Word Processor and Spreadsheet Application; and testing this method in an Pilot Study. The analysis of the methodological profile of these 20 Master thesis identifies that their parallel bilingual small corpus compilation processes are the following: (i) corpus preparation for a semi-automatic alignment; (ii) alignment; (iii) corpus annotation and annotation edition; and (iv) data quantification. Nevertheless, the analysis points to methodological inconsistencies in the processes of corpus compilation, which can impair the investigation itself or the continuation of it in further studies. The inconsistencies concern the: (i) high amount of time spent on the compilation processes; (ii) high number of stages involved in just one process; (iii) high number of transitions between different software; and (iv) high production of documents. Based on these results, this Thesis proposes to solve such inconsistencies by creating an efficiate method of corpus compilation, that aims to: (i) fasten the compilation processes; (ii) reduce the number of stages involved in each process; (iii) reduce the number of software accessed during the corpus compilation; (iv) reduce the number of production of different documents; and plus (v) to turn the corpus annotation more flexible. The proposal is developed on MS Office software (MS Word and MS Excel). Templates with Macros and Formula are created and tested in a Pilot Study, whose results are compared with the corpus compilation results in Fleuri (2006). The methodological proposal reveals to fasten the process of (i) corpus preparation for the alignment; (ii) alignment; (iii) data quantification; and to make the corpus annotation more flexible and the data display more organized (in tables and graphics). The Pilot Study, comparing to Fleuri (2006), reduced to ¼ the total time involved in the corpus compilation; to ½ the total number of stages involved in the corpus compilation; to 1/5 the total number of transitions among different software and to less than ½ the number of document produced. Tradução e interpretação Linguistica - Processamento de dados Processamento de textos (Computação)
7	Detecção rápida de legendas em vídeos utilizando o ritmo visual / Fast video caption detection based on visual rhythm Valio, Felipe Braunger, 1984- 19 August 2018 (has links) Orientadores: Neucimar Jerônimo Leite, Hélio Pedrini / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-19T05:52:55Z (GMT). No. of bitstreams: 1 Valio_FelipeBraunger_M.pdf: 3505580 bytes, checksum: 3b20a046a5822011c617729904457d95 (MD5) Previous issue date: 2011 / Resumo: Detecção de textos em imagens é um problema que vem sendo estudado a várias décadas. Existem muitos trabalhos que estendem os métodos existentes para uso em análise de vídeos, entretanto, poucos deles criam ou adaptam abordagens que consideram características inerentes dos vídeos, como as informações temporais. Um problema particular dos vídeos, que será o foco deste trabalho, é o de detecção de legendas. Uma abordagem rápida para localizar quadros de vídeos que contenham legendas é proposta baseada em uma estrutura de dados especial denominada ritmo visual. O método é robusto à detecção de legendas com respeito ao alfabeto utilizado, ao estilo de fontes, à intensidade de cores e à orientação das legendas. Vários conjuntos de testes foram utilizados em nosso experimentos para demonstrar a efetividade do método / Abstract: Detection of text in images is a problem that has been studied for several decades. There are many works that extend the existing methods for use in video analysis, however, few of them create or adapt approaches that consider the inherent characteristics of video, such as temporal information. A particular problem of the videos, which will be the focus of this work, is the detection of subtitles. A fast method for locating video frames containing captions is proposed based on a special data structure called visual rhythm. The method is robust to the detection of legends with respect to the used alphabet, font style, color intensity and subtitle orientation. Several datasets were used in our experiments to demonstrate the effectiveness of the method / Mestrado / Ciência da Computação / Mestre em Ciência da Computação Processamento de textos (Computação) Indexação automática Rastreamento automático Text processing (Computer science) Automatic indexing Automatic tracking
8	Extração de relações semanticas via análise de correlação de termos em documentos / Extracting semantic relations via analysis of correlated terms in documents Botero, Sergio William 12 December 2008 (has links) Orientador: Ivan Luiz Marques Ricarte / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-12T17:41:25Z (GMT). No. of bitstreams: 1 Botero_SergioWilliam_M.pdf: 2163763 bytes, checksum: a7c5db625a3d99cead80cee63b7908ce (MD5) Previous issue date: 2008 / Resumo: Sistemas de recuperação de informação são ferramentas para automatizar os procedimentos de busca por informações. Surgiram com propostas simples nas quais a recuperação era baseada exclusivamente na sintaxe das palavras e evoluíram para sistemas baseados na semântica das palavras como, por exemplo, os que utilizam ontologias. Entretanto, a especificação manual de ontologias é uma tarefa extremamente custosa e sujeita a erros humanos. Métodos automáticos para a construção de ontologias mostraram-se ineficientes, identificando falsas relações semânticas. O presente trabalho apresenta uma técnica baseada em processamento de linguagem natural e um novo algoritmo de agrupamento para a extração semi-automática de relações que utiliza o conteúdo dos documentos, uma ontologia de senso comum e supervisão do usuário para identificar corretamente as relações semânticas. A proposta envolve um estágio que utiliza recursos lingüísticos para a extração de termos e outro que utiliza algoritmos de agrupamento para a identificação de conceitos e relações semânticas de instanciação entre termos e conceitos. O algoritmo proposto é baseado em técnicas de agrupamento possibilístico e de bi-agrupamento e permite a extração interativa de conceitos e relações. Os resultados são promissores, similares às metodologias mais recentes, com a vantagem de permitir a supervisão do processo de extração / Abstract: Information Retrieval systems are tools to automate the searching for information. The first implementations were very simple, based exclusively on word syntax, and have evolved to systems that use semantic knowledge such as those using ontologies. However, the manual specification is an expensive task and subject to human mistakes. In order to deal with this problem, methodologies that automatically construct ontologies have been proposed but they did not reach good results, identifying false semantic relation between words. This work presents a natural language processing technique e a new clustering algorithm for the semi-automatic extraction of semantic relations by using the content of the document, a commom-sense ontology, and the supervision of the user to correctly identify semantic relations. The proposal encompasses a stage that uses linguistic resources to extract the terms and another stage that uses clustering algorithms to identify concepts and instanceof relations between terms and concepts. The proposed algorithm is based on possibilistic clustering and bi-clustering techniques and it allows the interative extraction of concepts. The results are promising, similar to the most recent methodologies, with the advantage of allowing the supervision of the extraction process / Mestrado / Engenharia de Computação / Mestre em Engenharia Elétrica Processamento de textos (Computação) Semântica Recuperação da informação Ontologia Text processing (Computation) Semantic Information retrieval Information retrieval system Ontology
9	Anotação semântica baseada em ontologia: um estudo do português brasileiro em documentos históricos do final do século XIX Pereira, Juliana Wolf 01 July 2014 (has links) Made available in DSpace on 2016-06-02T19:06:12Z (GMT). No. of bitstreams: 1 5898.pdf: 11774674 bytes, checksum: 3cc87530008d9b42c105781f8a1068a3 (MD5) Previous issue date: 2014-07-01 / Financiadora de Estudos e Projetos / This dissertation presents an approach to proceed with semantic annotation in historical documents from the 19th century that discuss the constitution of the mother tongue, the Portuguese Language in Brazil. The objective is to generate a group of semantically annotated documents in agreement with a domain ontology. To provide this domain ontology, the IntrumentoLinguistico Ontology was built, and it supported the process of automatic semantic annotation. The results obtained with the annotation were analyzed in comparison with the Gold Standard and they presented an elevated level of coincidence, between 0.86 and 1.00 for the Fl-score measure. Besides that, it was possible to locate new documents about the discussed domain in a sample of the Revistas Brazileiras. These results prove the efficacy of the approach of automatic semantic annotation. / Esta dissertação apresenta uma abordagem de anotação semântica automática em documentos históricos do século XIX que discutem a constituição da língua pátria, a Língua Portuguesa no Brasil. O objetivo e gerar um conjunto de documentos semanticamente anotados em acordo com uma ontologia de domínio. Para prover essa ontologia de domínio, foi construída a Ontologia Instrumento Linguístico que apoiou o processo para a realização da anotação semântica automática. Os resultados obtidos com a anotação foram analisados em comparação com o Gold Standard e apresentaram alto grau de coincidência, entre 0.86 e 1.00 para a medida F1-Score. Além disso, foi possível localizar novos documentos sobre o domínio discutido em uma amostra das Revistas Brazileiras. Esses resultados comprovam a eficácia da abordagem de anotação semântica automática. Processamento de textos (Computação) Extração de relações semânticas Ontologia Documentos históricos Mineração de textos Semantic annotation Ontology-based information extraction Ontology Historical documents Text mining Natural language processing
10	Classificação de sites a partir das análises estrutural e textual Ribas, Oeslei Taborda 28 August 2013 (has links) Com a ampla utilização da web nos dias atuais e também com o seu crescimento constante, a tarefa de classificação automática de sítios web têm adquirido importância crescente, pois em diversas ocasiões é necessário bloquear o acesso a sítios específicos, como por exemplo no caso do acesso a sítios de conteúdo adulto em escolas elementares e secundárias. Na literatura diferentes trabalhos têm surgido propondo novos métodos de classificação de sítios, com o objetivo de aumentar o índice de páginas corretamente categorizadas. Este trabalho tem por objetivo contribuir com os métodos atuais de classificação através de comparações de quatro aspectos envolvidos no processo de classificação: algoritmos de classificação, dimensionalidade (número de atributos considerados), métricas de avaliação de atributos e seleção de atributos textuais e estruturais presentes nas páginas web. Utiliza-se o modelo vetorial para o tratamento de textos e uma abordagem de aprendizagem de máquina clássica considerando a tarefa de classificação. Diversas métricas são utilizadas para fazer a seleção dos termos mais relevantes, e algoritmos de classificação de diferentes paradigmas são comparados: probabilista (Naıve Bayes), árvores de decisão (C4.5), aprendizado baseado em instâncias (KNN - K vizinhos mais próximos) e Máquinas de Vetores de Suporte (SVM). Os experimentos foram realizados em um conjunto de dados contendo sítios de dois idiomas, Português e Inglês. Os resultados demonstram que é possível obter um classificador com bons índices de acerto utilizando apenas as informações do texto ˆancora dos hyperlinks. Nos experimentos o classificador baseado nessas informações atingiu uma Medida-F de 99.59%. / With the wide use of the web nowadays, also with its constant growth, task of automatic classification of websites has gained increasing importance. In many occasions it is necessary to block access to specific sites, such as in the case of access to adult content sites in elementary and secondary schools. In the literature different studies has appeared proposing new methods for classification of sites, with the goal of increasing the rate of pages correctly categorized. This work aims to contribute to the current methods of classification by comparing four aspects involved in the classification process: classification algorithms, dimensionality (amount of selected attributes), attributes evaluation metrics and selection of textual and structural attributes present in webpages. We use the vector model to treat text and an machine learning classical approach according to the classification task. Several metrics are used to make the selection of the most relevant terms, and classification algorithms from different paradigms are compared: probabilistic (Na¨ıve Bayes), decision tree (C4.5), instance-based learning (KNN - K-Nearest Neighbor) and support vector machine (SVM). The experiments were performed on a dataset containing two languages, English and Portuguese. The results show that it is possible to obtain a classifier with good success indexes using only the information from the anchor text in hyperlinks, in the experiments the classifier based on this information achieved 99.59% F-measure. Processamento de textos (Computação) Aprendizado do computador Redes neurais (Computação) Métodos de simulação Web sites - Ratings and rankings Text processing (Computer science) Machine learning Neural networks (Computer science) HTML (Document marKup language) Simulation methods

Search results