Global ETD Search

1	Emprego de técnicas de pré-processamento textual e algoritmos de comparação como suporte à correção de questões dissertativas: experimentos, análises e contribuições / Employing texts preprocessing techniques and string-matching algorithms to support correction of essay questions: experiments, analyzes and contributions Ávila, Ricardo Lima Feitosa de 23 August 2013 (has links) ÁVILA, R. L. F. Emprego de técnicas de pré-processamento textual e algoritmos de comparação como suporte à correção de questões dissertativas: experimentos, análises e contribuições. 2013. 150 f. Dissertação (Mestrado em Engenharia de Teleinformática) - Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2013. / Submitted by Marlene Sousa (mmarlene@ufc.br) on 2014-01-03T13:42:42Z No. of bitstreams: 1 2013_dis_rlfavila.pdf: 2826073 bytes, checksum: c58e537d75e1dffcbe4a0a4cd829ef97 (MD5) / Approved for entry into archive by Marlene Sousa(mmarlene@ufc.br) on 2014-01-09T16:42:46Z (GMT) No. of bitstreams: 1 2013_dis_rlfavila.pdf: 2826073 bytes, checksum: c58e537d75e1dffcbe4a0a4cd829ef97 (MD5) / Made available in DSpace on 2014-01-09T16:42:46Z (GMT). No. of bitstreams: 1 2013_dis_rlfavila.pdf: 2826073 bytes, checksum: c58e537d75e1dffcbe4a0a4cd829ef97 (MD5) Previous issue date: 2013-08-23 / This master thesis presents a study of techniques used as support for a correction of essay questions based in an adaptation of string-matching algorithms combined with text preprocessing techniques. The main challenge to design a tool like this is an ambiguity of natural language. To analyze a correction of subjective questions, tests were performed with these algorithms, and a tool have been developed for this purpose. Comparing student responses with response pattern of questions proposed in subjective tests, we analyzed the performance of individual algorithms and a set of pre-processing techniques that are found in the literature, in isolation and combined. Seeking to neutralize specific situations of false negative and false positive, some techniques have been proposed as auxiliary contribution of this work. After analyzing the experiments, the results of similarity index between responses indicate the use of the solution to support the correction of essay questions, and may also be applied in the detection of plagiarism and be integrated to a learning management system. / Esta dissertação apresenta um estudo de técnicas que podem ser empregadas como apoio para a correção de questões dissertativas com base na adaptação de algoritmos de comparação textual combinados a técnicas de pré-processamento de textos. O principal desafio na concepção de uma ferramenta para este tipo de aplicação é a ambiguidade da linguagem natural. Para analisar situações de correção de questões subjetivas, foram efetuados testes com esses algoritmos, tendo-se desenvolvido uma ferramenta para tal propósito. Confrontando respostas de alunos ao padrão de resposta de questões propostas em provas subjetivas, foram analisados o desempenho individual dos algoritmos e de um conjunto de técnicas de pré-processamento que são encontrados na literatura, de maneira isolada e combinada. Buscando contornar situações específicas de falso negativo e falso positivo, foram propostas algumas técnicas auxiliares como contribuição deste trabalho. Após a análise dos experimentos realizados, os resultados de índice de similaridade entre respostas indicam o uso da solução como suporte a correção de questões discursivas, podendo, ainda, ser aplicado na detecção de plágio e ser integrado a um ambiente virtual de ensino e aprendizagem. Teleinformática Processamento de textos (Computação)
2	Método fuzzy para a sumarização automática de texto com base em um modelo extrativo (FSumm) Goularte, Fábio Bif January 2015 (has links) Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2015. / Made available in DSpace on 2015-05-12T04:08:08Z (GMT). No. of bitstreams: 1 333183.pdf: 2374355 bytes, checksum: 5f9767cf299ef07fe986ed50487dfcd7 (MD5) Previous issue date: 2015 / A sumarização automática de texto procura condensar o conteúdo do documento, extraindo as informações mais relevantes. Esse processo normalmente é executado através de métodos computacionais que incorporam o método estatístico e o linguístico. O rápido desenvolvimento das tecnologias emergentes e a crescente quantidade de informação disponível inserem novos desafios para esta área de pesquisa. Um desses desafios está na identificação das sentenças mais informativas no momento da geração do sumário. Como a tarefa de sumarizar informações de texto traz consigo a incerteza inerente à linguagem natural, a lógica fuzzy pode ser aplicada nessa tarefa para contribuir nos resultados gerados. Portanto, esta dissertação propõe um método de sumarização automática de texto utilizando a lógica fuzzy para a classificação das sentenças. O método foi desenvolvido por meio da técnica de sumarização extrativa ao qual se associam tarefas de Recuperação de Informação (RI) e de Processamento de Linguagem Natural (PLN). Para a avaliação deste método, considerou-se um corpus de textos em língua portuguesa e uma ferramenta que automatiza o processo. A ferramenta de avaliação analisa a sobreposição das unidades textuais entre os sumários automáticos e o modelo humano, dadas pelas medidas de precisão, cobertura e medida-f. Foram realizados experimentos que demonstram a efetividade do método na classificação da informatividade das sentenças.<br> / Abstract : Automatic text summarization attempts to condense the document content, extracting the most relevant information. This process is usually performed by computational methods such as statistical and linguistic. The rapid development of emerging technologies and the increasing amount of information available insert new research challenges. One of these challenges is to identify the most informative sentences at the time of the summary generation. The textual information summarization task brings with it the uncertainty inherent in natural language where fuzzy logic can be applied and contribute to the results. Therefore, this dissertation proposes a method of automatic text summarization using fuzzy logic to the classification of sentences. The method was developed by extractive summarization techniques which are associated with information retrieval tasks (IR) and natural language processing (NLP). The evaluation method considers a corpus of Brazilian Portuguese news texts and a tool for evaluation of summaries. The assessment tool analyzes the text units overlaps between automatic summaries and human model producing measures (precision, recall, F-measure) that express the informativeness of the summaries. We also present experiments showing the effectiveness of our method in the informativeness sentences classification. Computação Processamento de textos (Computação) Lógica difusa
3	Combinação de classificadores na categorização de textos Linden, Gustavo Sandini January 2008 (has links) Made available in DSpace on 2013-08-07T18:42:16Z (GMT). No. of bitstreams: 1 000409150-Texto+Completo-0.pdf: 923910 bytes, checksum: 44e59b532fd1e8f249aeacfa7777f126 (MD5) Previous issue date: 2008 / This study presents and evaluates a proposal for Hierarchical Text Categorization combining k- Nearest Neighbors (k-NN) and Support VectorMachines (SVM) classifiers. The study was based on several experiments which made use of Folha-RIcol text collection in Portuguese language. The texts in this collection are hierarchically organized in categories. In the experiments, the performance of k-NN and SVM classifiers was analyzed, individually first, with a variant of hold-out evaluation methodology, and then combined. The proposed combination, referred to as k-NN+SVM, had its performance compared to the individual classifiers and also to the combination by vote. In synthesis, the k-NN+SVM combination did not present better performance to the alternative ones, however the study allowed to observe the classifiers’ behavior and its combined use, the identification of problems and possible solutions, as well as taking into consideration the document collection used. / Este trabalho apresenta e avalia uma proposta para Categorização Hierárquica de Textos com uso combinado dos classificadores k-Nearest Neighbors (k-NN) e Support Vector Machines (SVM). O estudo foi embasado numa série de experimentos os quais fizeram uso da coleção Folha-RIcol de textos em língua portuguesa, que se encontram hierarquicamente organizados em categorias. Nos experimentos realizados, os classificadores k-NN e SVM tiveram seu desempenho analisado, primeiro individualmente, com uma variante da metodologia de avaliação hold-out, e após, de modo combinado. A combinação proposta, denominada k-NN+SVM, teve seu desempenho comparado com aquele dos classificadores individuais e com o da combinação por voto. Em síntese, a combinação k-NN+SVM não apresentou desempenho superior às demais alternativas, todavia o estudo permitiu a observação do comportamento dos classificadores e seu uso combinado, a identificação de problemas e possíveis soluções, bem como algumas considerações sobre a coleção de documentos utilizada. INFORMÁTICA CATEGORIZAÇÃO (LINGUÍSTICA) LINGUÍSTICA COMPUTACIONAL PROCESSAMENTO DE TEXTOS (COMPUTAÇÃO) APRENDIZAGEM DE MÁQUINA
4	Agrupamento e categorização de documentos jurídicos Furquim, Luis Otávio de Colla January 2011 (has links) Made available in DSpace on 2013-08-07T18:43:19Z (GMT). No. of bitstreams: 1 000439389-Texto+Completo-0.pdf: 2902269 bytes, checksum: 8e1dea861e0b5f7c53712bc7f1561efe (MD5) Previous issue date: 2011 / In this work we study the use of machine learning (clustering and classification) in judicial decisions search under electronic legal proceedings. We discuss and develop alternatives for precedent clustering, automatically generating classes to use to categorize when a user attaches new documents to its electronic legal proceeding. A changed version of the algorithm TClus, authored by Aggarwal, Gates and Yu was selected to be the use example, we propose removing its document and cluster discarding features and adding a cluster division feature. We introduce here a new paradigm “bag of terms and law references” instead of “bag of words” by generating attributes using two thesauri from the Brazilian Federal Senate and the Brazilian Federal Justice to detect legal terms a regular expressions to detect law references. In our use example, we build a corpus with precedents of the 4th Region’s Federal Court. The clustering results were evaluated with the Relative Hardness Measure and the p-Measure which were then tested with Wilcoxon’s Signed-ranks Test and the Count of Wins and Losses Test to determine its significance. The categorization results were evaluated by human specialists. The analysis and discussion of these results covered comparations of true/false positives against document similarity with the centroid, quantity of documents in the clusters, quantity and type of the attributes in the centroids e cluster cohesion. We also discuss attribute generation and its implications in the classification results. Contributions in this work: we confirmed that it is possible to use machine learning techniques in judicial decisions search, we developed an evolution of the TClus algorithm by removing its document and group discarding features and creating a group division feature, we proposed a new paradigm called “bag of terms and law references” evaluated by a prototype of the proposed process in a use case and automatic evaluation in the clustering phase and a human specialist evaluation in the categorization phase. / Este trabalho estuda a aplicação de técnicas de aprendizado de máquina (agrupamento e classificação) à pesquisa de jurisprudência, no âmbito do processo judicial eletrônico. Discute e implementa alternativas para o agrupamento dos documentos da jurisprudência, gerando automaticamente classes que servem ao posterior processo de categorização dos documentos anexados ao processo jurídico. O algoritmo TClus de Aggarwal, Gates e Yu é selecionado para desenvolvimento de exemplo de uso, com propostas de alteração no descarte de documentos e grupos, e passando a incluir a divisão de grupos. A proposta ainda introduz um paradigma "bag of terms and law references" em lugar do "bag of words", quando utiliza, na geração dos atributos, os tesauros do Senado Federal e da Justiça Federal para detectar termos jurídicos nos documentos e expressões regulares para detectar referências legislativas. No exemplo de uso, empregam-se documentos oriundos da jurisprudência do Tribunal Regional Federal da 4a Região. Os resultados dos agrupamentos foram avaliados pelas medidas Relative Hardness e p- e submetidos aos testes de significância de Wilcoxon e contagem de vitórias e derrotas. Os resultados da categorização foram avaliados por avaliadores humanos. A discussão e análise desses resultados abrangeu a comparação do sucesso e falha na classificação em relação à similaridade do documento com o centróide no momento da categorização, à quantidade de documentos nos grupos, à quantidade e tipo de atributos nos centróides e à coesão dos grupos. Discute-se, ainda, a geração dos atributos e suas implicações nos resultados da classificação. Contribuições deste estudo: confirmação da possibilidade de uso do aprendizado de máquina na pesquisa jurisprudencial, evolução do algoritmo TClus ao eliminar os descartes de documentos e grupos e ao implementar a divisão de grupos, proposta de novo paradigma “bag of terms and law references”, através de prototipação do processo proposto com exemplo de uso e avaliações automáticas na fase de clustering, e por especialista humano na fase de categorização. INFORMÁTICA PROCESSAMENTO DE TEXTOS (COMPUTAÇÃO) CATEGORIZAÇÃO (LINGUÍSTICA) ALGORITMOS (PROGRAMAÇÃO)
5	Integração de ferramentas para compilação e exploração de corpora Silveira, Filipe Pereira da January 2008 (has links) Made available in DSpace on 2013-08-07T18:43:21Z (GMT). No. of bitstreams: 1 000414886-Texto+Completo-0.pdf: 1368148 bytes, checksum: 096cd52430fb611a7d24242f6cc7ff92 (MD5) Previous issue date: 2008 / In this work we present a brief study on the taxonomy and availability of text corpora in order to introduce questions concerning corpus design and corpus compiling. We present corpus exploring functionalities and we bring comments on available tools and resources to work with corpora. Selecting the suitable tools for corpora compiling and analysis is still a challenge to researchers in the field. Many of the available tools are commercially distributed, depend on specific platforms, restrict file format usage or create their own standards for corpus codification and annotation, what makes it more difficult to interoperate and to share linguistic resources among research groups. In this context we present and detail ENTRELINHAS, the corpus linguistics tool we built and we make available to Portuguese language researchers in this field. ENTRELINHAS eases corpus compiling and makes basic resources for Portuguese language corpora exploring available. The tool adheres to an encoding standard that keeps it compatible with NILC/USP's Portal de Córpus. A discussion on the report of the use of ENTRELINHAS is also presented. / Este trabalho realiza um estudo da tipologia e disponibilidade de corpora. São discutidas questões referentes ao projeto de um corpus no que se refere a sua compilação. São apresentadas funcionalidades para exploração de corpora e analisadas ferramentas e recursos disponíveis para trabalhar com corpus. A seleção de ferramentas adequadas para compilação e exploração de corpora de textos em língua natural representa hoje um desafio aos pesquisadores da área. Muitas das ferramentas disponíveis dependem de licenças e plataformas específicas para serem executadas, limitam o uso de vários formatos de documento ou criam padrões próprios de codificação de corpus e de anotações, dificultando a criação, a interoperabilidade e o compartilhamento de recursos lingüísticos entre grupos de pesquisas. Nesse sentido é apresentada e descrita uma ferramenta para a lingüística de corpus que construímos e oferecemos à comunidade de pesquisadores em língua portuguesa – a ferramenta ENTRELINHAS. Esta ferramenta facilita a compilação e agrega funcionalidades essenciais para exploração de corpora. A ferramenta adere a um formato de codificação compatível com o Portal de Córpus do NILC/USP contribuindo com o intercâmbio de recursos para o processamento da língua portuguesa. Uma análise quanto ao uso dessa ferramenta também é apresentada. INFORMÁTICA LINGUÍSTICA COMPUTACIONAL PROCESSAMENTO DE TEXTOS (COMPUTAÇÃO) LINGUÍSTICA DE CORPUS
6	Uma proposta metodológica para compilação de corpus paralelo bilíngue e de pequena dimensão Fleuri, Lilian Jurkevicz January 2013 (has links) Tese (doutorado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão, Programa de Pós-Graduação em Estudos da Tradução, Florianópolis, 2013. / Made available in DSpace on 2014-08-06T17:22:31Z (GMT). No. of bitstreams: 1 326306.pdf: 10379029 bytes, checksum: 5aa65bff66aad532aefa8422854a97c0 (MD5) Previous issue date: 2013 / Localizando-se no contexto de pesquisa do projeto CORDIALL (Corpus Discursivo para Análises Linguísticas e Literárias) (UFMG) e do Grupo de Pesquisa TRACOR (Grupo de Pesquisa em Tradução e Corpora) (UFSC), esta tese apresenta uma proposta metodológica de compilação de corpus, pautada no perfil e nas necessidades emergentes em 20 dissertações de mestrado produzidas entre 2003 e 2010 em Estudos da Tradução, utilizando simultaneamente o arcabouço metodológico de corpus e teórico da Linguística Sistêmico-Funcional. Nesta tese a Linguística de Corpus oferece os fundamentos teórico-metodológicos, no que tange à Metodologia de Corpus(Barnbrook, 1996 Kennedy, 1998; Bowker, 2001; Mason, 2008) e os Estudos da Tradução Baseados em Corpus (ETBC) oferecem os fundamentos teórico-metodológicos voltados aos Estudos da Tradução (cf. Baker, 1995; Olohan, 2004; Vasconcellos, 2009; Assis, 2012; Feitosa, 2005; Fernandes, 2006). Para o desenvolvimento da pesquisa, são adotados procedimentos metodológicos para: a coleta e a descrição dos métodos das 20 pesquisas analisadas; a criação de uma proposta metodológica, por meio de Templates em Processadores de Texto, como o MS Word, e Aplicativos de Planilhas, como o MS Excel; e o teste destes Templates em um Estudo Piloto. A análise do perfil metodológico das 20 dissertações identifica que a maioria das dissertações passa pelos seguintes processos de compilação de corpus: (i) preparação do corpus para um alinhamento semiautomático; (ii) alinhamento das unidades desalinhadas; (iii) anotação do corpus e revisão da anotação e (iv) quantificação dos dados. A análise dessas dissertações evidencia, entretanto, algumas inconsistências metodológicas nos processos de compilação do corpus, o que pode comprometer a eficiência e a continuidade da pesquisa, tais como: (a) ausência de padronização metodológica que implica desperdício de tempo de pesquisa na fase de compilação do corpus; (b) excesso de etapas metodológicas para a execução de um único procedimento; (c) demasiadas transições de um programa a outro durante a fase de compilação do corpus e (d) produção de inúmeros documentos. Com base nos resultados dessas análises, propõe-se um método mais eficiente, que implica em: (a) agilizar os processos de compilação de corpora paralelos bilíngues de pequena dimensão, (b) reduzir o número das etapas em cada processo, (c) reduzir o número dos programas utilizados; (d) reduzir o número da geração de diferentes documentos e (e) flexibilizar o modo de anotação do corpus. O modelo metodológico desenvolvido em um Template no processador de texto e outro em um aplicativo de planilha. Esses Templates são testados em um Estudo Piloto e seus resultados comparados ao método de compilação adotado em Fleuri (2006), tendo utilizado ambos o mesmo corpus. Os resultados desse Estudo apontam para a produtividade e viabilidade da proposta metodológica, que mostra ser capaz de agilizar o processo (i) de preparação do corpus para o alinhamento, (ii) de correção das unidades desalinhadas no corpus paralelo, (iii) de quantificação dos dados, assim como, ser capaz de flexibilizar o código de anotação do corpus e de organizar a exposição em tabela e gráficos dos elementos anotados e dos dados quantificados. O Estudo Piloto, em comparação a Fleuri (2006), mostrou ter reduzido a ¼ o tempo total de compilação, a metade o número de etapas totais executadas, a 1/5 o número de programas utilizados e a menos da metade o número de documentos gerado.<br> / Abstract : Within the context of research in the project CORDIALL and TRACOR developed at UFMG and UFSC (Brazil), this PhD thesis presents a methodological proposal for corpus compilation, based on the profiles and the needs of 20 Master's thesis in the interface with Translation Studies, Corpus Linguistics, and Systemic-Functional Linguistics, developed in Brazil between 2003 and 2010. The methodological and theoretical concepts that conduces this thesis are presented by the Corpus-Based Method presented in Corpus Linguistics (Barnbrook, 1996 Kennedy, 1998; Bowker, 2001; Mason, 2008), and the Corpus-Based Translation Studies (cf. Baker, 1995; Olohan, 2004; Vasconcellos., 2009; Assis, 2012; Feitosa, 2005; Fernandes, 2006). The methods followed in this research consist in: colecting and describing the 20 MA thesis mencioned before; studying their methods; creating a fast and economic methodological proposal for corpora compiling, using programming features of Word Processor and Spreadsheet Application; and testing this method in an Pilot Study. The analysis of the methodological profile of these 20 Master thesis identifies that their parallel bilingual small corpus compilation processes are the following: (i) corpus preparation for a semi-automatic alignment; (ii) alignment; (iii) corpus annotation and annotation edition; and (iv) data quantification. Nevertheless, the analysis points to methodological inconsistencies in the processes of corpus compilation, which can impair the investigation itself or the continuation of it in further studies. The inconsistencies concern the: (i) high amount of time spent on the compilation processes; (ii) high number of stages involved in just one process; (iii) high number of transitions between different software; and (iv) high production of documents. Based on these results, this Thesis proposes to solve such inconsistencies by creating an efficiate method of corpus compilation, that aims to: (i) fasten the compilation processes; (ii) reduce the number of stages involved in each process; (iii) reduce the number of software accessed during the corpus compilation; (iv) reduce the number of production of different documents; and plus (v) to turn the corpus annotation more flexible. The proposal is developed on MS Office software (MS Word and MS Excel). Templates with Macros and Formula are created and tested in a Pilot Study, whose results are compared with the corpus compilation results in Fleuri (2006). The methodological proposal reveals to fasten the process of (i) corpus preparation for the alignment; (ii) alignment; (iii) data quantification; and to make the corpus annotation more flexible and the data display more organized (in tables and graphics). The Pilot Study, comparing to Fleuri (2006), reduced to ¼ the total time involved in the corpus compilation; to ½ the total number of stages involved in the corpus compilation; to 1/5 the total number of transitions among different software and to less than ½ the number of document produced. Tradução e interpretação Linguistica - Processamento de dados Processamento de textos (Computação)
7	Levenshtein distance for information extraction in databases and for natural language processing. Bruno Woltzenlogel Paleo 21 December 2007 (has links) While performing information extraction or natural language processing tasks, one usually encounters problems when working with data or texts containing noise, typing mistakes or other different kinds of errors. In this thesis we investigate the use of modified Levenshtein edit distances to deal with these problems in two specific tasks. The first one is the record linkage in databases where distinct records can be representing the same entity. For this task we used and extended the WEKA API for Machine Learning and we were able to show that a modified Levenshtein distance provides good precision and recall results in the detection of records representing the same entities. The second task is the search and annotation of occurrences of specified words in texts written in natural language. Our main result in this task was the implementation of an approximate Gazetteer for GATE, the General Architecture for Text Engineering. Processamento de textos Linguagem natural (computadores) Rotinas de edição (computadores) Teoria da informação Computação
8	Metodologia para mapeamento de informações não estruturadas descritas em laudos médicos para uma representação atributo-valor / A methodology for mapping non-structured medical findings to the attribute-value table format Honorato, Daniel de Faveri 29 April 2008 (has links) Devido à facilidade com que informações biomédicas em língua natural são registras e armazenadas no formato digital, a recuperação de informações a partir de registros de pacientes nesse formato não estruturado apresenta diversos problemas a serem solucionados. Assim, a extração de informações estruturadas (por exemplo, no formato atributo-valor) a partir de registros não estruturados é um importante problema de pesquisa. Além disso, a representação de registros médicos não estruturados no formato atributo-valor, permite a aplicação de uma grande variedade de métodos de extração de padrões. Para mapear registros médicos não estruturados no formato atributo-valor, propomos uma metodologia que pode ser utilizada para automaticamente (ou semi-automaticamente, com a ajuda de um especialista do domínio) mapear informações médicas de interesse armazenadas nos registros médicos e descritas em linguagem natural em um formato estruturado. Essa metodologia foi implementada em um sistema computacional chamado TP-DISCOVER, o qual gera uma tabela no formato atributo-valor a partir de um conjunto de registros de pacientes (documentos). De modo a identificar entidades importantes no conjunto de documentos, assim como relacionamentos significantes entre essas entidades, propomos uma abordagem de extração de terminologia híbrida (lingüística/estatística) a qual seleciona palavras e frases que aparecem com freqüência acima de um dado limiar por meio da aplicação de medidas estatísticas. A idéia geral dessa abordagem híbrida de extração de terminologia é que documentos especializados são caracterizados por repetir o uso de certas unidades léxicas ou construções morfo-sintáticas. Nosso objetivo é reduzir o esforço despendido na modelagem manual por meio da observação de regularidades no texto e o mapeamento dessas regularidades como nomes de atributos na representação atributo-valor. A metodologia proposta foi avaliada realizando a estruturação automática de uma coleção de 6000 documentos com informações de resultados de exames de Endoscopia Digestiva Alta descritos em língua natural. Os resultados experimentais, os quais podem ser considerados os piores resultados, uma vez que esses resultados poderiam ser muito melhores caso a metodologia for utilizada semi-automaticamente junto com um especialista do domínio, mostram que a metodologia proposta é adequada e permite reduzir o tempo usado pelo especialista para analisar grande quantidade de registros médicos / The information retrieval from text stored in computer-based patient records is an important open-ended research problem, as the ease in which biomedical information recorded and stored in digital form grows. Thus, means to extract structured information (for example, in the so-called attribute-value format) from free-text records is an important research endeavor. Furthermore, by representing the free-text records in the attribute-value format, available pattern extraction methods can be directly applied. To map free-text medical records into the attribute-value format, we propose a methodology that can be used to automatically (or semi-automatically, with the help of a medical expert) map the important medical information stored in patient records which are described in natural language into an structured format. This methodology has been implemented in a computational system called TP-DISCOVER, which generates a database in the attribute-value format from a set of patient records (documents). In order to identify important entities in the set of documents, as well as significant relations among these entities, we propose a hybrid linguistic/statistical terminology extraction approach which filters out words and phrases that appear with a frequency higher than a given threshold by applying statistical measures. The underlying assumption of this hybrid approach to terminology extraction is that specialized documents are characterized by repeated use of certain lexical units or morpho-syntactic constructions. Our goal is to reduce the effort spent in manual modelling by observing regularities in the texts and by mapping them into suitable attribute names in the attribute-value representation format. The proposed methodology was evaluated to automatically structure a collection of 6000 documents which contains High Digestive Endoscopies exams´ results described in natural language. The experimental results, all of which can be considered lower bound results as they would greatly improve in case the methodology is applied semi-automatically together with a medical expert, show that the proposed methodology is suitable to reduce the medical expert workload in analysing large amounts of medical records Extração de terminologia Mineração de textos Pré-processamento de textos Terminology extraction Text mining Text pre-processing
9	Emprego de tÃcnicas de prÃ-processamento textual e algoritmos de comparaÃÃo como suporte Ã correÃÃo de questÃes dissertativas: experimentos, anÃlises e contribuiÃÃes / Employing texts preprocessing techniques and string-matching algorithms to support correction of essay questions: experiments, analyzes and contributions. Ricardo Lima Feitosa Ãvila 23 August 2013 (has links) CoordenaÃÃo de AperfeiÃoamento de Pessoal de NÃvel Superior / Esta dissertaÃÃo apresenta um estudo de tÃcnicas que podem ser empregadas como apoio para a correÃÃo de questÃes dissertativas com base na adaptaÃÃo de algoritmos de comparaÃÃo textual combinados a tÃcnicas de prÃ-processamento de textos. O principal desafio na concepÃÃo de uma ferramenta para este tipo de aplicaÃÃo Ã a ambiguidade da linguagem natural. Para analisar situaÃÃes de correÃÃo de questÃes subjetivas, foram efetuados testes com esses algoritmos, tendo-se desenvolvido uma ferramenta para tal propÃsito. Confrontando respostas de alunos ao padrÃo de resposta de questÃes propostas em provas subjetivas, foram analisados o desempenho individual dos algoritmos e de um conjunto de tÃcnicas de prÃ-processamento que sÃo encontrados na literatura, de maneira isolada e combinada. Buscando contornar situaÃÃes especÃficas de falso negativo e falso positivo, foram propostas algumas tÃcnicas auxiliares como contribuiÃÃo deste trabalho. ApÃs a anÃlise dos experimentos realizados, os resultados de Ãndice de similaridade entre respostas indicam o uso da soluÃÃo como suporte a correÃÃo de questÃes discursivas, podendo, ainda, ser aplicado na detecÃÃo de plÃgio e ser integrado a um ambiente virtual de ensino e aprendizagem. / This master thesis presents a study of techniques used as support for a correction of essay questions based in an adaptation of string-matching algorithms combined with text preprocessing techniques. The main challenge to design a tool like this is an ambiguity of natural language. To analyze a correction of subjective questions, tests were performed with these algorithms, and a tool have been developed for this purpose. Comparing student responses with response pattern of questions proposed in subjective tests, we analyzed the performance of individual algorithms and a set of pre-processing techniques that are found in the literature, in isolation and combined. Seeking to neutralize specific situations of false negative and false positive, some techniques have been proposed as auxiliary contribution of this work. After analyzing the experiments, the results of similarity index between responses indicate the use of the solution to support the correction of essay questions, and may also be applied in the detection of plagiarism and be integrated to a learning management system. Processamento de textos (ComputaÃÃo) TeleinformÃtica string-matching algorithms plagiarism detection. similarity preprocessing texts ENGENHARIAS
10	Metodologia para mapeamento de informações não estruturadas descritas em laudos médicos para uma representação atributo-valor / A methodology for mapping non-structured medical findings to the attribute-value table format Daniel de Faveri Honorato 29 April 2008 (has links) Devido à facilidade com que informações biomédicas em língua natural são registras e armazenadas no formato digital, a recuperação de informações a partir de registros de pacientes nesse formato não estruturado apresenta diversos problemas a serem solucionados. Assim, a extração de informações estruturadas (por exemplo, no formato atributo-valor) a partir de registros não estruturados é um importante problema de pesquisa. Além disso, a representação de registros médicos não estruturados no formato atributo-valor, permite a aplicação de uma grande variedade de métodos de extração de padrões. Para mapear registros médicos não estruturados no formato atributo-valor, propomos uma metodologia que pode ser utilizada para automaticamente (ou semi-automaticamente, com a ajuda de um especialista do domínio) mapear informações médicas de interesse armazenadas nos registros médicos e descritas em linguagem natural em um formato estruturado. Essa metodologia foi implementada em um sistema computacional chamado TP-DISCOVER, o qual gera uma tabela no formato atributo-valor a partir de um conjunto de registros de pacientes (documentos). De modo a identificar entidades importantes no conjunto de documentos, assim como relacionamentos significantes entre essas entidades, propomos uma abordagem de extração de terminologia híbrida (lingüística/estatística) a qual seleciona palavras e frases que aparecem com freqüência acima de um dado limiar por meio da aplicação de medidas estatísticas. A idéia geral dessa abordagem híbrida de extração de terminologia é que documentos especializados são caracterizados por repetir o uso de certas unidades léxicas ou construções morfo-sintáticas. Nosso objetivo é reduzir o esforço despendido na modelagem manual por meio da observação de regularidades no texto e o mapeamento dessas regularidades como nomes de atributos na representação atributo-valor. A metodologia proposta foi avaliada realizando a estruturação automática de uma coleção de 6000 documentos com informações de resultados de exames de Endoscopia Digestiva Alta descritos em língua natural. Os resultados experimentais, os quais podem ser considerados os piores resultados, uma vez que esses resultados poderiam ser muito melhores caso a metodologia for utilizada semi-automaticamente junto com um especialista do domínio, mostram que a metodologia proposta é adequada e permite reduzir o tempo usado pelo especialista para analisar grande quantidade de registros médicos / The information retrieval from text stored in computer-based patient records is an important open-ended research problem, as the ease in which biomedical information recorded and stored in digital form grows. Thus, means to extract structured information (for example, in the so-called attribute-value format) from free-text records is an important research endeavor. Furthermore, by representing the free-text records in the attribute-value format, available pattern extraction methods can be directly applied. To map free-text medical records into the attribute-value format, we propose a methodology that can be used to automatically (or semi-automatically, with the help of a medical expert) map the important medical information stored in patient records which are described in natural language into an structured format. This methodology has been implemented in a computational system called TP-DISCOVER, which generates a database in the attribute-value format from a set of patient records (documents). In order to identify important entities in the set of documents, as well as significant relations among these entities, we propose a hybrid linguistic/statistical terminology extraction approach which filters out words and phrases that appear with a frequency higher than a given threshold by applying statistical measures. The underlying assumption of this hybrid approach to terminology extraction is that specialized documents are characterized by repeated use of certain lexical units or morpho-syntactic constructions. Our goal is to reduce the effort spent in manual modelling by observing regularities in the texts and by mapping them into suitable attribute names in the attribute-value representation format. The proposed methodology was evaluated to automatically structure a collection of 6000 documents which contains High Digestive Endoscopies exams´ results described in natural language. The experimental results, all of which can be considered lower bound results as they would greatly improve in case the methodology is applied semi-automatically together with a medical expert, show that the proposed methodology is suitable to reduce the medical expert workload in analysing large amounts of medical records Extração de terminologia Mineração de textos Pré-processamento de textos Terminology extraction Text mining Text pre-processing

Search results