Global ETD Search

1	[en] DEVELOPMENT OF A METHODOLOGY FOR TEXT MINING / [pt] DESENVOLVIMENTO DE UMA METODOLOGIA PARA MINERAÇÃO DE TEXTOS JOAO RIBEIRO CARRILHO JUNIOR 20 May 2008 (has links) [pt] A seguinte dissertação tem como objetivo explorar a Mineração de Textos através de um estudo amplo e completo do que atualmente é considerado estado da arte. Esta nova área, considerada por muitos como uma evolução natural da Mineração de Dados, é bastante interdisciplinar e vem obtendo importantes colaborações de estudiosos e pesquisadores de diversas naturezas, como Lingüística, Computação, Estatística e Inteligência Artificial. Entretanto, muito se discute sobre como deve ser um processo completo de investigação textual, de forma a tirar máximo proveito das técnicas adotadas nas mais variadas abordagens. Desta forma, através de um encadeamento sistemático de procedimentos, pode-se chegar a uma conclusão do que seria a metodologia ideal para a Mineração de Textos, conforme já se chegou para a de Dados. O presente trabalho explora um modelo de processo, do início ao fim, que sugere as seguintes etapas: coleta de dados, pré-processamento textual, indexação, mineração e análise. Este sequenciamento é uma tendência encontrada em trabalhos recentes, sendo minuciosamente discutido nos capítulos desta dissertação. Finalmente, a fim de se obter enriquecimento prático, foi desenvolvido um sistema de Mineração de Textos que possibilitou a apresentação de resultados reais, obtidos a partir da aplicação de algoritmos em documentos de natureza geral. / [en] The following essay is intended to explore the area of Text Mining, through an extensive and comprehensive study of what is currently considered state of the art. This new area, considered by many as a natural evolution of the Data Mining, is quite interdisciplinary. Several scholars and researchers from fields like linguistics and computing, for instance, have contributed for its development. Nevertheless, much has been discussed on how complete dossier of textual investigation must be carried out, in order to take maximum advantage of the techniques adopted in various approaches. Thus, through a systematic sequence of procedures, one can come to a conclusion of what would be the ideal method for the Mining of documents, as one has come about Data. This work explores a model of process which suggests the following steps: collecting data, textual preprocessing, indexing, mining and analysis. This sequence is a tendency followed in some recent works and it is thoroughly discussed in the chapters to come. Finally, in order to obtain a practical enrichment, one developed a system of Mining of documents with which became possible the presentation of results, obtained from the application of algorithms in documents of a general nature. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] RECUPERACAO DE INFORMACAO [en] INFORMATION RETRIEVAL [pt] MINERACAO DE TEXTOS [en] TEXTS MINING
2	[en] AN AUTOMATIC PREPROCESSING FOR TEXT MINING IN PORTUGUESE: A COMPUTER-AIDED APPROACH / [pt] UMA ABORDAGEM DE PRÉ-PROCESSAMENTO AUTOMÁTICO PARA MINERAÇÃO DE TEXTOS EM PORTUGUÊS: SOB O ENFOQUE DA INTELIGENCIA COMPUTACIONAL CHRISTIAN NUNES ARANHA 25 June 2007 (has links) [pt] O presente trabalho apresenta uma pesquisa onde é proposto um novo modelo de pré-processamento para mineração de textos em português utilizando técnicas de inteligência computacional baseadas em conceitos existentes, como redes neurais, sistemas dinâmicos, e estatística multidimensional. O objetivo dessa tese de doutorado é, portanto, inovar na fase de pré- processamento da mineração de textos, propondo um modelo automático de enriquecimento de dados textuais. Essa abordagem se apresenta como uma extensão do tradicional modelo de conjunto de palavras (bag-of-words), de preocupação mais estatística, e propõe um modelo do tipo conjunto de lexemas (bag-of-lexems) com maior aproveitamento do conteúdo lingüístico do texto em uma abordagem mais computacional, proporcionando resultados mais eficientes. O trabalho é complementado com o desenvolvimento e implementação de um sistema de préprocessamento de textos, que torna automática essa fase do processo de mineração de textos ora proposto. Apesar do objeto principal desta tese ser a etapa de préprocessamento, passaremos, de forma não muito aprofundada, por todas as etapas do processo de mineração de textos com o intuito de fornecer a teoria base completa para o entendimento do processo como um todo. Além de apresentar a teoria de cada etapa, individualmente, é executado um processamento completo (com coleta de dados, indexação, pré-processamento, mineração e pósprocessamento) utilizando nas outras etapas modelos já consagrados na literatura que tiveram sua implementação realizada durante esse trabalho. Ao final são mostradas funcionalidades e algumas aplicações como: classificação de documentos, extração de informações e interface de linguagem natural (ILN). / [en] This work presents a research that proposes a new model of pre-processing for text mining in portuguese using computational intelligence techniques based on existing concepts, such as neural networks, dinamic systems and multidimensional statistics. The object of this doctoral thesis is, therefore, innovation in the pre-processing phase of text-mining, proposing an automatic model for the enrichment of textual data. This approach is presented as an extension of the traditional bag-of-words model, that has a more statistical emphasis, and proposes a bag-of-lexemes model with greater usage of the texts' linguistic content in a more computational approach, providing more efficient results. The work is complemented by the development and implementation of a text pre-processing system that automates this phase of th text mining process as proposed. Despite the object of this thesis being the pre- processing stage, one feels apropriate to describe, in overview, every step of the text mining process in order to provide the basic theory necessary to understand the process as a whole. Beyond presenting the theory of every stage individually, one executes a complete process (with data collection, indexing, pre-processing, mining and postprocessing) using tried-and-true models in all the other stages, which were implemented during the development of this work. At last some functionalities and aplications are shown, such as: document classification, information extraction and natural language interface (NLI). [pt] INTELIGENCIA ARTIFICIAL [en] ARTIFICIAL INTELLIGENCE [pt] PREPROCESSAMENTO [en] PREPROCESSING [pt] MINERACAO DE TEXTOS [en] TEXTS MINING
3	[en] WORD SENSE DESAMBIGUATION IN TEXT MINING / [pt] DESAMBIGUAÇÃO DE SENTIDO DE PALAVRAS DIRIGIDA POR TÉCNICAS DE AGRUPAMENTO SOB O ENFOQUE DA MINERAÇÃO DE TEXTOS ROBERTO MIRANDA GOMES 10 September 2009 (has links) [pt] Esta dissertação investigou a aplicação de processos de mineração de textos a partir de técnicas de inteligência computacional e aprendizado de máquina no problema de ambigüidade de sentido de palavras. O trabalho na área de métodos de apoio à decisão teve como objetivo o desenvolvimento de técnicas capazes de automatizar os processos de desambiguação bem como a construção de um protótipo baseado na implementação de algumas dessas técnicas. Desambiguação de sentido de palavra é o processo de atribuição de um significado a uma palavra obtido por meio de informações colhidas no contexto em que ela ocorre, e um de seus objetivos é mitigar os enganos introduzidos por construções textuais ambíguas, auxiliando assim o processo de tomada de decisão. Buscou-se ainda na utilização de conceitos, ferramentas e formas de documentação considerados em trabalhos anteriores de maneira a dar continuidade ao desenvolvimento científico e deixar um legado mais facilmente reutilizável em trabalhos futuros. Atenção especial foi dada ao processo de detecção de ambigüidades e, por esse motivo, uma abordagem diferenciada foi empregada. Diferente da forma mais comum de desambiguação, onde uma máquina é treinada para desambiguar determinado termo, buscou-se no presente trabalho a nãodependência de se conhecer o termo a ser tratado e assim tornar o sistema mais robusto e genérico. Para isso, foram desenvolvidas heurísticas específicas baseadas em técnicas de inteligência computacional. Os critérios semânticos para identificação de termos ambíguos foram extraídos das técnicas de agrupamento empregadas em léxicos construídos após algum processo de normalização de termos. O protótipo, SID - Sistema Inteligente de Desambiguação - foi desenvolvido em .NET, que permite uma grande diversidade de linguagens no desenvolvimento, o que facilita o reuso do código para a continuidade da pesquisa ou a utilização das técnicas implementadas em alguma aplicação de mineração de textos. A linguagem escolhida foi o C#, pela sua robustez, facilidade e semelhança sintática com JAVA e C++, linguagens amplamente conhecidas e utilizadas pela maioria dos desenvolvedores. / [en] This dissertation investigated the application of text mining process from techniques of computing intelligence and machine learning in the problem of word sense ambiguity. The work in the methods of decision support area aimed to develop techniques capable of doing a word meaning disambiguation automatically and also to construct a prototype based on the application of such techniques. Special attention was given to the process of ambiguity detection and, for this reason, a differentiated approach was used. Unlikely the most common type of disambiguation, in which the machine is trained to do it in determined terms, the present work aimed to address the ambiguity problem without the need of knowing the meaning of the term used, and thus, to make the system more robust and generic. In order to achieve that, specific heurists were developed based on computing intelligence techniques. The semantic criteria used to identify the ambiguous terms were extracted from grouping techniques employed in lexis built after some term normalization process. [pt] INTELIGENCIA COMPUTACIONAL [en] COMPUTATIONAL INTELLIGENCE [pt] MINERACAO DE TEXTOS [en] TEXTS MINING [pt] DESAMBIGUACAO
4	[en] AUTOMATIC TEXT CATEGORIZATION BASED ON TEXT MINING / [pt] CATEGORIZAÇÃO AUTOMÁTICA DE TEXTOS BASEADA EM MINERAÇÃO DE TEXTOS FABIO DE AZEVEDO SOARES 15 July 2014 (has links) [pt] A Categorização de Documentos, uma das tarefas desempenhadas em Mineração de Textos, pode ser descrita como a obtenção de uma função que seja capaz de atribuir a um documento uma categoria a que ele pertença. O principal objetivo de se construir uma taxonomia de documentos é tornar mais fácil a obtenção de informação relevante. Porém, a implementação e a execução de um processo de Categorização de Documentos não é uma tarefa trivial: as ferramentas de Mineração de Textos estão em processo de amadurecimento e ainda, demandam elevado conhecimento técnico para a sua utilização. Além disso, exercendo grande importância em um processo de Mineração de Textos, a linguagem em que os documentos se encontram escritas deve ser tratada com as particularidades do idioma. Contudo há grande carência de ferramentas que forneçam tratamento adequado ao Português do Brasil. Dessa forma, os objetivos principais deste trabalho são pesquisar, propor, implementar e avaliar um framework de Mineração de Textos para a Categorização Automática de Documentos, capaz de auxiliar a execução do processo de descoberta de conhecimento e que ofereça processamento linguístico para o Português do Brasil. / [en] Text Categorization, one of the tasks performed in Text Mining, can be described as the achievement of a function that is able to assign a document to the category, previously defined, to which it belongs. The main goal of building a taxonomy of documents is to make easier obtaining relevant information. However, the implementation and execution of Text Categorization is not a trivial task: Text Mining tools are under development and still require high technical expertise to be handled, also having great significance in a Text Mining process, the language of the documents should be treated with the peculiarities of each idiom. Yet there is great need for tools that provide proper handling to Portuguese of Brazil. Thus, the main aims of this work are to research, propose, implement and evaluate a Text Mining Framework for Automatic Text Categorization, capable of assisting the execution of knowledge discovery process and provides language processing for Brazilian Portuguese. [pt] FRAMEWORK [en] FRAMEWORK [pt] MINERACAO DE TEXTOS [en] TEXTS MINING [pt] PORTUGUES BRASILEIRO [en] BRAZILIAN PORTUGUESE [pt] AUTOMATICA [en] AUTOMATIC [pt] CATEGORIZACAO [en] CATEGORIZATION
5	[en] CLUSTERING TEXT STRUCTURED DATA BASED ON TEXT SIMILARITY / [pt] AGRUPAMENTO DE REGISTROS TEXTUAIS BASEADO EM SIMILARIDADE ENTRE TEXTOS IAN MONTEIRO NUNES 18 February 2016 (has links) [pt] O presente trabalho apresenta os resultados que obtivemos com a aplicação de grande número de modelos e algoritmos em um determinado conjunto de experimentos de agrupamento de texto. O objetivo de tais testes é determinar quais são as melhores abordagens para processar as grandes massas de informação geradas pelas crescentes demandas de data quality em diversos setores da economia. O processo de deduplicação foi acelerado pela divisão dos conjuntos de dados em subconjuntos de itens similares. No melhor cenário possível, cada subconjunto tem em si todas as ocorrências duplicadas de cada registro, o que leva o nível de erro na formação de cada grupo a zero. Todavia, foi determinada uma taxa de tolerância intrínseca de 5 porcento após o agrupamento. Os experimentos mostram que o tempo de processamento é significativamente menor e a taxa de acerto é de até 98,92 porcento. A melhor relação entre acurácia e desempenho é obtida pela aplicação do algoritmo K-Means com um modelo baseado em trigramas. / [en] This document reports our findings on a set of text clusterig experiments, where a wide variety of models and algorithms were applied. The objective of these experiments is to investigate which are the most feasible strategies to process large amounts of information in face of the growing demands on data quality in many fields. The process of deduplication was accelerated through the division of the data set into individual subsets of similar items. In the best case scenario, each subset must contain all duplicates of each produced register, mitigating to zero the cluster s errors. It is established, although, a tolerance of 5 percent after the clustering process. The experiments show that the processing time is significantly lower, showing a 98,92 percent precision. The best accuracy/performance relation is achieved with the K-Means Algorithm using a trigram based model. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] RECUPERACAO DE INFORMACAO [en] INFORMATION RETRIEVAL [pt] MINERACAO DE TEXTOS [en] TEXTS MINING [pt] DEDUPLICACAO
6	[en] TEXT MINING VISUALIZATION FOR REQUIREMENTS EXTRACTION / [pt] VISUALIZAÇÃO DE TEXTO MINERADO PARA EXTRAÇÃO DE REQUISITOS ADILARAIMA MARTINEZ BARRIO 19 August 2020 (has links) [pt] Com os avanços de novas tecnologias de desenvolvimento de software, a mineração de texto tem ganho protagonismo na área de Engenharia de Requisitos (ER), já que a rede (Web) possibilita o acesso a grandes quantidades de informação. A utilização de técnicas de visualização ganha importância nesse sentido, porque permite agilizar a descoberta de conhecimento com visualizações adequadas. Neste trabalho disponibiliza-se uma estratégia para que o engenheiro de requisitos consiga acessar às visualizações desenvolvidas por pesquisas no uso de mineração para elicitação de requisitos. Uma revisão da literatura possibilitou a proposta de classificação de tarefas de mineração e visualizações associadas, especialmente na ER. Esta classificação constitui a base de conhecimento de um software (Biblioteca Digital) que organiza e filtra informações de acordo com a inter-relação entre tarefas e categorias, mostrando as pesquisas que sustentam cada relação. Para a avaliação da estratégia, com foco no software, foi executado uma avaliação que mostra o potencial da abordagem para agilizar a obtenção de conhecimentos por parte do engenheiro de requisitos. / [en] With advances in new technologies available for software development, text mining has grown in importance in the area of Requirements Engineering (ER) due to the availability of large amounts of information on the Web. The use of visualization techniques gains importance in this regard, since it allows the speedup of knowledge discovery with appropriate visualizations. This work provides a strategy for the requirements engineer to gain access, in an organized manner, to results of research in text mining with visualization in ER. For implementation, the classification of mining tasks and the visualizations categories in ER were summarized from the literature. This classification forms the knowledge base of a software (Digital Library) that organizes and filters information according to the interrelation between tasks and categories, showing the research that supports each relationship. For the evaluation of the strategy, with a focus on software, an evaluation was carried out that shows the potential of the approach to expedite the knowledge engineer s requirements. [pt] BIBLIOTECA DIGITAL [pt] ENGENHARIA DE REQUISITOS [pt] MINERACAO DE TEXTOS [pt] VISUALIZACAO [en] DIGITAL LIBRARIES [en] REQUIREMENTS ENGINEERING [en] TEXTS MINING [en] VISUALIZATION
7	[pt] ACELERANDO A ELICITAÇÃO DE REQUISITOS NÃO FUNCIONAIS / [en] SPEEDING UP NON FUNCTIONAL REQUIREMENTS ELICITATION ROXANA LISETTE QUINTANILLA PORTUGAL 14 August 2020 (has links) [pt] Considerando a disponibilidade do Big Data para engenharia de software, como no caso do GitHub, a semi-automação da elicitação de requisitos não funcionais (NFRs) é uma estratégia fundamental para a definição de requisitos. Como tal, a elicitação de NFRs, dentro da automação da leitura de documentos, pode gerenciar a massa de informações valiosas existentes nos dados disponíveis. Esta tese explora esse contexto em três partes, a escolha de fontes apropriadas de informação, uma elicitação de descoberta de fatos e a identificação de NFRs. As avaliações realizadas mostraram que a automação enfrenta um balance entre eficiência e eficácia. Esse equilíbrio é detalhado com diferentes estratégias inovadoras. O conhecimento adquirido é organizado como um catálogo SIG (Softgoal Interdependence Graph). / [en] Considering the availability of Big Data for software engineering, as the case of GitHub, the semi-automation of non-functional requirements (NFRs) elicitation is a key strategy towards requirements definition. As such, NFRs elicitation, within the automation of document reading, can manage the mass of valuable information existing in available data. This thesis explores this context in three parts, the choice of proper sources of information, a fact-finding elicitation, and NFRs identification. The assessments performed showed that the automation faces a trade-off between efficiency and efficacy. This trade-off is detailed with different novel strategies. The acquired knowledge is organized as a SIG (Softgoal Interdependence Graph) catalog. [pt] ELICITACAO DE REQUISITOS [pt] PESQUISA DE FATOS [pt] REUTILIZACAO DE CONHECIMENTO [pt] REQUISITOS NAO FUNCIONAIS [pt] ENGENHARIA DE REQUISITOS [pt] FONTES DE INFORMACAO [pt] MINERACAO DE TEXTOS [en] REQUIREMENTS ELICITATION [en] FACT FINDING [en] KNOWLEDGE REUSE [en] NON FUNCTIONAL REQUIREMENTS [en] REQUIREMENTS ENGINEERING [en] INFORMATION SOURCES [en] TEXTS MINING

1

Page generated in 0.1039 seconds