Global ETD Search

11	Contribuições para a construção de taxonomias de tópicos em domínios restritos utilizando aprendizado estatístico / Contributions to topic taxonomy construction in a specific domain using statistical learning Moura, Maria Fernanda 26 October 2009 (has links) A mineração de textos vem de encontro à realidade atual de se compreender e utilizar grandes massas de dados textuais. Uma forma de auxiliar a compreensão dessas coleções de textos é construir taxonomias de tópicos a partir delas. As taxonomias de tópicos devem organizar esses documentos, preferencialmente em hierarquias, identificando os grupos obtidos por meio de descritores. Construir manual, automática ou semi-automaticamente taxonomias de tópicos de qualidade é uma tarefa nada trivial. Assim, o objetivo deste trabalho é construir taxonomias de tópicos em domínios de conhecimento restrito, por meio de mineração de textos, a fim de auxiliar o especialista no domínio a compreender e organizar os textos. O domínio de conhecimento é restrito para que se possa trabalhar apenas com métodos de aprendizado estatístico não supervisionado sobre representações bag of words dos textos. Essas representações independem do contexto das palavras nos textos e, conseqüentemente, nos domínios. Assim, ao se restringir o domínio espera-se diminuir erros de interpretação dos resultados. A metodologia proposta para a construção de taxonomias de tópicos é uma instanciação do processo de mineração de textos. A cada etapa do processo propôem-se soluções adaptadas às necessidades específicas de construçao de taxonomias de tópicos, dentre as quais algumas contribuições inovadoras ao estado da arte. Particularmente, este trabalho contribui em três frentes no estado da arte: seleção de atributos n-gramas em tarefas de mineração de textos, dois modelos para rotulação de agrupamento hierárquico de documentos e modelo de validação do processo de rotulação de agrupamento hierárquico de documentos. Além dessas contribuições, ocorrem outras em adaptações e metodologias de escolha de processos de seleção de atributos, forma de geração de atributos, visualização das taxonomias e redução das taxonomias obtidas. Finalmente, a metodologia desenvolvida foi aplicada a problemas reais, tendo obtido bons resultados. / Text mining provides powerful techniques to help on the current needs of understanding and organizing huge amounts of textual documents. One way to do this is to build topic taxonomies from these documents. Topic taxonomies can be used to organize the documents, preferably in hierarchies, and to identify groups of related documents and their descriptors. Constructing high quality topic taxonomies, either manually, automatically or semi-automatically, is not a trivial task. This work aims to use text mining techniques to build topic taxonomies for well defined knowledge domains, helping the domain expert to understand and organize document collections. By using well defined knowledge domains, only unsupervised statistical methods are used, with a bag of word representation for textual documents. These representations are independent of the context of the words in the documents as well as in the domain. Thus, if the domain is well defined, a decrease of mistakes of the result interpretation is expected. The proposed methodology for topic taxonomy construction is an instantiation of the text mining process. At each step of the process, some solutions are proposed and adapted to the specific needs of topic taxonomy construction. Among these solutions there are some innovative contributions to the state of the art. Particularly, this work contributes to the state of the art in three different ways: the selection of n-grams attributes in text mining tasks, two models for hierarchical document cluster labeling and a validation model of the hierarchical document cluster labeling. Additional contributions include adaptations and methodologies of attribute selection process choices, attribute representation, taxonomy visualization and obtained taxonomy reduction. Finally, the proposed methodology was also validated by successfully applying it to real problems Hierarchial document cluster labeling Mineração de textos n-gram attribute selection Seleção de atributos n-gramas Taxonomia de tópicos Text mining Topic taxonomy
12	Selecionando candidatos a descritores para agrupamentos hierárquicos de documentos utilizando regras de associação / Selecting candidate labels for hierarchical document clusters using association rules Fabiano Fernandes dos Santos 17 September 2010 (has links) Uma forma de extrair e organizar o conhecimento, que tem recebido muita atenção nos últimos anos, é por meio de uma representação estrutural dividida por tópicos hierarquicamente relacionados. Uma vez construída a estrutura hierárquica, é necessário encontrar descritores para cada um dos grupos obtidos pois a interpretação destes grupos é uma tarefa complexa para o usuário, já que normalmente os algoritmos não apresentam descrições conceituais simples. Os métodos encontrados na literatura consideram cada documento como uma bag-of-words e não exploram explicitamente o relacionamento existente entre os termos dos documento do grupo. No entanto, essas relações podem trazer informações importantes para a decisão dos termos que devem ser escolhidos como descritores dos nós, e poderiam ser representadas por regras de associação. Assim, o objetivo deste trabalho é avaliar a utilização de regras de associação para apoiar a identificação de descritores para agrupamentos hierárquicos. Para isto, foi proposto o método SeCLAR (Selecting Candidate Labels using Association Rules), que explora o uso de regras de associação para a seleção de descritores para agrupamentos hierárquicos de documentos. Este método gera regras de associação baseadas em transações construídas à partir de cada documento da coleção, e utiliza a informação de relacionamento existente entre os grupos do agrupamento hierárquico para selecionar candidatos a descritores. Os resultados da avaliação experimental indicam que é possível obter uma melhora significativa com relação a precisão e a cobertura dos métodos tradicionais / One way to organize knowledge, that has received much attention in recent years, is to create a structural representation divided by hierarchically related topics. Once this structure is built, it is necessary to find labels for each of the obtained clusters, since most algorithms do not produce simple descriptions and the interpretation of these clusters is a difficult task for users. The related works consider each document as a bag-of-words and do not explore explicitly the relationship between the terms of the documents. However, these relationships can provide important information to the decision of the terms that must be chosen as descriptors of the nodes, and could be represented by rass. This works aims to evaluate the use of association rules to support the identification of labels for hierarchical document clusters. Thus, this paper presents the SeCLAR (Selecting Candidate Labels using Association Rules) method, which explores the use of association rules for the selection of good candidates for labels of hierarchical clusters of documents. This method generates association rules based on transactions built from each document in the collection, and uses the information relationship between the nodes of hierarchical clustering to select candidates for labels. The experimental results show that it is possible to obtain a significant improvement with respect to precision and recall of traditional methods Agrupamento hierárquico de documantos Mineração de texto Regras de associação Association rules Hierarchical document clustering Label hierarchical clustering Text mining
13	Contribuições para a construção de taxonomias de tópicos em domínios restritos utilizando aprendizado estatístico / Contributions to topic taxonomy construction in a specific domain using statistical learning Maria Fernanda Moura 26 October 2009 (has links) A mineração de textos vem de encontro à realidade atual de se compreender e utilizar grandes massas de dados textuais. Uma forma de auxiliar a compreensão dessas coleções de textos é construir taxonomias de tópicos a partir delas. As taxonomias de tópicos devem organizar esses documentos, preferencialmente em hierarquias, identificando os grupos obtidos por meio de descritores. Construir manual, automática ou semi-automaticamente taxonomias de tópicos de qualidade é uma tarefa nada trivial. Assim, o objetivo deste trabalho é construir taxonomias de tópicos em domínios de conhecimento restrito, por meio de mineração de textos, a fim de auxiliar o especialista no domínio a compreender e organizar os textos. O domínio de conhecimento é restrito para que se possa trabalhar apenas com métodos de aprendizado estatístico não supervisionado sobre representações bag of words dos textos. Essas representações independem do contexto das palavras nos textos e, conseqüentemente, nos domínios. Assim, ao se restringir o domínio espera-se diminuir erros de interpretação dos resultados. A metodologia proposta para a construção de taxonomias de tópicos é uma instanciação do processo de mineração de textos. A cada etapa do processo propôem-se soluções adaptadas às necessidades específicas de construçao de taxonomias de tópicos, dentre as quais algumas contribuições inovadoras ao estado da arte. Particularmente, este trabalho contribui em três frentes no estado da arte: seleção de atributos n-gramas em tarefas de mineração de textos, dois modelos para rotulação de agrupamento hierárquico de documentos e modelo de validação do processo de rotulação de agrupamento hierárquico de documentos. Além dessas contribuições, ocorrem outras em adaptações e metodologias de escolha de processos de seleção de atributos, forma de geração de atributos, visualização das taxonomias e redução das taxonomias obtidas. Finalmente, a metodologia desenvolvida foi aplicada a problemas reais, tendo obtido bons resultados. / Text mining provides powerful techniques to help on the current needs of understanding and organizing huge amounts of textual documents. One way to do this is to build topic taxonomies from these documents. Topic taxonomies can be used to organize the documents, preferably in hierarchies, and to identify groups of related documents and their descriptors. Constructing high quality topic taxonomies, either manually, automatically or semi-automatically, is not a trivial task. This work aims to use text mining techniques to build topic taxonomies for well defined knowledge domains, helping the domain expert to understand and organize document collections. By using well defined knowledge domains, only unsupervised statistical methods are used, with a bag of word representation for textual documents. These representations are independent of the context of the words in the documents as well as in the domain. Thus, if the domain is well defined, a decrease of mistakes of the result interpretation is expected. The proposed methodology for topic taxonomy construction is an instantiation of the text mining process. At each step of the process, some solutions are proposed and adapted to the specific needs of topic taxonomy construction. Among these solutions there are some innovative contributions to the state of the art. Particularly, this work contributes to the state of the art in three different ways: the selection of n-grams attributes in text mining tasks, two models for hierarchical document cluster labeling and a validation model of the hierarchical document cluster labeling. Additional contributions include adaptations and methodologies of attribute selection process choices, attribute representation, taxonomy visualization and obtained taxonomy reduction. Finally, the proposed methodology was also validated by successfully applying it to real problems Mineração de textos Seleção de atributos n-gramas Taxonomia de tópicos Hierarchial document cluster labeling n-gram attribute selection Text mining Topic taxonomy
14	Tipificação de méis do estado de Sergipe através do perfil químico dos compostos voláteis obtidos por headspace dinâmico seguido por cromatografia em fase gasosa acoplada a espectrometria de massas (CG/EM) Brito, Givanilton 29 February 2012 (has links) Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Among the products of the hive, honey is considered the principal, standing out as natural food and for having multiple pharmacological applications. Honey can be produced by honey bees (Apis mellifera, L.) from the nectar, fruit, plant secretions and excretions of aphids or other sweetened solutions.Their nutritive power, pharmacologic and commercial value depends on its botanical origin, which can be obtained through classical methods as sensory evaluation, physicochemical analyses or melissopalynology. Although, these methods require much experience of the analyst and are costly.In view of the current difficulties in conducting these analyses, methods based on the study of volatile constituents have emerged as an alternative in the search for the source of compound markers of floral honeys. For the identification of these compounds, techniques such as solid in solid phase (SPME) and dynamic headspace (HSD) followed by analysis on gas chromatography coupled to mass spectrometer (GC-MS) are suggested. In this work, different honeyproducing regions in the State of Sergipe were studied, as well as samples of honey originated from other states of Brazil, purchased in local supermarkets. Analyses of volatile components were obtained by dynamic headspace using Porapak Q® and Peat in natura as adsorbent materials. For both, parameters such as amount of sample, salt addition, time and temperature of extractionhave been optimized. Optimization, made possible the identification of 112 different compounds belonging to classes of aliphatic alcohols, aliphatic aldehydes, benzene derivatives, monoterpene hydrocarbons, oxygenated hydrocarbons, norisoprenoids, sesquiterpenes, oxygenated sesquiterpenes, carboxylic acids and others. Among these, a group of senior compounds were studied by principal components analysis and hierarchical cluster analysis. With these analyses was likely to identify the components with biggest weights in the samples and cluster them into five groups with a similarity of 48% based on Euclidean distance. Among the weighty compounds are furfuraldehyde, benzaldehyde, cis-linalool oxide (furanoid), trans-linalool oxide (furanoid), linalool, hotrienol, 4-ketoisoforone, aldehyde lilac (isomer I), cis-linalool oxide (pyranoid) and -terpineol. / Dentre os produtos apícolas o mel é considerado o principal por se destacar como alimento natural e ter várias aplicações farmacológicas, podendo ser produzido por abelhas Apis mellifera a partir do néctar, secreções das plantas e frutos, excreções de afídeos e outras soluções adocicadas. Seu poder nutritivo, farmacológico e valor comercial dependem de sua origem botânica, a qual pode ser obtida através de métodos clássicos como a avaliação sensorial, a melissopalinologia ou análises físico-químicas, porém estes métodos exigem muita experiência do analista e são dispendiosas. Em virtude das dificuldades atuais em realizar essas análises os métodos baseados no estudo dos constituintes voláteis têm surgido como uma alternativa na procura de compostos marcadores da origem floral de méis. Para a identificação destes compostos, técnicas como a microextração em fase sólida (SPME) e headspace dinâmico (HSD) seguido de análise em cromatógrafo em fase gasosa/espectrômetro de massas (CG/EM) são sugeridas. Neste trabalho foram estudados méis de diferentes regiões produtoras do estado de Sergipe, bem como amostras de méis adquiridos em supermercado de Aracaju oriundas de outros estados do Brasil através da análise dos componentes voláteis obtidos por headspace dinâmico utilizando Porapak Q® e Turfa in natura como materiais adsorventes. Para tanto foram otimizados parâmetros como quantidade de amostra, adição de sal, tempo e temperatura de extração. Nas condições otimizadas foi possível identificar 112 diferentes compostos pertencentes às classes dos álcoois alifáticos, benzenóides, aldeídos alifáticos, hidrocarbonetos lineares, monoterpenos, monoterpenos oxigenados, sesquiterpenos, sesquiterpenos oxigenados, norisoprenóides, ácidos carboxílicos e outros. Dentre estes, um grupo de compostos majoritários foram estudados por análise de componentes principais e análise de agrupamento hierárquico. Com estas análises foi possível identificar os componentes de maiores pesos das amostras e agrupá-las em cinco grupos com uma similaridade de 48%, tendo como base a distância Euclidiana. Dentre os compostos de maiores pesos estão o furfural, benzaldeído, cis-óxido de linalol (furanóide), trans-óxido de linalol (furanóide), linalol, hotrienol, 4-ceto-isoforona, lilac aldeído (isômero I), cis-óxido de linalol (piranóide) e o -terpineol. Mel Constituintes voláteis Headspace dinâmico Análise de Componentes Principais (ACP) Análise de agrupamento hierárquico Honey Volatile constituents Dynamic headspace Principal Component Analysis (PCA) Hierarchical clustering analysis

Page generated in 0.0885 seconds