Global ETD Search

381	Understanding the Determinants of Success in Mobile Apps Markets January 2015 (has links) abstract: Mobile applications (Apps) markets with App stores have introduced a new approach to define and sell software applications with access to a large body of heterogeneous consumer population. Several distinctive features of mobile App store markets including – (a) highly heterogeneous consumer preferences and values, (b) high consumer cognitive burden of searching a large selection of similar Apps, and (c) continuously updateable product features and price – present a unique opportunity for IS researchers to investigate theoretically motivated research questions in this area. The aim of this dissertation research is to investigate the key determinants of mobile Apps success in App store markets. The dissertation is organized into three distinct and related studies. First, using the key tenets of product portfolio management theory and theory of economies of scope, this study empirically investigates how sellers’ App portfolio strategies are associated with sales performance over time. Second, the sale performance impacts of App product cues, generated from App product descriptions and offered from market formats, are examined using the theories of market signaling and cue utilization. Third, the role of App updates in stimulating consumer demands in the presence of strong ranking effects is appraised. The findings of this dissertation work highlight the impacts of sellers’ App assortment, strategic product description formulation, and long-term App management with price/feature updates on success in App market. The dissertation studies make key contributions to the IS literature by highlighting three key managerially and theoretically important findings related to mobile Apps: (1) diversification across selling categories is a key driver of high survival probability in the top charts, (2) product cues strategically presented in the descriptions have complementary relationships with market cues in influencing App sales, and (3) continuous quality improvements have long-term effects on App success in the presence of strong ranking effects. / Dissertation/Thesis / Doctoral Dissertation Business Administration 2015 Information technology Economics, Commerce-Business Marketing Econometrics Mobile Applications Product Description Product Portfolio Quality Improvement Text-mining
382	Story Detection Using Generalized Concepts January 2015 (has links) abstract: A major challenge in automated text analysis is that different words are used for related concepts. Analyzing text at the surface level would treat related concepts (i.e. actors, actions, targets, and victims) as different objects, potentially missing common narrative patterns. Generalized concepts are used to overcome this problem. Generalization may result into word sense disambiguation failing to find similarity. This is addressed by taking into account contextual synonyms. Concept discovery based on contextual synonyms reveal information about the semantic roles of the words leading to concepts. Merger engine generalize the concepts so that it can be used as features in learning algorithms. / Dissertation/Thesis / Masters Thesis Computer Science 2015 Computer science Social sciences education Generalized Concepts Hierarchical Merging Machine Learning Natural Language Processing Story Detection Text Mining
383	Análise de Algoritmos de Agrupamento para Base de Dados Textuais / Analysis of the Clustering Algorithms for the Databases Luiz Gonzaga Paula de Almeida 31 August 2008 (has links) O volume crescente de textos digitalmente armazenados torna necessária a construção de ferramentas computacionais que permitam a organização e o acesso eficaz e eficiente à informação e ao conhecimento nele contidos. No campo do conhecimento da biomedicina este problema se torna extremamente relevante, pois a maior parte do conhecimento gerado é formalizada através de artigos científicos e é necessário que o acesso a estes seja o mais fácil e rápido possível. A área de pesquisa conhecida como Mineração de Textos (do inglês Text Mining), se propõe a enfrentar este problema ao procurar identificar novas informações e conhecimentos até então desconhecidos, em bases de dados textuais. Uma de suas tarefas é a descoberta de grupos de textos correlatos em base de dados textuais e esse problema é conhecido como agrupamento de textos (do inglês Text Clustering). Para este fim, a representação das bases de dados textuais comumente utilizada no agrupamento de textos é o Modelo Espaço-vetorial, no qual cada texto é representado por um vetor de características, que são as freqüências das palavras ou termos que nele ocorrem. O conjunto de vetores forma uma matriz denominada de documento-termo, que é esparsa e de alta dimensionalidade. Para atenuar os problemas decorrentes dessas características, normalmente é selecionado um subconjunto de termos, construindo-se assim uma nova matriz documento-termo com um número reduzido de dimensões que é então utilizada nos algoritmos de agrupamento. Este trabalho se desdobra em: i) introdução e implementação de dois algoritmos para seleção de termos e ii) avaliação dos algoritmos k-means, espectral e de particionamento de grafos, em cinco base de dados de textos previamente classificadas. As bases de dados são pré-processadas através de métodos descritos na literatura, produzindo-se as matrizes documento-termo. Os resultados indicam que os algoritmos de seleção propostos, para a redução das matrizes documento-termo, melhoram o desempenho dos algoritmos de agrupamento avaliados. Os algoritmos k-means e espectral têm um desempenho superior ao algoritmos de particionamento de grafos no agrupamento de bases de dados textuais, com ou sem a seleção de características. / The increasing amount of digitally stored texts makes necessary the development of computational tools to allow the access of information and knowledge in an efficient and efficacious manner. This problem is extremely relevant in biomedicine research, since most of the generated knowledge is translated into scientific articles and it is necessary to have the most easy and fast access. The research field known as Text Mining deals with the problem of identifying new information and knowledge in text databases. One of its tasks is to find in databases groups of texts that are correlated, an issue known as text clustering. To allow clustering, text databases must be transformed into the commonly used Vector Space Model, in which texts are represented by vectors composed by the frequency of occurrence of words and terms present in the databases. The set of vectors composing a matrix named document-term is usually sparse with high dimension. Normally, to attenuate the problems caused by these features, a subset of terms is selected, thus giving rise a new document-term matrix with reduced dimensions, which is then used by clustering algorithms. This work presents two algorithms for terms selection and the evaluation of clustering algorithms: k-means, spectral and graph portioning, in five pre-classified databases. The databases were pre-processed by previously described methods. The results indicate that the term selection algorithms implemented increased the performance of the clustering algorithms used and that the k-means and spectral algorithms outperformed the graph portioning. Análise por agrupamento COMPUTABILIDADE E MODELOS DE COMPUTACAO Seleção de características Mineração de textos Clustering analysis Feature selection Text mining COMPUTABILIDADE E MODELOS DE COMPUTACAO
384	Análise de dados por meio de agrupamento fuzzy semi-supervisionado e mineração de textos / Data analysis using semisupervised fuzzy clustering and text mining Debora Maria Rossi de Medeiros 08 December 2010 (has links) Esta Tese apresenta um conjunto de técnicas propostas com o objetivo de aprimorar processos de Agrupamento de Dados (AD). O principal objetivo é fornecer à comunidade científica um ferramental para uma análise completa de estruturas implícitas em conjuntos de dados, desde a descoberta dessas estruturas, permitindo o emprego de conhecimento prévio sobre os dados, até a análise de seu significado no contexto em que eles estão inseridos. São dois os pontos principais desse ferramental. O primeiro se trata do algoritmo para AD fuzzy semi-supervisionado SSL+P e sua evolução SSL+P, capazes de levar em consideração o conhecimento prévio disponível sobre os dados em duas formas: rótulos e níveis de proximidade de pares de exemplos, aqui denominados Dicas de Conhecimento Prévio (DCPs). Esses algoritmos também permitem que a métrica de distância seja ajustada aos dados e às DCPs. O algoritmo SSL+P também busca estimar o número ideal de clusters para uma determinada base de dados, levando em conta as DCPs disponíveis. Os algoritmos SSL+P e SSL+P* envolvem a minimização de uma função objetivo por meio de um algoritmo de Otimização Baseado em População (OBP). Esta Tese também fornece ferramentas que podem ser utilizadas diretamente neste ponto: as duas versões modificadas do algoritmo Particle Swarm Optimization (PSO), DPSO-1 e DPSO-2 e 4 formas de inicialização de uma população inicial de soluções. O segundo ponto principal do ferramental proposto nesta Tese diz respeito à análise de clusters resultantes de um processo de AD aplicado a uma base de dados de um domínio específico. É proposta uma abordagem baseada em Mineração de Textos (MT) para a busca em informações textuais, disponibilizadas digitalmente e relacionadas com as entidades representadas nos dados. Em seguida, é fornecido ao pesquisador um conjunto de palavras associadas a cada cluster, que podem sugerir informações que ajudem a identificar as relações compartilhadas por exemplos atribuídos ao mesmo cluster / This Thesis presents a whole set of techniques designed to improve the data clustering proccess. The main goal is to provide to the scientific community a tool set for a complete analyses of the implicit structures in datasets, from the identification of these structures, allowing the use of previous knowledge about the data, to the analysis of its meaning in their context. There are two main points involved in that tool set. The first one is the semi-supervised clustering algorithm SSL+P and its upgraded version SSL+P, which are able of take into account the available knowlegdge about de data in two forms: class labels and pairwise proximity levels, both refered here as hints. These algorithms are also capable of adapting the distance metric to the data and the available hints. The SSL+P algorithm searches the ideal number of clusters for a dataset, considering the available hints. Both SSL+P and SSL+P* techniques involve the minimization of an objective function by a Population-based Optimization algorithm (PBO). This Thesis also provides tools that can be directly employed in this area: the two modified versions of the Particle Swarm Optimization algorithm (PSO), DPSO-1 and DPSO-2, and 4 diferent methods for initializing a population of solutions. The second main point of the tool set proposed by this Thesis regards the analysis of clusters resulting from a clustering process applied to a domain specific dataset. A Text Mining based approach is proposed to search for textual information related to the entities represented by the data, available in digital repositories. Next, a set of words associated with each cluster is presented to the researcher, which can suggest information that can support the identification of relations shared by objects assigned to the same cluster Agrupamento fuzzy semi-supervisionado Mineração de textos Otimização baseada em população Population-based optimization Semisupervised fuzzy clustering Text mining
385	Refinamento interativo de mapas de documentos apoiado por extração de tópicos / Interactive refinement of document maps supported by topic extraction Renato Rodrigues Oliveira da Silva 15 December 2010 (has links) Mapas de documentos são representações visuais que permitem analisar de forma eficiente diversas relações entre documentos de uma coleção. Técnicas de projeção multidimensional podem ser empregadas para criar mapas que refletem a similaridade de conteúdo, favorecendo a identificação de agrupamentos com conteúdo similar. Este trabalho aborda uma evolução do arcabouço genérico oferecido pelas projeções multidimensionais para apoiar a análise interativa de documentos textuais, implementado na plataforma PEx. Foram propostas e implementadas técnicas que permitem ao usuário interagir com o mapa de documentos utilizando tópicos extraídos do próprio corpus. Assim a representação visual pode gradualmente evoluir para refletir melhor os interesses do usuário, e apoiá-lo de maneira mais efetiva em tarefas exploratórias. A interação foi avaliada utilizando uma técnica de inspeção de usabilidade, que visa identificar os principais problemas enfrentados pelos usuários ao interagir com as funcionalidades desenvolvidas. Adicionalmente, a utilidade das funcionalidades foi avaliada pela condução de dois estudos de caso, em que foram definidas tarefas a serem conduzidas pelo usuário sobre os mapas de documentos. Os resultados mostram que com o auxílio das visualizações foi possível conduzir as tarefas satisfatoriamente, permitindo manipular de forma eficiente milhares de documentos sem a necessidade de ler individualmente cada texto / Content-based document maps are visualizations that help users to identify and explore relationships among documents in a collection. Multidimensional projection techniques have been employed to create similaritybased maps that can help identifying documents of similar content. This work aims to enhance the generic framework offered by the multidimensional projection techniques in the PEx visualization platform to support interactive analysis of textual data. Several interaction functions and visual representations have been proposed and implemented that allow users to interact with document maps aided by topics automatically extracted from the corpus. By exploring the topics and maps in an integrated manner, users can refine and evolve the visual representations gradually to better reflect their needs and interests, enhancing support to exploratory tasks. The proposed interaction functions were evaluated employing a usability inspection technique, seeking to detect interface problems. Moreover, two illustrative case studies were conducted to evaluate the usefulness of the proposed interactions, based on typical user tasks defined over different document collections. They illustrate how the developed visualizations can assist the proposed tasks, allowing users to interactively explore large document corpora and refine document maps Análise de textos Extração de tópicos Mineração visual de textos Visualização de documentos Document visualization Text analysis Topic extraction Visual text mining
386	Previsão de epidemias através do Twitter Almeida, Hélder Nunes de 31 March 2016 (has links) Submitted by Jean Medeiros (jeanletras@uepb.edu.br) on 2017-04-06T15:00:32Z No. of bitstreams: 1 PDF - Hélder Nunes de Almeida.pdf: 11867778 bytes, checksum: 7ee210c2741438c4c1ca9bb65b9a0cc6 (MD5) / Approved for entry into archive by Secta BC (secta.csu.bc@uepb.edu.br) on 2017-07-20T11:33:59Z (GMT) No. of bitstreams: 1 PDF - Hélder Nunes de Almeida.pdf: 11867778 bytes, checksum: 7ee210c2741438c4c1ca9bb65b9a0cc6 (MD5) / Made available in DSpace on 2017-07-20T11:34:00Z (GMT). No. of bitstreams: 1 PDF - Hélder Nunes de Almeida.pdf: 11867778 bytes, checksum: 7ee210c2741438c4c1ca9bb65b9a0cc6 (MD5) Previous issue date: 2016-03-31 / Aiming at better management of resources and democratization of health services, the DATASUS offers a database with information relevant to the quantification and evaluation of health information. However, one difficulty is that not always the data obtained through official channels are made available in a timely manner and often are only available when an epidemic is out of control, not giving time to preventive measures of public agencies. In this context there is a need to investigate other methods that allow the collection and analysis of data to facilitate the dissemination of information required for preventive actions in health. Therefore, the main objective of this dissertation is to propose a methodology for analysis of epidemics from the social network Twitter. To do this, we conducted a study in which we sought to identify suspected cases of Chikungunya fever in Brazil from the symptoms reported by users on the social network. Then, with the use of text mining techniques were checked 258,707 tweets with any symptoms of the disease during the period from 15 August 2015 to 31 January 2016. The results show a high correlation between the cases verified in the social network with the cases notified by the Secretariat of health surveillance, which indicates that the social network of Twitter can be used as a means for analysis and prediction of epidemics. In this way, we can also conclude that the symptoms can be used as a parameter for detection of outbreaks of the epidemic. / Visando uma melhor gestão dos recursos e democratização dos serviços de saúde, o DATASUS disponibiliza de uma base de dados com informações relevantes para a quantificação e a avaliação das informações em saúde. Porém, uma dificuldade encontrada é que nem sempre os dados obtidos pelos meios oficiais são disponibilizados em tempo hábil e muitas vezes só são disponibilizados quando uma epidemia já se encontra fora de controle, não dando tempo para medidas de prevenção dos órgãos públicos. Nesse contexto existe a necessidade de investigar outros métodos que possibilitem a obtenção e análise de dados para a disseminação de informações necessárias às ações preventivas em saúde. Portanto, o objetivo principal dessa dissertação é propor uma metodologia para análise de epidemias a partir da rede social Twitter. Para isso, foi realizado um estudo de caso no qual buscou-se identificar os casos suspeitos de febre Chikungunya no Brasil a partir dos sintomas relatados pelos usuários na rede social. Então, com o uso de técnicas de mineração de texto foram verificados 258.707 tweets com algum sintoma da doença, durante o período de 15 de agosto de 2015 a 31 de janeiro de 2016. Os resultados mostram uma alta correlação entre os casos verificados na rede social com os casos notificados pela Secretaria de Vigilância em Saúde, o que indica que a rede social do Twitter pode ser utilizada como meio para análise e previsão de epidemias. Desse modo, também podemos concluir que os sintomas podem ser utilizados como parâmetro para detecção de focos da epidemia. Febre Chikungunya Ações preventivas Mineração de texto Epidemias Redes sociais Social networks Text mining Chikungunya CIENCIAS DA SAUDE::MEDICINA
387	Abordagem simbólica de aprendizado de máquina na recuperação automática de artigos científicos a partir de web / Symbolic approach of machine learning in the scientific article automatic recovery from the web Christiane Regina Soares Brasil 07 April 2006 (has links) Atualmente, devido ao incessante aumento dos documentos científicos disponíveis na rede mundial de computadores, as ferrametas de busca tornaram-se um importante auxílio para recuperação de informação a partir da Internet em todas as áreas de conhecimento para pesquisadores e usuários. Entretanto, as atuais ferramentas de busca disponíveis selecionam uma enorme lista de páginas, cabendo ao usuário a tarefa final de escolher aquelas que realmente são relevantes a sua pesquisa. Assim, é importante o desenvolvimento de técnicas e ferramentas que não apenas retornem uma lista de possíveis documentos relacionados com a consulta apresentada pelo usuário, mas que organizem essa informação de acordo com o conteúdo de tais documentos, e apresentem o resultado da busca em uma representação gráfica que auxilie a exploração e o entendimento geral dos documentos recuperados. Neste contexto, foi proposto o projeto de uma Ferramenta Inteligente de Apoio à Pesquisa (FIP), do qual este trabalho é parte. O objetivo deste trabalho é analisar estratégias de recuperação automática de artigos científicos sobre uma determinada área de pesquisa a partir da Web, que poderá ser adotada pelo módulo de recuperação da FIP. Neste trabalho são considerados artigos escritos em inglês, no formato PDF, abrangendo as áreas da Ciência da Computação. Corpora de treino e teste foram usados para avaliação das abordagens simbólicas de Aprendizado de Máquina na indução de regras que poderão ser inseridas em um crawler inteligente para recuperação automática de artigos dessas áreas. Diversos experimentos foram executados para definir parâmetros de pré-processamento apropriados ao domínio, bem como para definir a melhor estratégia de aplicação das regras induzidas e do melhor algoritmo simbólico de indução. / Today, due to the increase of scientific documents available on the World Wide Web, search tools have become an important aid for information retrieval from the Internet in all fields of knowledge for researchers and users. However, the search tools currently available, in general, select a huge list of pages leaving the user with the final task of choosing those pages that actually fit its research. It is important to develop techniques and tools that return a list of documents related to the query made by the user in accordance with the content of such documents, and then present the result in a meaningful graphical representation with the aim to improve the exploration and understanding of the retrieved articles. In this context, a project of an Intelligent Tool for Research Supporting (FIP) was proposed. This MSc work is part of this project. The objective of this work is to analyze strategies of automatic scientific article retrieval on a specific field from the Web. Such strategy must fit the requirements of the retrieval module of the FIP. In this work articles written in English, in PDF format, covering the fields of Computer Science were considered. Corpora of training and testing were used to evaluate the symbolic approaches of Machine Learning in the induction of rules. These rules could be imbedded in an intelligent crawler for automatic retrieving of the articles in the chosen fields. Several experiments have been carried out in order to define parameters as attribute weights, cut-off point, stopwords in the corpora domain, a better strategy to apply the rules for the categorization of the articles and a better symbolic algorithm to induce the rules Aprendizado de máquina Mineração de texto Mineração na web Recuperação de informação Information retrieval Machine learning Text mining Web mining
388	Evidence-based software engineering: systematic literature review process based on visual text mining / Engenharia de software baseada em evidências: processo de revisão sistemática de literatura baseado em mineração visual de texto Katia Romero Felizardo Scannavino 15 May 2012 (has links) Context: Systematic literature review (SLR) is a methodology used to aggregate all relevant evidence of a specific research question. One of the activities associated with the SLR process is the selection of primary studies. The process used to select primary studies can be arduous, particularly when the researcher faces large volumes of primary studies. Another activity associated with an SLR is the presentation of results of the primary studies that meet the SLR purpose. The results are generally summarized in tables and an alternative to reduce the time consumed to understand the data is the use of graphic representations. Systematic mapping (SM) is a more open form of SLR used to build a classification and categorization scheme of a field of interest. The categorization and classification activities in SM are not trivial tasks, since they require manual effort and domain of knowledge by reviewers to achieve adequate results. Although clearly crucial, both SLR and SM processes are time-consuming and most activities are manually conducted. Objective: The aim of this research is to use Visual Text Mining (VTM) to support different activities of SLR and SM processes, e.g., support the selection of primary studies, the presentation of results of an SLR and the categorization and classification of an SM. Method: Extensions to the SLR and SM processes based on VTM were proposed. A series of case studies were conducted to demonstrate the usefulness of the VTM techniques in the selection, review, presentation of results and categorization context. Results: The findings have showed that the application of VTM is promising in terms of providing positive support to the study selection activity and that visual representations of SLR data have led to a reduction in the time taken for their analysis, with no loss of data comprehensibility. The application of VTM is relevant also in the context of SM. Conclusions: VTM techniques can be successfully employed to assist the SLR and SM processes / Contexto: Revisão Sistemática (RS) é uma metodologia utilizada para reunir evidências sobre uma quest~ao de pesquisa específica. Uma das atividades associadas à RS é a seleção de estudos primários. Quando o pesquisador se depara com grandes volumes de estudos, torna-se difícil selecionar artigos relevantes para uma análise mais aprofundada. Outra atividade associada à RS é a apresentação dos resultados dos estudos primários que atendem aos propósitos da RS. Os resultados são geralmente resumidos em tabelas e uma alternativa para reduzir o tempo consumido para entender os dados é o uso de representações gráficas. Mapeamento sistemático (MS) é uma forma mais aberta de RS, usado para construir um esquema de classificação e categorização sobre uma área de interesse. As atividades de categorização e classificação no MS não são tarefas triviais, pois exigem um esforço manual e conhecimento do domínio por parte dos revisores para a geração de resultados adequados. Embora relevantes, ambos os processos de RS e MS são demorados e muita das atividades são realizadas manualmente. Objetivo: O objetivo desta pesquisa é a utilização de Mineração Visual de Texto (VTM) para apoiar as diferentes atividades dos processos de RS e MS como, por exemplo, suporte à seleção de estudos primários, apresentação de resultados de RSs e a categorização e classificação em MSs. Métodos: Foram propostas extensões para os processos de RS e MS com base em VTM. Uma série de estudos de caso foram realizados para demonstrar a utilidade de técnicas VTM no contexto de seleção, revisão, apresentação de resultados e categorização. Resultados: Os resultados mostraram que a aplicação de VTM é promissora em termos de apoio positivo para a atividade de seleção de estudos primários e que o uso de representações visuais para apresentar resultados de RSs leva a uma redução do tempo necessário para sua análise, sem perda de compreensão de dados. A aplicação da VTM é relevante também no contexto da MS. Conclus~oes: Técnicas VTM podem ser empregadas com sucesso para ajudar nos processos de RS e MS Estudo secundário Revisão sistemática de literatura Secondary study Systematic leterature review Systematic mapping Visual text mining
389	O efeito do uso de diferentes formas de extração de termos na compreensibilidade e representatividade dos termos em coleções textuais na língua portuguesa / The effect of using different forms of terms extraction on its comprehensibility and representability in Portuguese textual domains Merley da Silva Conrado 10 September 2009 (has links) A extração de termos em coleções textuais, que é uma atividade da etapa de Pré-Processamento da Mineração de Textos, pode ser empregada para diversos fins nos processos de extração de conhecimento. Esses termos devem ser cuidadosamente extraídos, uma vez que os resultados de todo o processo dependerão, em grande parte, da \"qualidade\" dos termos obtidos. A \"qualidade\" dos termos, neste trabalho, abrange tanto a representatividade dos termos no domínio em questão como sua compreensibilidade. Tendo em vista sua importância, neste trabalho, avaliou-se o efeito do uso de diferentes técnicas de simplificação de termos na compreensibilidade e representatividade dos termos em coleções textuais na Língua Portuguesa. Os termos foram extraídos seguindo os passos da metodologia apresentada neste trabalho e as técnicas utilizadas durante essa atividade de extração foram a radicalização, lematização e substantivação. Para apoiar tal metodologia, foi desenvolvida uma ferramenta, a ExtraT (Ferramenta para Extração de Termos). Visando garantir a \"qualidade\" dos termos extraídos, os mesmos são avaliados objetiva e subjetivamente. As avaliações subjetivas, ou seja, com o auxílio de especialistas do domínio em questão, abrangem a representatividade dos termos em seus respectivos documentos, a compreensibilidade dos termos obtidos ao utilizar cada técnica e a preferência geral subjetiva dos especialistas em cada técnica. As avaliações objetivas, que são auxiliadas por uma ferramenta desenvolvida (a TaxEM - Taxonomia em XML da Embrapa), levam em consideração a quantidade de termos extraídos por cada técnica, além de abranger tambéem a representatividade dos termos extraídos a partir de cada técnica em relação aos seus respectivos documentos. Essa avaliação objetiva da representatividade dos termos utiliza como suporte a medida CTW (Context Term Weight). Oito coleções de textos reais do domínio de agronegócio foram utilizadas na avaliaçao experimental. Como resultado foram indicadas algumas das características positivas e negativas da utilização das técnicas de simplificação de termos, mostrando que a escolha pelo uso de alguma dessas técnicas para o domínio em questão depende do objetivo principal pré-estabelecido, que pode ser desde a necessidade de se ter termos compreensíveis para o usuário até a necessidade de se trabalhar com uma menor quantidade de termos / The task of term extraction in textual domains, which is a subtask of the text pre-processing in Text Mining, can be used for many purposes in knowledge extraction processes. These terms must be carefully extracted since their quality will have a high impact in the results. In this work, the quality of these terms involves both representativity in the specific domain and comprehensibility. Considering this high importance, in this work the effects produced in the comprehensibility and representativity of terms were evaluated when different term simplification techniques are utilized in text collections in Portuguese. The term extraction process follows the methodology presented in this work and the techniques used were radicalization, lematization and substantivation. To support this metodology, a term extraction tool was developed and is presented as ExtraT. In order to guarantee the quality of the extracted terms, they were evaluated in an objective and subjective way. The subjective evaluations, assisted by domain specialists, analyze the representativity of the terms in related documents, the comprehensibility of the terms with each technique, and the specialist\'s opinion. The objective evaluations, which are assisted by TaxEM and by Thesagro (National Agricultural Thesaurus), consider the number of extracted terms by each technique and their representativity in the related documents. This objective evaluation of the representativity uses the CTW measure (Context Term Weight) as support. Eight real collections of the agronomy domain were used in the experimental evaluation. As a result, some positive and negative characteristics of each techniques were pointed out, showing that the best technique selection for this domain depends on the main pre-established goal, which can involve obtaining better comprehensibility terms for the user or reducing the quantity of extracted terms Extração de termos Lematização Mineração de textos Pré-processamento Radicalização Substantivação Lemmatization Pre-processing Stemming Substantivation Term extraction Text mining
390	Concept Based Knowledge Discovery from Biomedical Literature Radovanovic, Aleksandar. January 2009 (has links) Philosophiae Doctor - PhD / This thesis describes and introduces novel methods for knowledge discovery and presents a software system that is able to extract information from biomedical literature, review interesting connections between various biomedical concepts and in so doing, generates new hypotheses. The experimental results obtained by using methods described in this thesis, are compared to currently published results obtained by other methods and a number of case studies are described. This thesis shows how the technology, resented can be integrated with the researchers own knowledge, experimentation and observations for optimal progression of scientific research. / South Africa Bioinformatics Text mining PubMed Entity recognition Information extraction Relation Extraction Levenshtein distance Supervised classification Natural Language Processing Machine learning

Search results