Global ETD Search

21	BOOKISH: Uma ferramenta para contextualização de documentos utilizando mineração de textos e expansão de consulta / BOOKISH: A tool for background documents using text mining and query expansion SILVA, Luciana Oliveira e 14 August 2009 (has links) Made available in DSpace on 2014-07-29T14:57:51Z (GMT). No. of bitstreams: 1 dissertacao Luciana Oliveira.pdf: 4515929 bytes, checksum: 79519bd2538c588dba8b9d903a04d8f4 (MD5) Previous issue date: 2009-08-14 / The continuous development of technology and its dissemination in all domains have caused significant changes in society and in education. The new global society demands new skills and provides an opportunity to introduce new technologies into the educational process, improving traditional education systems. The focus should be on the search for information, significant research, and on the development of projects, rather than on the pure transmission of content. When delivering a lecture about a given content, teachers often provide additional sources that will help students deepen their understanding of the subject and carry out activities. Furthermore, it is desirable to have proactive students, capable of interpreting and identifying other sources of information that complement and expand the subject being studied. However, one of the challenges today is information overload - there are many documents available and few effective ways to treat them. Every day, large numbers of documents are stored and made available. These documents contain a lot of relevant information. However finding that knowledge is a difficult task. The BOOKISH system, proposed in this work, assists students in their search activity. Analyzing PowerPoint slide presentations, the tool identifies contextually similar electronic documents, minimizing the time spent in searching for additional relevant material and directing the student to the content he needs. The tool presented in this document uses text mining techniques and automatic query expansion. / O contínuo desenvolvimento da tecnologia e sua disseminação em todas as áreas têm provocado mudanças significativas na sociedade e na educação. É preciso buscar a formação necessária às novas competências do mundo globalizado e considerar que o momento proporciona uma oportunidade de aproximar novas tecnologias ao processo educativo como possibilidade de melhorar os sistemas de ensino tradicionais. O foco deve ser a busca da informação significativa e da pesquisa, o desenvolvimento de projetos e não predominantemente a simples transmissão de conteúdo. Ao ministrar conteúdo de determinada disciplina, o professor muitas vezes disponibiliza fontes complementares que ajudam na compreensão do tema e auxiliam os alunos na execução de atividades. Já o aluno, dentro de uma abordagem pró-ativa, deve ser capaz de interpretar e identificar outras fontes que melhor complementem e expandam assunto. No entanto, um dos desafios atuais é a sobrecarga de informação - são muitos documentos à disposição e poucas formas eficientes de tratá-los. O sistema BOOKISH, proposto neste trabalho, busca auxiliar os alunos na atividade de identificar e filtrar informações relevantes e dentro do contexto que está sendo estudado em sala de aula. A partir de apresentações em forma de slides disponibilizados pelos professores, a ferramenta identifica documentos eletrônicos contextualmente semelhantes e os disponibiliza para os alunos. É objetivo minimizar o tempo gasto nas atividades de busca por material complementar relevante e direcionar o aluno para o conteúdo do qual necessita. A ferramenta apresentada neste trabalho utiliza técnicas de mineração de textos e expansão automática de consultas com esta finalidade. Mineração de Textos Expansão de Consulta Text Mining Query Expansion
22	O efeito do uso de diferentes formas de extração de termos na compreensibilidade e representatividade dos termos em coleções textuais na língua portuguesa / The effect of using different forms of terms extraction on its comprehensibility and representability in Portuguese textual domains Conrado, Merley da Silva 10 September 2009 (has links) A extração de termos em coleções textuais, que é uma atividade da etapa de Pré-Processamento da Mineração de Textos, pode ser empregada para diversos fins nos processos de extração de conhecimento. Esses termos devem ser cuidadosamente extraídos, uma vez que os resultados de todo o processo dependerão, em grande parte, da \"qualidade\" dos termos obtidos. A \"qualidade\" dos termos, neste trabalho, abrange tanto a representatividade dos termos no domínio em questão como sua compreensibilidade. Tendo em vista sua importância, neste trabalho, avaliou-se o efeito do uso de diferentes técnicas de simplificação de termos na compreensibilidade e representatividade dos termos em coleções textuais na Língua Portuguesa. Os termos foram extraídos seguindo os passos da metodologia apresentada neste trabalho e as técnicas utilizadas durante essa atividade de extração foram a radicalização, lematização e substantivação. Para apoiar tal metodologia, foi desenvolvida uma ferramenta, a ExtraT (Ferramenta para Extração de Termos). Visando garantir a \"qualidade\" dos termos extraídos, os mesmos são avaliados objetiva e subjetivamente. As avaliações subjetivas, ou seja, com o auxílio de especialistas do domínio em questão, abrangem a representatividade dos termos em seus respectivos documentos, a compreensibilidade dos termos obtidos ao utilizar cada técnica e a preferência geral subjetiva dos especialistas em cada técnica. As avaliações objetivas, que são auxiliadas por uma ferramenta desenvolvida (a TaxEM - Taxonomia em XML da Embrapa), levam em consideração a quantidade de termos extraídos por cada técnica, além de abranger tambéem a representatividade dos termos extraídos a partir de cada técnica em relação aos seus respectivos documentos. Essa avaliação objetiva da representatividade dos termos utiliza como suporte a medida CTW (Context Term Weight). Oito coleções de textos reais do domínio de agronegócio foram utilizadas na avaliaçao experimental. Como resultado foram indicadas algumas das características positivas e negativas da utilização das técnicas de simplificação de termos, mostrando que a escolha pelo uso de alguma dessas técnicas para o domínio em questão depende do objetivo principal pré-estabelecido, que pode ser desde a necessidade de se ter termos compreensíveis para o usuário até a necessidade de se trabalhar com uma menor quantidade de termos / The task of term extraction in textual domains, which is a subtask of the text pre-processing in Text Mining, can be used for many purposes in knowledge extraction processes. These terms must be carefully extracted since their quality will have a high impact in the results. In this work, the quality of these terms involves both representativity in the specific domain and comprehensibility. Considering this high importance, in this work the effects produced in the comprehensibility and representativity of terms were evaluated when different term simplification techniques are utilized in text collections in Portuguese. The term extraction process follows the methodology presented in this work and the techniques used were radicalization, lematization and substantivation. To support this metodology, a term extraction tool was developed and is presented as ExtraT. In order to guarantee the quality of the extracted terms, they were evaluated in an objective and subjective way. The subjective evaluations, assisted by domain specialists, analyze the representativity of the terms in related documents, the comprehensibility of the terms with each technique, and the specialist\'s opinion. The objective evaluations, which are assisted by TaxEM and by Thesagro (National Agricultural Thesaurus), consider the number of extracted terms by each technique and their representativity in the related documents. This objective evaluation of the representativity uses the CTW measure (Context Term Weight) as support. Eight real collections of the agronomy domain were used in the experimental evaluation. As a result, some positive and negative characteristics of each techniques were pointed out, showing that the best technique selection for this domain depends on the main pre-established goal, which can involve obtaining better comprehensibility terms for the user or reducing the quantity of extracted terms Extração de termos Lematização Lemmatization Mineração de textos Pré-processamento Pre-processing Radicalização Stemming Substantivação Substantivation Term extraction Text mining
23	Extração de informação contextual utilizando mineração de textos para sistemas de recomendação sensíveis ao contexto / Contextual information extraction using text mining for recommendation systems context sensitive Sundermann, Camila Vaccari 20 March 2015 (has links) Com a grande variedade de produtos e serviços disponíveis na Web, os usuários possuem, em geral, muita liberdade de escolha, o que poderia ser considerado uma vantagem se não fosse pela dificuldade encontrada em escolher o produto ou serviço que mais atenda a suas necessidades dentro do vasto conjunto de opções disponíveis. Sistemas de recomendação são sistemas que têm como objetivo auxiliar esses usuários a identificarem itens de interesse em um conjunto de opções. A maioria das abordagens de sistemas de recomendação foca em recomendar itens mais relevantes para usuários individuais, não levando em consideração o contexto dos usuários. Porém, em muitas aplicações é importante também considerar informações contextuais para fazer as recomendações. Por exemplo, um usuário pode desejar assistir um filme com a sua namorada no sábado à noite ou com os seus amigos durante um dia de semana, e uma locadora de filmes na Web pode recomendar diferentes tipos de filmes para este usuário dependendo do contexto no qual este se encontra. Um grande desafio para o uso de sistemas de recomendação sensíveis ao contexto é a falta de métodos para aquisição automática de informação contextual para estes sistemas. Diante desse cenário, neste trabalho é proposto um método para extrair informações contextuais do conteúdo de páginas Web que consiste em construir hierarquias de tópicos do conteúdo textual das páginas considerando, além da bag-of-words tradicional (informação técnica), também informações mais valiosas dos textos como entidades nomeadas e termos do domínio (informação privilegiada). Os tópicos extraídos das hierarquias das páginas Web são utilizados como informações de contexto em sistemas de recomendação sensíveis ao contexto. Neste trabalho foram realizados experimentos para avaliação do contexto extraído pelo método proposto em que foram considerados dois baselines: um sistema de recomendação que não considera informação de contexto e um método da literatura de extração de contexto implementado e adaptado para este mestrado. Além disso, foram utilizadas duas bases de dados. Os resultados obtidos foram, de forma geral, muito bons apresentando ganhos significativos sobre o baseline sem contexto. Com relação ao baseline que extrai informação contextual, o método proposto se mostrou equivalente ou melhor que o mesmo. / With the wide variety of products and services available on the web, it is difficult for users to choose the option that most meets their needs. In order to reduce or even eliminate this difficulty, recommender systems have emerged. A recommender system is used in various fields to recommend items of interest to users. Most recommender approaches focus only on users and items to make the recommendations. However, in many applications it is also important to incorporate contextual information into the recommendation process. For example, a user may want to watch a movie with his girlfriend on Saturday night or with his friends during a weekday, and a video store on the Web can recommend different types of movies for this user depending on his context. Although the use of contextual information by recommendation systems has received great focus in recent years, there is a lack of automatic methods to obtain such information for context-aware recommender systems. For this reason, the acquisition of contextual information is a research area that needs to be better explored. In this scenario, this work proposes a method to extract contextual information of Web page content. This method builds topic hierarchies of the pages textual content considering, besides the traditional bag-of-words, valuable information of texts as named entities and domain terms (privileged information). The topics extracted from the hierarchies are used as contextual information in context-aware recommender systems. By using two databases, experiments were conducted to evaluate the contextual information extracted by the proposed method. Two baselines were considered: a recommendation system that does not use contextual information (IBCF) and a method proposed in literature to extract contextual information (\\methodological\" baseline), adapted for this research. The results are, in general, very good and show significant gains over the baseline without context. Regarding the \"methodological\" baseline, the proposed method is equivalent to or better than this baseline. Context Contexto Hierarchies topics Hierarquias de tópicos Mineração de textos Text mining
24	Avaliação de métodos não-supervisionados de seleção de atributos para mineração de textos / Evaluation of unsupervised feature selection methods for Text Mining Nogueira, Bruno Magalhães 27 March 2009 (has links) Selecionar atributos é, por vezes, uma atividade necessária para o correto desenvolvimento de tarefas de aprendizado de máquina. Em Mineração de Textos, reduzir o número de atributos em uma base de textos é essencial para a eficácia do processo e a compreensibilidade do conhecimento extraído, uma vez que se lida com espaços de alta dimensionalidade e esparsos. Quando se lida com contextos nos quais a coleção de textos é não-rotulada, métodos não-supervisionados de redução de atributos são utilizados. No entanto, não existe forma geral predefinida para a obtenção de medidas de utilidade de atributos em métodos não-supervisionados, demandando um esforço maior em sua realização. Assim, este trabalho aborda a seleção não-supervisionada de atributos por meio de um estudo exploratório de métodos dessa natureza, comparando a eficácia de cada um deles na redução do número de atributos em aplicações de Mineração de Textos. Dez métodos são comparados - Ranking porTerm Frequency, Ranking por Document Frequency, Term Frequency-Inverse Document Frequency, Term Contribution, Term Variance, Term Variance Quality, Método de Luhn, Método LuhnDF, Método de Salton e Zone-Scored Term Frequency - sendo dois deles aqui propostos - Método LuhnDF e Zone-Scored Term Frequency. A avaliação se dá em dois focos, supervisionado, pelo medida de acurácia de quatro classificadores (C4.5, SVM, KNN e Naïve Bayes), e não-supervisionado, por meio da medida estatística de Expected Mutual Information Measure. Aos resultados de avaliação, aplica-se o teste estatístico de Kruskal-Wallis para determinação de significância estatística na diferença de desempenho dos diferentes métodos de seleção de atributos comparados. Seis bases de textos são utilizadas nas avaliações experimentais, cada uma relativa a um grande domínio e contendo subdomínios, os quais correspondiam às classes usadas para avaliação supervisionada. Com esse estudo, este trabalho visa contribuir com uma aplicação de Mineração de Textos que visa extrair taxonomias de tópicos a partir de bases textuais não-rotuladas, selecionando os atributos mais representativos em uma coleção de textos. Os resultados das avaliações mostram que não há diferença estatística significativa entre os métodos não-supervisionados de seleção de atributos comparados. Além disso, comparações desses métodos não-supervisionados com outros supervisionados (Razão de Ganho e Ganho de Informação) apontam que é possível utilizar os métodos não-supervisionados em atividades supervisionadas de Mineração de Textos, obtendo eficiência compatível com os métodos supervisionados, dado que não detectou-se diferença estatística nessas comparações, e com um custo computacional menor / Feature selection is an activity sometimes necessary to obtain good results in machine learning tasks. In Text Mining, reducing the number of features in a text base is essential for the effectiveness of the process and the comprehensibility of the extracted knowledge, since it deals with high dimensionalities and sparse contexts. When dealing with contexts in which the text collection is not labeled, unsupervised methods for feature reduction have to be used. However, there aren\'t any general predefined feature quality measures for unsupervised methods, therefore demanding a higher effort for its execution. So, this work broaches the unsupervised feature selection through an exploratory study of methods of this kind, comparing their efficacies in the reduction of the number of features in the Text Mining process. Ten methods are compared - Ranking by Term Frequency, Ranking by Document Frequency, Term Frequency-Inverse Document Frequency, Term Contribution, Term Variance, Term Variance Quality, Luhn\'s Method, LuhnDF Method, Salton\'s Method and Zone-Scored Term Frequency - and two of them are proposed in this work - LuhnDF Method and Zone-Scored Term Frequency. The evaluation process is done in two ways, supervised, through the accuracy measure of four classifiers (C4.5, SVM, KNN and Naïve Bayes), and unsupervised, using the Expected Mutual Information Measure. The evaluation results are submitted to the statistical test of Kruskal-Wallis in order to determine the statistical significance of the performance difference of the different feature selection methods. Six text bases are used in the experimental evaluation, each one related to one domain and containing sub domains, which correspond to the classes used for supervised evaluation. Through this study, this work aims to contribute with a Text Mining application that extracts topic taxonomies from unlabeled text collections, through the selection of the most representative features in a text collection. The evaluation results show that there is no statistical difference between the unsupervised feature selection methods compared. Moreover, comparisons of these unsupervised methods with other supervised ones (Gain Ratio and Information Gain) show that it is possible to use unsupervised methods in supervised Text Mining activities, obtaining an efficiency compatible with supervised methods, since there isn\'t any statistical difference the statistical test detected in these comparisons, and with a lower computational effort Aprendizado de máquina Aprendizado não-supervisionado Feature selection Machine learning Mineração de textos Seleção de atributos Text mining Unsupervised learning
25	Utilização de técnicas de dados não estruturados para desenvolvimento de modelos aplicados ao ciclo de crédito Andrade Junior, Valter Lacerda de 13 August 2014 (has links) Made available in DSpace on 2016-04-29T14:23:30Z (GMT). No. of bitstreams: 1 Valter Lacerda de Andrade Junior.pdf: 673552 bytes, checksum: 68480511c98995570354a0166d2bb577 (MD5) Previous issue date: 2014-08-13 / The need for expert assessment of Data Mining in textual data fields and other unstructured information is increasingly present in the public and private sector. Through probabilistic models and analytical studies, it is possible to broaden the understanding of a particular information source. In recent years, technology progress caused exponential growth of the information produced and accessed in the virtual media (web and private). It is estimated that by 2003 humanity had historically generated a total of 5 exabytes of content; today that asset volume can be produced in a few days. With the increasing demand, this project aims to work with probabilistic models related to the financial market in order to check whether the textual data fields, or unstructured information, contained within the business environment, can predict certain customers behaviors. It is assumed that in the corporate environment and on the web, there is great valuable information that, due to the complexity and lack of structure, they are barely considered in probabilistic studies. This material may represent competitive and strategic advantage for business, so analyzing unstructured information one can acquire important data on behaviors and mode of user interaction in the environment in which it operates, providing data as to obtain psychographic profile and satisfaction degree. The corpus of this study consists of the results of experiments made in negotiating environment of a financial company in São Paulo. On the foregoing analysis, it was applied statistical bias semiotic concepts. Among the findings of this study, it is possible to get a critical review and thorough understanding of the processes of textual data assessment / A necessidade de análise especializada de Mineração de Dados (Data Mining) em campos textuais e em outras informações não estruturadas estão, cada vez mais, presente nas instituições dos setores públicos e privados. Por meio de modelos probabilísticos e estudos analíticos, torna-se possível ampliar o entendimento sobre determinada fonte de informação. Nos últimos anos, devido ao avanço tecnológico, observa-se um crescimento exponencial na quantidade de informação produzida e acessada nas mídias virtuais (web e privada). Até 2003, a humanidade havia gerado, historicamente, um total de 5 exabytes de conteúdo; hoje estima-se que esse volume possa ser produzido em poucos dias. Assim, a partir desta crescente demanda identificada, este projeto visa trabalhar com modelos probabilísticos relacionados ao mercado financeiro com o intuito de analisar se os campos textuais e ilustrativos, ou informações não estruturadas, contidas dentro do ambiente de negócio, podem prever certos comportamentos de clientes. Parte-se do pressuposto que, no ambiente corporativo e na web, existem informações de grande valor e que, devido à complexidade e falta de estrutura, não são consideradas em estudos probabilísticos. Isso pode representar vantagem competitiva e estratégica para o negócio, pois, por meio da análise da informação não estruturada, podem-se conhecer comportamentos e modos de interação do usuário nestes ambientes, proporcionando obter dados como perfil psicográfico e grau de satisfação. O corpus deste estudo constitui-se de resultados de experimentos efetuados no ambiente negocial de uma empresa do setor financeiro. Para as análises, foram aplicados conceitos estatísticos com viés semiótico. Entre as informações obtidas por esta pesquisa, verifica-se a compreensão crítica e aprofundada dos processos de análise textual Dados não estruturados Mineração de dados Mineração de textos Cartão de crédito Unstructured data Data mining Text mining Credit card CNPQ::OUTROS
26	Análise de dados por meio de agrupamento fuzzy semi-supervisionado e mineração de textos / Data analysis using semisupervised fuzzy clustering and text mining Medeiros, Debora Maria Rossi de 08 December 2010 (has links) Esta Tese apresenta um conjunto de técnicas propostas com o objetivo de aprimorar processos de Agrupamento de Dados (AD). O principal objetivo é fornecer à comunidade científica um ferramental para uma análise completa de estruturas implícitas em conjuntos de dados, desde a descoberta dessas estruturas, permitindo o emprego de conhecimento prévio sobre os dados, até a análise de seu significado no contexto em que eles estão inseridos. São dois os pontos principais desse ferramental. O primeiro se trata do algoritmo para AD fuzzy semi-supervisionado SSL+P e sua evolução SSL+P, capazes de levar em consideração o conhecimento prévio disponível sobre os dados em duas formas: rótulos e níveis de proximidade de pares de exemplos, aqui denominados Dicas de Conhecimento Prévio (DCPs). Esses algoritmos também permitem que a métrica de distância seja ajustada aos dados e às DCPs. O algoritmo SSL+P também busca estimar o número ideal de clusters para uma determinada base de dados, levando em conta as DCPs disponíveis. Os algoritmos SSL+P e SSL+P* envolvem a minimização de uma função objetivo por meio de um algoritmo de Otimização Baseado em População (OBP). Esta Tese também fornece ferramentas que podem ser utilizadas diretamente neste ponto: as duas versões modificadas do algoritmo Particle Swarm Optimization (PSO), DPSO-1 e DPSO-2 e 4 formas de inicialização de uma população inicial de soluções. O segundo ponto principal do ferramental proposto nesta Tese diz respeito à análise de clusters resultantes de um processo de AD aplicado a uma base de dados de um domínio específico. É proposta uma abordagem baseada em Mineração de Textos (MT) para a busca em informações textuais, disponibilizadas digitalmente e relacionadas com as entidades representadas nos dados. Em seguida, é fornecido ao pesquisador um conjunto de palavras associadas a cada cluster, que podem sugerir informações que ajudem a identificar as relações compartilhadas por exemplos atribuídos ao mesmo cluster / This Thesis presents a whole set of techniques designed to improve the data clustering proccess. The main goal is to provide to the scientific community a tool set for a complete analyses of the implicit structures in datasets, from the identification of these structures, allowing the use of previous knowledge about the data, to the analysis of its meaning in their context. There are two main points involved in that tool set. The first one is the semi-supervised clustering algorithm SSL+P and its upgraded version SSL+P, which are able of take into account the available knowlegdge about de data in two forms: class labels and pairwise proximity levels, both refered here as hints. These algorithms are also capable of adapting the distance metric to the data and the available hints. The SSL+P algorithm searches the ideal number of clusters for a dataset, considering the available hints. Both SSL+P and SSL+P* techniques involve the minimization of an objective function by a Population-based Optimization algorithm (PBO). This Thesis also provides tools that can be directly employed in this area: the two modified versions of the Particle Swarm Optimization algorithm (PSO), DPSO-1 and DPSO-2, and 4 diferent methods for initializing a population of solutions. The second main point of the tool set proposed by this Thesis regards the analysis of clusters resulting from a clustering process applied to a domain specific dataset. A Text Mining based approach is proposed to search for textual information related to the entities represented by the data, available in digital repositories. Next, a set of words associated with each cluster is presented to the researcher, which can suggest information that can support the identification of relations shared by objects assigned to the same cluster Agrupamento fuzzy semi-supervisionado Mineração de textos Otimização baseada em população Population-based optimization Semisupervised fuzzy clustering Text mining
27	Multi-scale analysis of languages and knowledge through complex networks / Análise multi-escala de línguas e conecimento por meio de redes complexas Arruda, Henrique Ferraz de 24 January 2019 (has links) There any many different aspects in natural languages and their related dynamics that have been studied. In the case of languages, some quantitative analyses have been done by using stochastic models. Furthermore, natural languages can be understood as complex systems. Thus, there is a possibility to use set of tools development to analyse complex networks, which are computationally represented by graphs, also to analyse natural languages. Furthermore, these tools can be used to represent and analyse some related dynamics taking place on the networks. Observe that knowledge is intrinsically related to language, because language is the vehicle used by humans beings to transmit dicoveries, and the language itself is also a type of knowledge. This thesis is divided into two types of analyses: (i) texts and (II) dynamical aspects. In the first part, we proposed networks representations of text in different scales analyses, starting from the analysis of writing style considering word adjacency networks (co-occurence) to understand local patterns of words, to a mesoscopic representation, which is created from chunks of text and grasps information of the unfolding of the story. In the second part, we considered the structure and dynamics related to knowledge and language, in this case, starting from the larger scale, in which we studied the connectivity between applied and theoretical physics. In the following, we simulated the knowledge acquisition by researchers in a multi-agent dynamics and an intelligent machine that solves problems, which is represented by a network. At the smallest considered scale, we simulate the transmission of networks. This transmission considers the data as a series of organized symbols that is obtained from a dynamics. In order to improve the speed of transmission, the series can be compacted. For that, we considered the information theory and Huffman code. The proposed network-based approaches were found to be suitable to deal with the employed analysis for all of the tested scales. / Existem diversos aspectos das linguagens naturais e de dinâmicas relacionadas que estão sendo estudadas. No caso das línguas, algumas análises quantitativas foram feitas usando modelos estocásticos. Ademais, linguagens naturais podem ser entendidas como sistemas complexos. Para analisar linguagens naturais, existe a possibilidade de utilizar o conjunto de ferramentas que já foram desenvolvidas para analisar redes complexas, que são representadas computacionalmente. Além disso, tais ferramentas podem ser utilizadas para representar e analisar algumas dinâmicas relacionadas a redes complexas. Observe que o conhecimento está intrinsecamente relacionado à linguagem, pois a linguagem é o veículo usado para transmitir novas descobertas, sendo que a própria linguagem também é um tipo de conhecimento. Esta tese é dividida em dois tipos de análise : (i) textos e (ii) aspectos dinâmicos. Na primeira parte foram propostas representações de redes de texto em diferentes escalas de análise. A partir da análise do estilo de escrita, considerando redes de adjacência de palavras (co-ocorrência) para entender padrões locais de palavras, até uma representação mesoscópica, que é criada a partir de pedaços de texto e que representa informações do texto de acordo com o desenrolar da história. Na segunda parte, foram consideradas a estrutura e dinâmica relacionadas ao conhecimento e à linguagem. Neste caso, partiu-se da escala maior, com a qual estudamos a conectividade entre física aplicada e física teórica. A seguir, simulou-se a aquisição de conhecimento por pesquisadores em uma dinâmica multi-agente e uma máquina inteligente que resolve problemas, que é representada por uma rede. Como a menor escala considerada, foi simulada a transmissão de redes. Essa transmissão considera os dados como uma série de símbolos organizados que são obtidos a partir de uma dinâmica. Para melhorar a velocidade de transmissão, a série pode ser compactada. Para tanto, foi utilizada a teoria da informação e o código de Huffman. As propostas de abordagens baseadas em rede foram consideradas adequadas para lidar com a análise empregada, em todas as escalas testadas. Classificação de textos Complex networks Dinâmicas relacionadas ao conhecimento Dynamics related to knowledge Mineração de textos Redes complexas Text classification Text mining
28	Análise lexicográfica da produção acadêmica da Fiocruz: uma proposta de metodologia Lima, Jefferson da Costa 09 September 2016 (has links) Submitted by Jefferson da Costa Lima (jeffersonlima@gmail.com) on 2016-10-31T15:52:52Z No. of bitstreams: 1 JeffersonLima-Dissertação.pdf: 1878827 bytes, checksum: bcf4cfbdcd70a96644fa2d4022eac581 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2016-11-07T12:54:12Z (GMT) No. of bitstreams: 1 JeffersonLima-Dissertação.pdf: 1878827 bytes, checksum: bcf4cfbdcd70a96644fa2d4022eac581 (MD5) / Made available in DSpace on 2016-11-08T17:24:34Z (GMT). No. of bitstreams: 1 JeffersonLima-Dissertação.pdf: 1878827 bytes, checksum: bcf4cfbdcd70a96644fa2d4022eac581 (MD5) Previous issue date: 2016-09-09 / With the objective to meet the health needs of the population, a huge amount of publications are generated each year. Scientific papers, thesis and dissertations become available digitally, but make them accessible to the user requires an understanding of the indexing process, which is usually made manually. This work proposes an experiment on the feasibility of automatically identify valid descriptors for the documents in the field of health. Are extracted n-grams of the texts and, after comparison with terms of vocabulary Health Sciences Descriptors (DeCS), are identified those who can act as descriptors for the works. We believe that this process can be applied to classification of document sets with deficiencies in their indexing and, even, in supporting the re-indexing processes, improving the precision and recall of the searches, and the possibility of establishing metrics of relevance. / Com o objetivo de atender às demandas de saúde da população, uma quantidade enorme de publicações são geradas a cada ano. Artigos científicos, teses e dissertações tornam-se digitalmente disponíveis, mas torná-los acessíveis aos usuário exige a compreensão do processo de indexação, que em geral é feito manualmente. O presente trabalho propõe um experimento sobre a viabilidade de identificar automaticamente descritores válidos para documentos do campo da saúde. São extraídos n-grams dos textos e, após comparação com termos do vocabulário Descritores em Ciências da Saúde (DeCS), são identificados aqueles que podem atuar como descritores para as obras. Acreditamos que este processo pode ser aplicado na classificação de conjuntos de documentos com deficiências na indexação e, até mesmo, no apoio a processos de reindexação, melhorando a precisão e a revocação das buscas, além da possibilidade de estabelecer métricas de relevância. Processamento de linguagem natural Mineração de textos Descritores em ciências da saúde Matemática Mineração de dados (Computação)
29	Representações textuais e a geração de hubs : um estudo comparativo Aguiar, Raul Freire January 2017 (has links) Orientador: Prof. Dr. Ronaldo Pratti / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2017. / O efeito de hubness, juntamente com a maldição de dimensionalidade, vem sendo estudado, sob diferentes oticas, nos ultimos anos. Os estudos apontam que este problema esta presente em varios conjuntos de dados do mundo real e que a presença de hubs (tendencia de alguns exemplos aparecem com frequencia na lista de vizinhos mais proximos de outros exemplos) traz uma serie de consequencias indesejaveis, como por exemplo, afetar o desempenho de classificadores. Em tarefas de mineração de texto, o problema depende tambem da maneira escolhida pra representar os documentos. Sendo assim o objetivo principal dessa dissertação é avaliar o impacto da formação de hubs em diferentes representações textuais. Ate onde vai o nosso conhecimento e durante o período desta pesquisa, não foi posivel encontrar na literatura um estudo aprofundado sobre as implicaçõess do efeito de hubness em diferentes representações textuais. Os resultados sugerem que as diferentes representações textuais implicam em corpus com propensão menor para a formação de hubs. Notou-se também que a incidencia de hubs nas diferentes representações textuais possuem in uencia similar em alguns classificadores. Analisamos tambem o desempenho dos classifcadores apos a remoção de documentos sinalizados como hubs em porçõess pre-estabelecidas do tamanho total do data set. Essa remoção trouxe, a alguns algoritmos, uma tendencia de melhoria de desempenho. Dessa maneira, apesar de nem sempre efetiva, a estrategia de identifcar e remover hubs com uma vizinhança majoritariamente ruim pode ser uma interessante tecnica de pre-processamento a ser considerada, com o intuito de melhorar o desempenho preditivo da tarefa de classificação. / The hubness phenomenon, associated to the curse of dimensionality, has been studied, from diferent perspectives, in recent years. These studies point out that the hubness problem is present in several real-world data sets and, as a consequence, the hubness implies a series of undesirable side efects, such as an increase in misclassifcation error in classification tasks. In text mining research, this problem also depends on the choice of text representation. Hence, the main objective of the dissertation is to evaluate the impact of the hubs presence in diferent textual representations. To the best of our knowledge, this is the first study that performs an in-depth analysis on the efects of the hub problem in diferent textual representations. The results suggest that diferent text representations implies in diferent bias towards hubs presence in diferent corpus. It was also noticed that the presence of hubs in dierent text representations has similar in uence for some classifiers. We also analyzed the performance of classifiers after removing documents agged as hubs in pre-established portions of the total data set size. This removal allows, to some algorithms, a trend of improvement in performance. Thus, although not always efective, the strategy of identifying and removing hubs with a majority of bad neighborhood may be an interesting preprocessing technique to be considered in order to improve the predictive performance of the text classification task. MINERAÇÃO DE TEXTOS REPRESENTAÇÃO DE TEXTOS MALDIÇÃO DE DIMENSIONALIDADE TEXT MINING TEXT REPRESENTATION CURSE OF DIMENSIONALITY
30	Uma análise cientométrica do campo das habilidades sociais Colepicolo, Eliane 16 March 2015 (has links) Made available in DSpace on 2016-06-02T20:30:11Z (GMT). No. of bitstreams: 1 6830.pdf: 5676747 bytes, checksum: 63418a7e5b065f38ec56ecbc4f5d06ec (MD5) Previous issue date: 2015-03-16 / This research consisted of a scientometric analysis of the Social Skills Field (SSF), to provide the basis for its systematization, through indicators to answer theoretical practice and research questions, such as: theoretical approaches which influence it? What are instruments and evaluation procedures of field? There interdisciplinarity in CHS? The study was conducted in four steps: (1) extraction, processing and refinement of a set of papers metadata in SSF from international databases (Corpus HS); (2) developing a set of key terms representing concepts and conceptual relations (Tesauro HS); (3) text mining of corpus metadata and of the thesaurus terms, to obtain radical terms of up to 4 words (ngrams), which allow find coincident terms between different data sets; (4) development of scientific indicators generated from the comparison between thesaurus ngrams and corpus ngrams. As a result, we have: (1) Corpus HS online with 25.409 metadata papers in SSF; (2) Thesaurus HS online with 1,043 terms, useful for indexing the submission and retrieval of publications; (3) bibliometric indicators online; (4) scientific indicators in response to a series of questions of field. This made it possible to establish an overview of SSF in several respects, including: the field has received theoretical influences of behavioral, cognitive and social cognitive approaches; the most studied HS classes are assertive; the most studied development phase is childhood; the main instruments used for HS assessment are scales and questionnaires; the Social Skills Training (SST) is applied to more students, teenagers, parents and teachers. Based on this research, one can make inferences about the SSF such as: the conceptual base is formed by HS class, deficits and components; the main target audience is the child of preschool age; the field holds no clinical interventions in the educational and family environment and clinical interventions to treat mental disorders; THS has been used for teaching of HS students, teenagers, parents and teachers; the field maintains interdisciplinary relations with fields of Humanities and Health Sciences. / Esta pesquisa consistiu em uma análise cientométrica do Campo das Habilidades Sociais (CHS), visando oferecer subsídios à sua sistematização, por meio de indicadores que possibilitem responder questões teóricas, práticas e de pesquisa sobre o campo, tais como: quais enfoques teóricos o influenciam? Quais os seus instrumentos e procedimentos de avaliação? Existe interdisciplinaridade no CHS? A pesquisa ocorreu em quatro etapas: (1) extração, tratamento e refinamento de um conjunto de metadados de artigos científicos do CHS provenientes de bases internacionais (Corpus HS); (2) desenvolvimento de um conjunto de termos-chave representando conceitos e relações conceituais (Tesauro HS); (3) mineração de textos dos metadados do corpus e dos termos do tesauro, para obtenção de radicais dos termos (ngramas), possibilitando localizar termos coincidentes entre os dois conjuntos de dados; (4) desenvolvimento de indicadores cientométricos gerados a partir da comparação entre ngramas do tesauro e ngramas do corpus. Como resultados, encontram-se: (1) Corpus HS on-line com 25.409 metadados de artigos em CHS; (2) Tesauro HS on-line com 1.043 termos, útil na indexação de publicações; (3) Indicadores bibliométricos on-line; (4) Indicadores cientométricos para responder a questões do CHS. Com isto, foi possível estabelecer um panorama do CHS sob diversos aspectos, entre eles: o campo vem recebendo influências teóricas dos enfoques comportamental, social cognitivo e cognitivo; as classes de HS mais estudadas são as assertivas; a fase de desenvolvimento mais estudada é a infância; os principais instrumentos utilizados para avaliação de HS são escalas e questionários; o Treinamento de Habilidades Sociais (THS) é mais aplicado a estudantes, adolescentes, pais e professores. Com base nesta pesquisa, pode-se realizar inferências sobre o CHS, tais como: a base conceitual do campo é formada por classes, déficits e componentes de HS; o principal público-alvo é a criança em idade pré-escolar; o campo realiza intervenções não clínicas no âmbito educacional e familiar e intervenções clínicas para tratamento de transtornos mentais; o THS vem sendo utilizado para ensino de HS principalmente a estudantes, adolescentes, pais e professores; o campo mantém relações interdisciplinares com campos das Ciências Humanas e Ciências da Saúde. Psicologia social Habilidades sociais Cientometria Bibliometria Tesauros Mineração de textos Social skills Scientometry Bibliometry Thesauri Text Mining CIENCIAS HUMANAS::PSICOLOGIA

Search results