Spelling suggestions: "subject:"mineração dde texto"" "subject:"mineração dee texto""
11 |
Descoberta de relacionamentos entre padrões de sofware utilizando semântica latente / Discovery of relationships between software patterns using latent semanticsCastro, Rute Nogueira Silveira de January 2006 (has links)
CASTRO, Rute Nogueira Silveira de. Descoberta de relacionamentos entre padrões de sofware utilizando semântica latente. 2006. 76 f. Dissertação (Mestrado em ciência da computação)- Universidade Federal do Ceará, Fortaleza-CE, 2006. / Submitted by Elineudson Ribeiro (elineudsonr@gmail.com) on 2016-07-12T17:13:11Z
No. of bitstreams: 1
2006_dis_rnscastro.pdf: 459525 bytes, checksum: ccbf67034b8368f4a3c58ecd26475c04 (MD5) / Approved for entry into archive by Rocilda Sales (rocilda@ufc.br) on 2016-07-22T12:25:58Z (GMT) No. of bitstreams: 1
2006_dis_rnscastro.pdf: 459525 bytes, checksum: ccbf67034b8368f4a3c58ecd26475c04 (MD5) / Made available in DSpace on 2016-07-22T12:25:58Z (GMT). No. of bitstreams: 1
2006_dis_rnscastro.pdf: 459525 bytes, checksum: ccbf67034b8368f4a3c58ecd26475c04 (MD5)
Previous issue date: 2006 / The reuse of software patterns is becoming increasingly common in developing systems, because it is a good practice of engineering software that aims to promote the reuse of solutions to recurring problems. However, there is a lack of mechanisms that promote the search for patterns appropriate to each situation. There is also a difficulty in detecting relationships among the software patterns available in the literature.This work presents the use of techniques for text mining into a set of software patterns in order to identify how these patterns are related. The technique of mining, intelligent text search extract concepts from textual information.The software pattern should be treated within the mining of text as a volume of text with a defined structure for its template. The degrees of relationships among the patterns are possible in certain types of relationships among them, and through rules based on the concept of software pattern. These rules, coupled with the technique of text mining, generate information of relationship you want. / O reuso de padrões de software vem se tornando cada vez mais comum no desenvolvimento de sistemas, pois se trata de uma boa prática de engenharia de software que visa promover a reutilização de soluções comprovadas para problemas recorrentes. No entanto, existe uma carência de mecanismos que promovam a busca de padrões adequados a cada situação. Também há uma dificuldade na detecção de relacionamentos existentes entre os padrões de software disponíveis na literatura. Este trabalho apresenta o uso de técnicas de mineração de texto em um conjunto de padrões de software com o objetivo de identificar como esses padrões se relacionam. A técnica de mineração de textos busca extrair conceitos inteligentes a partir de grandes volumes de informação textual. O padrão de software deve ser tratado dentro de mineração de texto como um grande volume de texto com uma estrutura definida por seu template. Os graus de relacionamentos entre os padrões são determinados nos possíveis tipos de relacionamentos entre eles, bem como através de regras fundamentadas no conceito de Padrões de Software. Essas regras, aliadas à técnica de mineração de texto, geram as informações de relacionamento desejadas.
|
12 |
Tag suggestion using multiple sources of knowledgeMEDEIROS, Ícaro Rafael da Silva 31 January 2010 (has links)
Made available in DSpace on 2014-06-12T15:56:06Z (GMT). No. of bitstreams: 2
arquivo2739_1.pdf: 2586871 bytes, checksum: 3a0e10a22b131714039f0e8ffe875d80 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2010 / Nos sistemas de tagging social usuários atribuem tags (palavras-chave) a recursos (páginas
Web, fotos, publicações, etc), criando uma estrutura conhecida como folksonomia,
que possibilita uma melhora na navegação, organização e recuperação de informação.
Atualmente, esses sistemas são muito populares na Web, portanto, melhorar sua qualidade
e automatizar o processo de atribuição de tags é uma tarefa importante. Neste trabalho
é proposto um sistema que automaticamente atribui tags a páginas, baseando-se em
múltiplas fontes de conhecimento como o conteúdo textual, estrutura de hiperlinks
e bases de conhecimento. A partir dessas fontes, vários atributos são extraídos para
construir um classificador que decide que termos devem ser sugeridos como tag.
Experimentos usando um dataset com tags e páginas extraídas do Delicious, um
importante sistema de tagging social, mostram que nossos métodos obtém bons resultados
de precisão e cobertura, quando comparado com tags sugeridas por usuários. Além disso,
uma comparação com trabalhos relacionados mostra que nosso sistema tem uma qualidade
de sugestão comparável a abordagens estado da arte na área. Finalmente, uma avaliação
com usuários foi feita para simular um ambiente real, o que também produziu bons
resultados
|
13 |
Disorderclassifier: classificação de texto para categorização de transtornos mentaisNUNES, Francisca Pâmela Carvalho 23 August 2016 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-04-19T13:35:36Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
DISSERTAÇÃO_Franscisca Pamela Carvalho.pdf: 2272114 bytes, checksum: 83ff79a7d05409b93fe71ce4c307dc30 (MD5) / Made available in DSpace on 2017-04-19T13:35:36Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
DISSERTAÇÃO_Franscisca Pamela Carvalho.pdf: 2272114 bytes, checksum: 83ff79a7d05409b93fe71ce4c307dc30 (MD5)
Previous issue date: 2016-08-23 / Nos últimos anos, através da Internet, a comunicação se tornou mais ampla e acessível. Com o grande crescimento das redes sociais, blogs, sites em geral, foi possível estabelecer uma extensa base de conteúdo diversificado, onde os usuários apresentam suas opiniões e relatos pessoais. Esses informes podem ser relevantes para observações futuras ou até mesmo para o auxílio na tomada de decisão de outras pessoas. No entanto, essa massa de informação está esparsa na Web, em formato livre, dificultando a análise manual dos textos para categorização dos mesmos. Tornar esse trabalho automático é a melhor opção, porém a compreensão desses textos em formato livre não é um trabalho simples para o computador, devido a irregularidades e imprecisões da língua natural. Nessas circunstâncias, estão surgindo sistemas que classificam textos, de forma automática, por tema, gênero, características, entre outros, através dos conceitos da área de Mineração de Texto (MT). A MT objetiva extrair informações importantes de um texto, através da análise de um conjunto de documentos textuais. Diversos trabalhos de MT foram sugeridos em âmbitos variados como, por exemplo, no campo da psiquiatria. Vários dos trabalhos propostos, nessa área, buscam identificar características textuais para percepção de distúrbios psicológicos, para análise dos sentimentos de pacientes, para detecção de problemas de segurança de registros médicos ou até mesmo para exploração da literatura biomédica. O trabalho aqui proposto, busca analisar depoimentos pessoais de potenciais pacientes para categorização dos textos por tipo de transtorno mental, seguindo a taxonomia DSM-5. O procedimento oferecido classifica os relatos pessoais coletados, em quatro tipos de transtorno (Anorexia, TOC, Autismo e Esquizofrenia). Utilizamos técnicas de MT para o pré-processamento e classificação de texto, com o auxilio dos pacotes de software do Weka. Resultados experimentais mostraram que o método proposto apresenta alto índice de precisão e que a fase de pré-processamento do texto tem impacto nesses resultados. A técnica de classificação Support Vector Machine (SVM) apresentou melhor desempenho, para os fins apresentados, em comparação a outras técnicas usadas na literatura. / In the last few years, through the internet, communication became broader and more accessible. With the growth of social media, blogs, and websites in general, it became possible to establish a broader, diverse content base, where users present their opinions and personal stories. These data can be relevant to future observations or even to help other people’s decision process. However, this mass information is dispersing on the web, in free format, hindering the manual analysis for text categorization. Automating is the best option. However, comprehension of these texts in free format is not a simple task for the computer, taking into account irregularities and imprecisions of natural language. Giving these circumstances, automated text classification systems, by theme, gender, features, among others, are arising, through Text Mining (MT) concepts. MT aims to extract information from a text, by analyzing a set of text documents. Several MT papers were suggested on various fields, as an example, psychiatric fields. A number of proposed papers, in this area, try to identify textual features to perceive psychological disorders, to analyze patient’s sentiments, to detect security problems in medical records or even biomedical literature exploration. The paper here proposed aim to analyze potential patient’s personal testimonies for text categorization by mental disorder type, according to DSM-5 taxonomy. The offered procedure classifies the collected personal testimonies in four disorder types (anorexia, OCD, autism, and schizophrenia). MT techniques were used for pre-processing and text classification, with the support of software packages of Weka. Experimental results showed that the proposed method presents high precision values and the text pre-processing phase has impact in these results. The Support Vector Machine (SVM) classification technique presented better performance, for the presented ends, in comparison to other techniques used in literature.
|
14 |
Abordagem simbólica de aprendizado de máquina na recuperação automática de artigos científicos a partir de web / Symbolic approach of machine learning in the scientific article automatic recovery from the webBrasil, Christiane Regina Soares 07 April 2006 (has links)
Atualmente, devido ao incessante aumento dos documentos científicos disponíveis na rede mundial de computadores, as ferrametas de busca tornaram-se um importante auxílio para recuperação de informação a partir da Internet em todas as áreas de conhecimento para pesquisadores e usuários. Entretanto, as atuais ferramentas de busca disponíveis selecionam uma enorme lista de páginas, cabendo ao usuário a tarefa final de escolher aquelas que realmente são relevantes a sua pesquisa. Assim, é importante o desenvolvimento de técnicas e ferramentas que não apenas retornem uma lista de possíveis documentos relacionados com a consulta apresentada pelo usuário, mas que organizem essa informação de acordo com o conteúdo de tais documentos, e apresentem o resultado da busca em uma representação gráfica que auxilie a exploração e o entendimento geral dos documentos recuperados. Neste contexto, foi proposto o projeto de uma Ferramenta Inteligente de Apoio à Pesquisa (FIP), do qual este trabalho é parte. O objetivo deste trabalho é analisar estratégias de recuperação automática de artigos científicos sobre uma determinada área de pesquisa a partir da Web, que poderá ser adotada pelo módulo de recuperação da FIP. Neste trabalho são considerados artigos escritos em inglês, no formato PDF, abrangendo as áreas da Ciência da Computação. Corpora de treino e teste foram usados para avaliação das abordagens simbólicas de Aprendizado de Máquina na indução de regras que poderão ser inseridas em um crawler inteligente para recuperação automática de artigos dessas áreas. Diversos experimentos foram executados para definir parâmetros de pré-processamento apropriados ao domínio, bem como para definir a melhor estratégia de aplicação das regras induzidas e do melhor algoritmo simbólico de indução. / Today, due to the increase of scientific documents available on the World Wide Web, search tools have become an important aid for information retrieval from the Internet in all fields of knowledge for researchers and users. However, the search tools currently available, in general, select a huge list of pages leaving the user with the final task of choosing those pages that actually fit its research. It is important to develop techniques and tools that return a list of documents related to the query made by the user in accordance with the content of such documents, and then present the result in a meaningful graphical representation with the aim to improve the exploration and understanding of the retrieved articles. In this context, a project of an Intelligent Tool for Research Supporting (FIP) was proposed. This MSc work is part of this project. The objective of this work is to analyze strategies of automatic scientific article retrieval on a specific field from the Web. Such strategy must fit the requirements of the retrieval module of the FIP. In this work articles written in English, in PDF format, covering the fields of Computer Science were considered. Corpora of training and testing were used to evaluate the symbolic approaches of Machine Learning in the induction of rules. These rules could be imbedded in an intelligent crawler for automatic retrieving of the articles in the chosen fields. Several experiments have been carried out in order to define parameters as attribute weights, cut-off point, stopwords in the corpora domain, a better strategy to apply the rules for the categorization of the articles and a better symbolic algorithm to induce the rules
|
15 |
Fatoração de matrizes no problema de coagrupamento com sobreposição de colunas / Matrix factorization for overlapping columns coclusteringBrunialti, Lucas Fernandes 31 August 2016 (has links)
Coagrupamento é uma estratégia para análise de dados capaz de encontrar grupos de dados, então denominados cogrupos, que são formados considerando subconjuntos diferentes das características descritivas dos dados. Contextos de aplicação caracterizados por apresentar subjetividade, como mineração de texto, são candidatos a serem submetidos à estratégia de coagrupamento; a flexibilidade em associar textos de acordo com características parciais representa um tratamento adequado a tal subjetividade. Um método para implementação de coagrupamento capaz de lidar com esse tipo de dados é a fatoração de matrizes. Nesta dissertação de mestrado são propostas duas estratégias para coagrupamento baseadas em fatoração de matrizes não-negativas, capazes de encontrar cogrupos organizados com sobreposição de colunas em uma matriz de valores reais positivos. As estratégias são apresentadas em termos de suas definições formais e seus algoritmos para implementação. Resultados experimentais quantitativos e qualitativos são fornecidos a partir de problemas baseados em conjuntos de dados sintéticos e em conjuntos de dados reais, sendo esses últimos contextualizados na área de mineração de texto. Os resultados são analisados em termos de quantização do espaço e capacidade de reconstrução, capacidade de agrupamento utilizando as métricas índice de Rand e informação mútua normalizada e geração de informação (interpretabilidade dos modelos). Os resultados confirmam a hipótese de que as estratégias propostas são capazes de descobrir cogrupos com sobreposição de forma natural, e que tal organização de cogrupos fornece informação detalhada, e portanto de valor diferenciado, para as áreas de análise de agrupamento e mineração de texto / Coclustering is a data analysis strategy which is able to discover data clusters, known as coclusters. This technique allows data to be clustered based on different subsets defined by data descriptive features. Application contexts characterized by subjectivity, such as text mining, are candidates for applying coclustering strategy due to the flexibility to associate documents according to partial features. The coclustering method can be implemented by means of matrix factorization, which is suitable to handle this type of data. In this thesis two strategies are proposed in non-negative matrix factorization for coclustering. These strategies are able to find column overlapping coclusters in a given dataset of positive data and are presented in terms of their formal definitions as well as their algorithms\' implementation. Quantitative and qualitative experimental results are presented through applying synthetic datasets and real datasets contextualized in text mining. This is accomplished by analyzing them in terms of space quantization, clustering capabilities and generated information (interpretability of models). The well known external metrics Rand index and normalized mutual information are used to achieve the analysis of clustering capabilities. Results confirm the hypothesis that the proposed strategies are able to discover overlapping coclusters naturally. Moreover, these coclusters produced by the new algorithms provide detailed information and are thus valuable for future research in cluster analysis and text mining
|
16 |
Aplicações de mineração de textos na gestão de operações / Applications of Text Mining Techniques in Operations ManagementLucini, Filipe Rissieri January 2018 (has links)
A presente tese apresenta proposições para o desenvolvimento e aplicação de técnicas de mineração de textos, de modo a contribuir para a gestão de operações nas áreas médicas e de negócios. Os objetivos desta tese são: (i) identificar e estruturar técnicas de mineração de texto, de modo a elaborar um método para prever internações de pacientes provenientes de emergências hospitalares, tendo como base somente os registros textuais não estruturados escritos por médicos durante o primeiro encontro médico-paciente; (ii) comparar previsões realizadas pelo método proposto no objetivo (i) com análises médicas realizadas por humanos, de modo a verificar se computadores podem atuar de forma autônoma na tarefa de previsão de internações de pacientes provenientes de emergências hospitalares; e (iii) identificar e estruturar técnicas de mineração de texto, de modo a elaborar um método para prever a satisfação de clientes de companhias aéreas, tendo como base as avaliações escritas e publicadas por passageiros na internet. Os métodos propostos utilizaram diferentes técnicas de mineração de textos, sendo validados por estudos de caso. Em relação à área médica, o método proposto pode realizar previsões em tempo real sobre a necessidade de leitos, ajudando as equipes de gerenciamento de leitos a melhorar os processos de fluxo de pacientes. Além disso, verificou-se que tanto médicos (iniciantes ou experientes), quanto máquina, tiveram desempenhos semelhantes na tarefa de previsão de internação de pacientes. Já em relação à área de negócios, o método proposto permitiu extrair dimensões de satisfação de avaliações online, além dos sentimentos associados a elas, considerando diferentes perfis de passageiros, serviços e períodos de tempo. Desta forma, foi possível prever a recomendação de companhias aéreas baseado nas avaliações escritas por passageiros. / This dissertation presents propositions for the development and application of text mining techniques, in order to contribute to operations management in the medical and business areas. The objectives of this dissertation are: (i) identify and structure text mining techniques, in order to propose a method to predict admissions of patients from hospital emergencies, based only on unstructured textual records written by physicians during the first encounter with patients; (ii) compare predictions made by the method proposed in objective (i) with medical analyses carried out by humans, in order to verify if computers can work autonomously in predicting hospitalizations of patients coming from hospital emergencies; and (iii) identify and structure text mining techniques to develop a method for predicting airline customer satisfaction based on online customer reviews. The proposed methods used different text mining techniques, being validated by case studies. Regarding the medical area, the proposed method was able to perform real-time forecasts about the need for beds, helping bed management teams to improve patient flow processes. In addition, it was found that both physicians (novice or experienced) and machine had similar performances in predicting patient hospitalization. In relation to the business area, the proposed method allowed to extract satisfaction dimensions of online customer reviews, as well as sentiments associated to them, considering different profiles of passengers, services and time periods. It also enabled the prediction of airline recommendation based on online customer reviews.
|
17 |
Fatoração de matrizes no problema de coagrupamento com sobreposição de colunas / Matrix factorization for overlapping columns coclusteringLucas Fernandes Brunialti 31 August 2016 (has links)
Coagrupamento é uma estratégia para análise de dados capaz de encontrar grupos de dados, então denominados cogrupos, que são formados considerando subconjuntos diferentes das características descritivas dos dados. Contextos de aplicação caracterizados por apresentar subjetividade, como mineração de texto, são candidatos a serem submetidos à estratégia de coagrupamento; a flexibilidade em associar textos de acordo com características parciais representa um tratamento adequado a tal subjetividade. Um método para implementação de coagrupamento capaz de lidar com esse tipo de dados é a fatoração de matrizes. Nesta dissertação de mestrado são propostas duas estratégias para coagrupamento baseadas em fatoração de matrizes não-negativas, capazes de encontrar cogrupos organizados com sobreposição de colunas em uma matriz de valores reais positivos. As estratégias são apresentadas em termos de suas definições formais e seus algoritmos para implementação. Resultados experimentais quantitativos e qualitativos são fornecidos a partir de problemas baseados em conjuntos de dados sintéticos e em conjuntos de dados reais, sendo esses últimos contextualizados na área de mineração de texto. Os resultados são analisados em termos de quantização do espaço e capacidade de reconstrução, capacidade de agrupamento utilizando as métricas índice de Rand e informação mútua normalizada e geração de informação (interpretabilidade dos modelos). Os resultados confirmam a hipótese de que as estratégias propostas são capazes de descobrir cogrupos com sobreposição de forma natural, e que tal organização de cogrupos fornece informação detalhada, e portanto de valor diferenciado, para as áreas de análise de agrupamento e mineração de texto / Coclustering is a data analysis strategy which is able to discover data clusters, known as coclusters. This technique allows data to be clustered based on different subsets defined by data descriptive features. Application contexts characterized by subjectivity, such as text mining, are candidates for applying coclustering strategy due to the flexibility to associate documents according to partial features. The coclustering method can be implemented by means of matrix factorization, which is suitable to handle this type of data. In this thesis two strategies are proposed in non-negative matrix factorization for coclustering. These strategies are able to find column overlapping coclusters in a given dataset of positive data and are presented in terms of their formal definitions as well as their algorithms\' implementation. Quantitative and qualitative experimental results are presented through applying synthetic datasets and real datasets contextualized in text mining. This is accomplished by analyzing them in terms of space quantization, clustering capabilities and generated information (interpretability of models). The well known external metrics Rand index and normalized mutual information are used to achieve the analysis of clustering capabilities. Results confirm the hypothesis that the proposed strategies are able to discover overlapping coclusters naturally. Moreover, these coclusters produced by the new algorithms provide detailed information and are thus valuable for future research in cluster analysis and text mining
|
18 |
Um modelo classificador da lista de e-mail do Projeto Apache que combina dicionário neurolinguístico com ontologia / A classifier model from the e-mail list of Apache Project that combines neurolinguistic dictionary with ontologyFarias, Mário André de Freitas 23 December 2011 (has links)
Electronic mailing lists and discussion groups are normally used by programmers to discuss and improve tasks to be performed during software projects development. Open Source Software (OSS) projects use this lists as the primary tool for collaboration and cooperation. In project like that, normally, the developers are around the world. Thus, means of interaction and communication are needed to ensure collaboration between them, as well as efficiency in the construction and maintenance of projects this size. Mailing lists can be an important data source to discovery information useful about patterns of behavior of developer aimed at project manager. The Neurominer is a text mining tool that determines the Preferred Representational System (PRS) of software developers in a specific context. The tool has a new approach which is a combination between the Neuro-Linguistic Programming NLP theory, text mining and statistic technique. In this context, we propose the extension of this tool by applying of techniques of ontology to dictionary, allowing the combination of sensory predicates with software engineering terms, providing a greater power in the context of the dictionary. This way, the text mining matched with NLP theory and ontology appears as natural candidate that consists a solution that aiming to improve the mining of textual information through mailing lists, in order to support software project managers in making decision. This matching showed significant outcomes, proposing a efficient and effective solution. / Listas de e-mails e grupos de discussão são normalmente usados por programadores para discutir e aperfeiçoar tarefas a serem executadas durante as fases de desenvolvimento de projetos de software. Projetos de softwares Open Source utilizam essas listas como uma ferramenta primária para a colaboração e cooperação. Em projetos dessa natureza, normalmente, os desenvolvedores estão em todas as partes do mundo. Desta forma, meios de interação e comunicação são necessários para garantir a colaboração entre os mesmos, bem como a eficácia no processo de construção e manutenção de projetos desse porte. Listas de e-mails podem ser uma importante fonte de dados para a descoberta de informações úteis acerca de padrões de comportamento de desenvolvedores para gerentes de projetos. O Neurominer é uma ferramenta de mineração de texto que determina o Sistema de Representação Preferencial de desenvolvedores de software em um contexto específico. A ferramenta apresenta como inovação a utilização da teoria da Programação Neurolinguística - PNL combinada com técnicas de mineração e estatística. Nesse contexto, é proposta a extensão dessa ferramenta através da aplicação de técnicas de ontologia ao seu dicionário, permitindo a combinação de predicados sensoriais a termos da engenharia de software, proporcionando um poder maior de contextualização ao seu dicionário. Sob esse prisma, a mineração de texto combinada com técnicas de PNL e ontologia surge como candidata natural para compor uma solução que objetiva melhorar a garimpagem de informações textuais, através de listas de discussões, com o propósito de apoiar gerentes de projetos de softwares na tomada de decisão. Essa combinação conduziu a resultados bastante significativos, propondo uma solução eficiente e eficaz.
|
19 |
Previsão de epidemias através do TwitterAlmeida, Hélder Nunes de 31 March 2016 (has links)
Submitted by Jean Medeiros (jeanletras@uepb.edu.br) on 2017-04-06T15:00:32Z
No. of bitstreams: 1
PDF - Hélder Nunes de Almeida.pdf: 11867778 bytes, checksum: 7ee210c2741438c4c1ca9bb65b9a0cc6 (MD5) / Approved for entry into archive by Secta BC (secta.csu.bc@uepb.edu.br) on 2017-07-20T11:33:59Z (GMT) No. of bitstreams: 1
PDF - Hélder Nunes de Almeida.pdf: 11867778 bytes, checksum: 7ee210c2741438c4c1ca9bb65b9a0cc6 (MD5) / Made available in DSpace on 2017-07-20T11:34:00Z (GMT). No. of bitstreams: 1
PDF - Hélder Nunes de Almeida.pdf: 11867778 bytes, checksum: 7ee210c2741438c4c1ca9bb65b9a0cc6 (MD5)
Previous issue date: 2016-03-31 / Aiming at better management of resources and democratization of health services, the DATASUS offers a database with information relevant to the quantification and evaluation of health information. However, one difficulty is that not always the data obtained through official channels are made available in a timely manner and often are only available when an epidemic is out of control, not giving time to preventive measures of public agencies. In this context there is a need to investigate other methods that allow the collection and analysis of data to facilitate the dissemination of information required for preventive actions in health. Therefore, the main objective of this dissertation is to propose a methodology for analysis of epidemics from the social network Twitter. To do this, we conducted a study in which we sought to identify suspected cases of Chikungunya fever in Brazil from the symptoms reported by users on the social network. Then, with the use of text mining techniques were checked 258,707 tweets with any symptoms of the disease during the period from 15 August 2015 to 31 January 2016. The results show a high correlation between the cases verified in the social network with the cases notified by the Secretariat of health surveillance, which indicates that the social network of Twitter can be used as a means for analysis and prediction of epidemics. In this way, we can also conclude that the symptoms can be used as a parameter for detection of outbreaks of the epidemic. / Visando uma melhor gestão dos recursos e democratização dos serviços de saúde, o DATASUS disponibiliza de uma base de dados com informações relevantes para a quantificação e a avaliação das informações em saúde. Porém, uma dificuldade encontrada é que nem sempre os dados obtidos pelos meios oficiais são disponibilizados em tempo hábil e muitas vezes só são disponibilizados quando uma epidemia já se encontra fora de controle, não dando tempo para medidas de prevenção dos órgãos públicos. Nesse contexto existe a necessidade de investigar outros métodos que possibilitem a obtenção e análise de dados para a disseminação de informações necessárias às ações preventivas em saúde. Portanto, o objetivo principal dessa dissertação é propor uma metodologia para análise de epidemias a partir da rede social Twitter. Para isso, foi realizado um estudo de caso no qual buscou-se identificar os casos suspeitos de febre Chikungunya no Brasil a partir dos sintomas relatados pelos usuários na rede social. Então, com o uso de técnicas de mineração de texto foram verificados 258.707 tweets com algum sintoma da doença, durante o período de 15 de agosto de 2015 a 31 de janeiro de 2016. Os resultados mostram uma alta correlação entre os casos verificados na rede social com os casos notificados pela Secretaria de Vigilância em Saúde, o que indica que a rede social do Twitter pode ser utilizada como meio para análise e previsão de epidemias. Desse modo, também podemos concluir que os sintomas podem ser utilizados como parâmetro para detecção de focos da epidemia.
|
20 |
Abordagem simbólica de aprendizado de máquina na recuperação automática de artigos científicos a partir de web / Symbolic approach of machine learning in the scientific article automatic recovery from the webChristiane Regina Soares Brasil 07 April 2006 (has links)
Atualmente, devido ao incessante aumento dos documentos científicos disponíveis na rede mundial de computadores, as ferrametas de busca tornaram-se um importante auxílio para recuperação de informação a partir da Internet em todas as áreas de conhecimento para pesquisadores e usuários. Entretanto, as atuais ferramentas de busca disponíveis selecionam uma enorme lista de páginas, cabendo ao usuário a tarefa final de escolher aquelas que realmente são relevantes a sua pesquisa. Assim, é importante o desenvolvimento de técnicas e ferramentas que não apenas retornem uma lista de possíveis documentos relacionados com a consulta apresentada pelo usuário, mas que organizem essa informação de acordo com o conteúdo de tais documentos, e apresentem o resultado da busca em uma representação gráfica que auxilie a exploração e o entendimento geral dos documentos recuperados. Neste contexto, foi proposto o projeto de uma Ferramenta Inteligente de Apoio à Pesquisa (FIP), do qual este trabalho é parte. O objetivo deste trabalho é analisar estratégias de recuperação automática de artigos científicos sobre uma determinada área de pesquisa a partir da Web, que poderá ser adotada pelo módulo de recuperação da FIP. Neste trabalho são considerados artigos escritos em inglês, no formato PDF, abrangendo as áreas da Ciência da Computação. Corpora de treino e teste foram usados para avaliação das abordagens simbólicas de Aprendizado de Máquina na indução de regras que poderão ser inseridas em um crawler inteligente para recuperação automática de artigos dessas áreas. Diversos experimentos foram executados para definir parâmetros de pré-processamento apropriados ao domínio, bem como para definir a melhor estratégia de aplicação das regras induzidas e do melhor algoritmo simbólico de indução. / Today, due to the increase of scientific documents available on the World Wide Web, search tools have become an important aid for information retrieval from the Internet in all fields of knowledge for researchers and users. However, the search tools currently available, in general, select a huge list of pages leaving the user with the final task of choosing those pages that actually fit its research. It is important to develop techniques and tools that return a list of documents related to the query made by the user in accordance with the content of such documents, and then present the result in a meaningful graphical representation with the aim to improve the exploration and understanding of the retrieved articles. In this context, a project of an Intelligent Tool for Research Supporting (FIP) was proposed. This MSc work is part of this project. The objective of this work is to analyze strategies of automatic scientific article retrieval on a specific field from the Web. Such strategy must fit the requirements of the retrieval module of the FIP. In this work articles written in English, in PDF format, covering the fields of Computer Science were considered. Corpora of training and testing were used to evaluate the symbolic approaches of Machine Learning in the induction of rules. These rules could be imbedded in an intelligent crawler for automatic retrieving of the articles in the chosen fields. Several experiments have been carried out in order to define parameters as attribute weights, cut-off point, stopwords in the corpora domain, a better strategy to apply the rules for the categorization of the articles and a better symbolic algorithm to induce the rules
|
Page generated in 0.0656 seconds