Spelling suggestions: "subject:"mineração dde textos"" "subject:"mineração dde sextos""
41 |
Análise de algoritmos de agrupamento para base de dados textuais / Analysis of the clustering algorithms for the databasesAlmeida, Luiz Gonzaga Paula de 31 August 2008 (has links)
Made available in DSpace on 2015-03-04T18:50:55Z (GMT). No. of bitstreams: 1
DissertacaoLuizGonzaga.pdf: 3514446 bytes, checksum: 517d9c7b241b2bd9c799c807d6eac037 (MD5)
Previous issue date: 2008-08-31 / The increasing amount of digitally stored texts makes necessary the development of computational tools to allow the access of information and knowledge in an efficient and efficacious manner. This problem is extremely relevant in biomedicine research, since most of the generated knowledge is translated into scientific articles and it is necessary to have the most easy and fast access.
The research field known as Text Mining deals with the problem of identifying new information and knowledge in text databases. One of its tasks is to find in databases groups of texts that are correlated, an issue known as text clustering. To allow clustering, text databases must be transformed into the commonly used Vector Space Model, in which texts are represented by vectors composed by the frequency of occurrence of words and terms present in the databases. The set of vectors composing a matrix named document-term is usually sparse with high dimension. Normally, to attenuate the problems caused by these features, a subset of terms is selected, thus giving rise a new document-term matrix with reduced dimensions, which is then used by clustering algorithms.
This work presents two algorithms for terms selection and the evaluation of clustering algorithms: k-means, spectral and graph portioning, in five pre-classified databases. The databases were pre-processed by previously described methods. The results indicate that the term selection algorithms implemented increased the performance of the clustering algorithms used and that the k-means and spectral algorithms outperformed the graph portioning. / O volume crescente de textos digitalmente armazenados torna necessária a construção de ferramentas computacionais que permitam a organização e o acesso eficaz e eficiente à informação e ao conhecimento nele contidos. No campo do conhecimento da biomedicina este problema se torna extremamente relevante, pois a maior parte do conhecimento gerado é formalizada através de artigos científicos e é necessário que o acesso a estes seja o mais fácil e rápido possível.
A área de pesquisa conhecida como Mineração de Textos (do inglês Text Mining), se propõe a enfrentar este problema ao procurar identificar novas informações e conhecimentos até então desconhecidos, em bases de dados textuais. Uma de suas tarefas é a descoberta de grupos de textos correlatos em base de dados textuais e esse problema é conhecido como agrupamento de textos (do inglês Text Clustering). Para este fim, a representação das bases de dados textuais comumente utilizada no agrupamento de textos é o Modelo Espaço-vetorial, no qual cada texto é representado por um vetor de características, que são as freqüências das palavras ou termos que nele ocorrem. O conjunto de vetores forma uma matriz denominada de documento-termo, que é esparsa e de alta dimensionalidade. Para atenuar os problemas decorrentes dessas características, normalmente é selecionado um subconjunto de termos, construindo-se assim uma nova matriz documento-termo com um número reduzido de dimensões que é então utilizada nos algoritmos de agrupamento.
Este trabalho se desdobra em: i) introdução e implementação de dois algoritmos para seleção de termos e ii) avaliação dos algoritmos k-means, espectral e de particionamento de grafos, em cinco base de dados de textos previamente classificadas. As bases de dados são pré-processadas através de métodos descritos na literatura, produzindo-se as matrizes documento-termo. Os resultados indicam que os algoritmos de seleção propostos, para a redução das matrizes documento-termo, melhoram o desempenho dos algoritmos de agrupamento avaliados. Os algoritmos k-means e espectral têm um desempenho superior ao algoritmos de particionamento de grafos no agrupamento de bases de dados textuais, com ou sem a seleção de características.
|
42 |
O fenômeno blockchain na perspectiva da estratégia tecnológica: uma análise de conteúdo por meio da descoberta de conhecimento em textoFernandes, Marcelo Vighi 27 August 2018 (has links)
Submitted by JOSIANE SANTOS DE OLIVEIRA (josianeso) on 2018-11-06T11:47:27Z
No. of bitstreams: 1
Marcelo Vighi Fernandes.pdf: 3509868 bytes, checksum: d6db1f1e680ba92bb965b2d327c5de04 (MD5) / Made available in DSpace on 2018-11-06T11:47:28Z (GMT). No. of bitstreams: 1
Marcelo Vighi Fernandes.pdf: 3509868 bytes, checksum: d6db1f1e680ba92bb965b2d327c5de04 (MD5)
Previous issue date: 2018-08-27 / Nenhuma / A revolução das Tecnologias de Informação e Comunicação (TIC) fez as empresas perceberem a importância da estratégia tecnológica para a sua sobrevivência. Blockchain é uma tecnologia descentralizada de gerenciamento de transações e dados desenvolvida, primeiramente, para a moeda digital bitcoin. O interesse na tecnologia blockchain tem aumentado desde que o termo foi cunhado. Esse interesse fez com que este fenômeno se tornasse, atualmente, um dos principais tópicos de pesquisa e publicação na Web. O objetivo principal deste trabalho é entender de que forma o fenômeno blockchain está impactando na estratégia tecnológica. Para tanto, foi realizado um estudo exploratório utilizando o processo de Descoberta de Conhecimento em Texto (DCT), com a utilização de ferramentas de mineração de textos, de forma a coletar e analisar o conteúdo de um conjunto de notícias publicadas na Web sobre a tecnologia blockchain. Foram extraídas 2.605 notícias da Web sobre blockchain, publicadas entre os anos 2015 e 2017, no idioma inglês. Como resultado do estudo, foram geradas 6 proposições, mostrando que este fenômeno está impactando a estratégia tecnológica da indústria financeira direcionando o foco deste setor para implementação de soluções em arquiteturas descentralizadas. Também foi verificado que o foco estratégico tecnológico das empresas impulsionou o desenvolvimento das tecnologias de blockchain privadas. Identificou-se, também, os benefícios trazidos por esta tecnologia para sistemas de pagamentos entre países, diminuindo os intermediários e melhorando os processos. Ainda, foi possível mapear que esta tecnologia tem potencial para afetar as transações através de uma plataforma eletrônica comum. Em relação ao grau de maturidade desta tecnologia, foi realizada uma discussão dos achados das análises das notícias com a teoria da difusão da inovação e concluiu-se que esta tecnologia está no limiar entre as categorias de Innovators e Early Adopters. O mapa produzido por esta pesquisa ajudará empresas e profissionais na identificação de oportunidades de direcionamento das suas estratégias tecnológicas para a tecnologia de blockchain. / The Information and Communication Technologies (ICT) revolution made companies realize the importance of technology strategy for their survival. Blockchain is a decentralized transaction and data management technology first developed for the bitcoin digital currency. The interest in blockchain technology has increased since the idea was coined. This interest has made this phenomenon one of the main topics of research and publication on the Web. The main objective of this paper is to understand how the blockchain phenomenon is impacting technology strategy. To do so, an exploratory study was conducted using the Knowledge Discovery in Text (KDT) process, with the use of text mining tools, to collect and analyze the contents of a set of news published on the Web about blockchain technology. At total, 2605 blockchain web news were extracted, all news were published between the years of 2015 and 2017, in the English language. As a result of the study, 6 propositions were generated, in which the results showed that this phenomenon is impacting the technology strategy of the financial industry, directing the focus of this sector to the implementation of solutions using decentralized architectures. It was also verified that the companies’ strategic technological focus boosted the development of private blockchain technologies. Additionally, was identified the benefits brought by this technology to cross-border payment systems, reducing intermediaries and improving processes. Also, it was possible to map out that this technology has the potential to affect the transactions through a common electronic platform. In relation to the degree of maturity of this technology, a discussion of the findings with the theory of the diffusion of innovation was made and it is concluded that this technology is in the threshold between the categories of Innovators and Early Adopters. The map produced by this research will help companies and professionals in identifying opportunities to target their technology strategies to blockchain technology.
|
43 |
Contribuições para a construção de taxonomias de tópicos em domínios restritos utilizando aprendizado estatístico / Contributions to topic taxonomy construction in a specific domain using statistical learningMoura, Maria Fernanda 26 October 2009 (has links)
A mineração de textos vem de encontro à realidade atual de se compreender e utilizar grandes massas de dados textuais. Uma forma de auxiliar a compreensão dessas coleções de textos é construir taxonomias de tópicos a partir delas. As taxonomias de tópicos devem organizar esses documentos, preferencialmente em hierarquias, identificando os grupos obtidos por meio de descritores. Construir manual, automática ou semi-automaticamente taxonomias de tópicos de qualidade é uma tarefa nada trivial. Assim, o objetivo deste trabalho é construir taxonomias de tópicos em domínios de conhecimento restrito, por meio de mineração de textos, a fim de auxiliar o especialista no domínio a compreender e organizar os textos. O domínio de conhecimento é restrito para que se possa trabalhar apenas com métodos de aprendizado estatístico não supervisionado sobre representações bag of words dos textos. Essas representações independem do contexto das palavras nos textos e, conseqüentemente, nos domínios. Assim, ao se restringir o domínio espera-se diminuir erros de interpretação dos resultados. A metodologia proposta para a construção de taxonomias de tópicos é uma instanciação do processo de mineração de textos. A cada etapa do processo propôem-se soluções adaptadas às necessidades específicas de construçao de taxonomias de tópicos, dentre as quais algumas contribuições inovadoras ao estado da arte. Particularmente, este trabalho contribui em três frentes no estado da arte: seleção de atributos n-gramas em tarefas de mineração de textos, dois modelos para rotulação de agrupamento hierárquico de documentos e modelo de validação do processo de rotulação de agrupamento hierárquico de documentos. Além dessas contribuições, ocorrem outras em adaptações e metodologias de escolha de processos de seleção de atributos, forma de geração de atributos, visualização das taxonomias e redução das taxonomias obtidas. Finalmente, a metodologia desenvolvida foi aplicada a problemas reais, tendo obtido bons resultados. / Text mining provides powerful techniques to help on the current needs of understanding and organizing huge amounts of textual documents. One way to do this is to build topic taxonomies from these documents. Topic taxonomies can be used to organize the documents, preferably in hierarchies, and to identify groups of related documents and their descriptors. Constructing high quality topic taxonomies, either manually, automatically or semi-automatically, is not a trivial task. This work aims to use text mining techniques to build topic taxonomies for well defined knowledge domains, helping the domain expert to understand and organize document collections. By using well defined knowledge domains, only unsupervised statistical methods are used, with a bag of word representation for textual documents. These representations are independent of the context of the words in the documents as well as in the domain. Thus, if the domain is well defined, a decrease of mistakes of the result interpretation is expected. The proposed methodology for topic taxonomy construction is an instantiation of the text mining process. At each step of the process, some solutions are proposed and adapted to the specific needs of topic taxonomy construction. Among these solutions there are some innovative contributions to the state of the art. Particularly, this work contributes to the state of the art in three different ways: the selection of n-grams attributes in text mining tasks, two models for hierarchical document cluster labeling and a validation model of the hierarchical document cluster labeling. Additional contributions include adaptations and methodologies of attribute selection process choices, attribute representation, taxonomy visualization and obtained taxonomy reduction. Finally, the proposed methodology was also validated by successfully applying it to real problems
|
44 |
Biagrupamento heurístico e coagrupamento baseado em fatoração de matrizes: um estudo em dados textuais / Heuristic biclustering and coclustering based on matrix factorization: a study on textual dataAlexandra Katiuska Ramos Diaz 16 October 2018 (has links)
Biagrupamento e coagrupamento são tarefas de mineração de dados que permitem a extração de informação relevante sobre dados e têm sido aplicadas com sucesso em uma ampla variedade de domínios, incluindo aqueles que envolvem dados textuais -- foco de interesse desta pesquisa. Nas tarefas de biagrupamento e coagrupamento, os critérios de similaridade são aplicados simultaneamente às linhas e às colunas das matrizes de dados, agrupando simultaneamente os objetos e os atributos e possibilitando a criação de bigrupos/cogrupos. Contudo suas definições variam segundo suas naturezas e objetivos, sendo que a tarefa de coagrupamento pode ser vista como uma generalização da tarefa de biagrupamento. Estas tarefas, quando aplicadas nos dados textuais, demandam uma representação em um modelo de espaço vetorial que, comumente, leva à geração de espaços caracterizados pela alta dimensionalidade e esparsidade, afetando o desempenho de muitos dos algoritmos. Este trabalho apresenta uma análise do comportamento do algoritmo para biagrupamento Cheng e Church e do algoritmo para coagrupamento de decomposição de valores em blocos não negativos (\\textit{Non-Negative Block Value Decomposition} - NBVD), aplicado ao contexto de dados textuais. Resultados experimentais quantitativos e qualitativos são apresentados a partir das experimentações destes algoritmos em conjuntos de dados sintéticos criados com diferentes níveis de esparsidade e em um conjunto de dados real. Os resultados são avaliados em termos de medidas próprias de biagrupamento, medidas internas de agrupamento a partir das projeções nas linhas dos bigrupos/cogrupos e em termos de geração de informação. As análises dos resultados esclarecem questões referentes às dificuldades encontradas por estes algoritmos nos ambiente de experimentação, assim como se são capazes de fornecer informações diferenciadas e úteis na área de mineração de texto. De forma geral, as análises realizadas mostraram que o algoritmo NBVD é mais adequado para trabalhar com conjuntos de dados em altas dimensões e com alta esparsidade. O algoritmo de Cheng e Church, embora tenha obtidos resultados bons de acordo com os objetivos do algoritmo, no contexto de dados textuais, propiciou resultados com baixa relevância / Biclustering e coclustering are data mining tasks that allow the extraction of relevant information about data and have been applied successfully in a wide variety of domains, including those involving textual data - the focus of interest of this research. In biclustering and coclustering tasks, similarity criteria are applied simultaneously to the rows and columns of the data matrices, simultaneously grouping the objects and attributes and enabling the discovery of biclusters/coclusters. However their definitions vary according to their natures and objectives, being that the task of coclustering can be seen as a generalization of the task of biclustering. These tasks applied in the textual data demand a representation in a model of vector space, which commonly leads to the generation of spaces characterized by high dimensionality and sparsity and influences the performance of many algorithms. This work provides an analysis of the behavior of the algorithm for biclustering Cheng and Church and the algorithm for coclustering non-negative block decomposition (NBVD) applied to the context of textual data. Quantitative and qualitative experimental results are shown, from experiments on synthetic datasets created with different sparsity levels and on a real data set. The results are evaluated in terms of their biclustering oriented measures, internal clustering measures applied to the projections in the lines of the biclusters/coclusters and in terms of generation of information. The analysis of the results clarifies questions related to the difficulties faced by these algorithms in the experimental environment, as well as if they are able to provide differentiated information useful to the field of text mining. In general, the analyses carried out showed that the NBVD algorithm is better suited to work with datasets in high dimensions and with high sparsity. The algorithm of Cheng and Church, although it obtained good results according to its own objectives, provided results with low relevance in the context of textual data
|
45 |
Avaliação de mecanismos de suporte à tomada de decisão e sua aplicabilidade no auxílio à priorização de casos em regulações de urgências e emergências / Evaluation of decision support mechanisms and their aplicability to aid prioritization of cases from medical coordination of emergency requestsPollettini, Juliana Tarossi 23 November 2016 (has links)
Introdução: A Regulação Médica, que representa a aplicação de técnicas de logística ao contexto de emergência, é responsável pela disponibilização de recursos apropriados, nas condições apropriadas para pacientes apropriados. Um sistema para Regulação Médica de Urgências e Emergências foi desenvolvido em 2009 e foi implantado na forma de um projeto-piloto. Técnicas nas áreas de processamento de linguagem natural, recuperação de informação e aprendizado de máquina podem ser utilizadas para processar registros clínicos e auxiliar processos de tomada de decisão. Objetivos: No presente trabalho busca-se: (i) comparar diferentes metodologias para representação e extração de informação de documentos em texto livre, tais como solicitações de regulação; (ii) proporcionar suporte à decisão na definição de prioridade de casos, com processamento textual e semântico do resumo clínico dos casos; e (iii) analisar as contribuições dos dados clínicos e prioridade definida durante o processo de regulação para o desfecho do caso. Metodologia: Foram utilizados dados do projeto-piloto, assim como dados relativos ao desfecho do caso de pacientes regulados e admitidos na Unidade de Emergência do HCFMRP-USP. Os dados foram processados com o auxílio de tecnologias de Aprendizado de Máquina, Mineração de Textos e Recuperação de Informação para extrair informações organizadas em atributos a serem utilizados pra permitir suporte à decisão na prioridade do caso. Resultados: Os dados de pedidos de regulação apresentam uma grande quantidade de casos com valores de atributos muito parecidos (algumas vezes idênticos), contudo com classes (prioridades) diferentes, caracterizando uma base de dados com grande quantidade de ruídos, o que dificulta a aplicação de tecnologias como Aprendizado de Máquina. Resultados evidenciam o caráter subjetivo na definição de prioridades, que talvez seja influenciada por outros fatores que não estão presentes no texto do registro clínico do paciente. Resultados de suporte à decisão na definição de prioridade e desfecho do caso indicam que aplicar processamento semântico, mapeando termos para conceitos médicos do UMLS, reduz o problema da dimensionalidade quando comparado a abordagens menos robustas de mineração de textos. A abordagem apoiada por recuperação de informação, permite que sejam classificados apenas pedidos de regulação que sejam mais similares que um limiar (threshold) desejado em relação a algum caso do banco de dados. Desta maneira, esta abordagem pode ser utilizada para reduzir sobrecarga, permitindo que reguladores concentrem sua atenção em casos mais críticos e casos de maior particularidade (não similares a casos históricos). Conclusões: O presente trabalho proporcionou suporte à decisão na priorização de casos em regulações de urgência e emergência, com processamento textual e semântico do resumo clínico dos casos. Definiu-se como proposta para suporte à decisão na priorização de casos um processo composto por três etapas: (i) análise do risco de óbito; (ii) pré-priorização automática de casos de alta similaridade com casos históricos; e (iii) apoio à decisão com base em casos históricos (aprendizagem baseada em exemplos). / Introduction: The Medical Coordination, which is the application of logistics techniques to the emergency context, is responsible for providing appropriate resources, in appropriate conditions to appropriate patients. A system for medical coordination of emergency requests was developed in 2009 and was implemented as a pilot project, although some activities related to medical coordination decision making are extremely subjective. Techniques from the areas of natural language processing, information retrieval and machine learning can be used to process clinical records and assist decision-making processes. Objectives: The present study aims to: (i) compare different methodologies for representation and information extraction from free text documents, such as coordination requests; (ii) provide decision support to prioritization of requests, with textual and semantic processing of clinical summaries of the cases; and (iii) analyze the contributions of clinical data and priority defined during the coordination process to the final case outcome. Methodology: Data from the pilot project, as well as data on the case outcome of coordinated patients admitted to the HCFMRP-USP Emergency Unit we used. Data was processed with the aid of Machine Learning, Information Retrival and Text Mining techniques to extract information organized into attributes to be used to enable decision support on the priority of the case. Results: The coordination requests data contain a large number of cases with very similar attribute values (sometimes identical), but with different classes (priorities), characterizing a database with a large amount of noise, making it hard to apply technologies such as Machine Learning. Results denote the subjective aspect in the definition of priorities, which may be influenced by other factors that are not present in the patient\'s clinical record text. Decision support results in prioritization and case outcome indicate that applying semantic processing, mapping terms to UMLS medical concepts, reduces the dimensionality problem when compared to less robust text mining approaches. The approach supported by information retrieval allows to classify only coordination requests that are more similar than a defined threshold to a historical case. Thus, this approach can be used to reduce overhead, allowing coordinators to focus their attention on the most critical cases and cases of greater particularity (not similar to historical cases). Conclusions: This work provided decision support in prioritizing cases of urgency and emergency coordination requests, with textual and semantic processing of clinical summary cases. It was defined as a proposal for decision support in prioritization of requestes a process consisting of three steps: (i) analysis of the risk of death; (ii) automatic pre-prioritization of cases of high similarity with historical cases; and (iii) decision support based on historical cases (examples-based learning).
|
46 |
Epistemologia da Informática em Saúde: entre a teoria e a prática / Epistemology of Medical Informatics: between theory and practiceColepícolo, Eliane [UNIFESP] 26 March 2008 (has links) (PDF)
Made available in DSpace on 2015-07-22T20:50:02Z (GMT). No. of bitstreams: 0
Previous issue date: 2008-03-26 / Epistemologia da Informática em Saúde: entre a teoria e a prática. Eliane Colepí-colo. 2008. CONTEXTO. O objetivo dessa pesquisa é compreender a epistemologia da área de Informática em Saúde (IS) por meio de um estudo comparativo entre aspectos teóricos e práticos desta disciplina. MATERIAIS E MÉTODOS. O estudo foi dividido em 3 eta-pas: estudo estatístico, estudo terminológico e estudo epistemológico. O estudo esta-tístico envolveu o desenvolvimento e uso de robô para extração de metadados de arti-gos científicos da base PubMed, assim como a mineração de textos destes resumos de artigos, utilizados para estatísticas e análise posterior. O estudo terminológico visou o desenvolvimento de um tesauro especializado em IS, aqui denominado EpistemIS, que, integrado ao MeSH, serviu como base ao estudo estatístico. O estudo epistemo-lógico começou com o estudo dos metaconceitos da ação e pensamento humanos (MAPHs), que são arte, técnica, ciência, tecnologia e tecnociência. A seguir, realizou-se o desenvolvimento de um método epistemológico, baseado nas obras de Mário Bunge, para classificação epistemológica de conceitos da área provenientes do tesau-ro EpistemIS. Uma pesquisa de opinião com a comunidade científica da área foi reali-zada por meio de questionário na web. RESULTADOS. Obteve-se: uma caracteriza-ção dos MAPHs, mapas de sistematização do conhecimento em IS, classificações epistemológica e em MAPHs da IS, um mapa do conhecimento em IS e o consenso da comunidade sobre a epistemologia da IS. Por fim, foram calculadas estatísticas relati-vas: às classificações epistemológica e em MAPHs em IS, à integração entre o corpus de análise (437.289 artigos PubMed) e o tesauro EpistemIS. CONCLUSÃO. A partir de argumentos teóricos e práticos concluiu-se que a Informática em Saúde é uma tecno-ciência que se ocupa de solucionar problemas relativos aos domínios das Ciências da Vida, Ciências da Saúde e do Cuidado em Saúde, por meio da pesquisa científica in-terdisciplinar e do desenvolvimento de tecnologia para uso na sociedade. / TEDE
|
47 |
Avaliação de mecanismos de suporte à tomada de decisão e sua aplicabilidade no auxílio à priorização de casos em regulações de urgências e emergências / Evaluation of decision support mechanisms and their aplicability to aid prioritization of cases from medical coordination of emergency requestsJuliana Tarossi Pollettini 23 November 2016 (has links)
Introdução: A Regulação Médica, que representa a aplicação de técnicas de logística ao contexto de emergência, é responsável pela disponibilização de recursos apropriados, nas condições apropriadas para pacientes apropriados. Um sistema para Regulação Médica de Urgências e Emergências foi desenvolvido em 2009 e foi implantado na forma de um projeto-piloto. Técnicas nas áreas de processamento de linguagem natural, recuperação de informação e aprendizado de máquina podem ser utilizadas para processar registros clínicos e auxiliar processos de tomada de decisão. Objetivos: No presente trabalho busca-se: (i) comparar diferentes metodologias para representação e extração de informação de documentos em texto livre, tais como solicitações de regulação; (ii) proporcionar suporte à decisão na definição de prioridade de casos, com processamento textual e semântico do resumo clínico dos casos; e (iii) analisar as contribuições dos dados clínicos e prioridade definida durante o processo de regulação para o desfecho do caso. Metodologia: Foram utilizados dados do projeto-piloto, assim como dados relativos ao desfecho do caso de pacientes regulados e admitidos na Unidade de Emergência do HCFMRP-USP. Os dados foram processados com o auxílio de tecnologias de Aprendizado de Máquina, Mineração de Textos e Recuperação de Informação para extrair informações organizadas em atributos a serem utilizados pra permitir suporte à decisão na prioridade do caso. Resultados: Os dados de pedidos de regulação apresentam uma grande quantidade de casos com valores de atributos muito parecidos (algumas vezes idênticos), contudo com classes (prioridades) diferentes, caracterizando uma base de dados com grande quantidade de ruídos, o que dificulta a aplicação de tecnologias como Aprendizado de Máquina. Resultados evidenciam o caráter subjetivo na definição de prioridades, que talvez seja influenciada por outros fatores que não estão presentes no texto do registro clínico do paciente. Resultados de suporte à decisão na definição de prioridade e desfecho do caso indicam que aplicar processamento semântico, mapeando termos para conceitos médicos do UMLS, reduz o problema da dimensionalidade quando comparado a abordagens menos robustas de mineração de textos. A abordagem apoiada por recuperação de informação, permite que sejam classificados apenas pedidos de regulação que sejam mais similares que um limiar (threshold) desejado em relação a algum caso do banco de dados. Desta maneira, esta abordagem pode ser utilizada para reduzir sobrecarga, permitindo que reguladores concentrem sua atenção em casos mais críticos e casos de maior particularidade (não similares a casos históricos). Conclusões: O presente trabalho proporcionou suporte à decisão na priorização de casos em regulações de urgência e emergência, com processamento textual e semântico do resumo clínico dos casos. Definiu-se como proposta para suporte à decisão na priorização de casos um processo composto por três etapas: (i) análise do risco de óbito; (ii) pré-priorização automática de casos de alta similaridade com casos históricos; e (iii) apoio à decisão com base em casos históricos (aprendizagem baseada em exemplos). / Introduction: The Medical Coordination, which is the application of logistics techniques to the emergency context, is responsible for providing appropriate resources, in appropriate conditions to appropriate patients. A system for medical coordination of emergency requests was developed in 2009 and was implemented as a pilot project, although some activities related to medical coordination decision making are extremely subjective. Techniques from the areas of natural language processing, information retrieval and machine learning can be used to process clinical records and assist decision-making processes. Objectives: The present study aims to: (i) compare different methodologies for representation and information extraction from free text documents, such as coordination requests; (ii) provide decision support to prioritization of requests, with textual and semantic processing of clinical summaries of the cases; and (iii) analyze the contributions of clinical data and priority defined during the coordination process to the final case outcome. Methodology: Data from the pilot project, as well as data on the case outcome of coordinated patients admitted to the HCFMRP-USP Emergency Unit we used. Data was processed with the aid of Machine Learning, Information Retrival and Text Mining techniques to extract information organized into attributes to be used to enable decision support on the priority of the case. Results: The coordination requests data contain a large number of cases with very similar attribute values (sometimes identical), but with different classes (priorities), characterizing a database with a large amount of noise, making it hard to apply technologies such as Machine Learning. Results denote the subjective aspect in the definition of priorities, which may be influenced by other factors that are not present in the patient\'s clinical record text. Decision support results in prioritization and case outcome indicate that applying semantic processing, mapping terms to UMLS medical concepts, reduces the dimensionality problem when compared to less robust text mining approaches. The approach supported by information retrieval allows to classify only coordination requests that are more similar than a defined threshold to a historical case. Thus, this approach can be used to reduce overhead, allowing coordinators to focus their attention on the most critical cases and cases of greater particularity (not similar to historical cases). Conclusions: This work provided decision support in prioritizing cases of urgency and emergency coordination requests, with textual and semantic processing of clinical summary cases. It was defined as a proposal for decision support in prioritization of requestes a process consisting of three steps: (i) analysis of the risk of death; (ii) automatic pre-prioritization of cases of high similarity with historical cases; and (iii) decision support based on historical cases (examples-based learning).
|
48 |
Serendipity prospecção semântica de dados qualitativos em Educação EspecialFernandes, Woquiton Lima 22 August 2016 (has links)
Submitted by Alison Vanceto (alison-vanceto@hotmail.com) on 2017-02-23T12:32:56Z
No. of bitstreams: 1
TeseWLF.pdf: 10494807 bytes, checksum: df4332346794cb6528875bef5e9313c4 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-03-20T13:42:30Z (GMT) No. of bitstreams: 1
TeseWLF.pdf: 10494807 bytes, checksum: df4332346794cb6528875bef5e9313c4 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-03-20T13:42:43Z (GMT) No. of bitstreams: 1
TeseWLF.pdf: 10494807 bytes, checksum: df4332346794cb6528875bef5e9313c4 (MD5) / Made available in DSpace on 2017-03-20T13:54:25Z (GMT). No. of bitstreams: 1
TeseWLF.pdf: 10494807 bytes, checksum: df4332346794cb6528875bef5e9313c4 (MD5)
Previous issue date: 2016-08-22 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / In the past decades, there has been a revolution in the way science has been
conducted. The current context has demanded more collaborative work such as,
studies in research networks of large scale. One of the many essential marks of
change in this new way of making science has been the intense usage of Information
and Communication Technologies (ICT), or “eScience”. Nowadays, it plays a
fundamental role in the methodology adopted by many research groups around the
world. Analyses of the qualitative data evidenced in researches about Special
Education were done then. The biggest challenge that was noticed would be to
advance in the analysis of qualitative data using information technologies without
losing the subjectivity involved in the research and to broaden the capability of going
over the data without losing the right to come and go, the right to critique and
establish proper reflexions, respecting subjective positioning and, above all,
maintaining the research's critic criteria. In this sense, this work establishes as its
main objective to evaluate the proposed technological architecture of qualitative
analyses of data. This analysis was based upon data mining theories, researches in
ontology and techniques of semantic notation in the field of special education aiming
to analyze the thresholds and possibilities this methodological approach permits. We
used as methodology the construction of a prototype, named Serendipity, based on
the perspective of software engineering, in order to extract the main techniques that
could set as a safe method for design, implementation and deployment of the
solution. Cyclically, the methodology allowed us to modify requirements and establish
improvements, allowing the feedback process from new analyses. The text mining
process relied on gaining knowledge from textual databases that have little or no
data structure. The computational ontology was the element able to reconstruct the
syntactic representation, giving it direction. The words (data) are related and are set
within a context of formal knowledge, providing them with a semantic and cognitive
ability, building concepts, open to interpretation, comprehension and common
understanding; as a result, we built up a specific ontology for Special Education. The
semantic annotation helped attach content to the text to describe their semantics,
allowing that software agents could retrieve information in a more precise manner
through the association of the document to the ontology in a conception of semantic
fields. We built a customized dictionary for special education to relate terms to
synonyms and expressions associated with the ontology. To view beyond the
semantic classes, we used automatic concept maps to establish relationships
between concepts included in a hierarchical structure of propositions. Finally, to
assess the proposal, we made use of part of the data collected from the National
Observatory of Special Education in transcribed texts about the formation of five
cities, one from each region of Brazil. The results show limits already recognized in
the proposal and; in this respect, did not aim to establish a subjective and deep
analysis that would permit extreme precision results. It points out that the researcher
is and will always be the driving factor that operates the process’ flow and relying, or
not, on computing tools is not entirely immune to err. The proposal of serendipity has
given a step forward in the automatic process of data analysis and can be used in big
data without losing the subjectivity of the researcher. However, we must add new
human and technological resources to contribute to its improvement and encourage
other areas to develop domain ontologies with their experts and the development of
specific dictionaries. Therefore, despite its limitations, the approach has shown
significant advances in semantic exploration of qualitative data in the Special Education field and it is capable of being adapted to other areas and fields of
knowledge. / Nas últimas décadas, tem ocorrido uma revolução no modo como a ciência tem sido
conduzida, o atual contexto tem demandado cada vez mais o trabalho colaborativo,
tais como os estudos em redes de pesquisa de ampla escala. Um dos pontos
essenciais de mudança nessa nova forma de se fazer ciência tem sido o uso intenso
de Tecnologias de Informação e Comunicação (TIC), chamada como “eScience”,
que desempenha hoje um papel fundamental na metodologia adotada por muitos
grupos de pesquisa ao redor do mundo. Partiu-se então para uma reflexão acerca
do aprofundamento de dados qualitativos evidenciadas principalmente nas
pesquisas em Educação Especial. O grande desafio seria avançar na qualidade da
análise de dados qualitativos com uso das tecnologias da informação sem perder a
subjetividade envolvida na pesquisa e ampliar a capacidade de esmiuçar os dados
sem perder a liberdade de ir e vir, de criticar e estabelecer reflexões próprias,
respeitando posicionamentos e, sobretudo, mantendo o rigor científico na pesquisa.
Neste sentido, o presente estudo estabeleceu como objetivo principal avaliar a
arquitetura tecnológica proposta de análise qualitativa de dados, tendo como base
as teorias de mineração de textos, ontologia computacional e técnicas de anotação
semântica, em pesquisa da educação especial, a fim de analisar os limites e
possibilidades desta abordagem metodológica. Utilizamos como metodologia
baseada na construção de um protótipo, denominado Serendipity, fundamentado na
perspectiva da engenharia de software, de maneira que extraímos as principais
técnicas que puderam definir um método seguro para a concepção, implementação
e implantação da solução. De forma cíclica a metodologia permitia modificar
requisitos e estabelecer melhorias, permitindo a retroalimentação do processo a
partir de novas análises. Para isto, a mineração de textos apoiou-se na obtenção de
conhecimento a partir de bases de dados textuais que possuem pouca ou nenhuma
estrutura de dados. A ontologia computacional foi o elemento capaz de reconstruir a
representação sintática, dando a ela sentido. As palavras (dados) se relacionam e
são postas dentro de um contexto, de um conhecimento formal, dotando-as de uma
capacidade semântica e cognitiva, construindo conceitos, passível de interpretação,
compreensão e entendimento comum; para isto construiu-se uma ontologia
específica para Educação Especial. A anotação semântica ajudou a anexar
conteúdos ao texto para descrever a sua semântica, permitindo que agentes de
software pudessem recuperar informações de forma mais precisa, através da
associação do documento à ontologia, numa concepção de campos semânticos.
Construiu-se também um dicionário da Educação Especial customizado para
relacionar termos a sinônimos e expressões associadas à ontologia. Para
visualização, além das classes semânticas, utilizou-se de mapas conceituais
automáticos para estabelecer relações entre conceitos incluídos numa estrutura
hierárquica de proposições. Por fim, para a avaliação da proposta utilizou-se de
parte dos dados coletados no Observatório Nacional da Educação Especial de
textos transcritos acerca da Formação em cinco cidades, sendo uma de cada região
do Brasil. Os resultados evidenciam limites já reconhecidos na proposta e, neste
aspecto, não teve a pretensão de determinar uma análise subjetiva e detalhista, que
a rigor, permita resultados de extrema precisão. Destaca que o pesquisador é e
sempre será o condutor livre do funcionamento do processo e contando, ou não,
com ferramentas computacionais ele pode cometer erros. A proposta do serendipity
deu um passo no processo automático de análise de dados, podendo ser
aproveitada em big data, pesquisas de nível nacional, sem perder a subjetividade do pesquisador. Para isto é preciso agregar novos recursos humanos e tecnológicos
que contribuam em seu aprimoramento. Estimular outras áreas a desenvolverem
ontologias de domínio com seus especialistas e a evolução dos dicionários
específicos. Portanto, apesar de seus limites, a abordagem possui avanços
significativos na prospecção semântica de dados qualitativos em Educação Especial
e passível de adaptação a outras áreas de conhecimento.
|
49 |
Um data warehouse de publicações científicas: indexação automática da dimensão tópicos de pesquisa dos data marts / A Data warehouse for scientific publications: automatic indexing of the research topic dimension for using in data martsAugusto Kanashiro 04 May 2007 (has links)
Este trabalho de mestrado insere-se no contexto do projeto de uma Ferramenta Inteligente de Apoio à Pesquisa (FIP), sendo desenvolvida no Laboratório de Inteligência Computacional do ICMC-USP. A ferramenta foi proposta para recuperar, organizar e minerar grandes conjuntos de documentos científicos (na área de computação). Nesse contexto, faz-se necessário um repositório de artigos para a FIP. Ou seja, um Data Warehouse que armazene e integre todas as informações extraídas dos documentos recuperados de diferentes páginas pessoais, institucionais e de repositórios de artigos da Web. Para suportar o processamento analítico on-line (OLAP) das informações e facilitar a ?mineração? desses dados é importante que os dados estejam armazenados apropriadamente. Dessa forma, o trabalho de mestrado teve como objetivo principal projetar um Data Warehouse (DW) para a ferramenta FIP e, adicionalmente, realizar experimentos com técnicas de mineração e Aprendizado de Máquina para automatizar o processo de indexação das informações e documentos armazenados no data warehouse (descoberta de tópicos). Para as consultas multidimensionais foram construídos data marts de forma a permitir aos pesquisadores avaliar tendências e a evolução de tópicos de pesquisa / This dissertation is related to the project of an Intelligent Tool for Research Supporting (FIP), being developed at the Laboratory of Computational Intelligence at ICMC-USP. The tool was proposed to retrieve, organize, and mining large sets of scientific documents in the field of computer science. In this context, a repository of articles becomes necessary, i.e., a Data Warehouse that integrates and stores all extracted information from retrieved documents from different personal and institutional web pages, and from article repositories. Data appropriatelly stored is decisive for supporting online analytical processing (OLAP), and ?data mining? processes. Thus, the main goal of this MSc research was design the FIP Data Warehouse (DW). Additionally, we carried out experiments with Data Mining and Machine Learning techniques in order to automatize the process of indexing of information and documents stored in the data warehouse (Topic Detection). Data marts for multidimensional queries were designed in order to facilitate researchers evaluation of research topics trend and evolution
|
50 |
Enxame de partículas aplicado ao agrupamento de textos / Enxame de partículas aplicado ao agrupamento de textosPrior, Ana Karina Fontes 22 December 2010 (has links)
Made available in DSpace on 2016-03-15T19:37:34Z (GMT). No. of bitstreams: 1
Ana Karina Fontes Prior.pdf: 415415 bytes, checksum: a6ecb97b982ab886cc421abdc943c8ac (MD5)
Previous issue date: 2010-12-22 / Fundo Mackenzie de Pesquisa / The large number of data generated by people and organizations has stimulated the research on effective and automatic methods of knowledge extraction from databases. This dissertation proposes two new bioinspired techniques, named cPSC and oPSC, based on the Particle Swarm Optimization Algorithm (PSO) to solve data clustering problems. The proposed algorithms are applied to data and text clustering problems and their performances are compared with a standard algorithm from the literature. The results allow us to conclude that the proposed algorithms are competitive with those already available in literature, but bring benefits such as automatic determination of the number of groups on the dataset and a search for the best partitioning of the dataset considering an explicit cost function. / A grande quantidade de dados gerados por pessoas e organizações tem estimulado a pesquisa sobre métodos efetivos e automáticos de extração de conhecimentos a partir de bases de dados. Essa dissertação propõe duas novas técnicas bioinspiradas, denominadas cPSC e oPSC, baseadas no algoritmo de otimização por enxame de partículas (PSO - Particle Swarm Optimization) para resolver problemas de agrupamento de dados. Os algoritmos propostos são aplicados a problemas de agrupamento de dados e textos, e seus desempenhos são comparados com outros propostos na literatura específica. Os resultados obtidos nos permitem concluir que os algoritmos propostos são competitivos com aqueles já disponíveis na literatura, porém trazem outros benefícios como a determinação automática do número de grupos nas bases e a efetuação de uma busca pelo melhor particionamento possível da base considerando uma função de custo explícita.
|
Page generated in 0.0911 seconds