Spelling suggestions: "subject:"extração dde informação"" "subject:"extração dde enformação""
11 |
Um framework para extração de informações: uma abordagem baseada em XMLMedeiros Cabral, Davi January 2005 (has links)
Made available in DSpace on 2014-06-12T16:01:08Z (GMT). No. of bitstreams: 2
arquivo7169_1.pdf: 1406961 bytes, checksum: c55f5388badc5c0c67457d0f7e47902c (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2005 / Com o crescimento da Internet, muitas informações vêm se tornando rapidamente
disponíveis, a cada ano, devido à facilidade do processo de publicação digital. Porém, a
existência de diferentes formatos de representação (HTML, PS, RTF, etc.) e de
conteúdo (estruturado, semi-estruturado e livre) torna o gerenciamento eficiente de
documentos uma tarefa altamente complexa. Os atuais tratamentos de busca são pouco
eficientes, deixando a obtenção das informações contidas no documento a cargo da
atividade humana.
Dentro dessa conjuntura, destacam-se os sistemas de Extração de Informação para
obtenção de informações encontradas em documentos-texto, visando à realização de um
processamento posterior. Porém, tais sistemas ainda são muito difíceis de ser
desenvolvidos, exigindo conhecimentos de especialistas em Inteligência Artificial e no
domínio dos documentos a serem analisados. Tal complexidade estimulou as pesquisas
de sistemas, cada vez mais, genéricos para os mais variados domínios de textos simples
e HTML. Contudo, para diferentes fontes de entrada e saída e formatos de documentos
utilizados, pouco ou nenhum cuidado vem sendo dado em relação à flexibilidade e
extensibilidade desses sistemas.
Esta dissertação propõe um framework, baseado em XML, para o
desenvolvimento de sistemas de extração capazes de lidar com diferentes formatos de
entrada e saída. Esses formatos representam as funcionalidades específicas,
implementadas para cada uma de suas instâncias, enquanto as funcionalidades
reutilizadas no domínio do problema são definidas pelo algoritmo de extração
empregado. Dentre as diversas técnicas de extração de informações e aprendizagem de
máquinas existentes, foi usada uma abordagem semi-automática baseada no algoritmo
de indução definido no STALKER. Experimentos efetuados sobre artigos científicos
mostram que o framework proposto é aplicável aos formatos de entrada PDF, PS, DOC,
RTF e HTML; obtendo-se resultados satisfatórios quando comparados aos de sistemas
já consolidados
|
12 |
Uma arquitetura de question-answering instanciada no domínio de doenças crônicas / A question-answering architecture instantiated on the domains of chronic diseaseAlmansa, Luciana Farina 08 August 2016 (has links)
Nos ambientes médico e de saúde, especificamente no tratamento clínico do paciente, o papel da informação descrita nos prontuários médicos é registrar o estado de saúde do paciente e auxiliar os profissionais diretamente ligados ao tratamento. A investigação dessas informações de estado clínico em pesquisas científicas na área de biomedicina podem suportar o desenvolvimento de padrões de prevenção e tratamento de enfermidades. Porém, ler artigos científicos é uma tarefa que exige tempo e disposição, uma vez que realizar buscas por informações específicas não é uma tarefa simples e a área médica e de saúde está em constante atualização. Além disso, os profissionais desta área, em sua grande maioria, possuem uma rotina estressante, trabalhando em diversos empregos e atendendo muitos pacientes em um único dia. O objetivo deste projeto é o desenvolvimento de um Framework de Question Answering (QA) para suportar o desenvolvimento de sistemas de QA, que auxiliem profissionais da área da saúde na busca rápida por informações, especificamente, em epigenética e doenças crônicas. Durante o processo de construção do framework, estão sendo utilizados dois frameworks desenvolvidos anteriormente pelo grupo de pesquisa da mestranda: o SisViDAS e o FREDS, além de desenvolver os demais módulos de processamento de pergunta e de respostas. O QASF foi avaliado por meio de uma coleção de referências e medidas estatísticas de desempenho e os resultados apontam valores de precisão em torno de 0.7 quando a revocação era 0.3, para ambos o número de artigos recuperados e analisados eram 200. Levando em consideração que as perguntas inseridas no QASF são longas, com 70 termos por pergunta em média, e complexas, o QASF apresentou resultados satisfatórios. Este projeto pretende contribuir na diminuição do tempo gasto por profissionais da saúde na busca por informações de interesse, uma vez que sistemas de QA fornecem respostas diretas e precisas sobre uma pergunta feita pelo usuário / The medical record describes health conditions of patients helping experts to make decisions about the treatment. The biomedical scientific knowledge can improve the prevention and the treatment of diseases. However, the search for relevant knowledge may be a hard task because it is necessary time and the healthcare research is constantly updating. Many healthcare professionals have a stressful routine, because they work in different hospitals or medical offices, taking care many patients per day. The goal of this project is to design a Question Answering Framework to support faster and more precise searches for information in epigenetic, chronic disease and thyroid images. To develop the proposal, we are reusing two frameworks that have already developed: SisViDAS and FREDS. These two frameworks are being exploited to compose a document processing module. The other modules (question and answer processing) are being completely developed. The QASF was evaluated by a reference collection and performance measures. The results show 0.7 of precision and 0.3 of recall for two hundred articles retrieved. Considering that the questions inserted on the framework have an average of seventy terms, the QASF shows good results. This project intends to decrease search time once QA systems provide straight and precise answers in a process started by a user question in natural language
|
13 |
Sistema de aplicação unificada de regras linguísticas e ontologias para a extração de informaçõesAraujo, Denis Andrei de 30 August 2013 (has links)
Submitted by Mariana Dornelles Vargas (marianadv) on 2015-05-29T14:51:35Z
No. of bitstreams: 1
sistema_aplicacao.pdf: 3329376 bytes, checksum: 15eb7bd8bf245f93a6032e0aeec8c11a (MD5) / Made available in DSpace on 2015-05-29T14:51:35Z (GMT). No. of bitstreams: 1
sistema_aplicacao.pdf: 3329376 bytes, checksum: 15eb7bd8bf245f93a6032e0aeec8c11a (MD5)
Previous issue date: 2013 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A Extração de Informações é um componente importante do conjunto de ferramentas computacionais que visam a identificação de informação relevante a partir de textos em linguagem natural. Regras de extração de conhecimento, baseadas no tratamento linguístico de aspectos específicos dos documentos textuais, podem contribuir para o alcance de melhores desempenhos nesta tarefa. Este trabalho apresenta um modelo para a Extração da Informação baseada em ontologias, a qual se utiliza de técnicas de Processamento da Linguagem Natural e corpus anotado para a identificação das informações de interesse. São descritos os principais componentes da proposta e apresentado um estudo de caso baseado em documentos jurídicos brasileiros. Os resultados obtidos nos experimentos realizados indicam índices relevantes de acurácia e precisão e boas perspectivas quanto a flexibilidade, expressividade e generalização das regras de extração. / Information extraction is an important part of a broader set of enabling tools to assist on identifying relevant information from natural language texts. Knowledge acquisition rules, based on linguistic treatment of specific aspects of textual documents, can provide an even broader set of possibilities. This work presents a model for addressing information extraction from texts based on ontology, which uses Natural Language Processing techniques and annotated corpus to identify relevant information. The main components of the proposal are described and presented a case study based on Brazilian legal documents. The results achieved on experiments indicate relevant accuracy and precision performance and good prospects regarding flexibility, expressiveness and generalization of the extraction rules.
|
14 |
Descoberta de relacionamentos semânticos não taxonômicos entre termos ontológicosAndrade, Arthur Morais de 14 February 2017 (has links)
Submitted by Aelson Maciera (aelsoncm@terra.com.br) on 2017-08-03T19:48:04Z
No. of bitstreams: 1
DissAMA.pdf: 3949100 bytes, checksum: a7c504999039d0736a8629285dd87c12 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-08-08T18:37:14Z (GMT) No. of bitstreams: 1
DissAMA.pdf: 3949100 bytes, checksum: a7c504999039d0736a8629285dd87c12 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-08-08T18:37:20Z (GMT) No. of bitstreams: 1
DissAMA.pdf: 3949100 bytes, checksum: a7c504999039d0736a8629285dd87c12 (MD5) / Made available in DSpace on 2017-08-08T18:41:15Z (GMT). No. of bitstreams: 1
DissAMA.pdf: 3949100 bytes, checksum: a7c504999039d0736a8629285dd87c12 (MD5)
Previous issue date: 2017-02-14 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Ontologies have become an important tool to structure knowledge. However, the construction of an ontology involves a careful process of defining representative terms of the domain and its relationships, which requires a lot of time from ontology engineers and domain experts. These relationships can be taxonomic (hyponymy and meronymy), representing a taxonomy of concepts, and non-taxonomic, referring to the other relationships that occur between the nodes of this taxonomy. The main difficulties of constructing an ontology are related to the time spent by domain specialists and the necessity of guaranteeing the quality and reliability of the ontologies create. In this way, we are welcome the efforts to elaborate approaches that aim to reduce the amount of time dedicated by specialists without reducing the quality of the ontology created. In this master's project, an approach was developed for the discovery of semantic relationships between non-taxonomic ontological terms from semi-structured documents written with informal vocabularies of the Brazilian Portuguese language. Thus, it aids ontology engineers and domain experts in the arduous task of discovering the relationships between ontological terms. After the discovery of semantic relationships, the relationships were converted into a conceptual structure, generated by the Formal Concept Analysis (FCA) method. This approach was validated in two experiments, with the help of domain experts in special education. The first experiment consisted of a comparison between manually extracted relationships and automatic extraction, presenting a good value of precision, coverage and measurement F, respectively, 92%, 95% and 93%. The second experiment evaluated the relationships extracted, automatically, in the structure generated by the FCA, it gets average accuracy 86,5%.These results prove the effectiveness of the semantic relationship discovery approach. / Ontologias têm se tornado um importante instrumento para a estruturação do conhecimento. Porém, a construção de uma ontologia envolve um cuidadoso processo de definição de termos representativos do domínio e seus relacionamentos, exigindo muito tempo dos engenheiros de ontologias em conjunto com especialistas de domínio. Esses relacionamentos podem ser taxonômicos (hiponímia e meronímia), representando uma taxonomia de conceitos, e não taxonômicos, referentes aos demais relacionamentos que ocorrem entre os nós dessa taxonomia. As principais dificuldades estão relacionadas ao tempo gasto pelos especialistas de domínio e às garantias necessárias para a qualidade das ontologias criadas, tornando-as confiáveis. Neste sentido, são bem-vindos os esforços para a elaboração de abordagens que visam diminuir o tempo de dedicação do especialista sem redução de qualidade da ontologia criada. Neste trabalho foi desenvolvida uma abordagem para a descoberta de relações semânticas não taxonômicas entre termos ontológicos, a partir de documentos semiestruturados redigidos com vocábulos informais do Português variante brasileira. A abordagem visa auxiliar engenheiros de ontologias e especialistas de domínio na árdua tarefa de descoberta dos relacionamentos entre termos ontológicos. Após a descoberta dos relacionamentos semânticos, estes foram convertidos em uma estrutura conceitual, gerada pelo método Formal Concept Analysis (FCA). Essa abordagem foi avaliada em dois experimentos, com auxílio de especialistas de domínio em Educação Especial. O primeiro experimento consistiu em uma comparação entre os relacionamentos extraídos de forma manual e a extração automática, apresentando um bom valor de precisão, cobertura e medida F, obtendo, respectivamente, 92%, 95% e 93%. Já o segundo experimento consistiu em avaliar os relacionamentos extraídos automaticamente na estrutura gerada pelo FCA, obtendo precisão média 86,5%. Esses resultados indicam a eficácia da abordagem de descoberta de relacionamentos semânticos.
|
15 |
Um estudo sobre a relevância dos padrões lexicais para a interpretação de textos por meio da extração de informaçãoPorfirio, Lucielen 17 February 2006 (has links)
Made available in DSpace on 2017-07-10T18:55:26Z (GMT). No. of bitstreams: 1
Lucielen Porfirio.pdf: 522478 bytes, checksum: 120e6f485faab939a4f8ab24bf1f53d1 (MD5)
Previous issue date: 2006-02-17 / Text interpretation is a complex process that depends not only on linguistics aspects, but also cognitive and extra linguistics. In order to interpret a text, any reader must, initially, be able to decode the language and formulate mental representations of the message brought by the text. In order to do so, he will need, necessarily, to make hypothesis and inferences, and activate his previous knowledge, either linguistics or extra linguistics. Besides, the reader must locate the main ideas of the text that are expressed in the lexical items and in the relation among them. In such case, it s reasonable to admit that the identification of isolated terms in a text and the analysis of its real function in it are both very important elements for the text interpretation work. Several methods might be used for working with text interpretation. Among the most common we have the answer to questions (oral or written) about the content of the text, and more recently the Information Extraction (IE). This one is a method that consists, fundamentally, on identification and extraction of relevant linguistic aspects (lexical, syntactic and conceptual semantic) used for different types of objectives, such as: summarization, categorization and text interpretation. Through the location of keywords and linguistics structures the method goal is identify and extract the most important information that together may allow the individual to understand the subject discussed there more easily. Assuming that the interactions among lexical items are one of the most important elements in text interpretation, the goal of this paper is to discuss in what way the reader could better explore this relation, in order to help him to interpret a text. For the analysis three keywords were tracked in a research corpus in the dominium of gastroenterology: intestine , cause and helicobacter pylori . Based on the lexical patterns of collocation, colligation and semantic prosody, these words were investigated, observing how the linguistic relations of each one could reveal meanings and help in interpretation process. As a result, we noticed that through the observation of the lexical patters it was possible to extract information regarding the text subject, as well as important aspects discussed in them, such as diseases, its causes, effects and treatments, even without having access to the whole texts. / A interpretação de textos é um processo complexo por natureza que depende não apenas de aspectos lingüísticos, mas também, cognitivos e extralingüísticos. Para interpretar um texto, todo leitor deve, inicialmente, ser capaz de decodificar o código desse texto e formular as representações mentais sobre o que é trazido como mensagem. Para tanto, o leitor precisará, necessariamente, levantar hipóteses, fazer inferências, e ativar seus conhecimentos prévios, tanto os lingüísticos quanto os de mundo (extralingüísticos). Além disso, o leitor deve localizar as principais idéias contidas num texto, as quais estão expressas nos itens lexicais e nas interações entre eles. Sendo assim, é razoável admitir que a identificação de termos isolados num texto e a análise das suas verdadeiras funções constituem, ambos, elementos de alta relevância para um trabalho de análise interpretativa. Vários métodos têm sido utilizados para se trabalhar a interpretação de textos. Dentre os mais comuns, citamos o exercício de respostas a perguntas (orais ou escritas) e, mais recentemente, a extração de informação. A extração de informação (EI) de textos é um método que consiste, fundamentalmente, na identificação e extração de aspectos lingüísticos relevantes (lexicais, sintáticos e semântico-conceituais), usados para diferentes tipos de finalidades, tais como: a sumarização, a categorização e a interpretação textual. A partir da localização de palavras-chaves e de estruturas lingüísticas, o objetivo do método é não só identificar, mas também extrair do texto as informações importantes que, em conjunto, possam permitir ao indivíduo compreender mais facilmente o assunto ali tratado. Assumindo que as interações entre os itens lexicais são, senão os únicos, um dos elementos mais importantes na interpretação de textos, o objetivo dessa pesquisa é discutir de que maneira essas relações poderiam ser melhor exploradas pelo leitor, para auxiliá-lo no trabalho interpretativo. Para a análise três palavras-chaves foram rastreadas num corpus de pesquisa no domínio da gastroenterologia: intestino , causa e helicobacter pylori . Com base nos padrões lexicais da colocação, coligação e prosódia semântica, as ocorrências de cada uma das palavras foram analisadas, com o intuito de verificar como as relações lingüísticas revelam sentidos e auxiliam no processo interpretativo. Como resultado, observamos que, mesmo sem acesso ao texto como um todo, a partir das ocorrências dos padrões foi possível extrair informações relativas ao assunto dos textos, bem como de aspectos importantes neles discutidos, tais como patologias, suas causas e efeitos.
|
16 |
Uma arquitetura de question-answering instanciada no domínio de doenças crônicas / A question-answering architecture instantiated on the domains of chronic diseaseLuciana Farina Almansa 08 August 2016 (has links)
Nos ambientes médico e de saúde, especificamente no tratamento clínico do paciente, o papel da informação descrita nos prontuários médicos é registrar o estado de saúde do paciente e auxiliar os profissionais diretamente ligados ao tratamento. A investigação dessas informações de estado clínico em pesquisas científicas na área de biomedicina podem suportar o desenvolvimento de padrões de prevenção e tratamento de enfermidades. Porém, ler artigos científicos é uma tarefa que exige tempo e disposição, uma vez que realizar buscas por informações específicas não é uma tarefa simples e a área médica e de saúde está em constante atualização. Além disso, os profissionais desta área, em sua grande maioria, possuem uma rotina estressante, trabalhando em diversos empregos e atendendo muitos pacientes em um único dia. O objetivo deste projeto é o desenvolvimento de um Framework de Question Answering (QA) para suportar o desenvolvimento de sistemas de QA, que auxiliem profissionais da área da saúde na busca rápida por informações, especificamente, em epigenética e doenças crônicas. Durante o processo de construção do framework, estão sendo utilizados dois frameworks desenvolvidos anteriormente pelo grupo de pesquisa da mestranda: o SisViDAS e o FREDS, além de desenvolver os demais módulos de processamento de pergunta e de respostas. O QASF foi avaliado por meio de uma coleção de referências e medidas estatísticas de desempenho e os resultados apontam valores de precisão em torno de 0.7 quando a revocação era 0.3, para ambos o número de artigos recuperados e analisados eram 200. Levando em consideração que as perguntas inseridas no QASF são longas, com 70 termos por pergunta em média, e complexas, o QASF apresentou resultados satisfatórios. Este projeto pretende contribuir na diminuição do tempo gasto por profissionais da saúde na busca por informações de interesse, uma vez que sistemas de QA fornecem respostas diretas e precisas sobre uma pergunta feita pelo usuário / The medical record describes health conditions of patients helping experts to make decisions about the treatment. The biomedical scientific knowledge can improve the prevention and the treatment of diseases. However, the search for relevant knowledge may be a hard task because it is necessary time and the healthcare research is constantly updating. Many healthcare professionals have a stressful routine, because they work in different hospitals or medical offices, taking care many patients per day. The goal of this project is to design a Question Answering Framework to support faster and more precise searches for information in epigenetic, chronic disease and thyroid images. To develop the proposal, we are reusing two frameworks that have already developed: SisViDAS and FREDS. These two frameworks are being exploited to compose a document processing module. The other modules (question and answer processing) are being completely developed. The QASF was evaluated by a reference collection and performance measures. The results show 0.7 of precision and 0.3 of recall for two hundred articles retrieved. Considering that the questions inserted on the framework have an average of seventy terms, the QASF shows good results. This project intends to decrease search time once QA systems provide straight and precise answers in a process started by a user question in natural language
|
17 |
Minerador WEB: um estudo sobre mecanismos de descoberta de informações na WEB. / Minerador WEB: a study on mechanisms of discovery of information in the WEB.Toscano, Wagner 10 July 2003 (has links)
A Web (WWW - World Wide Web) possui uma grande quantidade e variedade de informações. Isso representa um grande atrativo para que as pessoas busquem alguma informação desejada na Web. Por outo lado, dessa grande quantidade de informações resulta o problema fundamental de como descobrir, de uma maneira eficaz, se a informação desejada está presente na Web e como chegar até ela. A existência de um conjunto de informações que não se permitem acessar com facilidade ou que o acesso é desprovido de ferramentas eficazes de busca da informção, inviabiliza sua utilização. Soma-se às dificuldades no processo de pesquisa, a falta de estrutura das informações da Web que dificulta a aplicação de processos na busca da informação. Neste trabalho é apresentado um estudo de técnicas alternativas de busca da informação, pela aplicação de diversos conceitos relacionados à recuperação da informação e à representação do conhecimento. Mais especificamente, os objetivos são analisar a eficiência resultante da utilização de técnicas complementares de busca da informação, em particular mecanismos de extração de informações a partir de trechos explícitos nos documentos HTML e o uso do método de Naive Bayes na classificação de sites, e analisar a eficácia de um processo de armazenamento de informações extraídas da Web numa base de conhecimento (descrita em lógica de primeira ordem) que, aliada a um conhecimento de fundo, permita respomder a consultas mais complexas que as possíveis por meio do uso de expressões baseadas em palavras-chave e conectivos lógicos. / The World Wide Web (Web) has a huge amount and a large diversity of informations. There is a big appeal to people navigate on the Web to search for a desired information. On the other hand, due to this huge amount of data, we are faced with the fundamental problems of how to discover and how to reach the desired information in a efficient way. If there is no efficient mechanisms to find informations, the use of the Web as a useful source of information becomes very restrictive. Another important problem to overcome is the lack of a regular structure of the information in the Web, making difficult the use of usual information search methods. In this work it is presented a study of alternative techniques for information search. Several concepts of information retrieval and knowledge representation are applied. A primary goal is to analyse the efficiency of information retrieval methods using analysis of extensional information and probabilistic methods like Naive Bayes to classify sites among a pre-defined classes of sites.Another goal is to design a logic based knowledhe base, in order to enable a user to apply more complex queries than queries based simply on expressions using keywouds and logical connectives
|
18 |
Construção automática de redes bayesianas para extração de interações proteína-proteína a partir de textos biomédicos / Learning Bayesian networks for extraction of protein-protein interaction from biomedical articlesJuárez, Pedro Nelson Shiguihara 20 June 2013 (has links)
A extração de Interações Proteína-Proteína (IPPs) a partir de texto é um problema relevante na área biomédica e um desafio na área de aprendizado de máquina. Na área biomédica, as IPPs são fundamentais para compreender o funcionamento dos seres vivos. No entanto, o número de artigos relacionados com IPPs está aumentando rapidamente, sendo impraticável identicá-las e catalogá-las manualmente. Por exemplo, no caso das IPPs humanas apenas 10% foram catalogadas. Por outro lado, em aprendizado de máquina, métodos baseados em kernels são frequentemente empregados para extrair automaticamente IPPs, atingindo resultados considerados estado da arte. Esses métodos usam informações léxicas, sintáticas ou semânticas como características. Entretanto, os resultados ainda são insuficientes, atingindo uma taxa relativamente baixa, em termos da medida F, devido à complexidade do problema. Apesar dos esforços em produzir kernels, cada vez mais sofisticados, usando árvores sintáticas como árvores constituintes ou de dependência, pouco é conhecido sobre o desempenho de outras abordagens de aprendizado de máquina como, por exemplo, as redes bayesianas. As àrvores constituintes são estruturas de grafos que contêm informação importante da gramática subjacente as sentenças de textos contendo IPPs. Por outro lado, a rede bayesiana permite modelar algumas regras da gramática e atribuir para elas uma distribuição de probabilidade de acordo com as sentenças de treinamento. Neste trabalho de mestrado propõe-se um método para construção automática de redes bayesianas a partir de árvores contituintes para extração de IPPs. O método foi testado em cinco corpora padrões da extração de IPPs, atingindo resultados competitivos, em alguns casos melhores, em comparação a métodos do estado da arte / Extracting Protein-Protein Interactions (PPIs) from text is a relevant problem in the biomedical field and a challenge in the area of machine learning. In the biomedical field, the PPIs are fundamental to understand the functioning of living organisms. However, the number of articles related to PPIs is increasing rapidly, hence it is impractical to identify and catalog them manually. For example, in the case of human PPIs only 10 % have been cataloged. On the other hand, machine learning methods based on kernels are often employed to automatically extract PPIs, achieving state of the art results. These methods use lexical, syntactic and semantic information as features. However, the results are still poor, reaching a relatively low rate of F-measure due to the complexity of the problem. Despite efforts to produce sophisticate kernels, using syntactic trees as constituent or dependency trees, little is known about the performance of other Machine Learning approaches, eg, Bayesian networks. Constituent tree structures are graphs which contain important information of the underlying grammar in sentences containing PPIs. On the other hand, the Bayesian network allows modeling some rules of grammar and assign to them a probability distribution according to the training sentences. In this master thesis we propose a method for automatic construction of Bayesian networks from constituent trees for extracting PPIs. The method was tested in five corpora, considered benchmark of extraction of PPI, achieving competitive results, and in some cases better results when compared to state of the art methods
|
19 |
Minerador WEB: um estudo sobre mecanismos de descoberta de informações na WEB. / Minerador WEB: a study on mechanisms of discovery of information in the WEB.Wagner Toscano 10 July 2003 (has links)
A Web (WWW - World Wide Web) possui uma grande quantidade e variedade de informações. Isso representa um grande atrativo para que as pessoas busquem alguma informação desejada na Web. Por outo lado, dessa grande quantidade de informações resulta o problema fundamental de como descobrir, de uma maneira eficaz, se a informação desejada está presente na Web e como chegar até ela. A existência de um conjunto de informações que não se permitem acessar com facilidade ou que o acesso é desprovido de ferramentas eficazes de busca da informção, inviabiliza sua utilização. Soma-se às dificuldades no processo de pesquisa, a falta de estrutura das informações da Web que dificulta a aplicação de processos na busca da informação. Neste trabalho é apresentado um estudo de técnicas alternativas de busca da informação, pela aplicação de diversos conceitos relacionados à recuperação da informação e à representação do conhecimento. Mais especificamente, os objetivos são analisar a eficiência resultante da utilização de técnicas complementares de busca da informação, em particular mecanismos de extração de informações a partir de trechos explícitos nos documentos HTML e o uso do método de Naive Bayes na classificação de sites, e analisar a eficácia de um processo de armazenamento de informações extraídas da Web numa base de conhecimento (descrita em lógica de primeira ordem) que, aliada a um conhecimento de fundo, permita respomder a consultas mais complexas que as possíveis por meio do uso de expressões baseadas em palavras-chave e conectivos lógicos. / The World Wide Web (Web) has a huge amount and a large diversity of informations. There is a big appeal to people navigate on the Web to search for a desired information. On the other hand, due to this huge amount of data, we are faced with the fundamental problems of how to discover and how to reach the desired information in a efficient way. If there is no efficient mechanisms to find informations, the use of the Web as a useful source of information becomes very restrictive. Another important problem to overcome is the lack of a regular structure of the information in the Web, making difficult the use of usual information search methods. In this work it is presented a study of alternative techniques for information search. Several concepts of information retrieval and knowledge representation are applied. A primary goal is to analyse the efficiency of information retrieval methods using analysis of extensional information and probabilistic methods like Naive Bayes to classify sites among a pre-defined classes of sites.Another goal is to design a logic based knowledhe base, in order to enable a user to apply more complex queries than queries based simply on expressions using keywouds and logical connectives
|
20 |
CollectMed: Extração e Reuso de Conhecimento Coletivo para o Registro Eletrônico em Saúde. / CollectMed: Extração e Reuso de Conhecimento Coletivo para o Registro Eletrônico em SaúdeSerafim, Eduardo Paz 07 February 2011 (has links)
Made available in DSpace on 2015-05-14T12:36:26Z (GMT). No. of bitstreams: 1
parte1.pdf: 1614982 bytes, checksum: 20a76dbb04a57c702c64e525119a04ec (MD5)
Previous issue date: 2011-02-07 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Several technological advances during recent years provided that the Electronic Health Record systems (EHR) became a solidified and viable alternative to replace progres-sively and efficiently, the use of health records on paper. The benefits found are associated with the use of methods for clinical decision support (CDS), data availability, ease in finding information, among other advantages inherent in computerized systems use. However, there are still many challenges and research to get the full potential of such systems. For example, the amounts of clinical data for EHR storage are very high. Several interests might benefit if there was a tool capable of performing an automated analysis, or more commonly found, semi-automated, useful for search patterns in the data set stored in the system.
Several studies indicate that efforts in the field of machine learning achieve great results in various areas including clinical information. However, the effort required is still high, increasing the time spent with planning and processing, with high costs and large amounts of data needed for processing. This work, in association with the OpenCTI's CDS seeks to significantly reduce the amount of effort necessary to promote both the reuse of clin-ical information from the automatic learning, and the development of mechanisms for clini-cal decision support with low cost.
This study seeks to offer those benefits to users of EHR systems, through a simple mechanism, but extensive, for analysis of clinical data stored in clinical databases. This anal-ysis is performed using a methodology of knowledge extraction algorithms using collective intelligence or data mining, through steps of search, selection, preprocessing, modeling, evaluation and application of the information extracted from these systems. From this, me-chanisms for clinical decision support of EHR, may use the framework offered by CollectMed to promote with greater ease and precision, more accurate information regarding specific medical conditions on their patients, according to what has already been registered by health professionals in similar cases using the EHR. / Diversos avanços tecnológicos ocorridos nos últimos anos fizeram com que os Sis-temas de Registro Eletrônico em Saúde (RES) se consolidassem como uma alternativa viável para substituir, progressivamente e com eficiência, o uso dos registros de saúde em papel. Os benefícios encontrados são associados ao uso de métodos de apoio à decisão clínica, disponi-bilidade dos dados, facilidade na busca por informações, entre outras vantagens inerentes ao uso de sistemas computadorizados. Entretanto, existem ainda, muitos desafios e pesquisas para fazer com que todo o potencial desses sistemas seja utilizado. Por exemplo, a quantida-de de dados clínicos que os sistemas de RES armazenam, é muito elevado. Diversos interes-ses poderiam ser beneficiados, caso houvesse uma ferramenta capaz de realizar uma análise automatizada, ou semi-automatizada (como é mais comumente encontrada), para buscar padrões úteis no conjunto de dados armazenados no sistema.
Diversos trabalhos apontam que os esforços realizados no campo de aprendizado automático alcançam ótimos resultados em diversas áreas, inclusive para informações clíni-cas. Porém, o esforço necessário ainda é elevado, aumentando o tempo dedicado ao planeja-mento e execução, assim como altos custos e necessidade de grande volume de dados para o processamento. Este trabalho, associado ao sistema de apoio à decisão do OpenCTI busca reduzir, significativamente,o esforço necessário para promover tanto o reuso de informações clínicas a partir do aprendizado automático, quanto o desenvolvimento de mecanismos de apoio à decisão clínica a um baixo custo.
O presente trabalho, busca oferecer tal benefício aos usuários de sistemas de RES, por meio de um mecanismo simples, porém amplo, de análise dos dados clínicos armazena-dos nos bancos de dados dos RES. Essa análise será realizada por meio de uma metodologia de extração de conhecimento, utilizando algoritmos de inteligência coletiva ou data mining, passando por etapas de busca, seleção, pré-processamento, modelagem, avaliação e aplicação destas informações extraídas dos sistemas. A partir disso, mecanismos de apoio à decisão clínica dos RES, poderão utilizar o arcabouço oferecido pelo CollectMed para promover, com mais facilidade e precisão, recuperação de informações mais apuradas a respeito das condi-ções clínicas específicas sobre seus pacientes, de acordo com o que já foi registrado por pro-fissionais de saúde em casos clínicos semelhantes persistidos no RES.
|
Page generated in 0.0885 seconds