• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 314
  • 46
  • 6
  • Tagged with
  • 366
  • 366
  • 90
  • 69
  • 60
  • 54
  • 54
  • 51
  • 51
  • 48
  • 48
  • 45
  • 45
  • 42
  • 39
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
181

Um Algoritmo para indução de árvores e regras de decisão

Halmenschlager, Carine January 2002 (has links)
A classificação é uma das tarefas da Mineração de Dados. Esta consiste na aplicação de algoritmos específicos para produzir uma enumeração particular de padrões. Já a classificação é o processo de gerar uma descrição, ou um modelo, para cada classe a partir de um conjunto de exemplos dados. Os métodos adequados e mais utilizados para induzir estes modelos, ou classificadores, são as árvores de decisão e as regras de classificação. As regras e árvores de decisão são populares, principalmente, por sua simplicidade, flexibilidade e interpretabilidade. Entretanto, como a maioria dos algoritmos de indução particionam recursivamente os dados, o processamento pode tornar-se demorado, e a árvore construída pode ser muito grande e complexa, propensa ao overfitting dos dados, que ocorre quando o modelo aprende detalhadamente ao invés de generalizar. Os conjuntos de dados reais para aplicação em Mineração de Dados são, atualmente, muito grandes, e envolvem vários milhares de registros, sendo necessária, também, uma forma de generalizar estes dados. Este trabalho apresenta um novo modelo de indução de classificadores, em que o principal diferencial do algoritmo proposto é a única passada pelo conjunto de treinamento durante o processo de indução, bem como a sua inspiração proveniente de um Sistema Multiagente. Foi desenvolvido um protótipo, o Midas, que foi validado e avaliado com dados de repositórios. O protótipo também foi aplicado em bases de dados reais, com o objetivo de generalizar as mesmas. Inicialmente, foi estudado e revisado o tema de Descoberta de Conhecimento em Bases de Dados, com ênfase nas técnicas e métodos de Mineração de Dados. Neste trabalho, também são apresentadas, com detalhes, as árvores e regras de decisão, com suas técnicas e algoritmos mais conhecidos. Finalizando, o algoritmo proposto e o protótipo desenvolvido são apresentados, bem como os resultados provenientes da validação e aplicação do mesmo.
182

Rep-Index : uma abordagem abrangente e adaptável para identificar reputação acadêmica / Rep-Index : a comprehensive and adaptable approach to identify academic reputation

Cervi, Cristiano Roberto January 2013 (has links)
A tarefa de avaliar a produção científica de um pesquisador é fortemente baseada na análise de seu currículo. É o que fazem, por exemplo, as agências de fomento à pesquisa e desenvolvimento ou comissões de avaliação, quando necessitam considerar a produção científica dos pesquisadores no processo de concessão de bolsas e auxílios, na seleção de consultores e membros de comitês, na aprovação de projetos ou simplesmente para avaliar o conceito de um programa de pós-graduação. Nesse contexto, a modelagem de perfis de pesquisadores é tarefa fundamental, especialmente quando se quer avaliar a reputação dos pesquisadores. Isto pode ocorrer por meio de um processo de análise da trajetória de toda a carreira científica do pesquisador. Tal processo envolve não somente aspectos relacionados a artigos ou livros publicados, mas também por outros elementos inerentes à atividade de um pesquisador, como orientações de trabalhos de mestrado e de doutorado; participação em defesas de mestrado e de doutorado; trabalhos apresentados em conferências; participação em projetos de pesquisa, inserção internacional, dentre outros. O objetivo deste trabalho é especificar um modelo de perfil de pesquisadores (Rep- Model) e uma métrica para medir reputação acadêmica (Rep-Index). O processo de modelagem do perfil envolve a definição de quais informações são relevantes para a especificação do perfil e as apresenta por meio de 18 elementos e 5 categorias. O processo para medir a reputação do pesquisador é definido por uma métrica que gera um índice. Esse índice é calculado mediante a utilização dos elementos constantes no perfil do pesquisador. Para avaliar a abordagem proposta na tese, diversos experimentos foram realizados. Os experimentos envolveram a avaliação dos elementos do Rep-Model por meio de análise de correlação e por algoritmos de mineração de dados. O Rep-Index também foi avaliado e correlacionado com duas métricas amplamente utilizadas na comunidade científica, o h-index e o g-index. Como baseline, foram utilizados todos os pesquisadores do CNPq das áreas de Ciência da Computação, Economia e Odontologia. O trabalho desenvolvido nesta tese está inserido no contexto da identificação da reputação de pesquisadores no âmbito acadêmico. A abordagem desta tese tem como premissa ser abrangente e adaptável, pois envolve a vida científica do pesquisador construída ao longo de sua carreira científica e pode ser utilizada em diferentes áreas e em diferentes contextos. / The task of evaluating the scientific production of a researcher is based strongly on the analysis of their curriculum. It's what makes the agencies for research support or evaluation committees, when they need to consider the scientific production of researchers in the process of awarding grants and aid in the selection of consultants and committee members in approving projects or simply to assess the concept of a program graduate. In that context, the modeling of profiles of researchers is fundamental task especially when one wants to evaluate the reputation of the researchers. This can occur by means of a process of analysis of the trajectory of all the scientific career of the researcher. Such process involves not only aspects related to papers or books, but also other elements inherent in the activity of a researcher, as orientations of master’s degree and doctorate; participation in defense of master's and doctoral degrees; papers presented in conferences, participation in research projects, international integration, among others. This proposal specifies a profile template for researchers (Rep-Model) and a metric to measure academic reputation (Rep-Index). The profile modeling process involves define which information is relevant to the specification of the profile and shows through 18 elements and 5 categories. The process for measuring researcher's reputation is defined by a metric that generates an index. This index is calculated by using the information contained in the profile of the researcher. To evaluate the approach proposed in the thesis, extensive experiments were conducted. The experiments involved the evaluation of Rep-Model by means of correlation analysis and data mining algorithms. The Rep-Index was also evaluated and correlated with two metrics widely used in the scientific community, the h-index and gindex. As a baseline, all of CNPq researchers in the areas of Computer Science, Economics and Dentistry were used. The work in this thesis is set in the context of identifying the reputation of researchers within the academic sphere. The approach of this thesis is premised be comprehensive and adaptable, because it involves the life science researcher built throughout his scientific career and can be used in different research areas and in different contexts.
183

Redução do esforço do usuário na configuração da deduplicação de grandes bases de dados / Reducing the user effort to tune large scale deduplication

Dal Bianco, Guilherme January 2014 (has links)
A deduplicação consiste na tarefa de identificar quais objetos (registros, documentos, textos, etc.) são potencialmente os mesmos em uma base de dados (ou em um conjunto de bases de dados). A identificação de dados duplicados depende da intervenção do usuário, principalmente para a criação de um conjunto contendo pares duplicados e não duplicados. Tais informações são usadas para ajudar na identificação de outros possíveis pares duplicados presentes na base de dados. Em geral, quando a deduplicação é estendida para grandes conjuntos de dados, a eficiência e a qualidade das duplicatas dependem diretamente do “ajuste” de um usuário especialista. Nesse cenário, a configuração das principais etapas da deduplicação (etapas de blocagem e classificação) demandam que o usuário seja responsável pela tarefa pouco intuitiva de definir valores de limiares e, em alguns casos, fornecer pares manualmente rotulados. Desse modo, o processo de calibração exige que o usuário detenha um conhecimento prévio sobre as características específicas da base de dados e os detalhes do funcionamento do método de deduplicação. O objetivo principal desta tese é tratar do problema da configuração da deduplicação de grandes bases de dados, de modo a reduzir o esforço do usuário. O usuário deve ser somente requisitado para rotular um conjunto reduzido de pares automaticamente selecionados. Para isso, é proposta uma metodologia, chamada FS-Dedup, que incorpora algoritmos do estado da arte da deduplicação para permitir o processamento de grandes volumes de dados e adiciona um conjunto de estratégias com intuito de possibilitar a definição dos parâmetros do deduplicador, removendo os detalhes de configuração da responsabilidade do usuário. A metodologia pode ser vista como uma camada capaz de identificar as informações requisitadas pelo deduplicador (principalmente valores de limiares) a partir de um conjunto de pares rotulados pelo usuário. A tese propõe também uma abordagem que trata do problema da seleção dos pares informativos para a criação de um conjunto de treinamento reduzido. O desafio maior é selecionar um conjunto reduzido de pares suficientemente informativo para possibilitar a configuração da deduplicação com uma alta eficácia. Para isso, são incorporadas estratégias para reduzir o volume de pares candidatos a um algoritmo de aprendizagem ativa. Tal abordagem é integrada à metodologia FS-Dedup para possibilitar a remoção da intervenção especialista nas principais etapas da deduplicação. Por fim, um conjunto exaustivo de experimentos é executado com objetivo de validar as ideias propostas. Especificamente, são demonstrados os promissores resultados alcançados nos experimentos em bases de dados reais e sintéticas, com intuito de reduzir o número de pares manualmente rotulados, sem causar perdas na qualidade da deduplicação. / Deduplication is the task of identifying which objects (e.g., records, texts, documents, etc.) are potentially the same in a given dataset (or datasets). It usually requires user intervention in several stages of the process, mainly to ensure that pairs representing matchings and non-matchings can be determined. This information can be used to help detect other potential duplicate records. When deduplication is applied to very large datasets, the matching quality depends on expert users. The expert users are requested to define threshold values and produce a training set. This intervention requires user knowledge of the noise level of the data and a particular approach to deduplication so that it can be applied to configure the most important stages of the process (e.g. blocking and classification). The main aim of this thesis is to provide solutions to help in tuning the deduplication process in large datasets with a reduced effort from the user, who is only required to label an automatically selected subset of pairs. To achieve this, we propose a methodology, called FS-Dedup, which incorporates state-of-the-art algorithms in its deduplication core to address high performance issues. Following this, a set of strategies is proposed to assist in setting its parameters, and removing most of the detailed configuration concerns from the user. The methodology proposed can be regarded as a layer that is able to identify the specific information requested in the deduplication approach (mainly, threshold values) through pairs that are manually labeled by the user. Moreover, this thesis proposed an approach which would enable to select an informative set of pairs to produce a reduced training set. The main challenge here is how to select a “representative” set of pairs to configure the deduplication with high matching quality. In this context, the proposed approach incorporates an active learning method with strategies that allow the deduplication to be carried out on large datasets. This approach is integrated with the FS-Dedup methodology to avoid the need for a definition of threshold values in the most important deduplication stages. Finally, exhaustive experiments using both synthetic and real datasets have been conducted to validate the ideas outlined in this thesis. In particular, we demonstrate the ability of our approach to reduce the user effort without degrading the matching quality.
184

Pré-processamento no processo de descoberta de conhecimento em banco de dados

Neves, Rita de Cássia David das January 2003 (has links)
A Descoberta de Conhecimento em Banco de Dados (DCBD) é uma nova área de pesquisa que envolve o processo de extração de conhecimento útil implícito em grandes bases de dados. Existem várias metodologias para a realização de um processo de DCBD cuja essência consiste basicamente nas fases de entendimento do domínio do problema, pré-processamento, mineração de dados e pós-processamento. Na literatura sobre o assunto existem muitos trabalhos a respeito de mineração de dados, porém pouco se encontra sobre o processo de pré-processamento. Assim, o objetivo deste trabalho consiste no estudo do pré-processamento, já que é a fase que consome a maior parte do tempo e esforço de todo o processo de DCBD pois envolve operações de entendimento, seleção, limpeza e transformação de dados. Muitas vezes, essas operações precisam ser repetidas de modo a aprimorar a qualidade dos dados e, conseqüentemente, melhorar também a acurácia e eficiência do processo de mineração. A estrutura do trabalho abrange cinco capítulos. Inicialmente, apresenta-se a introdução e motivação para trabalho, juntamente com os objetivos e a metodologia utilizada. No segundo capítulo são abordadas metodologias para o processo de DCBD destacando-se CRISP-DM e a proposta por Fayyad, Piatetsky-Shapiro e Smyth. No terceiro capítulo são apresentadas as sub-fases da fase de pré-processamento contemplando-se entendimento, seleção, limpeza e transformação de dados, bem como os principais métodos e técnicas relacionados às mesmas. Já no quarto capítulo são descritos os experimentos realizados sobre uma base de dados real. Finalmente, no quinto capítulo são apresentadas as considerações finais sobre pré-processamento no processo de DCBD, apontando as dificuldades encontradas na prática, contribuições do presente trabalho e pretensões da continuidade do mesmo. Considera-se como principais contribuições deste trabalho a apresentação de métodos e técnicas de pré-processamento existentes, a comprovação da importância da interatividade com o especialista do domínio ao longo de todo o processo de DCBD, mas principalmente nas tomadas de decisões da fase de pré-processamento, bem como as sugestões de como realizar um pré-processamento sobre uma base de dados real.
185

Mineração de dados utilizando aprendizado não-supervisionado: um estudo de caso para bancos de dados da saúde

Domingues, Miriam Lúcia Campos Serra January 2003 (has links)
A mineração de dados constitui o processo de descoberta de conhecimento interessante, com a utilização de métodos e técnicas que permitem analisar grandes conjuntos de dados para a extração de informação previamente desconhecida, válida e que gera ações úteis, de grande ajuda para a tomada de decisões estratégicas. Dentre as tarefas de mineração de dados, existem aquelas que realizam aprendizado não-supervisionado, o qual é aplicado em bases de dados não-classificados, em que o algoritmo extrai as características dos dados fornecidos e os agrupa em classes. Geralmente, o aprendizado não-supervisionado é aplicado em tarefas de agrupamento, que consistem em agrupar os dados de bancos de dados volumosos, com diferentes tipos de dados em classes ou grupos de objetos que são similares dentro de um mesmo grupo e dissimilares em diferentes grupos desses bancos de dados, de acordo com alguma medida de similaridade. Os agrupamentos são usados como ponto de partida para futuras investigações. Este trabalho explora, mediante a realização de um estudo de caso, o uso de agrupamento como tarefa de mineração de dados que realiza aprendizado nãosupervisionado, para avaliar a adequação desta tecnologia em uma base de dados real da área de saúde. Agrupamento é um tema ativo em pesquisas da área pelo seu potencial de aplicação em problemas práticos. O cenário da aplicação é o Sistema de Informações Hospitalares do SUS, sob a gestão da Secretaria Estadual de Saúde do Rio Grande do Sul. Mensalmente, o pagamento de um certo número de internações é bloqueado, uma vez que a cobrança de internações hospitalares é submetida a normas do SUS e a critérios técnicos de bloqueio estabelecidos pela Auditoria Médica da SES para verificar a ocorrência de algum tipo de impropriedade na cobrança dos procedimentos realizados nessas internações hospitalares. A análise de agrupamento foi utilizada para identificar perfis de comportamentos ou tendências nas internações hospitalares e avaliar desvios ou outliers em relação a essas tendências e, com isso, descobrir padrões interessantes que auxiliassem na otimização do trabalho dos auditores médicos da SES. Buscou-se ainda compreender as diferentes configurações de parâmetros oferecidos pela ferramenta escolhida para a mineração de dados, o IBM Intelligent Miner, e o mapeamento de uma metodologia de mineração de dados, o CRISP-DM, para o contexto específico deste estudo de caso. Os resultados deste estudo demonstram possibilidades de criação e melhora dos critérios técnicos de bloqueio das internações hospitalares que permitem a otimização do trabalho de auditores médicos da SES. Houve ainda ganhos na compreensão da tecnologia de mineração de dados com a utilização de agrupamento no que se refere ao uso de uma ferramenta e de uma metodologia de mineração de dados, em que erros e acertos evidenciam os cuidados que devem ser tomados em aplicações dessa tecnologia, além de contribuírem para o seu aperfeiçoamento.
186

Um Algoritmo para indução de árvores e regras de decisão

Halmenschlager, Carine January 2002 (has links)
A classificação é uma das tarefas da Mineração de Dados. Esta consiste na aplicação de algoritmos específicos para produzir uma enumeração particular de padrões. Já a classificação é o processo de gerar uma descrição, ou um modelo, para cada classe a partir de um conjunto de exemplos dados. Os métodos adequados e mais utilizados para induzir estes modelos, ou classificadores, são as árvores de decisão e as regras de classificação. As regras e árvores de decisão são populares, principalmente, por sua simplicidade, flexibilidade e interpretabilidade. Entretanto, como a maioria dos algoritmos de indução particionam recursivamente os dados, o processamento pode tornar-se demorado, e a árvore construída pode ser muito grande e complexa, propensa ao overfitting dos dados, que ocorre quando o modelo aprende detalhadamente ao invés de generalizar. Os conjuntos de dados reais para aplicação em Mineração de Dados são, atualmente, muito grandes, e envolvem vários milhares de registros, sendo necessária, também, uma forma de generalizar estes dados. Este trabalho apresenta um novo modelo de indução de classificadores, em que o principal diferencial do algoritmo proposto é a única passada pelo conjunto de treinamento durante o processo de indução, bem como a sua inspiração proveniente de um Sistema Multiagente. Foi desenvolvido um protótipo, o Midas, que foi validado e avaliado com dados de repositórios. O protótipo também foi aplicado em bases de dados reais, com o objetivo de generalizar as mesmas. Inicialmente, foi estudado e revisado o tema de Descoberta de Conhecimento em Bases de Dados, com ênfase nas técnicas e métodos de Mineração de Dados. Neste trabalho, também são apresentadas, com detalhes, as árvores e regras de decisão, com suas técnicas e algoritmos mais conhecidos. Finalizando, o algoritmo proposto e o protótipo desenvolvido são apresentados, bem como os resultados provenientes da validação e aplicação do mesmo.
187

Incorporando suporte a restrições espaciais de caráter topológico ao modelo abstrato do consórcio Open GIS

Bogorny, Vania January 2001 (has links)
Os Sistemas de Informação Geográfica (SIG) são construídos, especificamente, para armazenar, analisar e manipular dados geográficos, ou seja, dados que representam objetos e fenômenos do mundo real, cuja localização em relação à superfície da Terra seja considerada. A interoperabilidade desses sistemas, que constitui-se na capacidade de compartilhar e trocar informações e processos entre ambientes computacionais heterogêneos, se faz necessária, pois, devido ao elevado custo de aquisição dos dados geográficos, as comunidades de informação precisam compartilhar dados de fontes existentes, sem a necessidade de fazer conversões. Porém, pela complexidade e incompatibilidades de representação, de estrutura e de semântica das informações geográficas, a maioria dos softwares de SIG, hoje, não são interoperáveis. Existe também, além do problema da não interoperabilidade, uma crescente preocupação com relação à qualidade e à integridade espacial dos dados geográficos. Contudo, alguns modelos conceituais de dados geográficos e os softwares de SIG não oferecem, ainda, os meios adequados para representar e garantir a integridade espacial das informações. As restrições de integridade definidas durante a fase de projeto conceitual, normalmente, são implementadas durante o projeto físico, seja de forma implícita ou explícita, podendo ser incorporadas diretamente no modelo de implementação do SIG, de forma que o usuário da aplicação apenas mencione a regra e o sistema a implemente e a garanta automaticamente.Este trabalho de pesquisa propõe uma extensão ao Modelo Abstrato OpenGIS, modelo este que deve ser um padrão de interoperabilidade de software para SIG. A extensão proposta incorpora ao mesmo um subconjunto de tipos de restrição espacial, buscando com isso oferecer melhor suporte às regras da realidade geográfica expressáveis na modelagem conceitual do sistema.
188

Aprendizado relacional por um modelo neural

Hernandez, Juliana Delgado Santos January 2001 (has links)
As técnicas que formam o campo da Descoberta de Conhecimento em Bases de Dados (DCBD) surgiram devido à necessidade de se tratar grandes volumes de dados. O processo completo de DCBD envolve um elevado grau de subjetividade e de trabalho não totalmente automatizado. Podemos dizer que a fase mais automatizada é a de Mineração de Dados (MD). Uma importante técnica para extração de conhecimentosa partir de dados é a Programação Lógica Indutiva (PLI), que se aplica a tarefas de classificação, induzindo conhecimento na forma da lógica de primeira ordem. A PLI tem demonstrado as vantagens de seu aparato de aprendizado em relação a outras abordagens, como por exemplo, aquelas baseadas em aprendizado proposicional Os seus algorítmos de aprendizado apresentam alta expressividade, porém sofrem com a grande complexidade de seus processos, principalmente o teste de corbertura das variáveis. Por outro lado, as Redes Neurais Artificiais (RNs) introduzem um ótimo desempenho devido à sua natureza paralela. às RNs é que geralmente são "caixas pretas", o que torna difícil a obtenção de um interpretação razoável da estrutura geral da rede na forma de construções lógicas de fácil compreensão Várias abordagens híbridas simbólico-conexionistas (por exemplo, o MNC MAC 890 , KBANN SHA 94 , TOW 94 e o sistema INSS OSO 98 têm sido apresentadas para lidar com este problema, permitindo o aprendizado de conhecimento simbólico através d euma RN. Entretanto, estas abordagens ainda lidam com representações atributo-valor. Neste trabalho é apresentado um modelo que combina a expressividade obtida pela PLI com o desempenho de uma rede neural: A FOLONET (First Order Neural Network).
189

Orpheo : uma estrutura de trabalho para integração dos paradigmas de aprendizado supervisionado e não-supervisionado

Prado, Hercules Antonio do January 2001 (has links)
Esta tese apresenta contribuições ao processo de Descoberta de Conhecimento em Bases de Dados (DCBD). DCBD pode ser entendido como um conjunto de técnicas automatizadas – ou semi-automatizadas – otimizadas para extrair conhecimento a partir de grandes bases de dados. Assim, o já, de longa data, praticado processo de descoberta de conhecimento passa a contar com aprimoramentos que o tornam mais fácil de ser realizado. A partir dessa visão, bem conhecidos algoritmos de Estatística e de Aprendizado de Máquina passam a funcionar com desempenho aceitável sobre bases de dados cada vez maiores. Da mesma forma, tarefas como coleta, limpeza e transformação de dados e seleção de atributos, parâmetros e modelos recebem um suporte que facilita cada vez mais a sua execução. A contribuição principal desta tese consiste na aplicação dessa visão para a otimização da descoberta de conhecimento a partir de dados não-classificados. Adicionalmente, são apresentadas algumas contribuições sobre o Modelo Neural Combinatório (MNC), um sistema híbrido neurossimbólico para classificação que elegemos como foco de trabalho. Quanto à principal contribuição, percebeu-se que a descoberta de conhecimento a partir de dados não-classificados, em geral, é dividida em dois subprocessos: identificação de agrupamentos (aprendizado não-supervisionado) seguida de classificação (aprendizado supervisionado). Esses subprocessos correspondem às tarefas de rotulagem dos itens de dados e obtenção das correlações entre os atributos da entrada e os rótulos. Não encontramos outra razão para que haja essa separação que as limitações inerentes aos algoritmos específicos. Uma dessas limitações, por exemplo, é a necessidade de iteração de muitos deles buscando a convergência para um determinado modelo. Isto obriga a que o algoritmo realize várias leituras da base de dados, o que, para Mineração de Dados, é proibitivo. A partir dos avanços em DCBD, particularmente com o desenvolvimento de algoritmos de aprendizado que realizam sua tarefa em apenas uma leitura dos dados, fica evidente a possibilidade de se reduzir o número de acessos na realização do processo completo. Nossa contribuição, nesse caso, se materializa na proposta de uma estrutura de trabalho para integração dos dois paradigmas e a implementação de um protótipo dessa estrutura utilizando-se os algoritmos de aprendizado ART1, para identificação de agrupamentos, e MNC, para a tarefa de classificação. É também apresentada uma aplicação no mapeamento de áreas homogêneas de plantio de trigo no Brasil, de 1975 a 1999. Com relação às contribuições sobre o MNC são apresentados: (a) uma variante do algoritmo de treinamento que permite uma redução significativa do tamanho do modelo após o aprendizado; (b) um estudo sobre a redução da complexidade do modelo com o uso de máquinas de comitê; (c) uma técnica, usando o método do envoltório, para poda controlada do modelo final e (d) uma abordagem para tratamento de inconsistências e perda de conhecimento que podem ocorrer na construção do modelo.
190

Extração semântica de dados semi-estruturados através de exemplos e ferramentas visuais

Silveira, Iraci Cristina da January 2001 (has links)
Existe uma necessidade latente de pesquisar, filtrar e manipular informações disponíveis em diversos formatos irregulares, entre elas as informações distribuídas na WWW (World Wide Web). Esses tipos de dados são semi-estruturados, pois não possuem uma estrutura explícita e regular, o que dificulta sua manipulação. Este trabalho apresenta como proposta o projeto de uma ferramenta para realizar a extração semântica e semi-automática de dados semi-estruturados. O usuário especifica, através de uma interface visual, um exemplo da estrutura hierárquica do documento e de seu relacionamento com os conceitos da ontologia, gerando uma gramática descritiva da estrutura implícita do mesmo. A partir dessa gramática, a ferramenta realiza a extração dos próximos documentos de forma automática, reestruturando o resultado em um formato regular de dados, neste caso, XML (eXtensible Markup Language). Além da conceituação do método de extração, são apresentados os experimentos realizados com o protótipo da ferramenta, bem como, os resultados obtidos nestes experimentos. Para a construção desta ferramenta, são analisadas características de outros métodos que constituem o estado da arte em extração de dados semi-estruturados.

Page generated in 0.0815 seconds