Spelling suggestions: "subject:"dados semiestruturados"" "subject:"dados semiestruturado""
1 |
Extração semântica de dados semi-estruturados através de exemplos e ferramentas visuaisSilveira, Iraci Cristina da January 2001 (has links)
Existe uma necessidade latente de pesquisar, filtrar e manipular informações disponíveis em diversos formatos irregulares, entre elas as informações distribuídas na WWW (World Wide Web). Esses tipos de dados são semi-estruturados, pois não possuem uma estrutura explícita e regular, o que dificulta sua manipulação. Este trabalho apresenta como proposta o projeto de uma ferramenta para realizar a extração semântica e semi-automática de dados semi-estruturados. O usuário especifica, através de uma interface visual, um exemplo da estrutura hierárquica do documento e de seu relacionamento com os conceitos da ontologia, gerando uma gramática descritiva da estrutura implícita do mesmo. A partir dessa gramática, a ferramenta realiza a extração dos próximos documentos de forma automática, reestruturando o resultado em um formato regular de dados, neste caso, XML (eXtensible Markup Language). Além da conceituação do método de extração, são apresentados os experimentos realizados com o protótipo da ferramenta, bem como, os resultados obtidos nestes experimentos. Para a construção desta ferramenta, são analisadas características de outros métodos que constituem o estado da arte em extração de dados semi-estruturados.
|
2 |
Consultando XML por meio de modelos conceituais : extensão e formalização de CXPathFeijó, Diego de Vargas January 2005 (has links)
Com o objetivo de realizar consultas em diferentes fontes XML,é necessário que se escreva uma consulta específica para cada fonte XML. Uma solução mais adequada é fazer uma única consulta sobre um esquema conceitual e então traduzi-la automaticamente para consultas XML para cada fonte XML específica. CXPath é uma linguagem de consulta que foi proposta para consultar dados em nıvel conceitual. Este trabalho tem como objetivos formalizar a linguagem existente, estendê-la para permitir consultas que utilizem o conceito de herança e estender o mecanismo de tradução de consultas. A formalização da linguagem é feita por meio de um conjunto de regras que definem formalmente um critério para validar uma consulta escrita nessa linguagem sobre um esquema conceitual. Essa formalização permite estender a linguagem para que ela passe a tratar os relacionamentos de herança e especialização. Outra contribuição dessa formalização é que ela apresenta o primeiro passo rumo à verificação formal de que a avaliação da consulta global traz os mesmos resultados obtidos pela avaliação da consulta resultante do processo de mapeamento de consultas proposto. A extensão do mecanismo de tradução de consultas é necessária para traduzir relacionamentos representados no modelo conceitual para junções nas fontes de dados XML. Tal aspecto é fundamental para permitir a construção de modelos conceituais com relacionamentos semânticos e que não dependam de relacionamentos físicos existentes nos documentos fontes, mas apenas de junções tal como é feito em bases de dados relacionais.
|
3 |
Extração semântica de dados semi-estruturados através de exemplos e ferramentas visuaisSilveira, Iraci Cristina da January 2001 (has links)
Existe uma necessidade latente de pesquisar, filtrar e manipular informações disponíveis em diversos formatos irregulares, entre elas as informações distribuídas na WWW (World Wide Web). Esses tipos de dados são semi-estruturados, pois não possuem uma estrutura explícita e regular, o que dificulta sua manipulação. Este trabalho apresenta como proposta o projeto de uma ferramenta para realizar a extração semântica e semi-automática de dados semi-estruturados. O usuário especifica, através de uma interface visual, um exemplo da estrutura hierárquica do documento e de seu relacionamento com os conceitos da ontologia, gerando uma gramática descritiva da estrutura implícita do mesmo. A partir dessa gramática, a ferramenta realiza a extração dos próximos documentos de forma automática, reestruturando o resultado em um formato regular de dados, neste caso, XML (eXtensible Markup Language). Além da conceituação do método de extração, são apresentados os experimentos realizados com o protótipo da ferramenta, bem como, os resultados obtidos nestes experimentos. Para a construção desta ferramenta, são analisadas características de outros métodos que constituem o estado da arte em extração de dados semi-estruturados.
|
4 |
Um processo auto-documentável de geração de ontologias de domínio para dados semi-estruturadosSanti, Sergio Medeiros January 2002 (has links)
Dados são disponibilizados através dos mais distintos meios e com os mais variados níveis de estruturação. Em um nível baixo de estruturação tem-se arquivos binários e no outro extremo tem-se bancos de dados com uma estrutura extremamente rígida. Entre estes dois extremos estão os dados semi-estruturados que possuem variados graus de estruturação com os quais não estão rigidamente comprometidos. Na categoria dos dados semiestruturados tem-se exemplos como o HTML, o XML e o SGML. O uso de informações contidas nas mais diversas fontes de dados que por sua vez possuem os mais diversos níveis de estruturação só será efetivo se esta informação puder ser manejada de uma forma integrada e através de algum tipo de esquema. O objetivo desta dissertação é fornecer um processo para construção de uma ontologia de domínio que haja como esquema representativo de diferentes conjuntos de informação. Estes conjuntos de informações podem variar de dados semi-estruturados a dados estruturados e devem referir-se a um mesmo domínio do conhecimento. Esta proposta permite que qualquer modelo que possa ser transformado no modelo comum de integração possa ser utilizado com entrada para o processo de integração. A ontologia de domínio resultante do processo de integração é um modelo semântico que representa o consenso obtido através da integração de diversas fontes de forma ascendente (bottom-up), binária, incremental, semi-automática e auto-documentável. Diz-se que o processo é ascendente porque integra o modelo que representa a fonte de interesse sobre a ontologia, é binário porque trabalha com dois esquemas a cada integração o que facilita o processo de documentação das integrações realizadas, é incremental porque cada novo esquema de interesse é integrado sobre a ontologia vigente naquele momento, é semiautomático porque considera a intervenção do usuário durante o processo e finalmente é autodocumentável porque durante o processo, toda integração de pares de conceitos semanticamente equivalentes é registrada. O fato de auto-documentar-se é a principal característica do processo proposto e seu principal diferencial com relação a outras propostas de integração. O processo de mapeamento utiliza, dos esquemas de entrada, toda a informação presente ou que possa ser inferida. Informações como se o conceito é léxico ou não, se é raiz e os símbolos que permitem deduzir cardinalidades são consideradas. No processo de integração são consideradas práticas consagradas de integração de esquemas de BDs, na identificação de relacionamentos entre objetos dos esquemas, para geração do esquema integrado e para resolução de conflitos. As principais contribuições desta dissertação são (i) a proposta de um metamodelo capaz de manter o resultado dos mapeamentos e das integrações realizadas e (ii) a especificação de um processo auto-documentável que de sustentação a auditoria do processo de integração.
|
5 |
Extração semântica de dados semi-estruturados através de exemplos e ferramentas visuaisSilveira, Iraci Cristina da January 2001 (has links)
Existe uma necessidade latente de pesquisar, filtrar e manipular informações disponíveis em diversos formatos irregulares, entre elas as informações distribuídas na WWW (World Wide Web). Esses tipos de dados são semi-estruturados, pois não possuem uma estrutura explícita e regular, o que dificulta sua manipulação. Este trabalho apresenta como proposta o projeto de uma ferramenta para realizar a extração semântica e semi-automática de dados semi-estruturados. O usuário especifica, através de uma interface visual, um exemplo da estrutura hierárquica do documento e de seu relacionamento com os conceitos da ontologia, gerando uma gramática descritiva da estrutura implícita do mesmo. A partir dessa gramática, a ferramenta realiza a extração dos próximos documentos de forma automática, reestruturando o resultado em um formato regular de dados, neste caso, XML (eXtensible Markup Language). Além da conceituação do método de extração, são apresentados os experimentos realizados com o protótipo da ferramenta, bem como, os resultados obtidos nestes experimentos. Para a construção desta ferramenta, são analisadas características de outros métodos que constituem o estado da arte em extração de dados semi-estruturados.
|
6 |
Um processo auto-documentável de geração de ontologias de domínio para dados semi-estruturadosSanti, Sergio Medeiros January 2002 (has links)
Dados são disponibilizados através dos mais distintos meios e com os mais variados níveis de estruturação. Em um nível baixo de estruturação tem-se arquivos binários e no outro extremo tem-se bancos de dados com uma estrutura extremamente rígida. Entre estes dois extremos estão os dados semi-estruturados que possuem variados graus de estruturação com os quais não estão rigidamente comprometidos. Na categoria dos dados semiestruturados tem-se exemplos como o HTML, o XML e o SGML. O uso de informações contidas nas mais diversas fontes de dados que por sua vez possuem os mais diversos níveis de estruturação só será efetivo se esta informação puder ser manejada de uma forma integrada e através de algum tipo de esquema. O objetivo desta dissertação é fornecer um processo para construção de uma ontologia de domínio que haja como esquema representativo de diferentes conjuntos de informação. Estes conjuntos de informações podem variar de dados semi-estruturados a dados estruturados e devem referir-se a um mesmo domínio do conhecimento. Esta proposta permite que qualquer modelo que possa ser transformado no modelo comum de integração possa ser utilizado com entrada para o processo de integração. A ontologia de domínio resultante do processo de integração é um modelo semântico que representa o consenso obtido através da integração de diversas fontes de forma ascendente (bottom-up), binária, incremental, semi-automática e auto-documentável. Diz-se que o processo é ascendente porque integra o modelo que representa a fonte de interesse sobre a ontologia, é binário porque trabalha com dois esquemas a cada integração o que facilita o processo de documentação das integrações realizadas, é incremental porque cada novo esquema de interesse é integrado sobre a ontologia vigente naquele momento, é semiautomático porque considera a intervenção do usuário durante o processo e finalmente é autodocumentável porque durante o processo, toda integração de pares de conceitos semanticamente equivalentes é registrada. O fato de auto-documentar-se é a principal característica do processo proposto e seu principal diferencial com relação a outras propostas de integração. O processo de mapeamento utiliza, dos esquemas de entrada, toda a informação presente ou que possa ser inferida. Informações como se o conceito é léxico ou não, se é raiz e os símbolos que permitem deduzir cardinalidades são consideradas. No processo de integração são consideradas práticas consagradas de integração de esquemas de BDs, na identificação de relacionamentos entre objetos dos esquemas, para geração do esquema integrado e para resolução de conflitos. As principais contribuições desta dissertação são (i) a proposta de um metamodelo capaz de manter o resultado dos mapeamentos e das integrações realizadas e (ii) a especificação de um processo auto-documentável que de sustentação a auditoria do processo de integração.
|
7 |
Consultando XML por meio de modelos conceituais : extensão e formalização de CXPathFeijó, Diego de Vargas January 2005 (has links)
Com o objetivo de realizar consultas em diferentes fontes XML,é necessário que se escreva uma consulta específica para cada fonte XML. Uma solução mais adequada é fazer uma única consulta sobre um esquema conceitual e então traduzi-la automaticamente para consultas XML para cada fonte XML específica. CXPath é uma linguagem de consulta que foi proposta para consultar dados em nıvel conceitual. Este trabalho tem como objetivos formalizar a linguagem existente, estendê-la para permitir consultas que utilizem o conceito de herança e estender o mecanismo de tradução de consultas. A formalização da linguagem é feita por meio de um conjunto de regras que definem formalmente um critério para validar uma consulta escrita nessa linguagem sobre um esquema conceitual. Essa formalização permite estender a linguagem para que ela passe a tratar os relacionamentos de herança e especialização. Outra contribuição dessa formalização é que ela apresenta o primeiro passo rumo à verificação formal de que a avaliação da consulta global traz os mesmos resultados obtidos pela avaliação da consulta resultante do processo de mapeamento de consultas proposto. A extensão do mecanismo de tradução de consultas é necessária para traduzir relacionamentos representados no modelo conceitual para junções nas fontes de dados XML. Tal aspecto é fundamental para permitir a construção de modelos conceituais com relacionamentos semânticos e que não dependam de relacionamentos físicos existentes nos documentos fontes, mas apenas de junções tal como é feito em bases de dados relacionais.
|
8 |
Consultando XML por meio de modelos conceituais : extensão e formalização de CXPathFeijó, Diego de Vargas January 2005 (has links)
Com o objetivo de realizar consultas em diferentes fontes XML,é necessário que se escreva uma consulta específica para cada fonte XML. Uma solução mais adequada é fazer uma única consulta sobre um esquema conceitual e então traduzi-la automaticamente para consultas XML para cada fonte XML específica. CXPath é uma linguagem de consulta que foi proposta para consultar dados em nıvel conceitual. Este trabalho tem como objetivos formalizar a linguagem existente, estendê-la para permitir consultas que utilizem o conceito de herança e estender o mecanismo de tradução de consultas. A formalização da linguagem é feita por meio de um conjunto de regras que definem formalmente um critério para validar uma consulta escrita nessa linguagem sobre um esquema conceitual. Essa formalização permite estender a linguagem para que ela passe a tratar os relacionamentos de herança e especialização. Outra contribuição dessa formalização é que ela apresenta o primeiro passo rumo à verificação formal de que a avaliação da consulta global traz os mesmos resultados obtidos pela avaliação da consulta resultante do processo de mapeamento de consultas proposto. A extensão do mecanismo de tradução de consultas é necessária para traduzir relacionamentos representados no modelo conceitual para junções nas fontes de dados XML. Tal aspecto é fundamental para permitir a construção de modelos conceituais com relacionamentos semânticos e que não dependam de relacionamentos físicos existentes nos documentos fontes, mas apenas de junções tal como é feito em bases de dados relacionais.
|
9 |
Um processo auto-documentável de geração de ontologias de domínio para dados semi-estruturadosSanti, Sergio Medeiros January 2002 (has links)
Dados são disponibilizados através dos mais distintos meios e com os mais variados níveis de estruturação. Em um nível baixo de estruturação tem-se arquivos binários e no outro extremo tem-se bancos de dados com uma estrutura extremamente rígida. Entre estes dois extremos estão os dados semi-estruturados que possuem variados graus de estruturação com os quais não estão rigidamente comprometidos. Na categoria dos dados semiestruturados tem-se exemplos como o HTML, o XML e o SGML. O uso de informações contidas nas mais diversas fontes de dados que por sua vez possuem os mais diversos níveis de estruturação só será efetivo se esta informação puder ser manejada de uma forma integrada e através de algum tipo de esquema. O objetivo desta dissertação é fornecer um processo para construção de uma ontologia de domínio que haja como esquema representativo de diferentes conjuntos de informação. Estes conjuntos de informações podem variar de dados semi-estruturados a dados estruturados e devem referir-se a um mesmo domínio do conhecimento. Esta proposta permite que qualquer modelo que possa ser transformado no modelo comum de integração possa ser utilizado com entrada para o processo de integração. A ontologia de domínio resultante do processo de integração é um modelo semântico que representa o consenso obtido através da integração de diversas fontes de forma ascendente (bottom-up), binária, incremental, semi-automática e auto-documentável. Diz-se que o processo é ascendente porque integra o modelo que representa a fonte de interesse sobre a ontologia, é binário porque trabalha com dois esquemas a cada integração o que facilita o processo de documentação das integrações realizadas, é incremental porque cada novo esquema de interesse é integrado sobre a ontologia vigente naquele momento, é semiautomático porque considera a intervenção do usuário durante o processo e finalmente é autodocumentável porque durante o processo, toda integração de pares de conceitos semanticamente equivalentes é registrada. O fato de auto-documentar-se é a principal característica do processo proposto e seu principal diferencial com relação a outras propostas de integração. O processo de mapeamento utiliza, dos esquemas de entrada, toda a informação presente ou que possa ser inferida. Informações como se o conceito é léxico ou não, se é raiz e os símbolos que permitem deduzir cardinalidades são consideradas. No processo de integração são consideradas práticas consagradas de integração de esquemas de BDs, na identificação de relacionamentos entre objetos dos esquemas, para geração do esquema integrado e para resolução de conflitos. As principais contribuições desta dissertação são (i) a proposta de um metamodelo capaz de manter o resultado dos mapeamentos e das integrações realizadas e (ii) a especificação de um processo auto-documentável que de sustentação a auditoria do processo de integração.
|
10 |
Integração materializada na web : um estudo de casoGuandeline, Eidy Leandro Tanaka January 2002 (has links)
A World Wide Web em poucos anos de existência se tornou uma importante e essencial fonte de informação e a localização e recuperação de informações na Internet passou a ser um grande problema a ser resolvido. Isto porque a falta de padronização e estrutura adequada para representação dos dados, que é resultado da liberdade de criação e manipulação dos documentos, compromete a eficácia dos modelos de recuperação de informação tradicionais. Muitos modelos foram então desenvolvidos para melhorar o desempenho dos sistemas de recuperação de informação. Com o passar dos anos surge assim uma nova área de pesquisa a extração de dados da web que, ao contrário dos sistemas de recuperação, extrai informações dos documentos relevantes e não documentos relevantes de conjunto de documentos. Tais estudos viabilizaram a integração de informações de documentos distribuídos e heterogêneos, que foram baseados nos mesmos modelos aplicados a banco de dados distribuídos. Neste trabalho é apresentado um estudo que tem como objetivo materializar informações contidas em documentos HTML de modo que se possa melhorar o desempenho das consultas em relação ao tempo de execução quanto à qualidade dos resultados obtidos. Para isso são estudados o ambiente web e as características dos dados contidos neste ambiente, como por exemplo, a distribuição e a heterogeneidade, aspectos relacionados à maneira pela qual as informações estão disponibilizadas e como estas podem ser recuperadas e extraídas através de regras sintáticas. Finalizando o estudo são apresentados vários tipos de classificação para os modelos de integração de dados e é monstrado em detalhes um estudo de caso, que tem como objetivo demonstrar a aplicação das técnicas apresentadas ao longo desta pesquisa.
|
Page generated in 0.0919 seconds