Global ETD Search

1	Usando bases de dados relacionais para geração semi-automática de ontologias destinadas à extração de dados Vivan, Orlando Miguel January 2003 (has links) Extração de dados é o processo utilizado para obter e estruturar informações disponibilizaadas em documentos semi-estruturados (ex.: páginas da Web). A importâmncia da extrtação de dados vem do fato que, uma vez extraídos, os dados podem ser armazenados e manipulados em uma forma estruturada. Dentre as abordagens existentes para extração de dados, existe a abordagem de extração baseada em ontologias. Nesta abordagem, ontologias são preciamente criadas para descrever um domínio de interesse, gerando um modelo conceitual enriquecido com informações necessárias para extração de dados das fontes semi-estruturadas. A ontologia é utilizada como guia ara um programa (¨parser¨) que executa a extração de dados dos documentos ou páginas fornecidos como enetrada. Oprocesso de criação da ontologia não é uma tarefa trtivial e requer um cuidado trabalho ee análise dos documentos ou páginas fontes dos dados. Este trabalho é feito manualmente por usuários especialistas no domínio de interesse da ontologia. Entretanto, em algumas situações os dados que se desejam extrair estão modelados em bancos de dados relacionais. Neste caso, o modelo realcional do banco de dados por ser utilizado para constrtução do modelo conceitual na ontologia. As instâncias dos dados armazenados neste mesmo banco podem ajudar a gerar as informações sobre conteúdo e formato dos dados a serem extraídos. Estas informações sobre conteúdo e formato de dados, na ontologia, são representadas por expressões regulares e estão inseridas nos chamados "data frames". O objetivo deste trabalho é apresentar um método para criação semi-automática de ontologias de extração a partir das informações em um banco de dados já existente. O processo é baseado na engenharia reversa do modelo relacional para o modelo conceitual da ontologia combinada com a análise das instâncias dos dados para geração das expressões regulares nos "data frames". Armazenamento : Dados Recuperacao : Informacao Extracao : Dados Extração semântica Ontologias
2	Usando bases de dados relacionais para geração semi-automática de ontologias destinadas à extração de dados Vivan, Orlando Miguel January 2003 (has links) Extração de dados é o processo utilizado para obter e estruturar informações disponibilizaadas em documentos semi-estruturados (ex.: páginas da Web). A importâmncia da extrtação de dados vem do fato que, uma vez extraídos, os dados podem ser armazenados e manipulados em uma forma estruturada. Dentre as abordagens existentes para extração de dados, existe a abordagem de extração baseada em ontologias. Nesta abordagem, ontologias são preciamente criadas para descrever um domínio de interesse, gerando um modelo conceitual enriquecido com informações necessárias para extração de dados das fontes semi-estruturadas. A ontologia é utilizada como guia ara um programa (¨parser¨) que executa a extração de dados dos documentos ou páginas fornecidos como enetrada. Oprocesso de criação da ontologia não é uma tarefa trtivial e requer um cuidado trabalho ee análise dos documentos ou páginas fontes dos dados. Este trabalho é feito manualmente por usuários especialistas no domínio de interesse da ontologia. Entretanto, em algumas situações os dados que se desejam extrair estão modelados em bancos de dados relacionais. Neste caso, o modelo realcional do banco de dados por ser utilizado para constrtução do modelo conceitual na ontologia. As instâncias dos dados armazenados neste mesmo banco podem ajudar a gerar as informações sobre conteúdo e formato dos dados a serem extraídos. Estas informações sobre conteúdo e formato de dados, na ontologia, são representadas por expressões regulares e estão inseridas nos chamados "data frames". O objetivo deste trabalho é apresentar um método para criação semi-automática de ontologias de extração a partir das informações em um banco de dados já existente. O processo é baseado na engenharia reversa do modelo relacional para o modelo conceitual da ontologia combinada com a análise das instâncias dos dados para geração das expressões regulares nos "data frames". Armazenamento : Dados Recuperacao : Informacao Extracao : Dados Extração semântica Ontologias
3	Usando bases de dados relacionais para geração semi-automática de ontologias destinadas à extração de dados Vivan, Orlando Miguel January 2003 (has links) Extração de dados é o processo utilizado para obter e estruturar informações disponibilizaadas em documentos semi-estruturados (ex.: páginas da Web). A importâmncia da extrtação de dados vem do fato que, uma vez extraídos, os dados podem ser armazenados e manipulados em uma forma estruturada. Dentre as abordagens existentes para extração de dados, existe a abordagem de extração baseada em ontologias. Nesta abordagem, ontologias são preciamente criadas para descrever um domínio de interesse, gerando um modelo conceitual enriquecido com informações necessárias para extração de dados das fontes semi-estruturadas. A ontologia é utilizada como guia ara um programa (¨parser¨) que executa a extração de dados dos documentos ou páginas fornecidos como enetrada. Oprocesso de criação da ontologia não é uma tarefa trtivial e requer um cuidado trabalho ee análise dos documentos ou páginas fontes dos dados. Este trabalho é feito manualmente por usuários especialistas no domínio de interesse da ontologia. Entretanto, em algumas situações os dados que se desejam extrair estão modelados em bancos de dados relacionais. Neste caso, o modelo realcional do banco de dados por ser utilizado para constrtução do modelo conceitual na ontologia. As instâncias dos dados armazenados neste mesmo banco podem ajudar a gerar as informações sobre conteúdo e formato dos dados a serem extraídos. Estas informações sobre conteúdo e formato de dados, na ontologia, são representadas por expressões regulares e estão inseridas nos chamados "data frames". O objetivo deste trabalho é apresentar um método para criação semi-automática de ontologias de extração a partir das informações em um banco de dados já existente. O processo é baseado na engenharia reversa do modelo relacional para o modelo conceitual da ontologia combinada com a análise das instâncias dos dados para geração das expressões regulares nos "data frames". Armazenamento : Dados Recuperacao : Informacao Extracao : Dados Extração semântica Ontologias
4	Geração de regras de extração de dados em páginas HTML Caldas, Paracelso de Oliveira January 2003 (has links) Existem vários trabalhos na área de extração de dados semi-estruturados, usando diferentes técnicas. As soluções de extração disponibilizadas pelos trabalhos existentes são direcionadas para atenderem a dados de certos domínios, considerando-se domínio o conjunto de elementos pertencentes à mesma área de interesse. Dada a complexidade e a grande quantidade dos dados semi-estruturados, principalmente dos disponíveis na World Wide Web (WWW), é que existem ainda muitos domínios a serem explorados. A maior parte das informações disponíveis em sites da Web está em páginas HTML. Muitas dessas páginas contêm dados de certos domínios (por exemplo, remédios). Em alguns casos, sites de organizações diferentes apresentam dados referentes a um mesmo domínio (por exemplo, farmácias diferentes oferecem remédios). O conhecimento de um determinado domínio, expresso em um modelo conceitual, serve para definir a estrutura de um documento. Nesta pesquisa, são consideradas exclusivamente tabelas de páginas HTML. A razão de se trabalhar somente com tabelas está baseada no fato de que parte dos dados de páginas HTML encontra-se nelas, e, como conseqüência, elimina-se o processamento dos outros dados, concentrando-se os esforços para que sejam processadas automaticamente. A pesquisa aborda o tratamento exclusivo de tabelas de páginas HTML na geração das regras de extração, na utilização das regras e do modelo conceitual para o reconhecimento de dados em páginas semelhantes. Para essa técnica, foi implementado o protótipo de uma ferramenta visual denominado Gerador de Regras de Extração e Modelo Conceitual (GREMO). GREMO foi desenvolvido em linguagem de programação visual Delphi 6.0. O processo de extração ocorre em quatro etapas: identificação e análise das tabelas de informações úteis em páginas HTML; identificação de conceitos para os elementos dos modelos conceituais; geração dos modelos conceituais correspondentes à página, ou utilização de modelo conceitual existente no repositório que satisfaça a página em questão; construção das regras de extração, extração dos dados da página, geração de arquivo XML correspondente aos dados extraídos e, finalmente, realimentação do repositório. A pesquisa apresenta as técnicas para geração e extração de dados semi-estruturados, as representações de domínio exclusivo de tabelas de páginas HTML por meio de modelo conceitual, as formas de geração e uso das regras de extração e de modelo conceitual. Armazenamento : Dados Recuperacao : Informacao Dados semi-estruturados HTML (Linguagem de marcação) Extracao : Dados
5	Qualificação de pesquisadores por área da Ciência da Computação com base em uma ontologia de perfil / Researchers’ qualification by computer science area based on a profile ontology Hannel, Kelly January 2008 (has links) A qualidade, tanto da produção científica quanto dos pesquisadores, tem sido foco de discussões e objeto de estudo, isto porque a busca pela excelência é constante no meio acadêmico. Sendo assim, conhecer e medir de forma sistematizada as competências dos pesquisadores constitui-se em uma importante ferramenta para identificar as melhores organizações e indivíduos em uma determinada área. Esta dissertação buscou descobrir a qualificação dos pesquisadores nas áreas da Ciência da Computação. Para tal, foi desenvolvido um sistema Web (semi) automatizado. Este sistema é centrado na ontologia OntoResearcher, considera o reuso de outras ontologias, a extração de informações da Web e do currículo dos pesquisadores. A OntoResearcher foi modelada com características e indicadores de qualidade (quantitativos e qualitativos) que permitem mensurar as competências dos pesquisadores. O sistema desenvolvido utiliza as informações modeladas na OntoResearcher para automatizar o processo de avaliação dos pesquisadores e tem como diferencial a qualificação distribuída nas áreas da Ciência da Computação em que o pesquisador atua. As principais contribuições desta dissertação são a definição do perfil de pesquisador, o desenvolvimento da ontologia OntoResearcher e a implementação do sistema de qualificação demonstrando a viabilidade das idéias propostas através dos testes realizados. / The search for excellence is continuous in the academic field. So, the quality of scientific production and researchers has been focus of discussions and subject of study in the academic field. Thus, knowing and measuring the researcher’s skills or qualifications in a systematized way is an important tool to identify the best organizations and individuals in a certain discipline. This work aimed to discover the researcher’s qualification of Computer Science field. To accomplish this task, it was developed a Web system (semi) automatized. This system, which is centered on the OntoResearcher ontology, considers the ontology reuse, the information’s extraction by the researcher’s resume and by the Web. The OntoResearcher was modeled with indicators of scientific quality (quantitative and qualitative) which allows measuring the researcher’s qualifications. The developed system uses the information from OntoResearcher to automatize the researcher’s evaluation. The main differential of this work is the researcher’s qualification distributed in the Computer Science fields on which the researcher has worked. The main contributions of this work are: the researchers’ profiles, the development of OntoResearcher and the development of qualification system demonstrating viability of the ideas through the experimentation. Avaliação acadêmica Recuperacao : Informacao Extracao : Dados Produção científica Quality Research qualification Profile ontology
6	Metadata extraction from scientific documents in PDF / Extração de metadados em artigos científicos no formato PDF Souza, Alan Pinto January 2014 (has links) A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão permite a geracão de metadados que são inclusos dentro do documento. Porém, muitos autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração automática de metadados foi classificada como uma das tarefas mais desafiadoras na área de engenharia de documentos. Este trabalho propõe Artic, um método para extração de metadados de artigos científicos que aplica um modelo probabilístico em duas camadas baseado em Conditional Random Fields. A primeira camada visa identificar as secões principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai título, nome dos autores, emails, afiliações e informações sobre a conferência onde o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os resultados superaram a solução estado-da-arte usada como baseline, atingindo uma precisão acima de 99%. / Most scientific articles are available in PDF format. The PDF standard allows the generation of metadata that is included within the document. However, many authors do not define this information, making this feature unreliable or incomplete. This fact has been motivating research which aims to extract metadata automatically. Automatic metadata extraction has been identified as one of the most challenging tasks in document engineering. This work proposes Artic, a method for metadata extraction from scientific papers which employs a two-layer probabilistic framework based on Conditional Random Fields. The first layer aims at identifying the main sections with metadata information, and the second layer finds, for each section, the corresponding metadata. Given a PDF file containing a scientific paper, Artic extracts the title, author names, emails, affiliations, and venue information. We report on experiments using 100 real papers from a variety of publishers. Our results outperformed the state-of-the-art system used as the baseline, achieving a precision of over 99%. Recuperacao : Informacao Banco : Dados Extracao : Dados Metadata extraction PDF Machine learning
7	Qualificação de pesquisadores por área da Ciência da Computação com base em uma ontologia de perfil / Researchers’ qualification by computer science area based on a profile ontology Hannel, Kelly January 2008 (has links) A qualidade, tanto da produção científica quanto dos pesquisadores, tem sido foco de discussões e objeto de estudo, isto porque a busca pela excelência é constante no meio acadêmico. Sendo assim, conhecer e medir de forma sistematizada as competências dos pesquisadores constitui-se em uma importante ferramenta para identificar as melhores organizações e indivíduos em uma determinada área. Esta dissertação buscou descobrir a qualificação dos pesquisadores nas áreas da Ciência da Computação. Para tal, foi desenvolvido um sistema Web (semi) automatizado. Este sistema é centrado na ontologia OntoResearcher, considera o reuso de outras ontologias, a extração de informações da Web e do currículo dos pesquisadores. A OntoResearcher foi modelada com características e indicadores de qualidade (quantitativos e qualitativos) que permitem mensurar as competências dos pesquisadores. O sistema desenvolvido utiliza as informações modeladas na OntoResearcher para automatizar o processo de avaliação dos pesquisadores e tem como diferencial a qualificação distribuída nas áreas da Ciência da Computação em que o pesquisador atua. As principais contribuições desta dissertação são a definição do perfil de pesquisador, o desenvolvimento da ontologia OntoResearcher e a implementação do sistema de qualificação demonstrando a viabilidade das idéias propostas através dos testes realizados. / The search for excellence is continuous in the academic field. So, the quality of scientific production and researchers has been focus of discussions and subject of study in the academic field. Thus, knowing and measuring the researcher’s skills or qualifications in a systematized way is an important tool to identify the best organizations and individuals in a certain discipline. This work aimed to discover the researcher’s qualification of Computer Science field. To accomplish this task, it was developed a Web system (semi) automatized. This system, which is centered on the OntoResearcher ontology, considers the ontology reuse, the information’s extraction by the researcher’s resume and by the Web. The OntoResearcher was modeled with indicators of scientific quality (quantitative and qualitative) which allows measuring the researcher’s qualifications. The developed system uses the information from OntoResearcher to automatize the researcher’s evaluation. The main differential of this work is the researcher’s qualification distributed in the Computer Science fields on which the researcher has worked. The main contributions of this work are: the researchers’ profiles, the development of OntoResearcher and the development of qualification system demonstrating viability of the ideas through the experimentation. Avaliação acadêmica Recuperacao : Informacao Extracao : Dados Produção científica Quality Research qualification Profile ontology
8	Geração de regras de extração de dados em páginas HTML Caldas, Paracelso de Oliveira January 2003 (has links) Existem vários trabalhos na área de extração de dados semi-estruturados, usando diferentes técnicas. As soluções de extração disponibilizadas pelos trabalhos existentes são direcionadas para atenderem a dados de certos domínios, considerando-se domínio o conjunto de elementos pertencentes à mesma área de interesse. Dada a complexidade e a grande quantidade dos dados semi-estruturados, principalmente dos disponíveis na World Wide Web (WWW), é que existem ainda muitos domínios a serem explorados. A maior parte das informações disponíveis em sites da Web está em páginas HTML. Muitas dessas páginas contêm dados de certos domínios (por exemplo, remédios). Em alguns casos, sites de organizações diferentes apresentam dados referentes a um mesmo domínio (por exemplo, farmácias diferentes oferecem remédios). O conhecimento de um determinado domínio, expresso em um modelo conceitual, serve para definir a estrutura de um documento. Nesta pesquisa, são consideradas exclusivamente tabelas de páginas HTML. A razão de se trabalhar somente com tabelas está baseada no fato de que parte dos dados de páginas HTML encontra-se nelas, e, como conseqüência, elimina-se o processamento dos outros dados, concentrando-se os esforços para que sejam processadas automaticamente. A pesquisa aborda o tratamento exclusivo de tabelas de páginas HTML na geração das regras de extração, na utilização das regras e do modelo conceitual para o reconhecimento de dados em páginas semelhantes. Para essa técnica, foi implementado o protótipo de uma ferramenta visual denominado Gerador de Regras de Extração e Modelo Conceitual (GREMO). GREMO foi desenvolvido em linguagem de programação visual Delphi 6.0. O processo de extração ocorre em quatro etapas: identificação e análise das tabelas de informações úteis em páginas HTML; identificação de conceitos para os elementos dos modelos conceituais; geração dos modelos conceituais correspondentes à página, ou utilização de modelo conceitual existente no repositório que satisfaça a página em questão; construção das regras de extração, extração dos dados da página, geração de arquivo XML correspondente aos dados extraídos e, finalmente, realimentação do repositório. A pesquisa apresenta as técnicas para geração e extração de dados semi-estruturados, as representações de domínio exclusivo de tabelas de páginas HTML por meio de modelo conceitual, as formas de geração e uso das regras de extração e de modelo conceitual. Armazenamento : Dados Recuperacao : Informacao Dados semi-estruturados HTML (Linguagem de marcação) Extracao : Dados
9	Metadata extraction from scientific documents in PDF / Extração de metadados em artigos científicos no formato PDF Souza, Alan Pinto January 2014 (has links) A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão permite a geracão de metadados que são inclusos dentro do documento. Porém, muitos autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração automática de metadados foi classificada como uma das tarefas mais desafiadoras na área de engenharia de documentos. Este trabalho propõe Artic, um método para extração de metadados de artigos científicos que aplica um modelo probabilístico em duas camadas baseado em Conditional Random Fields. A primeira camada visa identificar as secões principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai título, nome dos autores, emails, afiliações e informações sobre a conferência onde o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os resultados superaram a solução estado-da-arte usada como baseline, atingindo uma precisão acima de 99%. / Most scientific articles are available in PDF format. The PDF standard allows the generation of metadata that is included within the document. However, many authors do not define this information, making this feature unreliable or incomplete. This fact has been motivating research which aims to extract metadata automatically. Automatic metadata extraction has been identified as one of the most challenging tasks in document engineering. This work proposes Artic, a method for metadata extraction from scientific papers which employs a two-layer probabilistic framework based on Conditional Random Fields. The first layer aims at identifying the main sections with metadata information, and the second layer finds, for each section, the corresponding metadata. Given a PDF file containing a scientific paper, Artic extracts the title, author names, emails, affiliations, and venue information. We report on experiments using 100 real papers from a variety of publishers. Our results outperformed the state-of-the-art system used as the baseline, achieving a precision of over 99%. Recuperacao : Informacao Banco : Dados Extracao : Dados Metadata extraction PDF Machine learning
10	Qualificação de pesquisadores por área da Ciência da Computação com base em uma ontologia de perfil / Researchers’ qualification by computer science area based on a profile ontology Hannel, Kelly January 2008 (has links) A qualidade, tanto da produção científica quanto dos pesquisadores, tem sido foco de discussões e objeto de estudo, isto porque a busca pela excelência é constante no meio acadêmico. Sendo assim, conhecer e medir de forma sistematizada as competências dos pesquisadores constitui-se em uma importante ferramenta para identificar as melhores organizações e indivíduos em uma determinada área. Esta dissertação buscou descobrir a qualificação dos pesquisadores nas áreas da Ciência da Computação. Para tal, foi desenvolvido um sistema Web (semi) automatizado. Este sistema é centrado na ontologia OntoResearcher, considera o reuso de outras ontologias, a extração de informações da Web e do currículo dos pesquisadores. A OntoResearcher foi modelada com características e indicadores de qualidade (quantitativos e qualitativos) que permitem mensurar as competências dos pesquisadores. O sistema desenvolvido utiliza as informações modeladas na OntoResearcher para automatizar o processo de avaliação dos pesquisadores e tem como diferencial a qualificação distribuída nas áreas da Ciência da Computação em que o pesquisador atua. As principais contribuições desta dissertação são a definição do perfil de pesquisador, o desenvolvimento da ontologia OntoResearcher e a implementação do sistema de qualificação demonstrando a viabilidade das idéias propostas através dos testes realizados. / The search for excellence is continuous in the academic field. So, the quality of scientific production and researchers has been focus of discussions and subject of study in the academic field. Thus, knowing and measuring the researcher’s skills or qualifications in a systematized way is an important tool to identify the best organizations and individuals in a certain discipline. This work aimed to discover the researcher’s qualification of Computer Science field. To accomplish this task, it was developed a Web system (semi) automatized. This system, which is centered on the OntoResearcher ontology, considers the ontology reuse, the information’s extraction by the researcher’s resume and by the Web. The OntoResearcher was modeled with indicators of scientific quality (quantitative and qualitative) which allows measuring the researcher’s qualifications. The developed system uses the information from OntoResearcher to automatize the researcher’s evaluation. The main differential of this work is the researcher’s qualification distributed in the Computer Science fields on which the researcher has worked. The main contributions of this work are: the researchers’ profiles, the development of OntoResearcher and the development of qualification system demonstrating viability of the ideas through the experimentation. Avaliação acadêmica Recuperacao : Informacao Extracao : Dados Produção científica Quality Research qualification Profile ontology

Search results