Global ETD Search

121	Um estudo sobre agrupamento de documentos textuais em processamento de informações não estruturadas usando técnicas de "clustering" / A study about arrangement of textual documents applied to unstructured information processing using clustering techniques Wives, Leandro Krug January 1999 (has links) Atualmente, técnicas de recuperação e análise de informações, principalmente textuais, são de extrema importância. Após o grande BOOM da Internet, muitos problemas que já eram conhecidos em contextos fechados passaram a preocupar também toda a comunidade científica. No âmbito deste trabalho os problemas relacionados à sobrecarga de informações, que ocorre devido ao grande volume de dados a disposição de uma pessoa, são os mais importantes. Visando minimizar estes problemas, este trabalho apresenta um estudo sobre métodos de agrupamento de objetos textuais (documentos no formato ASCII), onde os objetos são organizados automaticamente em grupos de objetos similares, facilitando sua localização, manipulação e análise. Decorrente deste estudo, apresenta-se uma metodologia de aplicação do agrupamento descrevendo-se suas diversas etapas. Estas etapas foram desenvolvidas de maneira que após uma ter sido realizada ela não precisa ser refeita, permitindo que a etapa seguinte seja aplicada diversas vezes sobre os mesmos dados (com diferentes parâmetros) de forma independente. Além da metodologia, realiza-se um estudo comparativo entre alguns algoritmos de agrupamento, inclusive apresentando-se um novo algoritmo mais eficiente. Este fato é comprovado em experimentos realizados nos diversos estudos de caso propostos. Outras contribuições deste trabalho incluem a implementação de uma ferramenta de agrupamento de textos que utiliza a metodologia elaborada e os algoritmos estudados; além da utilização de uma fórmula não convencional de cálculo de similaridades entre objetos (de abordagem fuzzy), aplicada a informações textuais, obtendo resultados satisfatórios. / The Internet is the vital media of today and, as being a mass media, problems known before to specific fields of Science arise. One of these problems, capable of annoying many people, is the information overload problem caused by the excessive amount of information returned in response to the user’s query. Due to the information overload problem, advanced techniques for information retrieval and analysis are needed. This study presents some aids in these fields, presenting a methodology to help users to apply the clustering process in textual data. The technique investigated is capable of grouping documents of several subjects in clusters of documents of the same subject. The groups identified can be used to simplify the process of information analysis and retrieval. This study also presents a tool that was created using the methodology and the algorithms analyzed. The tool was implemented to facilitate the process of investigation and demonstration of the study. The results of the application of a fuzzy formula, used to calculate the similarity among documents, are also presented. Armazenamento : Dados Recuperacao : Informacao Descoberta : Conhecimento Agrupamento : Informacao textual Clustering Knowledge discovery from texts Information retrieval
122	Aplicação de XML para estruturação de ambientes de controle acadêmico baseado em ontologias Basso, Carla de Almeida Martins January 2002 (has links) Nos últimos anos, um grande esforço tem sido despendido no estudo de formas de representar documentos textuais, chamados semi-estruturados, objetivando extrair informações destes documentos com a mesma eficiência com que essas são extraídas de bancos de dados relacionais e orientados a objetos. A pesquisa, em dados semi-estruturados, tornou-se fundamental com o crescimento da Web como fonte e repositório de dados, uma vez que os métodos de pesquisa existentes, baseados em navegação e busca por palavra-chave, mostraram-se insuficientes para satisfazer as necessidades de consulta em escala cada vez maior. Com o surgimento da XML, e a tendência de se tornar a linguagem padrão na Web, fez com que a representação de informações fosse dirigida para este novo padrão, porque disponibiliza um bom intercâmbio de informações e a produção de documentos eletrônicos. Existe a necessidade de se disponibilizar os documentos e as informações na rede em formato Web, HTML ou XML. Sendo assim, consultar documentos XML representa um desafio para a comunidade de pesquisa em banco de dados, pois implica em disponibilizar os grandes volumes de dados já existentes em formato XML, surgindo a necessidade de ferramentas de consulta que sejam ao mesmo tempo, flexíveis o suficiente para compreender a heterogeneidade dos documentos e, poderosas ao ponto de extraírem informações com rapidez e correção. Este trabalho apresenta uma abordagem sobre a linguagem XML, sua importância, vantagens, principais aplicações e as linguagens de consulta para dados XML. Após, é detalhada uma aplicação para Web utilizando a tecnologia XML, baseado em Ontologias, e a sua disponibilização na Web. A aplicação desenvolvida utilizou XML e linguagens de consulta para XML e com suporte a XML, baseando-se em Ontologias, com o objetivo de permitir consultas e o armazenamento de informações referentes aos alunos concluintes de determinados cursos da Universidade da Região da Campanha - Urcamp/Bagé, colocando à disposição da Universidade uma nova ferramenta, que disponibiliza informações referentes aos cursos em questão, utilizando uma nova tecnologia, que tende a tornar-se padrão na Web. Armazenamento : Dados Internet Recuperacao : Informacao XML (Linguagem de marcação) Informatica : Controle academico
123	Avaliação da qualidade de funções de similaridade no contexto de consultas por abrangência / Quality evaluation of similarity functions for range queries Stasiu, Raquel Kolitski January 2007 (has links) Em sistemas reais, os dados armazenados tipicamente apresentam inconsistências causadas por erros de gra a, abreviações, caracteres trocados, entre outros. Isto faz com que diferentes representações do mesmo objeto do mundo real sejam registrados como elementos distintos, causando um problema no momento de consultar os dados. Portanto, o problema investigado nesta tese refere-se às consultas por abrangência, que procuram encontrar objetos que representam o mesmo objeto real consultado . Esse tipo de consulta não pode ser processado por coincidência exata, necessitando de um mecanismo de consulta com suporte à similaridade. Para cada consulta submetida a uma determinada coleção, a função de similaridade produz um ranking dos elementos dessa coleção ordenados pelo valor de similaridade entre cada elemento e o objeto consulta. Como somente os elementos que são variações do objeto consulta são relevantes e deveriam ser retornados, é necessário o uso de um limiar para delimitar o resultado. O primeiro desa o das consultas por abrangência é a de nição do limiar. Geralmente é o especialista humano que faz a estimativa manualmente através da identi - cação de elementos relevantes e irrelevantes para cada consulta e em seguida, utiliza uma medida como revocação e precisão (R&P). A alta dependência do especialista humano di culta o uso de consultas por abrangência na prática, principalmente em grandes coleções. Por esta razão, o método apresentado nesta tese tem por objetivo estimar R&P para vários limiares com baixa dependência do especialista humano. Como um sub-produto do método, também é possível selecionar o limiar mais adequado para uma função sobre uma determinada coleção. Considerando que as funções de similaridade são imperfeitas e que apresentam níveis diferentes de qualidade, é necessário avaliar a função de similaridade para cada coleção, pois o resultado é dependente dos dados. Um limiar para uma coleção pode ser totalmente inadequado para outra coleção, embora utilizando a mesma função de similaridade. Como forma de medir a qualidade de funções de similaridade no contexto de consultas por abrangência, esta tese apresenta a discernibilidade. Trata-se de uma medida que de ne a habilidade da função de similaridade de separar elementos relevantes e irrelevantes. Comparando com a precisão média, a discernibilidade captura variações que não são percebidas pela precisão média, o que mostra que a discernibilidade é mais apropriada para consultas por abrangência. Uma extensa avaliação experimental usando dados reais mostra a viabilidade tanto do método de estimativas como da medida de discernibilidade para consultas por abrangência. / In real systems, stored data typically have inconsistencies caused by typing errors, abbreviations, transposed characters, amongst others. For this reason, di erent representations of the same real world object are stored as distinct elements, causing problems during query processing. In this sense, this thesis investigates range queries which nd objects that represent the same real world object being queried . This type of query cannot be processed by exact matching, thus requiring the support for querying by similarity. For each query submitted to a given collection, the similarity function produces a ranked list of all elements in this collection. This ranked list is sorted decreasingly by the similarity score value with the query object. Only the variations of the query object should be part of the result as only those items are relevant. For this reason, it is necessary to apply a threshold value to properly split the ranking. The rst challenge of range queries is the de nition of a proper threshold. Usually, a human specialist makes the estimation manually through the identi cation of relevant and irrelevant elements for each query. Then, he/she uses measures such as recall and precision (R&P). The high dependency on the human specialist is the main di culty related to use of range queries in real situations, specially for large collections. In this sense, the method presented in this thesis has the objective of estimating R&P at several thresholds with low human intervention. As a by-product of this method, it is possible to select the optimal threshold for a similarity function in a given collection. Considering the fact that the similarity functions are imperfect and vary in quality, it is necessary to evaluate the similarity function for each collection as the result is domain dependent. A threshold value for a collection could be totally inappropriate for another, even though the same similarity function is applied. As a measure of quality of similarity functions for range queries, this thesis introduces discernability. This is a measure to quantify the ability of the similarity function in separating relevant and irrelevant elements. Comparing discernability and mean average precision, the rst one can capture variations that are not noticed by precision-based measures. This property shows that discernability presents better results for evaluating similarity functions for range queries. An extended experimental evaluation using real data shows the viability of both, the estimation method and the discernability measure, applied to range queries. Recuperacao : Informacao Métricas : Similaridade Banco : Dados Quality evaluation Similarity queries Similarity function Range queries Threshold estimation
124	Qualificação de pesquisadores por área da Ciência da Computação com base em uma ontologia de perfil / Researchers’ qualification by computer science area based on a profile ontology Hannel, Kelly January 2008 (has links) A qualidade, tanto da produção científica quanto dos pesquisadores, tem sido foco de discussões e objeto de estudo, isto porque a busca pela excelência é constante no meio acadêmico. Sendo assim, conhecer e medir de forma sistematizada as competências dos pesquisadores constitui-se em uma importante ferramenta para identificar as melhores organizações e indivíduos em uma determinada área. Esta dissertação buscou descobrir a qualificação dos pesquisadores nas áreas da Ciência da Computação. Para tal, foi desenvolvido um sistema Web (semi) automatizado. Este sistema é centrado na ontologia OntoResearcher, considera o reuso de outras ontologias, a extração de informações da Web e do currículo dos pesquisadores. A OntoResearcher foi modelada com características e indicadores de qualidade (quantitativos e qualitativos) que permitem mensurar as competências dos pesquisadores. O sistema desenvolvido utiliza as informações modeladas na OntoResearcher para automatizar o processo de avaliação dos pesquisadores e tem como diferencial a qualificação distribuída nas áreas da Ciência da Computação em que o pesquisador atua. As principais contribuições desta dissertação são a definição do perfil de pesquisador, o desenvolvimento da ontologia OntoResearcher e a implementação do sistema de qualificação demonstrando a viabilidade das idéias propostas através dos testes realizados. / The search for excellence is continuous in the academic field. So, the quality of scientific production and researchers has been focus of discussions and subject of study in the academic field. Thus, knowing and measuring the researcher’s skills or qualifications in a systematized way is an important tool to identify the best organizations and individuals in a certain discipline. This work aimed to discover the researcher’s qualification of Computer Science field. To accomplish this task, it was developed a Web system (semi) automatized. This system, which is centered on the OntoResearcher ontology, considers the ontology reuse, the information’s extraction by the researcher’s resume and by the Web. The OntoResearcher was modeled with indicators of scientific quality (quantitative and qualitative) which allows measuring the researcher’s qualifications. The developed system uses the information from OntoResearcher to automatize the researcher’s evaluation. The main differential of this work is the researcher’s qualification distributed in the Computer Science fields on which the researcher has worked. The main contributions of this work are: the researchers’ profiles, the development of OntoResearcher and the development of qualification system demonstrating viability of the ideas through the experimentation. Avaliação acadêmica Recuperacao : Informacao Extracao : Dados Produção científica Quality Research qualification Profile ontology
125	Qualificando autores em um processo aberto para editoração de artigos / A open process for edition and review of articles implemented over Mediawiki Simões, Gabriel da Silva January 2008 (has links) AWeb 2.0 coloca em evidência iniciativas que valorizam atividades comunitárias, colaborativas e democráticas. Os processos de filtragem e seleção de artigos para publicação científica caminham na contra-mão destes novos conceitos. A seleção de artigos para publicação, tanto em conferências quanto em periódicos, utiliza abordagens fechadas. O objetivo deste processo fechado é garantir que somente artigos de qualidade sejam publicados. Por outro lado, devido a falta de transparência, o processo fechado está sujeito a uma infinidade de problemas que podem surgir através de equívocos ou até mesmo de tendências anti-éticas. Constam na literatura vários exemplos de problemas com o processo de seleção fechado. Com a consolidação daWeb 2.0, ambientes abertos de edição de conteúdo conquistam cada vez mais espaço. Aproveitam contribuições espontâneas de usuários para crescer rapidamente. A aplicação do processo de edição utilizado por estes ambientes em um contexto de edição e revisão de artigos científicos pode modificar radicalmente o processo utilizado atualmente. Por outro lado, por estarem sujeitos ao acesso de usuários não comprometidos, ambientes abertos não apresentam fortes argumentos para estabelecer confiança entre usuários. Este trabalho apresenta um método dinâmico para indicação de pontos de qualificação aplicado em um protótipo desenvolvido para editoração de artigos. O protótipo segue um processo onde todas as etapas que envolvem edição, revisão e comentários dos artigos são abertas e transparentes. As qualificações indicadas pelo método são geradas a partir de dados quantitativos e qualitativos e são utilizadas para gerar um ranking de qualificação dos usuários. Este ranking tem o objetivo de contribuir para o estabelecimento de confiança entre usuários. / Web 2.0 evidence initiatives over communitarian, collaborative and democratic activities. The filtering processes for selection of papers for scientific publication goes against these new concepts. The selection of paper for publications in conferences and periodics uses closed review. The objective of this closed process is to guarantee the quality of these published papers. On the other hand, the closed process has transparency lack. It is subject to a infinity of problems that can even appear through mistakes or of anti-ethics trends. Some examples of problems with the closed process consists in literature. The consolidation of Web 2.0 brings more attention to open content edition environments. These environments use spontaneous user’s contributions to enlarge quickly. The application of the process used by open content edition environments can strongly change the currently closed process used to selection of scientific publications. On the other hand, the open process is subject to fake or not compromised users. This problem starts a lack of trust for unknown users. This work presents a method for qualification points generation applied in a prototype for edition and review of articles that extends MediaWiki, the Wikipedia’s environment. The prototype implements a process where all steps of edition, comment and review of articles are open. To complete lacks of trust between users, the prototype uses a dynamic qualification method. The qualifications indicated by this method are based in quantitative and qualitative data and the users are listed in a ranking ordered by best ratings. Armazenamento : Dados Recuperacao : Informacao Wikipédia (Site) Collaboration MediaWiki Qualification Reputation Trust Wiki
126	Automatizando o processo de estimativa de revocação e precisão de funções de similaridade / Automatizing the process of estimating recall and precision of similarity functions Santos, Juliana Bonato dos January 2008 (has links) Os mecanismos tradicionais de consulta a bases de dados, que utilizam o critério de igualdade, têm se tornado ineficazes quando os dados armazenados possuem variações tanto ortográficas quanto de formato. Nesses casos, torna-se necessário o uso de funções de similaridade ao invés dos operadores booleanos. Os mecanismos de consulta por similaridade retornam um ranking de elementos ordenados pelo seu valor de similaridade em relação ao objeto consultado. Para delimitar os elementos desse ranking que efetivamente fazem parte do resultado pode-se utilizar um limiar de similaridade. Entretanto, a definição do limiar de similaridade adequado é complexa, visto que este valor varia de acordo com a função de similaridade usada e a semântica dos dados consultados. Uma das formas de auxiliar na definição do limiar adequado é avaliar a qualidade do resultado de consultas que utilizam funções de similaridade para diferentes limiares sobre uma amostra da coleção de dados. Este trabalho apresenta um método automático de estimativa da qualidade de funções de similaridade através de medidas de revocação e precisão computadas para diferentes limiares. Os resultados obtidos a partir da aplicação desse método podem ser utilizados como metadados e, a partir dos requisitos de uma aplicação específica, auxiliar na definição do limiar mais adequado. Este processo automático utiliza métodos de agrupamento por similaridade, bem como medidas para validar os grupos formados por esses métodos, para eliminar a intervenção humana durante a estimativa de valores de revocação e precisão. / Traditional database query mechanisms, which use the equality criterion, have become inefficient when the stored data have spelling and format variations. In such cases, it's necessary to use similarity functions instead of boolean operators. Query mechanisms that use similarity functions return a ranking of elements ordered by their score in relation to the query object. To define the relevant elements that must be returned in this ranking, a threshold value can be used. However, the definition of the appropriated threshold value is complex, because it depends on the similarity function used and the semantics of the queried data. One way to help to choose an appropriate threshold is to evaluate the quality of similarity functions results using different thresholds values on a database sample. This work presents an automatic method to estimate the quality of similarity functions through recall and precision measures computed for different thresholds. The results obtained by this method can be used as metadata and, through the requirements of an specific application, assist in setting the appropriated threshold value. This process uses clustering methods and cluster validity measures to eliminate human intervention during the process of estimating recall and precision. Banco : Dados Recuperacao : Informacao Métricas : Similaridade Cluster validity Clustering Similarity functions Recall Precision
127	Um modelo de fusão de rankings baseado em análise de preferência / A model to ranking fusion based on preference analysis Dutra Junior, Elmário Gomes January 2008 (has links) O crescente volume de informações disponíveis na rede mundial de computadores, gera a necessidade do uso de ferramentas que sejam capazes de localizá-las e ordenálas, de forma cada vez mais precisa e que demandem cada vez menos recursos computacionais. Esta necessidade tem motivado pesquisadores a estudar e desenvolver modelos e técnicas que atendam esta demanda. Estudos recentes têm sinalizado que utilizar vários ordenamentos (rankings) previamente montados possibilita o retorno e ordenação de objetos de qualquer natureza com mais eficiência, principalmente pelo fato de haver uma redução no custo da busca pela informação. Este processo, conhecido como fusão de rankings, permite que se obtenha um ordenamento com base na opinião de diversos juízes (critérios), o que possibilita considerar um grande número de fontes, tanto geradas automaticamente como por especialistas. Entretanto os modelos propostos até então tem apresentado várias limitações na sua aplicação: desde a quantidade de rankings envolvidos até, principalmente, a utilização de rankings parciais. A proposta desta dissertação é apresentar um modelo de fusão de rankings que busca estabelecer um consenso entre as opiniões (rankings) dos diferentes juízes envolvidos, considerando distintos graus de relevância ou importância entre eles. A base desta proposta está na Análise de Preferência, um conjunto de técnicas que permite o tratamento da multidimensionalidade dos dados envolvidos. Ao ser testado em uma aplicação real, o modelo mostrou conseguir suprir algumas limitações apresentadas em outras abordagens, bem como apresentou resultados similares aos das aplicações originais. Esta pesquisa, ainda contribui, com a especificação de um sistema Web baseado em tecnologias open source, o qual permite que qualquer pessoa possa realizar a fusão de rankings. / The growing volume of available information on the web creates the need to use tools that are capable of retrieve and ordering this information, ever more precise and using less computer resources. This need has motivated researchers to study and develop models and techniques that solve this problem. Recent studies have indicated that use multiple rankings previously mounted makes possible the return and sorting of the objects of any kind with more efficiency, mainly because there is a reduction in the cost of searching for information. This process, called ranking fusion, provide a ranking based on the opinion of several judges (criteria), considering a large number of sources, both generated automatically and also by specialists. However the proposed models have shown severe limitations in its application: from the amount involved rankings to the use of partial rankings. The proposal of this dissertation is to show a model of ranking fusion that seeks to establish a consensus between the judgement (rankings) of the various judges involved, considering different degrees of relevance or importance among them. The baseline of this proposal is the Preference Analysis, a set of techniques that allows the treatment of multidimensional data handling. During tests in a real application, the model supplied some limitations presented by other approaches, and presented results similar to the original applications. Additionally, this research contributes with the specification of a web system based on open-sources technologies, enabling the realization of fusion rankings by anyone. Armazenamento : Dados Recuperacao : Informacao Data fusion Information retrieval Rank fusion Rank aggregation Preference analysis
128	O estudo e desenvolvimento do protótipo de uma ferramenta de apoio a formulação de consultas a bases de dados na área da saúde / The study and development of the prototype of a tool for supporting query formulation to databases in the health area Webber, Carine Geltrudes January 1997 (has links) O objetivo deste trabalho é, através do estudo de diversas tecnologias, desenvolver o protótipo de uma ferramenta capaz de oferecer suporte ao usuário na formulacdo de uma consulta a MEDLINE (Medical Literature Analysis and Retrieval System On Line). A MEDLINE é um sistema de recuperação de informações bibliográficas, na área da biomedicina, desenvolvida pela National Library of Medicine. Ela é uma ferramenta cuja utilizando tem sido ampliada nesta área em decorrência do aumento da utilizando de literatura, disponível eletronicamente, por profissionais da área da saúde. As pessoas, em geral, buscam informação e esperam encontrá-la exatamente de acordo com as suas expectativas, de forma ágil e utilizando todas as fontes de recursos disponíveis. Foi com este propósito que surgiram os primeiros Sistema de Recuperação de Informação (SRI) onde, de forma simplificada, um usuário constrói uma consulta, a qual expressa sua necessidade de informação, em seguida o sistema a processa e os resultados obtidas através dela retornam ao usuário. Grande parte dos usuários encontram dificuldades em representar a sua necessidade de informação de forma a obter resultados satisfatórios em um SRI. Os termos que o usuário escolhe para compor a consulta nem sempre são os mesmos que o sistema reconhece. A fim de que um usuário seja bem sucedido na definição dos termos que compõem a sua consulta é aconselhável que ele conheça a terminologia que foi empregada na indexação dos itens que ele deseja recuperar ou que possa contar com um intermediário que possua esse conhecimento. Em situações em que nenhuma dessas possibilidades seja verdadeira recursos que viabilizem uma consulta bem sucedida se fazem necessários. Este trabalho, inicialmente, apresenta um estudo geral sobre os Sistemas de Recuperação de Informações (SRI), enfocando todos os processos envolvidos e relacionados ao armazenamento, organização e a própria recuperação. Posteriormente, são destacados aspectos relacionados aos vocabulários e classificações medicas em uso, os quais serão Úteis para uma maior compreensão das dificuldades encontradas pelos usuários durante a interação com um sistema com esta finalidade. E, finalmente, é apresentado o protótipo do Sistema para Formulação de Consultas a MEDLINE, bem como seus componentes e funcionalidades. O Sistema para Formulação de Consultas a MEDLINE foi desenvolvido com o intuito de permitir que o usuário utilize qualquer termo na formulação de uma consulta destinada a MEDLINE. Ele possibilita a integração de diferentes terminologias médicas, originárias de vocabulários e classificações disponíveis em língua portuguesa e atualmente em uso. Esta abordagem permite a criação de uma terminologia biomédica mais completa, sendo que cada termo mantém relacionamentos, os quais descrevem a sua semântica, com outros. / The goal of this work is, through the study of many technologies, to develop the prototype of a tool able to offer support to the user in query formulation to the MEDLINE (Medical Literature Analysis and Retrieval System On Line). The MEDLINE is a bibliographical information retrieval system in the biomedicine area developed by National Library of Medicine. It is a tool whose usefulness has been amplifyed in this area by the increase of literature utilization, eletronically available, by health care profissionals. People, in general, look for information and are interested in finding it exactly like their expectations, in an agile way and using every single information source available. With this purpouse the first Information Retrieval System (IRS ) emerged, where in a simplifyed way, a user defines a query, that expresses an information necessity and, one step ahead, the system processes it and returns to the user answers from the query. Most of the users think is difficult to represent their information necessity in order to be succesful in searching an IRS. The terms that the user selects to compose the query are not always the same that the system recognizes. In order to be successfull in the definition of the terms that will compose his/her query is advisable that the user know the terminology that was employed in the indexing process of the wanted items or that he/she can have an intermediary person who knows about it. In many situations where no one of these possibilities can be true, resources that make a successfull query possible will be needed. This work, firstly, presents a general study on IRS focusing all the process involved and related to the storage, organization and retrieval. Lately, aspects related to the medical classifications and vocabulary are emphasized, which will be usefull for a largest comprehension of the difficulties found by users during interaction with a system like this. And, finally, the prototype of the Query Formulation System to MEDLINE is presented, as well as its components and funcionalities. The Query Formulation System to MEDLINE was developed with the intention of allowing the user to use any term in the formulation of a query to the MEDLINE. It allows the integration of different medical terminologies originated from classifications and vocabulary available in Portuguese language and in use today. This approach permits the creation of a more complete biomedical terminology in which each term maintains relationships that describe its semantic. Armazenamento : Dados Recuperacao : Informacao Formulacao : Consulta Tesauro Informática médica Information retrieval Query formulation Medical terminology Thesaurus
129	Extração de metadados utilizando uma ontologia de domínio / Metadata extraction using a domain ontology Oliveira, Luis Henrique Gonçalves de January 2009 (has links) O objetivo da Web Semântica é prover a descrição semântica dos recursos através de metadados processáveis por máquinas. Essa camada semântica estende a Web já existente agregando facilidades para a execução de pesquisas, filtragem, resumo ou intercâmbio de conhecimento de maior complexidade. Dentro deste contexto, as bibliotecas digitais são as aplicações que estão iniciando o processo de agregar anotações semânticas às informações disponíveis na Web. Uma biblioteca digital pode ser definida como uma coleção de recursos digitais selecionados segundo critérios determinados, com alguma organização lógica e de modo acessível para recuperação distribuída em rede. Para facilitar o processo de recuperação são utilizados metadados para descrever o conteúdo armazenado. Porém, a geração manual de metadados é uma tarefa complexa e que demanda tempo, além de sujeita a falhas. Portanto a extração automática ou semi-automática desses metadados seria de grande ajuda para os autores, subtraindo uma tarefa do processo de publicação de documentos. A pesquisa realizada nesta dissertação visou abordar esse problema, desenvolvendo um extrator de metadados que popula uma ontologia de documentos e classifica o documento segundo uma hierarquia pré-definida. A ontologia de documentos OntoDoc foi criada para armazenar e disponibilizar os metadados extraídos, assim como a classificação obtida para o documento. A implementação realizada focou-se em artigos científicos de Ciência da Computação e utilizou a classificação das áreas da ACM na tarefa de classificação dos documentos. Um conjunto de exemplos retirados da Biblioteca Digital da ACM foi gerado para a realização do treinamento e de experimentos sobre a implementação. As principais contribuições desta pesquisa são o modelo de extração de metadados e classificação de documentos de forma integrada e a descrição dos documentos através de metadados armazenados em um ontologia, a OntoDoc. / The main purpose of the Semantic Web is to provide machine processable metadata that describes the semantics of resources to facilitate the search, filter, condense, or negotiate knowledge for their human users. In this context, digital libraries are applications where the semantic annotation process of information available in the Web is beginning. Digital library can be defined as a collection of digital resources selected by some criteria, with some organization and available through distributed network retrieval. To facilitate the retrieval process, metadata are applied to describe stored content. However, manual metadata generation is a complex task, time-consuming and error-prone. Thus, automatic or semiautomatic metadata generation would be great help to the authors, subtracting this task from the document publishing process. The research in this work approached this problem through the developing of a metadata extractor that populates a document ontology and classify the document according to a predefined hierarchy. The document ontology OntoDoc was created to store and to make available all the extracted metadata, as well as the obtained document classification. The implementation aimed on Computer Science papers and used the ACM Computing Classification system in the document classification task. A sample set extracted from the ACM Digital Libray was generated for implementation training and validation. The main contributions of this work are the integrated metadata extraction and classification model and the description of documents through a metadata stored in an ontology. Sistemas : Informação Mineracao : Dados Recuperacao : Informacao Metadata extraction Document classification Ontology
130	Um estudo sobre agrupamento de documentos textuais em processamento de informações não estruturadas usando técnicas de "clustering" / A study about arrangement of textual documents applied to unstructured information processing using clustering techniques Wives, Leandro Krug January 1999 (has links) Atualmente, técnicas de recuperação e análise de informações, principalmente textuais, são de extrema importância. Após o grande BOOM da Internet, muitos problemas que já eram conhecidos em contextos fechados passaram a preocupar também toda a comunidade científica. No âmbito deste trabalho os problemas relacionados à sobrecarga de informações, que ocorre devido ao grande volume de dados a disposição de uma pessoa, são os mais importantes. Visando minimizar estes problemas, este trabalho apresenta um estudo sobre métodos de agrupamento de objetos textuais (documentos no formato ASCII), onde os objetos são organizados automaticamente em grupos de objetos similares, facilitando sua localização, manipulação e análise. Decorrente deste estudo, apresenta-se uma metodologia de aplicação do agrupamento descrevendo-se suas diversas etapas. Estas etapas foram desenvolvidas de maneira que após uma ter sido realizada ela não precisa ser refeita, permitindo que a etapa seguinte seja aplicada diversas vezes sobre os mesmos dados (com diferentes parâmetros) de forma independente. Além da metodologia, realiza-se um estudo comparativo entre alguns algoritmos de agrupamento, inclusive apresentando-se um novo algoritmo mais eficiente. Este fato é comprovado em experimentos realizados nos diversos estudos de caso propostos. Outras contribuições deste trabalho incluem a implementação de uma ferramenta de agrupamento de textos que utiliza a metodologia elaborada e os algoritmos estudados; além da utilização de uma fórmula não convencional de cálculo de similaridades entre objetos (de abordagem fuzzy), aplicada a informações textuais, obtendo resultados satisfatórios. / The Internet is the vital media of today and, as being a mass media, problems known before to specific fields of Science arise. One of these problems, capable of annoying many people, is the information overload problem caused by the excessive amount of information returned in response to the user’s query. Due to the information overload problem, advanced techniques for information retrieval and analysis are needed. This study presents some aids in these fields, presenting a methodology to help users to apply the clustering process in textual data. The technique investigated is capable of grouping documents of several subjects in clusters of documents of the same subject. The groups identified can be used to simplify the process of information analysis and retrieval. This study also presents a tool that was created using the methodology and the algorithms analyzed. The tool was implemented to facilitate the process of investigation and demonstration of the study. The results of the application of a fuzzy formula, used to calculate the similarity among documents, are also presented. Armazenamento : Dados Recuperacao : Informacao Descoberta : Conhecimento Agrupamento : Informacao textual Clustering Knowledge discovery from texts Information retrieval

Search results