Global ETD Search

1	Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web / ENRICHMENT OF GAZETTEERS FROM NEWS TO IMPROVE TEXTBASED GEOREFERENCING ON THE WEB Gouvêa, Cleber 23 March 2009 (has links) Made available in DSpace on 2016-03-22T17:26:21Z (GMT). No. of bitstreams: 1 dissertacao_mestrado_cleber.pdf: 565462 bytes, checksum: 906465b0884050d40a2c09bf52b60526 (MD5) Previous issue date: 2009-03-23 / Georeferencing of texts, that is, the identification of the geographical context of texts is becoming popular in the Web due to the high demand for geographical information and due to the raising of services for query and retrieval like Google Earth (geobrowsers). The main challenge is to relate texts to geographical locations. These associations are stored in structures called gazetteers. Although there are gazetteers like Geonames and TGN, they fail in coverage, lacking information about some countries, and they also fail by weak specialization, lacking detailed references to locations (fine granularity) as for example names of streets, squares, monuments, rivers, neighborhoods, etc. This kind of information that acts as indirect references to geographical locations is defined as Location Indicators . This dissertation presents an approach that identifies Location Indicators related to geographical locations, by analyzing texts of news published in the Web. The goal is to enrich create gazetteers with the identified relations and then perform geo-referencing of news. Location Indicators include non-geographical entities that are dynamic and may change along the time. The use of news published in the Web is a useful way to discover Location Indicators, covering a great number of locations and maintaining detailed information about each location. Different training news corpora are compared for the creation of gazetteers and evaluated by their ability to correctly identify cities in texts of news Georeferencing of texts, that is, the identification of the geographical context of texts is becoming popular in the Web due to the high demand for geographical information and due to the raising of services for query and retrieval like Google Earth (geobrowsers). The main challenge is to relate texts to geographical locations. These associations are stored in structures called gazetteers. Although there are gazetteers like Geonames and TGN, they fail in coverage, lacking information about some countries, and they also fail by weak specialization, lacking detailed references to locations (fine granularity) as for example names of streets, squares, monuments, rivers, neighborhoods, etc. This kind of information that acts as indirect references to geographical locations is defined as Location Indicators . This dissertation presents an approach that identifies Location Indicators related to geographical locations, by analyzing texts of news published in the Web. The goal is to enrich create gazetteers with the identified relations and then perform geo-referencing of news. Location Indicators include non-geographical entities that are dynamic and may change along the time. The use of news published in the Web is a useful way to discover Location Indicators, covering a great number of locations and maintaining detailed information about each location. Different training news corpora are compared for the creation of gazetteers and evaluated by their ability to correctly identify cities in texts of news / Com o advento da Internet e o crescente número de informações disponíveis torna-se necessária a definição de estratégias especiais que permitam aos usuários o acesso rápido a informações relevantes. Como a Web possui grande volume de informações principalmente com o foco geográfico torna-se necessário recuperar e estruturar essas informações de forma a poder relacioná-las com o contexto e realidade das pessoas através de métodos e sistemas automáticos. Para isso uma das necessidades é possibilitar o georreferenciamento dos textos, ou seja, identificar as entidades geográficas presentes e associá-las com sua correta localização espacial. Nesse sentido, os topônimos (ex: nomes de localidades como cidades, países, etc.), devido à possibilidade de identificar de forma precisa determinada região espacial, apresentam-se como ideais para a identificação do contexto geográfico dos textos. Essa tarefa, denominada de Resolução de Topônimos apresenta, no entanto, desafios importantes principalmente do ponto de vista lingüístico, já que uma localidade pode possuir variados tipos de ambigüidade. Com relação a isso a principal estratégia para superar estes problemas compreende a identificação de evidências que auxiliem na identificação e desambiguação das localidades nos textos. Para essa verificação são utilizados geralmente os serviços de um ou mais dicionários toponímicos (Gazetteers). Como são criados de forma manual eles apresentam, no entanto deficiência de informações relacionadas principalmente a entidades que podem identificar, embora de forma indireta, determinados tipos de lugares como ruas, praças, universidades etc., as quais são definidas como Indicadores de Localidade. O presente trabalho propõe uma abordagem para a recuperação dessas entidades aproveitando para isso o caráter geográfico das informações jornalísticas. Para ilustrar a viabilidade do processo diferentes tipos de corpora de notícias foram testados e comparados pela habilidade de criação de Gazetteers com os Indicadores recuperados, sendo os Gazetteers avaliados então pela capacidade de identificação das cidades relacionadas às notícias testadas. Os resultados demonstram a utilidade da abordagem para o enriquecimento de Gazetteers e consequentemente para a recuperação de Indicadores de Localidade com maior simplicidade e extensibilidade que os trabalhos atuais resolução de Topônimos georreferenciamento de textos Gazetteers geographical Information Retrieval toponym resolution georeferencing of texts Gazetteers
2	Comportamento de Metricas de Inteligibilidade Textual em Documentos Recuperados naWeb / THE BEHAVIOR OF READABILITY METRICS IN DOCUMENTS RETRIEVED IN INTERNET AND ITS USE AS AN INFORMATION RETRIEVAL QUERY PARAMETER Londero, Eduardo Bauer 29 March 2011 (has links) Made available in DSpace on 2016-03-22T17:26:45Z (GMT). No. of bitstreams: 1 Dissertacao_Eduardo_Revisado.pdf: 3489154 bytes, checksum: 3c327ee0bc47d79cd4af46e065105650 (MD5) Previous issue date: 2011-03-29 / Text retrieved from the Internet through Google and Yahoo queries are evaluated using Flesch-Kincaid Grade Level, a simple assessment measure of text readability. This kind of metrics were created to help writers to evaluate their text, and recently in automatic text simplification for undercapable readers. In this work we apply these metrics to documents freely retrieved from the Internet, seeking to find correlations between legibility and relevance acknowledged to then by search engines. The initial premise guiding the comparison between readability and relevance is the statement known as Occam s Principle, or Principle of Economy. This study employs Flesch-Kincaid Grade Level in text documents retrieved from the Internet through search-engines queries and correlate it with the position. It was found a centralist trend in the texts recovered. The centralist tendency mean that the average spacing of groups of files from the average of the category they belong is meaningfull. With this measure is possible to establish a correlation between relevance and legibility, and also, to detect diferences in the way both search engines derive their relevance calculation. A subsequent experiment seeks to determine whether the measure of legibility can be employed to assist him or her choosing a document combined with original search engine ranking and if it is useful as advance information for choice and user navigation. In a final experiment, based on previously obtained knowledge, a comparison between Wikipedia and Britannica encyclopedias by employing the metric of understandability Flesch-Kincaid / Textos recuperados da Internet por interm´edio de consultas ao Google e Yahoo s ao analisados segundo uma m´etrica simples de avaliac¸ ao de inteligibilidade textual. Tais m´etricas foram criadas para orientar a produc¸ ao textual e recentemente tamb´em foram empregadas em simplificadores textuais autom´aticos experimentais para leitores inexperientes. Nesse trabalho aplicam-se essas m´etricas a texto originais livres, recuperados da Internet, para buscar correlacionar o grau de inteligibilidade textual com a relev ancia que lhes ´e conferida pelos buscadores utilizados. A premissa inicial a estimular a comparac¸ ao entre inteligibilidade e relev ancia ´e o enunciado conhecido como Princ´ıpio de Occam, ou princ´ıpio da economia. Observa-se uma tend encia centralista que ocorre a partir do pequeno afastamento m´edio dos grupos de arquivos melhor colocados no ranking em relac¸ ao `a m´edia da categoria a que pertencem. ´E com a medida do afastamento m´edio que se consegue verificar correlac¸ ao com a posic¸ ao do arquivo no ranking e ´e tamb´em com essa medida que se consegue registrar diferenc¸as entre o m´etodo de calcular a relev ancia do Google e do Yahoo. Um experimento que decorre do primeiro estudo procura determinar se a medida de inteligibilidade pode ser empregada para auxiliar o usu´ario da Internet a escolher arquivos mais simples ou se a sua indicac¸ ao junto `a listagem de links recuperados ´e ´util e informativa para a escolha e navegac¸ ao do usu´ario. Em um experimento final, embasado no conhecimento previamente obtido, s ao comparadas as enciclop´edias Brit anica eWikip´edia por meio do emprego da m´etrica de inteligibilidade Flesch-Kincaid Grade Level Recuperação de Informações Textuais Processamento de Linguagem Natural
3	Algoritmo rastreador web especialista nuclear / Nuclear expert web crawler algorithm Reis, Thiago 12 November 2013 (has links) Nos últimos anos a Web obteve um crescimento exponencial, se tornando o maior repositório de informações já criado pelo homem e representando uma fonte nova e relevante de informações potencialmente úteis para diversas áreas, inclusive a área nuclear. Entretanto, devido as suas características e, principalmente, devido ao seu grande volume de dados, emerge um problema desafiador relacionado à utilização das suas informações: a busca e recuperação informações relevantes e úteis. Este problema é tratado por algoritmos de busca e recuperação de informação que trabalham na Web, denominados rastreadores web. Neste trabalho é apresentada a pesquisa e desenvolvimento de um algoritmo rastreador que efetua buscas e recupera páginas na Web com conteúdo textual relacionado ao domínio nuclear e seus temas, de forma autônoma e massiva. Este algoritmo foi projetado sob o modelo de um sistema especialista, possuindo, desta forma, uma base de conhecimento que contem tópicos nucleares e palavras-chave que os definem e um mecanismo de inferência constituído por uma rede neural artificial perceptron multicamadas que efetua a estimação da relevância das páginas na Web para um determinado tópico nuclear, no decorrer do processo de busca, utilizando a base de conhecimento. Deste modo, o algoritmo é capaz de, autonomamente, buscar páginas na Web seguindo os hiperlinks que as interconectam e recuperar aquelas que são mais relevantes para o tópico nuclear selecionado, emulando a habilidade que um especialista nuclear tem de navegar na Web e verificar informações nucleares. Resultados experimentais preliminares apresentam uma precisão de recuperação de 80% para o tópico área nuclear em geral e 72% para o tópico de energia nuclear, indicando que o algoritmo proposto é efetivo e eficiente na busca e recuperação de informações relevantes para o domínio nuclear. / Over the last years the Web has obtained an exponential growth, becoming the largest information repository ever created and representing a new and valuable source of potentially useful information for several topics and also for nuclear-related themes. However, due to the Web characteristics and, mainly, because of its huge data volume, finding and retrieving relevant and useful information are non-trivial tasks. This challenge is addressed by web search and retrieval algorithms called web crawlers. This work presents the research and development of a crawler algorithm able to search and retrieve webpages with nuclear-related textual content, in autonomous and massive fashion. This algorithm was designed under the expert systems model, having, this way, a knowledge base that contains a list of nuclear topics and keywords that define them and an inference engine composed of a multi-layer perceptron artificial neural network that performs webpages relevance estimates to some knowledge base nuclear topic while searching the Web. Thus, the algorithm is able to autonomously search the Web by following the hyperlinks that interconnect the webpages and retrieving those that are more relevant to some predefined nuclear topic, emulating the ability a nuclear expert has to browse the Web and evaluate nuclear information. Preliminary experimental results show a retrieval precision of 80% for the nuclear general domain topic and 72% for the nuclear power topic, indicating that the proposed algorithm is effective and efficient to search the Web and to retrieve nuclear-related information. algoritmos de busca e rastreamento web informação nuclear na web mineração de dados na web nuclear expert systems nuclear web information recuperação de informações na web sistemas especialistas nucleares web mining web retrieval web search and crawling algorithms
4	Algoritmo rastreador web especialista nuclear / Nuclear expert web crawler algorithm Thiago Reis 12 November 2013 (has links) Nos últimos anos a Web obteve um crescimento exponencial, se tornando o maior repositório de informações já criado pelo homem e representando uma fonte nova e relevante de informações potencialmente úteis para diversas áreas, inclusive a área nuclear. Entretanto, devido as suas características e, principalmente, devido ao seu grande volume de dados, emerge um problema desafiador relacionado à utilização das suas informações: a busca e recuperação informações relevantes e úteis. Este problema é tratado por algoritmos de busca e recuperação de informação que trabalham na Web, denominados rastreadores web. Neste trabalho é apresentada a pesquisa e desenvolvimento de um algoritmo rastreador que efetua buscas e recupera páginas na Web com conteúdo textual relacionado ao domínio nuclear e seus temas, de forma autônoma e massiva. Este algoritmo foi projetado sob o modelo de um sistema especialista, possuindo, desta forma, uma base de conhecimento que contem tópicos nucleares e palavras-chave que os definem e um mecanismo de inferência constituído por uma rede neural artificial perceptron multicamadas que efetua a estimação da relevância das páginas na Web para um determinado tópico nuclear, no decorrer do processo de busca, utilizando a base de conhecimento. Deste modo, o algoritmo é capaz de, autonomamente, buscar páginas na Web seguindo os hiperlinks que as interconectam e recuperar aquelas que são mais relevantes para o tópico nuclear selecionado, emulando a habilidade que um especialista nuclear tem de navegar na Web e verificar informações nucleares. Resultados experimentais preliminares apresentam uma precisão de recuperação de 80% para o tópico área nuclear em geral e 72% para o tópico de energia nuclear, indicando que o algoritmo proposto é efetivo e eficiente na busca e recuperação de informações relevantes para o domínio nuclear. / Over the last years the Web has obtained an exponential growth, becoming the largest information repository ever created and representing a new and valuable source of potentially useful information for several topics and also for nuclear-related themes. However, due to the Web characteristics and, mainly, because of its huge data volume, finding and retrieving relevant and useful information are non-trivial tasks. This challenge is addressed by web search and retrieval algorithms called web crawlers. This work presents the research and development of a crawler algorithm able to search and retrieve webpages with nuclear-related textual content, in autonomous and massive fashion. This algorithm was designed under the expert systems model, having, this way, a knowledge base that contains a list of nuclear topics and keywords that define them and an inference engine composed of a multi-layer perceptron artificial neural network that performs webpages relevance estimates to some knowledge base nuclear topic while searching the Web. Thus, the algorithm is able to autonomously search the Web by following the hyperlinks that interconnect the webpages and retrieving those that are more relevant to some predefined nuclear topic, emulating the ability a nuclear expert has to browse the Web and evaluate nuclear information. Preliminary experimental results show a retrieval precision of 80% for the nuclear general domain topic and 72% for the nuclear power topic, indicating that the proposed algorithm is effective and efficient to search the Web and to retrieve nuclear-related information. algoritmos de busca e rastreamento web informação nuclear na web mineração de dados na web recuperação de informações na web sistemas especialistas nucleares nuclear expert systems nuclear web information web mining web retrieval web search and crawling algorithms
5	Visualização em nuvens de texto como apoio à busca exploratória na web / Supporting web search with visualization in text clouds Marcia Severo Lunardi 27 March 2008 (has links) A presente dissertação é o resultado de uma pesquisa que avalia as vantagens da utilização de nuvens de texto para apresentar os resultados de um sistema de busca na web. Uma nuvem de texto é uma técnica de visualização de informações textuais e tem como principal objetivo proporcionar um resumo de um ou mais conteúdos em uma única tela. Em uma consulta na web, os resultados aparecem listados em diversas páginas. Através de uma nuvem de texto integrada a um sistema de busca é possível a visualização de uma síntese, de um resumo automático, do conteúdo dos resultados listados em várias páginas sem que elas tenham que ser percorridas e os sites acessados individualmente. A nuvem de texto nesse contexto funciona como uma ferramenta auxiliar para que o usuário possa gerenciar a grande carga de informação que é disponibilizada nos resultados das consultas. Dessa forma os resultados podem ser vistos em contexto e, ainda, as palavras que compõem a nuvem, podem ser utilizadas como palavras-chave adicionais para complementar uma consulta inicial. Essa pesquisa foi desenvolvida em duas fases. A primeira consistiu no desenvolvimento de uma aplicação integrada a um sistema de buscas para mostrar seus resultados em nuvens de texto. A segunda fase foi a avaliação dessa aplicação, focada principalmente em buscas exploratórias, que são aquelas em que os objetivos dos usuários não são bem definidos ou o conhecimento sobre o assunto pesquisado é vago. / This dissertation presents the results of a research that evaluates the advantages of text clouds to the visualization of web search results. A text cloud is a visualization technique for texts and textual data in general. Its main purpose is to enhance comprehension of a large body of text by summarizing it automatically and is generally applied for managing information overload. While continual improvements in search technology have made it possible to quickly find relevant information on the web, few search engines do anything to organize or to summarize the contents of such responses beyond ranking the items in a list. In exploratory searches, users may be forced to scroll through many pages to identify the information they seek and are generally not provided with any way to visualize the totality of the results returned. This research is divided in two parts. Part one describes the development of an application that generates text clouds for the summarization of search results from the standard result list provided by the Yahoo search engine. The second part describes the evaluation of this application. Adapted to this specific context, a text cloud is generated from the text of the first sites returned by the search engine according to its relevance algorithms. The benefit of this application is that it enables users to obtain a visual overview of the main results at once. From this overview the users can obtain keywords to navigate to potential relevant subjects that otherwise would be hidden deep down in the response list. Also, users can realize by visualizing the results in context that his initial query term was not the best choice. Visualização de Informações Nuvens de Texto Design da Informação Design de Interface Sistemas de Busca Busca Exploratória Recuperação de Informações Text Clouds Information Visualization Information Design Interface Design Web Search Exploratory Search Information Retrieval DESENHO INDUSTRIAL
6	Visualização em nuvens de texto como apoio à busca exploratória na web / Supporting web search with visualization in text clouds Marcia Severo Lunardi 27 March 2008 (has links) A presente dissertação é o resultado de uma pesquisa que avalia as vantagens da utilização de nuvens de texto para apresentar os resultados de um sistema de busca na web. Uma nuvem de texto é uma técnica de visualização de informações textuais e tem como principal objetivo proporcionar um resumo de um ou mais conteúdos em uma única tela. Em uma consulta na web, os resultados aparecem listados em diversas páginas. Através de uma nuvem de texto integrada a um sistema de busca é possível a visualização de uma síntese, de um resumo automático, do conteúdo dos resultados listados em várias páginas sem que elas tenham que ser percorridas e os sites acessados individualmente. A nuvem de texto nesse contexto funciona como uma ferramenta auxiliar para que o usuário possa gerenciar a grande carga de informação que é disponibilizada nos resultados das consultas. Dessa forma os resultados podem ser vistos em contexto e, ainda, as palavras que compõem a nuvem, podem ser utilizadas como palavras-chave adicionais para complementar uma consulta inicial. Essa pesquisa foi desenvolvida em duas fases. A primeira consistiu no desenvolvimento de uma aplicação integrada a um sistema de buscas para mostrar seus resultados em nuvens de texto. A segunda fase foi a avaliação dessa aplicação, focada principalmente em buscas exploratórias, que são aquelas em que os objetivos dos usuários não são bem definidos ou o conhecimento sobre o assunto pesquisado é vago. / This dissertation presents the results of a research that evaluates the advantages of text clouds to the visualization of web search results. A text cloud is a visualization technique for texts and textual data in general. Its main purpose is to enhance comprehension of a large body of text by summarizing it automatically and is generally applied for managing information overload. While continual improvements in search technology have made it possible to quickly find relevant information on the web, few search engines do anything to organize or to summarize the contents of such responses beyond ranking the items in a list. In exploratory searches, users may be forced to scroll through many pages to identify the information they seek and are generally not provided with any way to visualize the totality of the results returned. This research is divided in two parts. Part one describes the development of an application that generates text clouds for the summarization of search results from the standard result list provided by the Yahoo search engine. The second part describes the evaluation of this application. Adapted to this specific context, a text cloud is generated from the text of the first sites returned by the search engine according to its relevance algorithms. The benefit of this application is that it enables users to obtain a visual overview of the main results at once. From this overview the users can obtain keywords to navigate to potential relevant subjects that otherwise would be hidden deep down in the response list. Also, users can realize by visualizing the results in context that his initial query term was not the best choice. Visualização de Informações Nuvens de Texto Design da Informação Design de Interface Sistemas de Busca Busca Exploratória Recuperação de Informações Text Clouds Information Visualization Information Design Interface Design Web Search Exploratory Search Information Retrieval DESENHO INDUSTRIAL

1

Page generated in 0.0578 seconds