Spelling suggestions: "subject:"recuperação dde informações"" "subject:"recuperação dde nformações""
1 |
Uma Abordagem para o Enriquecimento de Gazetteers a partir de Notícias visando o Georreferenciamento de Textos na Web / ENRICHMENT OF GAZETTEERS FROM NEWS TO IMPROVE TEXTBASED GEOREFERENCING ON THE WEBGouvêa, Cleber 23 March 2009 (has links)
Made available in DSpace on 2016-03-22T17:26:21Z (GMT). No. of bitstreams: 1
dissertacao_mestrado_cleber.pdf: 565462 bytes, checksum: 906465b0884050d40a2c09bf52b60526 (MD5)
Previous issue date: 2009-03-23 / Georeferencing of texts, that is, the identification of the geographical context of
texts is becoming popular in the Web due to the high demand for geographical
information and due to the raising of services for query and retrieval like Google Earth
(geobrowsers). The main challenge is to relate texts to geographical locations. These
associations are stored in structures called gazetteers. Although there are gazetteers like
Geonames and TGN, they fail in coverage, lacking information about some countries,
and they also fail by weak specialization, lacking detailed references to locations (fine
granularity) as for example names of streets, squares, monuments, rivers,
neighborhoods, etc. This kind of information that acts as indirect references to
geographical locations is defined as Location Indicators .
This dissertation presents an approach that identifies Location Indicators related
to geographical locations, by analyzing texts of news published in the Web. The goal is
to enrich create gazetteers with the identified relations and then perform geo-referencing
of news. Location Indicators include non-geographical entities that are dynamic and
may change along the time. The use of news published in the Web is a useful way to
discover Location Indicators, covering a great number of locations and maintaining
detailed information about each location. Different training news corpora are compared
for the creation of gazetteers and evaluated by their ability to correctly identify cities in
texts of news
Georeferencing of texts, that is, the identification of the geographical context of
texts is becoming popular in the Web due to the high demand for geographical
information and due to the raising of services for query and retrieval like Google Earth
(geobrowsers). The main challenge is to relate texts to geographical locations. These
associations are stored in structures called gazetteers. Although there are gazetteers like
Geonames and TGN, they fail in coverage, lacking information about some countries,
and they also fail by weak specialization, lacking detailed references to locations (fine
granularity) as for example names of streets, squares, monuments, rivers,
neighborhoods, etc. This kind of information that acts as indirect references to
geographical locations is defined as Location Indicators .
This dissertation presents an approach that identifies Location Indicators related
to geographical locations, by analyzing texts of news published in the Web. The goal is
to enrich create gazetteers with the identified relations and then perform geo-referencing
of news. Location Indicators include non-geographical entities that are dynamic and
may change along the time. The use of news published in the Web is a useful way to
discover Location Indicators, covering a great number of locations and maintaining
detailed information about each location. Different training news corpora are compared
for the creation of gazetteers and evaluated by their ability to correctly identify cities in
texts of news / Com o advento da Internet e o crescente número de informações disponíveis
torna-se necessária a definição de estratégias especiais que permitam aos usuários o
acesso rápido a informações relevantes. Como a Web possui grande volume de
informações principalmente com o foco geográfico torna-se necessário recuperar e
estruturar essas informações de forma a poder relacioná-las com o contexto e realidade
das pessoas através de métodos e sistemas automáticos. Para isso uma das necessidades
é possibilitar o georreferenciamento dos textos, ou seja, identificar as entidades
geográficas presentes e associá-las com sua correta localização espacial. Nesse sentido,
os topônimos (ex: nomes de localidades como cidades, países, etc.), devido à
possibilidade de identificar de forma precisa determinada região espacial, apresentam-se
como ideais para a identificação do contexto geográfico dos textos. Essa tarefa,
denominada de Resolução de Topônimos apresenta, no entanto, desafios importantes
principalmente do ponto de vista lingüístico, já que uma localidade pode possuir
variados tipos de ambigüidade. Com relação a isso a principal estratégia para superar
estes problemas compreende a identificação de evidências que auxiliem na identificação
e desambiguação das localidades nos textos. Para essa verificação são utilizados
geralmente os serviços de um ou mais dicionários toponímicos (Gazetteers). Como são
criados de forma manual eles apresentam, no entanto deficiência de informações
relacionadas principalmente a entidades que podem identificar, embora de forma
indireta, determinados tipos de lugares como ruas, praças, universidades etc., as quais
são definidas como Indicadores de Localidade. O presente trabalho propõe uma
abordagem para a recuperação dessas entidades aproveitando para isso o caráter
geográfico das informações jornalísticas. Para ilustrar a viabilidade do processo
diferentes tipos de corpora de notícias foram testados e comparados pela habilidade de
criação de Gazetteers com os Indicadores recuperados, sendo os Gazetteers avaliados
então pela capacidade de identificação das cidades relacionadas às notícias testadas. Os
resultados demonstram a utilidade da abordagem para o enriquecimento de Gazetteers e
consequentemente para a recuperação de Indicadores de Localidade com maior
simplicidade e extensibilidade que os trabalhos atuais
|
2 |
Comportamento de Metricas de Inteligibilidade Textual em Documentos Recuperados naWeb / THE BEHAVIOR OF READABILITY METRICS IN DOCUMENTS RETRIEVED IN INTERNET AND ITS USE AS AN INFORMATION RETRIEVAL QUERY PARAMETERLondero, Eduardo Bauer 29 March 2011 (has links)
Made available in DSpace on 2016-03-22T17:26:45Z (GMT). No. of bitstreams: 1
Dissertacao_Eduardo_Revisado.pdf: 3489154 bytes, checksum: 3c327ee0bc47d79cd4af46e065105650 (MD5)
Previous issue date: 2011-03-29 / Text retrieved from the Internet through Google and Yahoo queries are evaluated
using Flesch-Kincaid Grade Level, a simple assessment measure of text readability. This
kind of metrics were created to help writers to evaluate their text, and recently in automatic
text simplification for undercapable readers. In this work we apply these metrics
to documents freely retrieved from the Internet, seeking to find correlations between legibility
and relevance acknowledged to then by search engines. The initial premise guiding
the comparison between readability and relevance is the statement known as Occam s
Principle, or Principle of Economy. This study employs Flesch-Kincaid Grade Level in
text documents retrieved from the Internet through search-engines queries and correlate
it with the position. It was found a centralist trend in the texts recovered. The centralist
tendency mean that the average spacing of groups of files from the average of the
category they belong is meaningfull. With this measure is possible to establish a correlation
between relevance and legibility, and also, to detect diferences in the way both
search engines derive their relevance calculation. A subsequent experiment seeks to determine
whether the measure of legibility can be employed to assist him or her choosing
a document combined with original search engine ranking and if it is useful as advance
information for choice and user navigation. In a final experiment, based on previously
obtained knowledge, a comparison between Wikipedia and Britannica encyclopedias by
employing the metric of understandability Flesch-Kincaid / Textos recuperados da Internet por interm´edio de consultas ao Google e Yahoo
s ao analisados segundo uma m´etrica simples de avaliac¸ ao de inteligibilidade textual. Tais
m´etricas foram criadas para orientar a produc¸ ao textual e recentemente tamb´em foram
empregadas em simplificadores textuais autom´aticos experimentais para leitores inexperientes.
Nesse trabalho aplicam-se essas m´etricas a texto originais livres, recuperados da
Internet, para buscar correlacionar o grau de inteligibilidade textual com a relev ancia que
lhes ´e conferida pelos buscadores utilizados. A premissa inicial a estimular a comparac¸ ao
entre inteligibilidade e relev ancia ´e o enunciado conhecido como Princ´ıpio de Occam,
ou princ´ıpio da economia. Observa-se uma tend encia centralista que ocorre a partir do
pequeno afastamento m´edio dos grupos de arquivos melhor colocados no ranking em
relac¸ ao `a m´edia da categoria a que pertencem. ´E com a medida do afastamento m´edio que
se consegue verificar correlac¸ ao com a posic¸ ao do arquivo no ranking e ´e tamb´em com
essa medida que se consegue registrar diferenc¸as entre o m´etodo de calcular a relev ancia
do Google e do Yahoo. Um experimento que decorre do primeiro estudo procura determinar
se a medida de inteligibilidade pode ser empregada para auxiliar o usu´ario da Internet
a escolher arquivos mais simples ou se a sua indicac¸ ao junto `a listagem de links recuperados
´e ´util e informativa para a escolha e navegac¸ ao do usu´ario. Em um experimento
final, embasado no conhecimento previamente obtido, s ao comparadas as enciclop´edias
Brit anica eWikip´edia por meio do emprego da m´etrica de inteligibilidade Flesch-Kincaid
Grade Level
|
3 |
Algoritmo rastreador web especialista nuclear / Nuclear expert web crawler algorithmReis, Thiago 12 November 2013 (has links)
Nos últimos anos a Web obteve um crescimento exponencial, se tornando o maior repositório de informações já criado pelo homem e representando uma fonte nova e relevante de informações potencialmente úteis para diversas áreas, inclusive a área nuclear. Entretanto, devido as suas características e, principalmente, devido ao seu grande volume de dados, emerge um problema desafiador relacionado à utilização das suas informações: a busca e recuperação informações relevantes e úteis. Este problema é tratado por algoritmos de busca e recuperação de informação que trabalham na Web, denominados rastreadores web. Neste trabalho é apresentada a pesquisa e desenvolvimento de um algoritmo rastreador que efetua buscas e recupera páginas na Web com conteúdo textual relacionado ao domínio nuclear e seus temas, de forma autônoma e massiva. Este algoritmo foi projetado sob o modelo de um sistema especialista, possuindo, desta forma, uma base de conhecimento que contem tópicos nucleares e palavras-chave que os definem e um mecanismo de inferência constituído por uma rede neural artificial perceptron multicamadas que efetua a estimação da relevância das páginas na Web para um determinado tópico nuclear, no decorrer do processo de busca, utilizando a base de conhecimento. Deste modo, o algoritmo é capaz de, autonomamente, buscar páginas na Web seguindo os hiperlinks que as interconectam e recuperar aquelas que são mais relevantes para o tópico nuclear selecionado, emulando a habilidade que um especialista nuclear tem de navegar na Web e verificar informações nucleares. Resultados experimentais preliminares apresentam uma precisão de recuperação de 80% para o tópico área nuclear em geral e 72% para o tópico de energia nuclear, indicando que o algoritmo proposto é efetivo e eficiente na busca e recuperação de informações relevantes para o domínio nuclear. / Over the last years the Web has obtained an exponential growth, becoming the largest information repository ever created and representing a new and valuable source of potentially useful information for several topics and also for nuclear-related themes. However, due to the Web characteristics and, mainly, because of its huge data volume, finding and retrieving relevant and useful information are non-trivial tasks. This challenge is addressed by web search and retrieval algorithms called web crawlers. This work presents the research and development of a crawler algorithm able to search and retrieve webpages with nuclear-related textual content, in autonomous and massive fashion. This algorithm was designed under the expert systems model, having, this way, a knowledge base that contains a list of nuclear topics and keywords that define them and an inference engine composed of a multi-layer perceptron artificial neural network that performs webpages relevance estimates to some knowledge base nuclear topic while searching the Web. Thus, the algorithm is able to autonomously search the Web by following the hyperlinks that interconnect the webpages and retrieving those that are more relevant to some predefined nuclear topic, emulating the ability a nuclear expert has to browse the Web and evaluate nuclear information. Preliminary experimental results show a retrieval precision of 80% for the nuclear general domain topic and 72% for the nuclear power topic, indicating that the proposed algorithm is effective and efficient to search the Web and to retrieve nuclear-related information.
|
4 |
Algoritmo rastreador web especialista nuclear / Nuclear expert web crawler algorithmThiago Reis 12 November 2013 (has links)
Nos últimos anos a Web obteve um crescimento exponencial, se tornando o maior repositório de informações já criado pelo homem e representando uma fonte nova e relevante de informações potencialmente úteis para diversas áreas, inclusive a área nuclear. Entretanto, devido as suas características e, principalmente, devido ao seu grande volume de dados, emerge um problema desafiador relacionado à utilização das suas informações: a busca e recuperação informações relevantes e úteis. Este problema é tratado por algoritmos de busca e recuperação de informação que trabalham na Web, denominados rastreadores web. Neste trabalho é apresentada a pesquisa e desenvolvimento de um algoritmo rastreador que efetua buscas e recupera páginas na Web com conteúdo textual relacionado ao domínio nuclear e seus temas, de forma autônoma e massiva. Este algoritmo foi projetado sob o modelo de um sistema especialista, possuindo, desta forma, uma base de conhecimento que contem tópicos nucleares e palavras-chave que os definem e um mecanismo de inferência constituído por uma rede neural artificial perceptron multicamadas que efetua a estimação da relevância das páginas na Web para um determinado tópico nuclear, no decorrer do processo de busca, utilizando a base de conhecimento. Deste modo, o algoritmo é capaz de, autonomamente, buscar páginas na Web seguindo os hiperlinks que as interconectam e recuperar aquelas que são mais relevantes para o tópico nuclear selecionado, emulando a habilidade que um especialista nuclear tem de navegar na Web e verificar informações nucleares. Resultados experimentais preliminares apresentam uma precisão de recuperação de 80% para o tópico área nuclear em geral e 72% para o tópico de energia nuclear, indicando que o algoritmo proposto é efetivo e eficiente na busca e recuperação de informações relevantes para o domínio nuclear. / Over the last years the Web has obtained an exponential growth, becoming the largest information repository ever created and representing a new and valuable source of potentially useful information for several topics and also for nuclear-related themes. However, due to the Web characteristics and, mainly, because of its huge data volume, finding and retrieving relevant and useful information are non-trivial tasks. This challenge is addressed by web search and retrieval algorithms called web crawlers. This work presents the research and development of a crawler algorithm able to search and retrieve webpages with nuclear-related textual content, in autonomous and massive fashion. This algorithm was designed under the expert systems model, having, this way, a knowledge base that contains a list of nuclear topics and keywords that define them and an inference engine composed of a multi-layer perceptron artificial neural network that performs webpages relevance estimates to some knowledge base nuclear topic while searching the Web. Thus, the algorithm is able to autonomously search the Web by following the hyperlinks that interconnect the webpages and retrieving those that are more relevant to some predefined nuclear topic, emulating the ability a nuclear expert has to browse the Web and evaluate nuclear information. Preliminary experimental results show a retrieval precision of 80% for the nuclear general domain topic and 72% for the nuclear power topic, indicating that the proposed algorithm is effective and efficient to search the Web and to retrieve nuclear-related information.
|
5 |
Visualização em nuvens de texto como apoio à busca exploratória na web / Supporting web search with visualization in text cloudsMarcia Severo Lunardi 27 March 2008 (has links)
A presente dissertação é o resultado de uma pesquisa que avalia as vantagens da utilização de nuvens de texto para apresentar os resultados de um sistema de busca na web. Uma nuvem de texto é uma técnica de visualização de informações textuais e tem como principal objetivo proporcionar um resumo de um ou mais conteúdos em
uma única tela. Em uma consulta na web, os resultados aparecem listados em diversas páginas. Através de uma nuvem de texto integrada a um sistema de busca é possível
a visualização de uma síntese, de um resumo automático, do conteúdo dos resultados listados em várias páginas sem que elas tenham que ser percorridas e os sites acessados
individualmente. A nuvem de texto nesse contexto funciona como uma ferramenta auxiliar para que o usuário possa gerenciar a grande carga de informação que é disponibilizada
nos resultados das consultas. Dessa forma os resultados podem ser vistos em contexto e, ainda, as palavras que compõem a nuvem, podem ser utilizadas como palavras-chave adicionais para complementar uma consulta inicial. Essa pesquisa foi desenvolvida em duas fases. A primeira consistiu no desenvolvimento de uma aplicação integrada a um sistema de buscas para mostrar seus resultados em nuvens de texto. A
segunda fase foi a avaliação dessa aplicação, focada principalmente em buscas exploratórias, que são aquelas em que os objetivos dos usuários não são bem definidos ou o
conhecimento sobre o assunto pesquisado é vago. / This dissertation presents the results of a research that evaluates the advantages of text clouds to the visualization of web search results. A text cloud is a visualization
technique for texts and textual data in general. Its main purpose is to enhance comprehension of a large body of text by summarizing it automatically and is generally applied for managing information overload. While continual improvements in search technology have made it possible to quickly find relevant information on the web, few search engines do anything to organize or to summarize the contents of such responses beyond ranking the items in a list. In exploratory searches, users may be forced to scroll through many pages to identify the information they seek and are generally not provided with any way to visualize the totality of the results returned. This research is divided in two parts. Part one describes the development of an application that generates text clouds for the summarization of search results from the standard result list provided by the Yahoo search engine. The second part describes the evaluation of this application.
Adapted to this specific context, a text cloud is generated from the text of the first sites returned by the search engine according to its relevance algorithms. The benefit of this
application is that it enables users to obtain a visual overview of the main results at once. From this overview the users can obtain keywords to navigate to potential relevant subjects that otherwise would be hidden deep down in the response list. Also, users can realize by visualizing the results in context that his initial query term was not the best choice.
|
6 |
Visualização em nuvens de texto como apoio à busca exploratória na web / Supporting web search with visualization in text cloudsMarcia Severo Lunardi 27 March 2008 (has links)
A presente dissertação é o resultado de uma pesquisa que avalia as vantagens da utilização de nuvens de texto para apresentar os resultados de um sistema de busca na web. Uma nuvem de texto é uma técnica de visualização de informações textuais e tem como principal objetivo proporcionar um resumo de um ou mais conteúdos em
uma única tela. Em uma consulta na web, os resultados aparecem listados em diversas páginas. Através de uma nuvem de texto integrada a um sistema de busca é possível
a visualização de uma síntese, de um resumo automático, do conteúdo dos resultados listados em várias páginas sem que elas tenham que ser percorridas e os sites acessados
individualmente. A nuvem de texto nesse contexto funciona como uma ferramenta auxiliar para que o usuário possa gerenciar a grande carga de informação que é disponibilizada
nos resultados das consultas. Dessa forma os resultados podem ser vistos em contexto e, ainda, as palavras que compõem a nuvem, podem ser utilizadas como palavras-chave adicionais para complementar uma consulta inicial. Essa pesquisa foi desenvolvida em duas fases. A primeira consistiu no desenvolvimento de uma aplicação integrada a um sistema de buscas para mostrar seus resultados em nuvens de texto. A
segunda fase foi a avaliação dessa aplicação, focada principalmente em buscas exploratórias, que são aquelas em que os objetivos dos usuários não são bem definidos ou o
conhecimento sobre o assunto pesquisado é vago. / This dissertation presents the results of a research that evaluates the advantages of text clouds to the visualization of web search results. A text cloud is a visualization
technique for texts and textual data in general. Its main purpose is to enhance comprehension of a large body of text by summarizing it automatically and is generally applied for managing information overload. While continual improvements in search technology have made it possible to quickly find relevant information on the web, few search engines do anything to organize or to summarize the contents of such responses beyond ranking the items in a list. In exploratory searches, users may be forced to scroll through many pages to identify the information they seek and are generally not provided with any way to visualize the totality of the results returned. This research is divided in two parts. Part one describes the development of an application that generates text clouds for the summarization of search results from the standard result list provided by the Yahoo search engine. The second part describes the evaluation of this application.
Adapted to this specific context, a text cloud is generated from the text of the first sites returned by the search engine according to its relevance algorithms. The benefit of this
application is that it enables users to obtain a visual overview of the main results at once. From this overview the users can obtain keywords to navigate to potential relevant subjects that otherwise would be hidden deep down in the response list. Also, users can realize by visualizing the results in context that his initial query term was not the best choice.
|
Page generated in 0.0578 seconds