Spelling suggestions: "subject:"recuperação dde informação"" "subject:"recuperação dde enformação""
21 |
Modelo ontologico relacional fuzzy em sistemas de recuperação de informação textualPereira, Rachel Carlos 11 September 2004 (has links)
Orientador : Fernando Antonio Campos Gomide, Ivan Luiz Marques Ricarte / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-03T23:34:55Z (GMT). No. of bitstreams: 1
Pereira_RachelCarlos_M.pdf: 557140 bytes, checksum: e39dcce5f472e0a302b8a1e8b9802b8b (MD5)
Previous issue date: 2004 / Mestrado / Engenharia de Computação / Mestre em Engenharia Elétrica
|
22 |
Content blaster : the online show generatorPereira, Paulo Eduardo Gonçalves de Freitas January 2009 (has links)
Tese de mestrado integrado. Engenharia Informática e Computação. Faculdade de Engenharia. Universidade do Porto. 2009
|
23 |
Documentação para manutenção de softwareOuchi, Miheko Lourdes January 1984 (has links)
Dissertação (mestrado)-Universidade de São Paulo, Faculdade de Economia e Administração / Made available in DSpace on 2012-10-15T22:46:53Z (GMT). No. of bitstreams: 0
|
24 |
Uma Metodologia para a utilização do processamento de Linguagem Natural na busca de informações em documentos digitaisPEREIRA, F. S. C. 07 August 2009 (has links)
Made available in DSpace on 2016-08-29T15:33:09Z (GMT). No. of bitstreams: 1
tese_2812_dissertacao-Francisco-S-C-Pereira.pdf: 1072749 bytes, checksum: 5e076c57072ddbad9607618680cbfbfe (MD5)
Previous issue date: 2009-08-07 / Esta dissertação propõe uma metodologia para busca em textos digitais baseada na Estrutura Nominal do Discurso, originada da proposta de resolução de anáforas apresentada por Freitas[Freitas 2005]. O processo para resolução de anáforas permite a identificação da estrutura de formação do texto, criada pelo autor. A área de Recuperação de Informação (RI) propõe vários modelos para a representação e busca em documentos digitais, apesar de diferentes
em aspectos como a representação do texto ou metodologia para a realização de pesquisas todos têm como objetivo atender a necessidade de informação dos usuários de seus sistemas
de buscas. Os Modelos clássicos utilizados para Recuperação de Informação, como o modelo vetorial[Salton, Wong e Yang 1975] ou o LSI (Latent Semantic Indexing)[Deerwester et al. 1990],
consideram como elemento básico para a representação de um documento os termos que o compõem.
Nesses modelos uma query composta por um conjunto de termos T é comparada com os documentos indexados em busca de documentos que apresentem esses termos. Os documentos considerados como relevantes são então retornados como resultado a query.
Entretanto textos escritos em linguagem natural nem sempre possuem referências explícitas as suas entidades principais. Anáforas são um recurso freqüente em textos dessa natureza e seu uso diminui o poder de representação dos modelos clássicos, uma vez que entidades citadas no texto podem ser referenciadas por diferentes termos ou até serem omitidas.
Um modelo estrutural [Baeza-Yates e Ribeiro-Neto 1998] alternativo, que leva em consideração a utilização de anáforas na construção da representação computacional dos documentos, é o modelo apresentado por Seibel Júnior[Seibel Júnior e Freitas 2007]. Em [Seibel Júnior 2007]
o documento é representado pela Estrutura Nominal do Discurso para Buscas (ENDB) ou Estrutura para Buscas, criada a partir da Estrutura Nominal do Discurso (END) proposta por Freitas [Freitas 2005, Freitas e Lopes 1995, Freitas e Lopes 1994, Freitas e Lopes 1993, Freitas 1992]
com o objetivo de resolver anáforas. Uma vez que um documento tenha sua END construída, a metodologia proposta por Seibel Júnior [Seibel Júnior 2007] estabelece os mecanismos para transformá-la em uma estrutura voltada para a Recuperação de Informação e estabelece a metodologia para a realização de consultas à estrutura.
A construção da representação dos textos baseia-se na identificação dos focos, elementos centrais das frases do texto. Nenhuma informação, além dos focos, é levada em consideração
para a construção da Estrutura para Buscas, mas a END pode fornecer outras informações. A Estrutura Nominal armazena todas as entidades apresentadas no texto. Pereira et al apresentam em [Pereira, Seibel Júnior e Freitas 2009] uma nova metodologia para a RI baseada na resolução de anáforas de acordo com a proposta de Freitas[Freitas 2005].
Nesse trabalho, a construção da Estrutura para Buscas é realizada transpondo todas as entidades identificadas durante o processo de resolução anafórica, o que possibilita uma melhora na forma de representação do texto dos documentos e na qualidade dos resultados obtidos pelas pesquisas. Este trabalho detalha a proposta apresentada por Pereira et al, apresentando os algoritmos envolvidos na sua definição e experimentações sobre a nova metodologia de buscas.
|
25 |
Uma proposta para combinar classificadores e colaboração de usuários na resolução do problema de ambiguidade de nomes de autores.Souza, Emília Alves de January 2014 (has links)
Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto. / Submitted by Oliveira Flávia (flavia@sisbin.ufop.br) on 2015-01-05T16:07:21Z
No. of bitstreams: 2
license_rdf: 22190 bytes, checksum: 19e8a2b57ef43c09f4d7071d2153c97d (MD5)
DISSERTAÇÃO_PropostaCombinarClassificadores.pdf: 1772529 bytes, checksum: 9b5cf663666dfc70a93b2a93bda1f609 (MD5) / Approved for entry into archive by Gracilene Carvalho (gracilene@sisbin.ufop.br) on 2015-01-16T15:40:29Z (GMT) No. of bitstreams: 2
license_rdf: 22190 bytes, checksum: 19e8a2b57ef43c09f4d7071d2153c97d (MD5)
DISSERTAÇÃO_PropostaCombinarClassificadores.pdf: 1772529 bytes, checksum: 9b5cf663666dfc70a93b2a93bda1f609 (MD5) / Made available in DSpace on 2015-01-16T15:40:29Z (GMT). No. of bitstreams: 2
license_rdf: 22190 bytes, checksum: 19e8a2b57ef43c09f4d7071d2153c97d (MD5)
DISSERTAÇÃO_PropostaCombinarClassificadores.pdf: 1772529 bytes, checksum: 9b5cf663666dfc70a93b2a93bda1f609 (MD5)
Previous issue date: 2014 / O problema de ambiguidade de nomes em citações bibliográficas tem sido amplamente estudado principalmente pela comunidade científica de bibliotecas digitais envolvendo nomes de autores. Normalmente, os métodos propostos na literatura seguem abordagens supervisionadas ou não supervisionadas. Os métodos supervisionados são normalmente os mais efetivos, mas geralmente requerem que uma grande quantidade de exemplos sejam manualmente rotulados e, além disso, também não são capazes de resolver a ambiguidade para todos os nomes devido a inerente dificuldade do problema. Recentemente, com o objetivo de melhorar o resultado do processo de desambiguação, alguns trabalhos têm utilizado a colaboração de usuários na desambiguação manual de alguns registros. Neste trabalho é proposto um método para combinar resultados de técnicas supervisionadas de aprendizado de máquina com a colaboração de usuários para resolver tal problema. Inicialmente, o método explora os atributos dos registros de citações para agrupar registros que pertençam a um único autor. A partir desses grupos, classificadores são combinados para gerar uma função de similaridade que, juntamente com a colaboração do usuário, contribuem para agrupar grupos separados de registros de citações que pertencem a um mesmo autor real. Apesar de usar técnicas supervisionadas, o único esforço exercido por parte do usuário é fornecer a sua colaboração desambiguando alguns nomes de autores. O método foi comparado com outros métodos representativos e o ganho em relação a eles atinge cerca de 20% nos resultados de desambiguação. ______________________________________________________________________________________________ / ABSTRACT: The author name ambiguity problem in bibliographic citations has been widely studied by the scientific community, mostly, about author name ambiguity problem by the digital library research community. Usually, the methods proposed in the literature follow supervised or unsupervised approaches. The supervised methods are usually the most effective ones, but they generally require that a large amount of manually labeled examples and furthermore, they are not capable of solving the author name ambiguity for all names due to its inherent difficulty. Recently, aiming to improve the disambiguation performance, user feedback have been used in some works. This work proposes a method to combine results of supervised machine learning techniques along with users feedback to solve such a problem. Initially, the method exploits attributes present in citations to group ones with similar author names. From these groups, three classifiers are combined to produce a similarity function of pairs of records between two groups to, along with users feedback, group ones that belong to the same author. Although, it uses supervised techniques, the only effort applied by the user is to provide feedback for disambiguating author names. We compare our method with other representative ones and our gains reaches up to 20% in the disambiguation performance.
|
26 |
Um Framework de alinhamento ontológico entre a TI e o negócio de uma organizaçãoFerreira, Rafael Gostinski 31 October 2007 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2007. / Submitted by Natália Cristina Ramos dos Santos (nataliaguilera3@hotmail.com) on 2009-10-15T17:26:27Z
No. of bitstreams: 1
Dissert_RafaelGustinskiFerreira.pdf: 3279828 bytes, checksum: eeec9bb49aac28010fa682ef2651be92 (MD5) / Approved for entry into archive by Luanna Maia(luanna@bce.unb.br) on 2011-01-26T13:23:57Z (GMT) No. of bitstreams: 1
Dissert_RafaelGustinskiFerreira.pdf: 3279828 bytes, checksum: eeec9bb49aac28010fa682ef2651be92 (MD5) / Made available in DSpace on 2011-01-26T13:23:57Z (GMT). No. of bitstreams: 1
Dissert_RafaelGustinskiFerreira.pdf: 3279828 bytes, checksum: eeec9bb49aac28010fa682ef2651be92 (MD5)
Previous issue date: 2007-10-31 / As disciplinas de desenvolvimento de sistemas e Tecnologia da Informação colhem benefícios quando passam a adotar as técnicas de gestão por processos. Criam visibilidade, implantam conceitos de serviço e seu gerenciamento, além de criar enorme integração entre as diversas áreas usuárias, as áreas de negócio e o próprio time de tecnologia. No entanto, diante da infinidade de conceitos envolvidos entre o demandante de um serviço, seja ele um cliente externo ou um próprio usuário da organização, e o aparato tecnológico designado para atender essa demanda, torna-se imprescindível a existência de um vocabulário compartilhado; o qual esteja baseado nas melhores práticas de gestão de TI preconizadas pelo modelo Information Technology Infrastructure Library - ITIL. Nossa proposta considera que a premissa de gestão por processos, unida à maior compreensão do modelo ITIL pode, por meio da construção de um portfólio ontológico dos conceitos envolvidos em todas as disciplinas do modelo, possibilitar uma linguagem comum às camadas de negócio e tecnologia; incluindo clientes, usuários e representantes do negócio no que se refere aos serviços providos pela organização. O objetivo é desenvolver, a partir da modelagem de processos organizacionais e da utilização de algoritmos de alinhamentos de ontologias, um framework ontológico integrado à arquitetura orientada a serviço que permita o alinhamento dos conceitos empregados pela área negocial e tecnológica de qualquer instituição. ________________________________________________________________________________ ABSTRACT / System Development and Information Technology disciplines present benefits
when adopting management techniques based on processes. They allow visibility, implant concepts of service and its management and besides create enormous integration among other areas such as business and the technology team. However the great amount of concepts between the organizational service and the technological apparatus, assigned to take care of this demand, urge the existence of a shared vocabulary; which can be based on the best management practices of IT expressed at the Information Technology Infrastructure Library - ITIL. Our proposal considers as premisses that the managment based on process, together with a better understanding of ITIL model can, through the construction of an ontological framework relate the concepts used in different models bring benefit to the organization when integrated to the Service Oriented Archictecture - SOA. This integrated ontological framework use a common language to business and technology layers relating customers, users and representatives of business together to provide best organizational services.
|
27 |
Óbito por dengue grave no Brasil, 2000 a 2005 : concordância da notificação em dois sistemas de informação e estudo caso-controle de fatores associadosMoraes, Giselle Hentzy January 2009 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Ciências da Saúde, 2009. / Submitted by Raquel Viana (tempestade_b@hotmail.com) on 2010-03-25T20:09:14Z
No. of bitstreams: 1
2009GiselleHentzyMoraes.pdf: 1133770 bytes, checksum: 97880cceb2042c8cd46d1d025338ded0 (MD5) / Approved for entry into archive by Lucila Saraiva(lucilasaraiva1@gmail.com) on 2010-05-19T06:29:05Z (GMT) No. of bitstreams: 1
2009GiselleHentzyMoraes.pdf: 1133770 bytes, checksum: 97880cceb2042c8cd46d1d025338ded0 (MD5) / Made available in DSpace on 2010-05-19T06:29:08Z (GMT). No. of bitstreams: 1
2009GiselleHentzyMoraes.pdf: 1133770 bytes, checksum: 97880cceb2042c8cd46d1d025338ded0 (MD5)
Previous issue date: 2009 / Introdução: O aumento das formas graves e óbitos por dengue observado no Brasil nos últimos anos demandam maior entendimento sobre a real magnitude da mortalidade por dengue e seus determinantes. Métodos: A partir dos dados de dengue do SINAN e SIM no período de janeiro de 2000 a dezembro de 2005 foi realizado um estudo epidemiológico observacional, seccional e descritivo para analisar a concordância entre os óbitos por dengue notificados nestes dois sistemas de informação. Estudo caso-controle foi também conduzido para investigar fatores associados ao óbito por dengue grave utilizando três diferentes definições de caso (óbitos notificados ao SINAN, óbitos com confirmação laboratorial no SINAN e óbitos notificados no SINAN e SIM). O estudo utilizou abordagem hierárquica entre grupos de variáveis (demográficas, sócio-econômicas, de contexto epidemiológico, acesso a ações e serviços de saúde e clínico-laboratoriais) com regressão logística multivariada para investigar o efeito independente das variáveis de análise. Resultados: A concordância bruta e ajustada por chance (Índice Kappa), no período de análise, foi de 99,9% e 19,6%, respectivamente. Maiores concordâncias bruta e ajustada por chance (Índice Kappa) foram identificadas em 2002, ano com maior número de casos (99,9% e 28,2%, respectivamente). A proporção de óbitos concordantes variou de 0 a 33% entre as Unidades Federadas brasileiras, sendo que a região centro-oeste apresentou maior mediana. A população alvo do estudo caso-controle foi composta por 12.321 casos de dengue grave (1.062 casos e 11.259 controles). Algumas das variáveis associadas com o óbito por dengue grave foram: sexo feminino [OR (IC95%): 0,76(0,67-0,87)], idade maior de 50 anos [OR (IC95%): 2,29(1,59-3,29)], residentes em áreas rurais [OR (IC95%): 2,84(2,19-3,69)], hospitalizados [OR (IC95%): 1,42(1,17-1,73)], contagem de plaquetas de 50.001 a 100.000 células por mm3 [OR (IC95%): 0,56 (0,36-0,87)] e hematócrito elevado [OR (IC95%): 2,46(1,85-3,28)]. Essas associações se mantiveram também quando as outras definições de caso foram utilizadas na análise de regressão logística. Porém, para algumas variáveis (ex: prova do laço positiva, sangramentos leves e escolaridade menor de quatro anos) foi observada perda da associação quando definições de caso mais específicas foram utilizadas, sugerindo a possibilidade de viés de seleção. Conclusões: Foi identificada baixa concordância de óbitos por dengue entre o SINAN e o SIM, e associação entre óbito por dengue grave e características demográficas, sócio-econômicas, epidemiológicas, marcadoras de acesso e organização de serviços de saúde e sinais de gravidade. Estes resultados reforçam a necessidade de aperfeiçoamento dos sistemas de informação em saúde, das estratégias de vigilância epidemiológica da dengue e da organização de serviços de saúde quanto ao acesso e a qualidade da assistência prestada aos pacientes e podem apoiar intervenções que visem a prevenção do óbito por dengue no Brasil. ______________________________________________________________________________________ ABSTRACT / Introduction: The increase of the severe forms and deaths by dengue observed in Brazil over the last years demands a greater understanding about the real magnitude of mortality by dengue and its determinants. Methods: Based on the dengue data of the SINAN and SIM from January 2000 to December 2005 an observational, cross-sectional and descriptive, epidemiological study was carried out to analyze the agreement between the deaths by dengue notified in these two information systems. A case-control study was also performed to investigate factors associated with death by severe dengue using three different case definitions (deaths notified in the SINAN, deaths with laboratorial confirmation in the SINAN and notified deaths in the SINAN and SIM). The study used a hierarchy approach among the groups of variables (demographic, socioeconomic, of an epidemiological context, access to actions and health services and clinical-laboratorial) with multivariate logistic regression to investigate the independent effect of the variables of analysis. Results: The rough and adjusted agreement by chance (Kappa Index), in the period of analysis, was of 99,9% and 19,6%, respectively. Higher rough and adjusted agreements by chance (Kappa Index) were identified in 2002, year with the largest number of cases (99,9% and 28,2%, respectively). The concordant death ratio ranged from 0 to 33% among the Brazilian Federative Units, being that the center-west region presented the highest median. The target population of the case-control study was formed by 12.321 cases of severe dengue (1.062 cases and 11.259 controls). Some of the variables associated with death by severe dengue were female [OR (IC95%): 0,76(0,67-0,87)], age above 50 years [OR (IC95%): 2,29(1,59- 3,29)], live in rural areas [OR (IC95%): 2,84(2,19-3,69)], hospitalized [OR (IC95%): 1,42(1,17-1,73)], platelet counting from 50.001 to 100.000 cells per mm3 [OR (IC95%): 0,56 (0,36-0,87)] and high hematocrit [OR (IC95%): 2,46(1,85-3,28)]. These associations were also maintained when the other case definitions were used in the logistic regression analysis. However, for some variables (for example: positive tourniquet test, little bleeding and schooling of less than four years) a loss of association was observed when more specific case definitions were used, suggesting a possibility of selection bias. Conclusions: A low agreement of deaths by dengue between SINAN and SIM and association between death by severe dengue and demographic, socioeconomic, epidemiological, access markers, organization of health services and signs of severity characteristics were identified. These results reinforce the need for improvement in the health information systems, of the strategies of the dengue epidemiological surveillance and of the organization of health services in the access and quality of the assistance given to the patients and can support interventions that aim at preventing the death by dengue in Brazil.
|
28 |
Recuperação inteligente de jurisprudência : uma avaliação do raciocínio baseado em casos aplicado a recuperação de jurisprudências no Tribunal Regional Eleitoral do Distrito FederalOliveira, Symball Rufino de January 2008 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Economia, Administração, Contabilidade e Ciência da Informação e Documentação, Departamento de Ciência da Informação e Documentação, 2008. / Submitted by Elna Araújo (elna@bce.unb.br) on 2010-04-23T19:02:20Z
No. of bitstreams: 1
2009_SymballRufinodeOliveira.pdf: 1370398 bytes, checksum: df12bf1091f2d99a679aec63918a0efc (MD5) / Approved for entry into archive by Daniel Ribeiro(daniel@bce.unb.br) on 2010-05-13T22:24:57Z (GMT) No. of bitstreams: 1
2009_SymballRufinodeOliveira.pdf: 1370398 bytes, checksum: df12bf1091f2d99a679aec63918a0efc (MD5) / Made available in DSpace on 2010-05-13T22:24:57Z (GMT). No. of bitstreams: 1
2009_SymballRufinodeOliveira.pdf: 1370398 bytes, checksum: df12bf1091f2d99a679aec63918a0efc (MD5)
Previous issue date: 2008 / Trata-se de uma pesquisa cujo objeto é avaliar a medida de precisão de um sistema de recuperação de informação jurídica (jurisprudência) que utiliza técnica de inteligência artificial conhecida como Raciocínio Baseado em Casos (RBC). Nesse modelo as jurisprudências são organizadas sob a forma de casos jurídicos concretos. O raciocínio baseado em casos tem como princípio a idéias de que um caso jurídico passado pode ser útil para resolver um problema atual, desde que exista entre eles algum grau de semelhança. Para estabelecer semelhanças entre casos atuais e passados o modelo estudado propõe o uso de cálculo de similaridade que é realizado com base na comparação de índices temáticos obtidos a partir do processo de indexação realizado por especialistas utilizando-se como apoio um tesauro jurídico. Esta pesquisa utiliza como universo as jurisprudências produzidas pelo Tribunal Regional Eleitoral do Distrito Federal. A amostra foi composta, considerando o recorte dado à pesquisa, por jurisprudências eleitorais produzidas nas eleições gerais de 2006 no Distrito Federal. Para realizar a avaliação do modelo, foi construído um protótipo do sistema de recuperação de informação baseado em casos. Em seguida, avaliou-se o protótipo quanto ao grau de precisão obtido no resultado de um conjunto de buscas. O método adotado para as avaliações foi o mesmo utilizado na Text REtrieval Conference (TREC) de 2007, tarefa Legal Track. Após a coleta dos dados foi elaborado um relatório discutindo a possibilidade do sistema de recuperação de informação baseado em casos ser considerado um paradigma para a recuperação de informação jurídica eleitoral. _________________________________________________________________________________ ABSTRACT / This is a research whose object is to evaluate a legal information retrieval system precision. This IR system is based on a model that uses artificial intelligence technique known as Case- Based Reasoning (CBR). In this model the jurisprudences are organized in the form of actual legal cases. The principle of CBR is that a past legal case can be useful to solve a current problem, since there is between them some degree of similarity. To establish similarities between current and past cases the model studied proposes the use of the similarity calculation performed based on comparison of thematic indices. The process of indexing is performed by experts using a thesaurus as a legal support. This research uses jurisprudences produced by the Regional Electoral Tribunal of the Distrito Federal. The sample was composed considering electoral jurisprudence produced in general elections of Distrito Federal, in the year of 2006. To perform the evaluation of the model, a prototype of a casebased information retrieval system was built. Then the prototype precision degree was evaluated from the result of a set of queries submitted to it. The method adopted for the evaluation was the same used in the Text REtrieval Conference (TREC) in 2007 by Legal Track Task. After the data collecting, a report was made to discuss the possibility of the casebased information retrieval system can be considered a paradigm for the legal information retrieval.
|
29 |
SAAL - um sistema para Armazenammento e Análise de Links da WebCoelho, Roberta de Souza January 2003 (has links)
Made available in DSpace on 2014-06-12T15:59:07Z (GMT). No. of bitstreams: 2
arquivo4842_1.pdf: 796872 bytes, checksum: f32f019baff437f9e947861f8bfdf618 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2003 / O aumento do número de documentos disponíveis na World Wide Web (WWW)
traz uma série de novos desafios para a área de Recuperação de Informação (RI). As
páginas Web divergem em conteúdo e qualidade além de possuírem uma alta dinâmica.
Em adição a estes desafios os engenho de busca estão constantemente lidando com
usuários inexperientes e com páginas Web construídas com o intuito de manipular as
funções de ranking dos engenhos de busca.
Estudos recentes têm mostrado que a performance dos engenhos de busca está
longe da ideal. Apesar das evoluções tecnológicas, conseguidas até o momento,
permitirem a coleta e o armazenamento de um número cada vez maior de páginas nas
bases de índices dos engenhos de busca, a maioria destes sistemas enfrenta vários
problemas no momento de classificar as páginas de acordo com a necessidade do
usuário, em outras palavras, retornar para o usuário a informação que ele necessita.
A maioria dos engenhos de busca analisa as páginas Web como um documento
texto simples, não levando em consideração a estrutura na qual a página Web está
inserida. Diferentemente das coleções de documentos flat , a WWW corresponde a
uma coleção de documentos hipertexto que possuem informações auxiliares que vão
além do conteúdo textual, tais como a estrutura dos hiperlinks e o texto dos hiperlinks.
Estas informações são chamadas de informações hiper , que em conjunto com as
informações texto compõem o conjunto de informações que caracteriza uma página
Web.
A inadequação de estratégias singulares no processo de recuperação de
informações no ambiente Web constitui-se em um forte argumento para mostrar que as
técnicas recuperação de informação tradicionais não são suficientes no momento de
encontrar informações relevantes na Web.
Este trabalho propõe a utilização da estrutura de links da Web com o objetivo de
produzir um peso de importância global para cada página Web indexada por um
engenho de busca. Este peso, chamado peso de autoridade , é integrado aos engenhos
de busca, mais especificamente a função de ranking dos engenhos de busca que passa a
utilizar estes pesos juntamente com pesos de similaridade textual, com o objetivo de
melhorar a eficácia de recuperação do sistemaPara calcular o peso de autoridade para cada página Web foi elaborado um
algoritmo de análise de links, o Global Hybrid Hyperlinked Inducted Topic Search
(GHHITS) que foi concebido a partir do estudo dos algoritmos de análise de links préexistentes.
Para validar o algoritmo em questão foi implementado o SAAL - Sistema para
Armazenamento e Análise de Links - que propõe uma maneira eficiente de armazenar a
estrutura de links da Web, e executar o algoritmo proposto sobre esta estrutura.
Por fim, são apresentados os resultados obtidos durante os testes que avaliaram a
eficácia de recuperação de estratégias de busca que utilizaram o peso de autoridade como
componente da função de ranking.
Neste trabalho é mostrado, portanto, como as informações estruturais podem ser
utilizadas de forma a melhorar a qualidade da resposta retornada por um engenho de
busca
|
30 |
RetriBlog: um framework centrado na arquitetura para criação de blog crawlersFerreira Leite de Mello, Rafael 31 January 2011 (has links)
Made available in DSpace on 2014-06-12T16:01:25Z (GMT). No. of bitstreams: 2
arquivo8978_1.pdf: 3995285 bytes, checksum: 490145b3e695854355d762413cd768c2 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2011 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Com o grande crescimento da Web, foram criados inúmeros mecanismos para interação
entre os usuários. Tal fenômeno ficou conhecido como Web 2.0, onde o conhecimento
é gerado através da interação dos usuários, fazendo uso da inteligência coletiva. Sob
uma perspectiva da Web 2.0, diversas ferramentas colaborativas se tornaram populares,
dentre elas podemos destacar: os blogs. Atualmente, há mais de 133 milhões de blogs
e a cada dia são criados centenas deles. Além disto, a atividade nos blogs dobra a cada
duzentos dias, sendo este fenômeno social conhecido como Blogosfera. A partir do
conhecimento gerado na Blogosfera, as potencialidades de aplicações e decisões que
podem ser tomadas através destas informações tornam-se inúmeras. Entretanto, torna-se
impraticável utilizar as informações disponíveis na Blogosfera de forma manual. Com
isso, mostra-se fundamental utilizar abordagens computacionais para auxiliar nessa tarefa.
Uma primeira tarefa a ser realizada é encontrar blogs relevantes em meio a essa
grande quantidade de blogs. Para lidar com esse problema a área de recuperação de
informação(RI) se destaca em relação às demais, pois a mesma se preocupa em identificar
textos relevantes para uma determinada busca dentro de uma grande coleção de textos. É
importante destacar que para facilitar o acesso aos documentos, existe necessidade de
indexar e armazenar os textos dos blogs. Tal mecanismo é realizado por uma entidade de
software conhecido como web crawlers. Especificamente no contexto de blogs, os web
crawlers são chamados de blog crawlers.
Diante desse cenário, este trabalho propõe um framework centrado na arquitetura
para construção de blog crawlers. Por um lado, utilizar um framework centrado na
arquitetura provê principalmente os seguintes aspectos: i) criação de uma aplicação
genérica e facilmente configurável; ii) alto grau de reuso dos componentes; iii) facilidade
na evolução. O blog crawler criado possui as seguintes características: i) extrai o conteúdo
principal do blog, eliminando propagandas e menus. Isto é feito utilizando algoritmos de
extração de conteúdo disponibilizados no sistema; ii) o sistema dispõe de algoritmos de
pré-processamento para melhorar a precisão e cobertura; iii) serviços auxiliares também
são disponibilizados, como por exemplo serviço para recomendação de tag.
Para validar a proposta foram criados três estudos de caso. Além disto, os principais
algoritmos disponibilizados foram testados e avaliados. Por fim, é apresentado uma
análise qualitativa, mostrando as vantagens de se usar a engenharia de software, e
quantitativa, para validar o uso de inteligência artificial. Os resultados obtidos mostram a
eficiência dos principais algoritmos propostos
|
Page generated in 0.0836 seconds