Global ETD Search

1	Processamento de consultas documento-a-documento utilizando índice em camadas Rossi, Cristian 27 March 2013 (has links) Submitted by Geyciane Santos (geyciane_thamires@hotmail.com) on 2015-06-17T14:33:52Z No. of bitstreams: 1 Dissertação - Cristian Rossi.pdf: 662641 bytes, checksum: 1f075c90b91e26f1afdb51e139918633 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-06-17T20:40:09Z (GMT) No. of bitstreams: 1 Dissertação - Cristian Rossi.pdf: 662641 bytes, checksum: 1f075c90b91e26f1afdb51e139918633 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-06-17T20:42:11Z (GMT) No. of bitstreams: 1 Dissertação - Cristian Rossi.pdf: 662641 bytes, checksum: 1f075c90b91e26f1afdb51e139918633 (MD5) / Made available in DSpace on 2015-06-17T20:42:11Z (GMT). No. of bitstreams: 1 Dissertação - Cristian Rossi.pdf: 662641 bytes, checksum: 1f075c90b91e26f1afdb51e139918633 (MD5) Previous issue date: 2013-03-27 / FAPEAM - Fundação de Amparo à Pesquisa do Estado do Amazonas / Search engines are mechanisms to seek relevant information within large data collections. The constant growth of electronic media for storage information, along with the popularization of search engines, brings the constant need for solutions that reduce processing costs queries. We present two new algorithms for query processing searching systems. The processing algorithms use the approach document-to-document and modify the current algorithm state of the art, BMW, for taking advantage of an index architecture divided into two layers. The first layer contains only the highest impact index entries and is used to preprocess consultations before accessing the rest of the index in the second layer. This approach results in significant performance gains. The first algorithm, called BMW-CS, is up to 40 times more fast compared to many compared methods, but causes small changes in the returned response. The second algorithm, called BMW-t, preserves the answer set and is 10% faster than the BMW. / Sistemas de busca são mecanismos capazes de buscar informação relevante dentro de grandes coleções de dados. O constante crescimento de meios eletrônicos para armazenamento de informação, junto com a popularização dos sistemas de busca, traz consigo a necessidade constante por soluções capazes de reduzir os custos de processamento de consultas. Neste trabalho, apresentamos dois novos algoritmos para processamento de consultas em sistemas de busca. Os algoritmos utilizam a abordagem de processamento documento-a-documento e modificam o atual algoritmo estado-da-arte, BMW, para tirar vantagem de uma arquitetura de índice dividido em duas camadas. A primeira camada contém apenas as entradas de maior impacto do índice e é utilizada para preprocessar as consultas antes de acessar o restante do índice na segunda camada. Esta abordagem resulta em consideráveis ganhos de desempenho. O primeiro algoritmo proposto, chamado BMW-CS, chega a ser 40 vezes mais rápido em relação a diversos métodos comparados, porém provoca pequenas modificações no conjunto de resposta retornado. O segundo algoritmo proposto, chamado BMW-t, preserva o conjunto de resposta e é 10% mais rápido que o BMW. Recuperação de informação Processamento de consultas Índices invertidos Sistemas de busca Information retrieval Indexes reversed Search systems
2	Heurísticas para aprimorar o método BMW e suas variantes Carvalho, Lídia Lizziane Serejo de 11 March 2015 (has links) Submitted by Kamila Costa (kamilavasconceloscosta@gmail.com) on 2015-06-11T19:18:34Z No. of bitstreams: 1 Dissertação-Lídia L S de Carvalho.pdf: 837456 bytes, checksum: 620d89f05fc84dc2af7b89b6b6e587a0 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-06-15T17:53:19Z (GMT) No. of bitstreams: 1 Dissertação-Lídia L S de Carvalho.pdf: 837456 bytes, checksum: 620d89f05fc84dc2af7b89b6b6e587a0 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-06-15T17:57:19Z (GMT) No. of bitstreams: 1 Dissertação-Lídia L S de Carvalho.pdf: 837456 bytes, checksum: 620d89f05fc84dc2af7b89b6b6e587a0 (MD5) / Made available in DSpace on 2015-06-15T17:57:19Z (GMT). No. of bitstreams: 1 Dissertação-Lídia L S de Carvalho.pdf: 837456 bytes, checksum: 620d89f05fc84dc2af7b89b6b6e587a0 (MD5) Previous issue date: 2015-03-11 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Several research efforts have been conducted in the literature to develop methods to reduce the cost of query processing in search engines. This research aims to propose modifications to improve the performance of the block-Max WAND (BMW) algorithm, one of the most efficient algorithms proposed previously. The BMW algorithm uses heuristics to discard the documents entries at query processing, which makes it extremely fast. In this dissertation, we propose and evaluate additional heuristics to improve the perfomance of BMW and your variant BMW-CS in an attempt to both further reduces query processing times and the amount of memory required for processing queries. / Nos últimos anos, pesquisas relacionadas ao processamento de consultas em máquinas de busca têm sido realizadas com o objetivo de desenvolver métodos que reduzam o seu custo. Este trabalho visa propor modificações para melhorar o desempenho do algoritmo Block-Max WAND (BMW), um dos algoritmos mais eficientes propostos na literatura. O algoritmo BMW utiliza heurísticas para descartar documentos da resposta durante o processamento de consultas, o que torna sua execução extremamente veloz. Nesta dissertação, serão propostas e experimentadas modificações nas heurísticas de descarte de documentos e redução na quantidade de memória utilizada para processar consultas pelo algoritmo BMW e suas variantes, buscando-se assim ganhos de desempenho. Recuperação de Informação Processamento de Consultas Índices Invertidos Sistemas de Busca Information Retrieval Query Processing Inverted Indexes Search Engines
3	Anotação e classificação automática de entidades nomeadas em notícias esportivas em Português Brasileiro / Automatic named entity recognition and classification for brazilian portuguese sport news Zaccara, Rodrigo Constantin Ctenas 11 July 2012 (has links) O objetivo deste trabalho é desenvolver uma plataforma para anotação e classificação automática de entidades nomeadas para notícias escritas em português do Brasil. Para restringir um pouco o escopo do treinamento e análise foram utilizadas notícias esportivas do Campeonato Paulista de 2011 do portal UOL (Universo Online). O primeiro artefato desenvolvido desta plataforma foi a ferramenta WebCorpus. Esta tem como principal intuito facilitar o processo de adição de metainformações a palavras através do uso de uma interface rica web, elaborada para deixar o trabalho ágil e simples. Desta forma as entidades nomeadas das notícias são anotadas e classificadas manualmente. A base de dados foi alimentada pela ferramenta de aquisição e extração de conteúdo desenvolvida também para esta plataforma. O segundo artefato desenvolvido foi o córpus UOLCP2011 (UOL Campeonato Paulista 2011). Este córpus foi anotado e classificado manualmente através do uso da ferramenta WebCorpus utilizando sete tipos de entidades: pessoa, lugar, organização, time, campeonato, estádio e torcida. Para o desenvolvimento do motor de anotação e classificação automática de entidades nomeadas foram utilizadas três diferentes técnicas: maximização de entropia, índices invertidos e métodos de mesclagem das duas técnicas anteriores. Para cada uma destas foram executados três passos: desenvolvimento do algoritmo, treinamento utilizando técnicas de aprendizado de máquina e análise dos melhores resultados. / The main target of this research is to develop an automatic named entity classification tool to sport news written in Brazilian Portuguese. To reduce this scope, during training and analysis only sport news about São Paulo Championship of 2011 written by UOL2 (Universo Online) was used. The first artefact developed was the WebCorpus tool, which aims to make easier the process of add meta informations to words, through a rich web interface. Using this, all the corpora news are tagged manually. The database used by this tool was fed by the crawler tool, also developed during this research. The second artefact developed was the corpora UOLCP2011 (UOL Campeonato Paulista 2011). This corpora was manually tagged using the WebCorpus tool. During this process, seven classification concepts were used: person, place, organization, team, championship, stadium and fans. To develop the automatic named entity classification tool, three different approaches were analysed: maximum entropy, inverted index and merge tecniques using both. Each approach had three steps: algorithm development, training using machine learning tecniques and best score analysis. aprendizado de máquina. classification tool corpora córpus entidade nomeada índices invertidos interface rica web inverted index machine learning maximização de entropia maximum entropy motor de anotação e classificação named entity uolcp2011 uolcp2011 web rich interface webcorpus webcorpus
4	Anotação e classificação automática de entidades nomeadas em notícias esportivas em Português Brasileiro / Automatic named entity recognition and classification for brazilian portuguese sport news Rodrigo Constantin Ctenas Zaccara 11 July 2012 (has links) O objetivo deste trabalho é desenvolver uma plataforma para anotação e classificação automática de entidades nomeadas para notícias escritas em português do Brasil. Para restringir um pouco o escopo do treinamento e análise foram utilizadas notícias esportivas do Campeonato Paulista de 2011 do portal UOL (Universo Online). O primeiro artefato desenvolvido desta plataforma foi a ferramenta WebCorpus. Esta tem como principal intuito facilitar o processo de adição de metainformações a palavras através do uso de uma interface rica web, elaborada para deixar o trabalho ágil e simples. Desta forma as entidades nomeadas das notícias são anotadas e classificadas manualmente. A base de dados foi alimentada pela ferramenta de aquisição e extração de conteúdo desenvolvida também para esta plataforma. O segundo artefato desenvolvido foi o córpus UOLCP2011 (UOL Campeonato Paulista 2011). Este córpus foi anotado e classificado manualmente através do uso da ferramenta WebCorpus utilizando sete tipos de entidades: pessoa, lugar, organização, time, campeonato, estádio e torcida. Para o desenvolvimento do motor de anotação e classificação automática de entidades nomeadas foram utilizadas três diferentes técnicas: maximização de entropia, índices invertidos e métodos de mesclagem das duas técnicas anteriores. Para cada uma destas foram executados três passos: desenvolvimento do algoritmo, treinamento utilizando técnicas de aprendizado de máquina e análise dos melhores resultados. / The main target of this research is to develop an automatic named entity classification tool to sport news written in Brazilian Portuguese. To reduce this scope, during training and analysis only sport news about São Paulo Championship of 2011 written by UOL2 (Universo Online) was used. The first artefact developed was the WebCorpus tool, which aims to make easier the process of add meta informations to words, through a rich web interface. Using this, all the corpora news are tagged manually. The database used by this tool was fed by the crawler tool, also developed during this research. The second artefact developed was the corpora UOLCP2011 (UOL Campeonato Paulista 2011). This corpora was manually tagged using the WebCorpus tool. During this process, seven classification concepts were used: person, place, organization, team, championship, stadium and fans. To develop the automatic named entity classification tool, three different approaches were analysed: maximum entropy, inverted index and merge tecniques using both. Each approach had three steps: algorithm development, training using machine learning tecniques and best score analysis. aprendizado de máquina. córpus entidade nomeada índices invertidos interface rica web maximização de entropia motor de anotação e classificação uolcp2011 webcorpus classification tool corpora inverted index machine learning maximum entropy named entity uolcp2011 web rich interface webcorpus

1

Page generated in 0.0485 seconds