1 |
Ligação de entidades : uma nova abordagem para ligação de conceitos concretos com entidades Wiki utilizando modelos de espaço vetorialMonteiro, Lucas Borges 20 August 2015 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015. / Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2016-03-01T15:11:50Z
No. of bitstreams: 1
2015_LucasBorgesMonteiro.pdf: 2501324 bytes, checksum: 822b62f3519f2fdb78690b004ea37537 (MD5) / Approved for entry into archive by Raquel Viana(raquelviana@bce.unb.br) on 2016-04-07T18:50:42Z (GMT) No. of bitstreams: 1
2015_LucasBorgesMonteiro.pdf: 2501324 bytes, checksum: 822b62f3519f2fdb78690b004ea37537 (MD5) / Made available in DSpace on 2016-04-07T18:50:42Z (GMT). No. of bitstreams: 1
2015_LucasBorgesMonteiro.pdf: 2501324 bytes, checksum: 822b62f3519f2fdb78690b004ea37537 (MD5) / Ligação de Entidades (LE) é um importante tópico de pesquisa com diversas aplicações web. Apesar do crescente interesse o foco ainda tem sido a identificação de nomes próprios, isto é, pessoas, organizações, lugares, unidades de medida, etc. O principal desafio aqui é encontrar conceitos concretos (sentenças sem classe de entidade pré-definida) em textos da web conectando-os às respectivas páginas da Wikipédia. Este trabalho apresenta uma nova abordagem para ligar conceitos concretos obtidos de textos em Inglês com entidades Wiki, neste trabalho representadas por páginas da Wikipédia, utilizando classificação gramatical (part-of-speech) para detectar conceitos concretos e Modelos de Espaço Vetorial (MEV) para realizar a desambiguação das entidades Wiki selecionadas da base. A solução, denominada UnBWiki VSM, foi implementada em Java, por meio da IDE Eclipse, com banco de dados MySQL onde a base de entidades foi armazenada. O framework proposto foi ajustado para trabalhar com uma base de Wikilinks, referências para páginas da Wikipédia extraídas de diferentes páginas da web, contendo por volta de 2,8 milhões de entidades e 18 milhões de palavras, e obteve recall 34,2% superior ao obtido pela metodologia existente que utilizou os mesmos dados/entidades. Como estudo de caso, textos sobre a História da Família Real Britânica extraídos da web foram analisados manualmente, e o recall de 73,5% obtido pela ferramenta UnBWiki VSM foi ainda maior do que o verificado na comparação com o estado da arte. _______________________________________________________________________________________________ ABSTRACT / Entity Linking (EL) is an important research topic with several web applications. Despite the growing interest the focus also has been on the identification of proper names, i.e, people, organizations, places, units of measure, and others. The main challenge here is to find concrete concepts (sentences without predefined entity class) on web texts by linking them to their respective pages of Wikipedia. This paper presents a new approach to connect concrete concepts taken from texts in English with Wiki entities, in this work represented by the Wikipedia pages, using classification part-of-speech to detect concrete concepts and Vector Space Models (VSM) to perform the disambiguation of entities selected from Wiki base. The solution, called UnBWiki VSM, was implemented in Java using the Eclipse IDE with MySQL database where the base of entities was stored. The proposed framework was adjusted to work with a Wikilinks database, references to Wikipedia pages drawn from different web pages, containing approximately 2.8 million entities and 18 million words, and obtained recall 34.2% higher than the existing methodology that used the same data/entities. As a case study, Royal Family History texts extracted from the web were analyzed manually, and the recall of 73.5% obtained by UnBWiki VSM tool was greater than that observed in comparison with the state of the art.
|
2 |
Estimando o impacto do estoque de capital publico sobre o PIB per capita na presenÃa de mudanÃa estrutural. / Esteem the impact of the capital supply I publish on the GIP for head in the presence of structural changeJimmy Lima de Oliveira 31 October 2006 (has links)
Conselho Nacional de Desenvolvimento CientÃfico e TecnolÃgico / O presente trabalho estima a elasticidade produto-gasto pÃblico para economia brasileira, no perÃodo de 1950 a 2003, utilizando um modelo vetorial de correÃÃo de erro (VECM) para controlar possÃveis mudanÃas estruturais nas sÃries. Quando existem mudanÃas estruturais, os vÃrios testes estatÃsticos de Dickey-Fuller sÃo viesados em direÃÃo da nÃo rejeiÃÃo de uma raiz unitÃria. Este viÃs significa que o teste de Dickey-Fuller à viesado em direÃÃo da hipÃtese nula de uma raiz unitÃria, mesmo se a sÃrie à estacionÃria dentro de cada subperÃodo. Sem controlar para mudanÃas estruturais, os testes de cointegraÃÃo podem apresentar resultados enganosos, e as estimativas obtidas podem ser viesadas. / Aiming to estimate the elasticity product-public expenditure to the Brazilian economy, during the period 1950-2003, it was used a vector error correction model (VECM) to control for possible structural changes in the series. When structural changes were observed, many of the Dickey-Fuller statistic tests are biased towards the non-rejection of the existence of a unit root. This bias means that the Dickey-Fuller test is biased towards the null hypothesis of unit root, even if the series is stationary within each sub period. Without controlling for structural changes, the cointegration tests may present deceiving results and the estimates obtained may be biased.
|
3 |
Recuperação de imagens digitais com base na distribuição de características de baixo nível em partições do domínio utilizando índice invertidoProença, Patrícia Aparecida 29 March 2010 (has links)
Fundação de Amparo a Pesquisa do Estado de Minas Gerais / The main goal of a images retrieval system is to obtain images from a collection that
assist a need of the user. To achieve this objective, in generally, the systems of retrieval
of images calculate the similarity between the user's need represented by a query and
representations of the images of the collection. Such an objective is dicult of being
obtain due to the subjectivity of the similarity concept among images, because a same
image can be interpreted in dierent ways by dierent people. In the attempt of solving
this problem the content based image retrieval systems explore the characteristics of low
level color, forms and texture in the calculation of the similarity among the images. A
problem of this approach is that in most of the systems the calculation of the similarity
is accomplished being compared the query image with all of the images of the collection,
turning the dicult and slow processing. Considering the indexation of characteristics
of low level of partitions of digital images mapped to an inverted index, this work looks
for improvements in the acting of the processing of querys and improve in the precision
considering the group of images retrieval in great bases of data. We used an approach
based in inverted index that is here adapted for partitions images. In this approach the
concept of term of the retrieval textual, main element of the indexation, it is used in
the work as characteristic of partitions of images for the indexation. Experiments show
improvement in the quality of the precision using two collections of digital images. / O principal objetivo de um sistema de recuperação de imagens é obter imagens de
uma coleção que atendam a uma necessidade do usuário. Para atingir esse objetivo, em
geral, os sistemas de recuperação de imagens calculam a similaridade entre a necessidade
do usuário, representada por uma consulta, e representações das imagens da coleção. Tal
objetivo é difícil de ser alcançado devido à subjetividade do conceito de similaridade entre
imagens, visto que uma mesma imagem pode ser interpretada de formas diferentes por
pessoas distintas. Na tentativa de resolver este problema os sistemas de recuperação de
imagens por conteúdo exploram as características de baixo nível cor, forma e textura no
cálculo da similaridade entre as imagens. Um problema desta abordagem é que na maioria
dos sistemas o cálculo da similaridade é realizado comparando-se a imagem de consulta
com todas as imagens da coleção, tornando o processamento difícil e lento. Considerando
a indexação de características de baixo nível de partições de imagens digitais mapeadas
para um índice invertido, este trabalho busca melhorias no desempenho do processamento
de consultas e ganho na precisão considerando o conjunto de imagens recuperadas em
grandes bases de dados. Utilizamos uma abordagem baseada em índice invertido, que
é aqui adaptada para imagens particionadas. Nesta abordagem o conceito de termo
da recuperação textual, principal elemento da indexação, é utilizado no trabalho como
característica de partições de imagens para a indexação. Experimentos mostram ganho
na qualidade da precisão usando duas coleções de imagens digitais. / Mestre em Ciência da Computação
|
Page generated in 0.0805 seconds