Spelling suggestions: "subject:"recuperacao : informacao"" "subject:"recuperacao : conformacao""
141 |
Um estudo sobre alternativas de representação de dados temporais em bancos de dados relacionais / A study on alternatives to represent temporal data on relational databasesCassol, Tiago Sperb January 2012 (has links)
Informações temporais estão presentes numa ampla gama de aplicações. Praticamente qualquer aplicação possui pelo menos um campo que contém dados temporais como datas ou timestamps. Entretanto, bancos de dados tradicionais não tem um suporte amplo para armazenamento e consulta sobre esse tipo de dados eficientemente, e SGBDs com suporte nativo para dados temporais raramente estão disponíveis para os desenvolvedores de sistemas. Na maior parte do tempo, bases de dados comuns são usadas para armazenar dados das aplicações, e quando dados temporais são necessários, eles são gerenciados utilizando o pobre suporte oferecido por SGBDs relacionais tradicionais. Dito isso, o projetista da base de dados precisa confiar em um bom design de esquema para que a dificuldade natural enfrentada ao lidar com dados temporais possa ser minimizada. Enquanto algumas escolhas de design podem parecer óbvias, outras são difíceis de avaliar apenas com uma análise superficial, necessitando experimentação antes de serem aplicadas ou não. Por exemplo, em vários casos pode ser difícil de medir o quanto uma determinada escolha de design vai afetar o consumo de espaço em disco, e quanto essa mesma escolha afetará a performance geral. Esse tipo de informação é necessária para que o projetista da base de dados seja capaz de determinar se , por exemplo, o aumento no consumo de espaço em disco gerado por uma escolha específica é aceitável por conta da melhora de performance que ela oferece. O problema é que não há estudo que analise as escolhas de design disponíveis, fazendo uma análise através de dados concretos. Mesmo quando é fácil identificar, dentre duas escolhas, qual tem performance melhor em um determinado critério, é difícil mensurar o quão melhor a escolha melhor se sai, e se algum efeito colateral trazido por ela é aceitável. Ter dados concretos para suportar esse tipo de decisão permite ao projetista da base de dados fazer escolhas que se enquadram melhor no contexto da sua aplicação. O objetivo desse trabalho é analisar algumas escolhas de design comuns para representar e gerenciar dados temporais em SGBDs relacionais tradicionais, provendo direcionamento sobre qual alternativa se enquadra melhor em cada situação onde dados temporais são necessários. Dados concretos sobre cada uma das alternativas estudadas são gerados e analisados e conclusões são obtidas a partir deles. / Temporal information is present on a wide range of applications. Almost every application has at least one field that contains temporal data like dates or timestamps. However, traditional databases don’t have a comprehensive support to storage and query this kind of data efficiently, and DBMS with native support for temporal data are rarely available to system developers. Most of the time, regular databases are used to store application data and when temporal data is needed, it is handled using the poor support offered by standard relational DBMS. That said, the database designer must rely on good schema design so that the natural difficulty faced when dealing with temporal data on standard relational DBMS can be minimized. While some design choices may seem obvious, others are difficult to evaluate just by looking at them, therefore needing experimentation prior to being applied or not. For example, in several cases it might be difficult to measure how much will a specific design choice affect the disk space consumption, and how much will this same design choice affect overall performance. This kind of information is needed so that the database designer will be able to determine if, for example, the increased disk space consumption generated by a given choice is acceptable because of the performance enhancement it gives. The problem is that there is no study that analyses the design choices available, analyzing them through concrete data. Even when it is easy to see which of two design choices perform better in a given criterion, it is hard to see how better the better choice does, and if any other side-effect it has is acceptable. Having concrete data to support this kind of decision allows the database designer to make the choices that suits his application’s context best. The objective of this work is to analyze several common design choices to represent and handle different kinds of temporal data on standard SQL DBMS, providing guidance on which alternative suits best each situation where temporal data is required. Concrete data about each of the studied alternatives are generated and analyzed, and conclusions are drawn from them.
|
142 |
Abordagem baseada na análise de redes sociais para estimativa da reputação de fontes de informação em saúdeSilva, Leila Weitzel Coelho da January 2013 (has links)
Internet tem sido uma importante fonte para as pessoas que buscam informações de saúde. Isto é particularmente problemático na perspectiva da Web 2.0. A Web 2.0 é a segunda geração da World Wide Web, onde os usuários interagem e colaboram uns com os outros como criadores de conteúdo. A falta de qualidade das informações médicas na Web 2.0 tem suscitado preocupações com os impactos prejudiciais que podem acarretar. São muitos os aspectos relacionados à qualidade da informação que devem ser investigados, como por exemplo, existe alguma evidência de que o autor tem alguma autoridade no domínio da saúde? Há indícios de que os autores são tendenciosos? Como saber se a fonte de informação tem reputação, como separar as fontes de boa qualidade das outras? Esses questionamentos se tornam mais evidentes quando se faz buscas no Twitter. O usuário precisa por si só selecionar o conteúdo que acredita que tenha qualidade entre as centenas de resultados. Nesse contexto, o principal objetivo deste trabalho é propor e avaliar uma abordagem que permita estimar a reputação de fontes de informação no domínio da saúde. Acredita-se que discussões sobre reputação só fazem sentido quando possuem um propósito e estão inseridas em um contexto. Sendo assim, considera-se que reputação é um atributo que um usuário se apropria quando a informação que ele divulga é crível e digna de confiança. As contribuições desta tese incluem uma nova metodologia para estimar a reputação e uma estrutura topológica de rede baseada no grau de interação entre atores sociais. O estudo permitiu compreender como as métricas afetam o ordenamento da reputação. Escolher a métrica mais apropriada depende basicamente daquilo que se quer representar. No nosso caso, o Pagerank funcionou como um “contador de arcos” representando apenas uma medida de popularidade daquele nó. Verificou-se que popularidade (ou uma posição de destaque na rede) não necessariamente se traduz em reputação no domínio médico. Os resultados obtidos evidenciaram que a metodologia de ordenamento e a topologia da rede obtiveram sucesso em estimar a reputação. Além disso, foi verificado que o ambiente Twitter desempenha um papel importante na transmissão da informação e a “cultura” de encaminhar uma mensagem permitiu inferir processos de credibilidade e consequentemente a reputação. / The Internet is an important source for people who are seeking healthcare information. This is particularly problematic in era of Web 2.0. The Web 2.0 is a second generation of World Wide Web, where users interact and collaborate with each other as creators of content. Many concerns have arisen about the poor quality of health-care information on the Web 2.0, and the possibility that it leads to detrimental effects. There are many issues related to information quality that users continuously have to ask, for example, is there any evidence that the author has some authority in health domain? Are there clues that the authors are biased? How shall we know what our sources are worth, how shall we be able to separate the bad sources from the good ones? These questions become more obvious when searching for content in Twitter. The user then needs to manually pick out high quality content among potentially thousands of results. In this context, the main goal of this work is to propose an approach to infer the reputation of source information in the medical domain. We take into account that, discussion of reputation is usually not meaningful without a specific purpose and context. Thus, reputation is an attribute that a user comprises, and the information disseminated by him is credible and worthy of belief. Our contributions were to provide a new methodology to Rank Reputation and a new network topological structure based on weighted social interaction. The study gives us a clear understanding of how measures can affect the reputation rank. Choosing the most appropriate measure depends on what we want to represent. In our case, the PageRank operates look alike “edges counts” as the “popularity” measures. We noticed that popularity (or key position in a graph) does not necessarily refer to reputation in medical domain. The results shown that our rank methodology and the network topology have succeeded in achieving user reputation. Additionally, we verified that in Twitter community, trust plays an important role in spreading information; the culture of “retweeting” allowed us to infer trust and consequently reputation.
|
143 |
Redução do espaço de busca de estruturas de coalizão a partir de informações sobre o domínio : uma aplicação em smart grids / Reduction of coalition structures’ search space based on domain information: an application in smart gridsRamos, Gabriel de Oliveira January 2013 (has links)
Redes elétricas desempenham um papel fundamental no que tange à distribuição de energia elétrica. Entretanto, as redes elétricas convencionais são muito antigas, apresentando uma série de deficiências e inseguranças. Neste cenário surgem as redes elétricas inteligentes, mais conhecidas como smart grids. Smart grids são uma evolução para as redes elétricas tradicionais, apresentando como grande diferencial a presença intensiva de tecnologia de ponta para monitorar cada elemento que a compõe. Uma das principais características de smart grids é seu fluxo bidirecional de energia e informação, que permite a qualquer elemento tanto consumir quanto fornecer energia para a rede, seja um aerogerador ou mesmo uma residência. Tal característica vai de encontro à necessidade de se distribuir a produção energética, tornando-a mais robusta e tolerante a falhas. Uma tecnologia que surgiu em meio ao desenvolvimento de smart grids denomina-se Veículo-Para-Rede (V2G, do inglês Vehicle-To-Grid). Através de sessões V2G, veículos elétricos (EVs, em inglês electric vehicles) podem vender a energia de suas baterias para a rede, obtendo lucro com este procedimento. Existem duas vantagens nesta tecnologia. Por um lado, proprietários de EVs podem obter lucro com a venda de energia, reduzindo os custos de se manter seu veículo. Por outro lado, a rede como um todo se beneficia, pois as baterias podem ser utilizadas para aumentar a estabilidade da rede. Entretanto, para que estas vantagens sejam expressivas, é necessário utilizar-se de mecanismos para aumentar a eficiência do processo V2G, uma vez que baterias são muito caras. Uma alternativa que tem sido muito explorada é a formação de coalizões entre os EVs. A proposta deste trabalho é utilizar informações sobre o domínio de smart grids de modo a impor restrições no processo de formação de coalizões de EVs, visando à redução do espaço de busca de estruturas de coalizão. Especificamente, estabelece-se a distância máxima que pode haver entre dois EVs de uma mesma coalizão, através da qual é possível identificar e podar porções inválidas do espaço de busca. Para tanto, é proposto o algoritmo CPCSG, capaz de identificar restrições entre os EVs e de podar o espaço de busca. A abordagem proposta pode ser utilizada em conjunto com algoritmos de geração de estruturas de coalizão para torná-los mais rápidos e eficientes. Com base em experimentos, percebe-se que a abordagem proposta proporciona um ganho notável de desempenho e uma redução expressiva no uso de memória em relação a outros algoritmos para geração de estruturas de coalizão. Em geral, quanto mais restritiva a rede e quanto maior o número de agentes, maior será o percentual do espaço de busca passível de ser podado. Resultados mostram, ainda, que quando comparada com outros algoritmos de geração de estruturas de coalizão, a técnica proposta chega a superar o tempo dos demais em diversas ordens de magnitude. / Electric grids play a key role in the energy distribution process. However, conventional grids are very old, which causes the onset of weaknesses and uncertainties. In such a scenario the smart grid concept arises. Smart grids are an evolution to the ageing electric grids, whose major breakthrough is the intensive use of technology to monitor every element that comprises it. One of the main features of smart grids is its bi-directional flow of electricity and information, which allows any element to consume and even supply energy to the grid, regardless of being a wind turbine or even a residence. Such a characteristic meets the need to make the energy production more distributed, making it more robust and fault tolerant. Amidst the development of smart grids emerged the concept of Vehicle-To-Grid (V2G). Through V2G sessions, electric vehicles (EVs) can sell the surplus energy of their batteries to the grid, making a profit. Two advantages arise from this technology. First, EVs’ owners can make a profit from the sale of energy, reducing their vehicles’ maintenance cost. Second, the network as a whole is benefited as batteries could be used to increase the network stability. However, in order to benefit from such advantages, it is necessary the use mechanisms to increase the efficiency of the V2G process, since batteries are very expensive. One way that has been explored is the coalition formation among EVs. The proposal of this work is to use smart grids’ domain information to impose constraints on the coalition formation process in order to reduce the coalition structures’ search space. Specifically, we define a maximum distance that can exist between two EVs of a given coalition, through which it is possible to identify and prune invalid portions of the search space. To this end, we propose the CPCSG algorithm, which has the capability of identifying constraints among EVs and pruning the search space. The proposed approach can be used together with coalition structure generation algorithms to make them faster and more efficient. Based on experiments, it can be seen that our approach provides a noticeable performance gain and a significant memory usage reduction compared to other coalition structure generation algorithms. In general, the more restrictive the grid and the greater the number of agents, the greater the percentage of the search space that can be pruned. Results also show that when compared with other coalition structure generation algorithms, the proposed technique is able to overcome the other in time by several orders of magnitude.
|
144 |
Detecção não supervisionada de posicionamento em textos de tweets / Unsupervised stance detection in texts of tweetsDias, Marcelo dos Santos January 2017 (has links)
Detecção de posicionamento é a tarefa de automaticamente identificar se o autor de um texto é favorável, contrário, ou nem favorável e nem contrário a uma dada proposição ou alvo. Com o amplo uso do Twitter como plataforma para expressar opiniões e posicionamentos, a análise automatizada deste conteúdo torna-se de grande valia para empresas, organizações e figuras públicas. Em geral, os trabalhos que exploram tal tarefa adotam abordagens supervisionadas ou semi-supervisionadas. O presente trabalho propõe e avalia um processo não supervisionado de detecção de posicionamento em textos de tweets que tem como entrada apenas o alvo e um conjunto de tweets a rotular e é baseado em uma abordagem híbrida composta por 2 etapas: a) rotulação automática de tweets baseada em um conjunto de heurísticas e b) classificação complementar baseada em aprendizado supervisionado de máquina. A proposta tem êxito quando aplicada a figuras públicas, superando o estado-da-arte. Além disso, são avaliadas alternativas no intuito de melhorar seu desempenho quando aplicada a outros domínios, revelando a possibilidade de se empregar estratégias tais como o uso de alvos e perfis semente dependendo das características de cada domínio. / Stance Detection is the task of automatically identifying if the author of a text is in favor of the given target, against the given target, or whether neither inference is likely. With the wide use of Twitter as a platform to express opinions and stances, the automatic analysis of this content becomes of high regard for companies, organizations and public figures. In general, works that explore such task adopt supervised or semi-supervised approaches. The present work proposes and evaluates a non-supervised process to detect stance in texts of tweets that has as entry only the target and a set of tweets to classify and is based on a hybrid approach composed by 2 stages: a) automatic labelling of tweets based on a set of heuristics and b) complementary classification based on supervised machine learning. The proposal succeeds when applied to public figures, overcoming the state-of-the-art. Beyond that, some alternatives are evaluated with the intention of increasing the performance when applied to other domains, revealing the possibility of use of strategies such as using seed targets and profiles depending on each domain characteristics.
|
145 |
Extração de informações de conferências em páginas webGarcia, Cássio Alan January 2017 (has links)
A escolha da conferência adequada para o envio de um artigo é uma tarefa que depende de diversos fatores: (i) o tema do trabalho deve estar entre os temas de interesse do evento; (ii) o prazo de submissão do evento deve ser compatível com tempo necessário para a escrita do artigo; (iii) localização da conferência e valores de inscrição são levados em consideração; e (iv) a qualidade da conferência (Qualis) avaliada pela CAPES. Esses fatores aliados à existência de milhares de conferências tornam a busca pelo evento adequado bastante demorada, em especial quando se está pesquisando em uma área nova. A fim de auxiliar os pesquisadores na busca de conferências, o trabalho aqui desenvolvido apresenta um método para a coleta e extração de dados de sites de conferências. Essa é uma tarefa desafiadora, principalmente porque cada conferência possui seu próprio site, com diferentes layouts. O presente trabalho apresenta um método chamado CONFTRACKER que combina a identificação de URLs de conferências da Tabela Qualis à identificação de deadlines a partir de seus sites. A extração das informações é realizada independente da conferência, do layout do site e da forma como são apresentadas as datas (formatação e rótulos). Para avaliar o método proposto, foram realizados experimentos com dados reais de conferências da Ciência da Computação. Os resultados mostraram que CONFTRACKER obteve resultados significativamente melhores em relação a um baseline baseado na posição entre rótulos e datas. Por fim, o processo de extração é executado para todas as conferências da Tabela Qualis e os dados coletados populam uma base de dados que pode ser consultada através de uma interface online. / Choosing the most suitable conference to submit a paper is a task that depends on various factors: (i) the topic of the paper needs to be among the topics of interest of the conference; (ii) submission deadlines need to be compatible with the necessary time for paper writing; (iii) conference location and registration costs; and (iv) the quality or impact of the conference. These factors allied to the existence of thousands of conferences, make the search of the right event very time consuming, especially when researching in a new area. Intending to help researchers finding conferences, this work presents a method developed to retrieve and extract data from conference web sites. Our method combines the identification of conference URL and deadline extraction. This is a challenging task as each web site has its own layout. Here, we propose CONFTRACKER, which combines the identification of the URLs of conferences listed in the Qualis Table and the extraction of their deadlines. Information extraction is carried out independent from the page’s layout and how the dates are presented. To evaluate our proposed method, we carried out experiments with real web data from Computer Science conferences. The results show that CONFTRACKER outperformed a baseline method based on the position of labels and dates. Finaly, the extracted data is stored in a database to be searched with an online tool.
|
146 |
Um método para deduplicação de metadados bibliográficos baseado no empilhamento de classificadores / A method for bibliographic metadata deduplication based on stacked generalizationBorges, Eduardo Nunes January 2013 (has links)
Metadados bibliográficos duplicados são registros que correspondem a referências bibliográficas semanticamente equivalentes, ou seja, que descrevem a mesma publicação. Identificar metadados bibliográficos duplicados em uma ou mais bibliotecas digitais é uma tarefa essencial para garantir a qualidade de alguns serviços como busca, navegação e recomendação de conteúdo. Embora diversos padrões de metadados tenham sido propostos, eles não resolvem totalmente os problemas de interoperabilidade porque mesmo que exista um mapeamento entre diferentes esquemas de metadados, podem existir variações na representação do conteúdo. Grande parte dos trabalhos propostos para identificar duplicatas aplica uma ou mais funções sobre o conteúdo de determinados campos no intuito de captar a similaridade entre os registros. Entretanto, é necessário escolher um limiar que defina se dois registros são suficientemente similares para serem considerados semanticamente equivalentes ou duplicados. Trabalhos mais recentes tratam a deduplicação de registros como um problema de classificação de dados, em que um modelo preditivo é treinado para estimar a que objeto do mundo real um registro faz referência. O objetivo principal desta tese é o desenvolvimento de um método efetivo e automático para identificar metadados bibliográficos duplicados, combinando o aprendizado de múltiplos classificadores supervisionados, sem a necessidade de intervenção humana na definição de limiares de similaridade. Sobre o conjunto de treinamento são aplicadas funções de similaridade desenvolvidas especificamente para o contexto de bibliotecas digitais e com baixo custo computacional. Os escores produzidos pelas funções são utilizados para treinar múltiplos modelos de classificação heterogêneos, ou seja, a partir de algoritmos de diversos tipos: baseados em árvores, regras, redes neurais artificiais e probabilísticos. Os classificadores aprendidos são combinados através da estratégia de empilhamento visando potencializar o resultado da deduplicação a partir do conhecimento heterogêneo adquirido individualmente pelos algoritmo de aprendizagem. O modelo de classificação final é aplicado aos pares candidatos ao casamento retornados por uma estratégia de blocagem de dois níveis bastante eficiente. A solução proposta é baseada na hipótese de que o empilhamento de classificadores supervisionados pode aumentar a qualidade da deduplicação quando comparado a outras estratégias de combinação. A avaliação experimental mostra que a hipótese foi confirmada quando o método proposto é comparado com a escolha do melhor classificador e com o voto da maioria. Ainda são analisados o impacto da diversidade dos classificadores no resultado do empilhamento e os casos de falha do método proposto. / Duplicated bibliographic metadata are semantically equivalent records, i.e., references that describe the same publication. Identifying duplicated bibliographic metadata in one or more digital libraries is an essential task to ensure the quality of some services such as search, navigation, and content recommendation. Although many metadata standards have been proposed, they do not completely solve interoperability problems because even if there is a mapping between different metadata schemas, there may be variations in the content representation. Most of work proposed to identify duplicated records uses one or more functions on some fields in order to capture the similarity between the records. However, we need to choose a threshold that defines whether two records are sufficiently similar to be considered semantically equivalent or duplicated. Recent studies deal with record deduplication as a data classification problem, in which a predictive model is trained to estimate the real-world object to which a record refers. The main goal of this thesis is the development of an effective and automatic method to identify duplicated bibliographic metadata, combining multiple supervised classifiers, without any human intervention in the setting of similarity thresholds. We have applied on the training set cheap similarity functions specifically designed for the context of digital libraries. The scores returned by these functions are used to train multiple and heterogeneous classification models, i.e., using learning algorithms based on trees, rules, artificial neural networks and probabilistic models. The learned classifiers are combined by stacked generalization strategy to improve the deduplication result through heterogeneous knowledge acquired by each learning algorithm. The final model is applied to pairs of records that are candidate to matching. These pairs are defined by an efficient two phase blocking strategy. The proposed solution is based on the hypothesis that stacking supervised classifiers can improve the quality of deduplication when compared to other combination strategies. The experimental evaluation shows that the hypothesis has been confirmed by comparing the proposed method to selecting the best classifier or the majority vote technique. We also have analyzed the impact of classifiers diversity on the stacking results and the cases for which the proposed method fails.
|
147 |
Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada / A supervised learning approach for noise discovery in web pages found in the hidden webLutz, João Adolfo Froede January 2013 (has links)
Um dos problemas da extração de dados na web é a remoção de ruído existente nas páginas. Esta tarefa busca identificar todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruído pode prejudicar seriamente o desempenho de motores de busca e tarefas de mineração de dados na web. Este trabalho aborda o problema da descoberta de ruído em páginas da web oculta, a parte da web que é acessível apenas através do preenchimento de formulários. No processamento da web oculta, a extração de dados geralmente é precedida por uma etapa de inserção de dados, na qual os formulários que dão acesso às páginas ocultas são automaticamente ou semi-automaticamente preenchidos. Durante esta fase, são coleta- dos dados do domínio em questão, como os rótulos e valores dos campos. A proposta deste trabalho é agregar este tipo de dados com informações sintáticas dos elementos que compõem a página. É mostrado empiricamente que esta combinação atinge resultados melhores que uma abordagem baseada apenas em informações sintáticas. / One of the problems of data extraction from web pages is the identification of noise in pages. This task aims at identifying non-informative elements in pages, such as headers, menus, or advertisement. The presence of noise may hinder the performance of search engines and web mining tasks. In this paper we tackle the problem of discovering noise in web pages found in the hidden web, i.e., that part of the web that is only accessible by filling web forms. In hidden web processing, data extraction is usually preceeded by a form filling step, in which the query forms that give access to the hidden web pages are automatically or semi-automatically filled. During form filling relevant data about the queried domain are collected, as field names and field values. Our proposal combines this type of data with syntactic information about the nodes that compose the page. We show empirically that this combination achieves better results than an approach that is based solely on syntactic information. Keywords:
|
148 |
Descoberta de cross-language links ausentes na wikipédia / Identifying missing cross-language links in wikipediaMoreira, Carlos Eduardo Manzoni January 2014 (has links)
A Wikipédia é uma enciclopédia pública composta por milhões de artigos editados diariamente por uma comunidade de autores de diferentes regiões do mundo. Os artigos que constituem a Wikipédia possuem um tipo de link chamado de Cross-language Link que relaciona artigos correspondentes em idiomas diferentes. O objetivo principal dessa estrutura é permitir a navegação dos usuários por diferentes versões de um mesmo artigo em busca da informação desejada. Além disso, por permitir a obtenção de corpora comparáveis, os Cross-language Links são extremamente importantes para aplicações que trabalham com tradução automática e recuperação de informações multilíngues. Visto que os Cross-language Links são inseridos manualmente pelos autores dos artigos, quando o autor não reconhece o seu correspondente em determinado idioma ocorre uma situação de Cross-language Links ausente. Sendo assim, é importante o desenvolvimento de uma abordagem que realize a descoberta de Cross-language Links entre artigos que são correspondentes, porém, não estão conectados por esse tipo link. Nesta dissertação, é apresentado o CLLFinder, uma abordagem para a descoberta de Cross-language Links ausentes. A nossa abordagem utiliza o relacionamento entre as categorias e a indexação e consulta do conteúdo dos artigos para realizar a seleção do conjunto de candidatos. Para a identificação do artigo correspondente, são utilizados atributos que exploram a transitividade de Cross-language Links entre outros idiomas bem como características textuais dos artigos. Os resultados demonstram a criação de um conjunto de candidatos com 84,3% de presença do artigo correspondente, superando o trabalho utilizado como baseline. A avaliação experimental com mais de dois milhões de pares de artigos aponta uma precisão de 99,2% e uma revocação geral de 78,9%, superando, também, o baseline. Uma inspeção manual dos resultados do CLLFinder aplicado em um cenário real indica que 73,6% dos novos Cross-language Links sugeridos pela nossa abordagem eram de fato correspondentes. / Wikipedia is a public encyclopedia composed of millions of articles written daily by volunteer authors from different regions of the world. The articles contain links called Cross-language Links which relate corresponding articles across different languages. This feature is extremely useful for applications that work with automatic translation and multilingual information retrieval as it allows the assembly of comparable corpora. Since these links are created manually, in many occasions, the authors fail to do so. Thus, it is important to have a mechanism that automatically creates such links. This has been motivating the development of techniques to identify missing cross-language links. In this work, we present CLLFinder, an approach for finding missing cross-language links. The approach makes use of the links between categories and an index of the content of the articles to select candidates. In order to identify corresponding articles, the method uses the transitivity between existing cross-language links in other languages as well as textual features extracted from the articles. Experiments on over two million pairs of articles from the English and Portuguese Wikipedias show that our approach has a recall of 78.9% and a precision of 99.2%, outperforming the baseline system.A manual inspection of the results of CLLFinder applied to a real situation indicates that our approach was able to identify the Cross-language Link correctly 73.6% of the time.
|
149 |
Recomendação adaptativa e sensível ao contexto de recursos para usuários em um campus universitário / Context-aware adaptive recommendation of resources for mobile users in a university campusMachado, Guilherme Medeiros January 2014 (has links)
Campus universitários são ambientes compostos de recursos e pessoas que utilizam os tais. Um dos principais recursos utilizados pela comunidade de um campus são os objetos de aprendizagem. Tais objetos existem de maneira abundante, espalhados no ambiente ou concentrados em um único local. Entretanto, a abundancia desses objetos faz com que uma pessoa sinta-se cognitivamente cansada ao ter que analisar vários objetos e selecionar apenas alguns. Esse cansaço cognitivo acaba levando a pessoa a escolher um conjunto de objetos de aprendizagem que não satisfarão suas necessidades e interesses da melhor maneira possível. A computação evoluiu de grandes mainframes a pequenos computadores espalhados em um ambiente. Hoje é possível a existência de ambientes pervasivos, onde os recursos computacionais estão sempre presentes e agindo de forma invisível ao usuário. Tais ambientes tornam possível o acompanhamento das atividades do usuário, provendo informações contextuais que podem ser utilizadas para ajudar a seleção dos melhores recursos (ex. objetos de aprendizagem, restaurantes, salas de aula) à determinada pessoa. A localização é uma informação contextual de grande importância na seleção de tais recursos. Tal informação pode ser facilmente obtida através do sinal de GPS do dispositivo móvel de um usuário e utilizada em conjunto com os interesses do usuário para recomendar os recursos próximos que melhor atenderão ao mesmo. Neste contexto este trabalho descreve uma abordagem para recomendar objetos de aprendizagem físicos ou virtuais que estejam relacionados aos prédios próximos a atual localização do usuário. Para executar tal tarefa é descrito um sistema de recomendação que utiliza a informação de localização, obtida através do dispositivo móvel do usuário, combinada à informações do perfil do usuário, dos objetos de aprendizagem relacionados aos prédios e informações tecnológicas do dispositivo para instanciar um modelo ontológico de contexto. Após instanciado o modelo são utilizadas regras semânticas, escritas em forma de antecedente e consequente, que fazem uma correspondência entre os interesses do usuário e o domínio de conhecimento do objeto de aprendizagem para filtrar os objetos próximos ao usuário. De posse desses objetos recomendados o sistema os apresenta em uma interface adaptativa que mostra a localização tanto dos objetos quanto do usuário. Para validar a abordagem apresentada é desenvolvido um estudo de caso onde as regras semânticas de recomendação são executadas sobre o modelo ontológico desenvolvido. O resultado gerado por tais regras é um conjunto de pares (usuário, objeto de aprendizagem recomendado) e prova a validade da abordagem. / University campus are environments composed of resources and people who use them. One of the main resources used by a campus community are learning objects. Such objects are abundantly even scattered in the environment or concentrated in one location. However the abundance of such objects makes a person feel cognitively tired when having to analyze various objects and select just a few of them. This cognitive fatigue eventually leads the person to choose a set of learning objects that do not meet their needs and interests in the best possible way. Computing has evolved from large mainframe to small computers scattered in an environment. Today it is possible the existence of pervasive environments where computational resources are always present and acting in a manner invisible to the user. Such environments make it possible to monitor user activities, providing contextual information that can be used to help select the best resources (e.g. learning objects, restaurants, classrooms) to a particular person. The location is a contextual information of great importance in the selection of such resources. Such information can be easily obtained through the GPS signal from a mobile device and used with the user’s interests to recommend the nearby resources that best attend his needs and interests. In this context, this work describes an approach to recommend physical or virtual learning objects that are related to buildings near the user’s current location. To accomplish such a task we described a recommender system that uses the location information, obtained through the user's mobile device, combined with information from the user’s profile, learning objects related to buildings and technological information from the device to instantiate an ontological context model. Once the model is instantiated we used semantic rules, written in the form of antecedent and consequent, to make a match between the user’s interests and the knowledge domain of the learning object in order filter the user’s nearby objects. With such recommended objects, the system presents them in an adaptive interface that shows both the object and the user location. To validate the presented approach we developed a case study where the recommendation semantic rules are executed on the developed ontological model. The income generated by such rules is a set of pairs (user, recommended learning object) and proves the validity of the approach.
|
150 |
OPIS : um método para identificação e busca de páginas-objeto / OPIS : a method for object page identifying and searchingColpo, Miriam Pizzatto January 2014 (has links)
Páginas-objeto são páginas que representam exatamente um objeto inerente do mundo real na web, considerando um domínio específico, e a busca por essas páginas é chamada de busca-objeto. Os motores de busca convencionais (do Inglês, General Search Engine - GSE) conseguem responder, de forma satisfatória, à maioria das consultas realizadas na web atualmente, porém, isso dificilmente ocorre no caso de buscas-objeto, uma vez que, em geral, a quantidade de páginas-objeto recuperadas é bastante limitada. Essa dissertação propõe um novo método para a identificação e a busca de páginas-objeto, denominado OPIS (acrônimo para Object Page Identifying and Searching). O cerne do OPIS está na adoção de técnicas de realimentação de relevância e aprendizagem de máquina na tarefa de classificação, baseada em conteúdo, de páginas-objeto. O OPIS não descarta o uso de GSEs e, ao invés disso, em sua etapa de busca, propõe a integração de um classificador a um GSE, adicionando uma etapa de filtragem ao processo de busca tradicional. Essa abordagem permite que somente páginas identificadas como páginas-objeto sejam recuperadas pelas consultas dos usuários, melhorando, assim, os resultados de buscas-objeto. Experimentos, considerando conjuntos de dados reais, mostram que o OPIS supera o baseline com ganho médio de 47% de precisão média. / Object pages are pages that represent exactly one inherent real-world object on the web, regarding a specific domain, and the search for these pages is named as object search. General Search Engines (GSE) can satisfactorily answer most of the searches performed in the web nowadays, however, this hardly occurs with object search, since, in general, the amount of retrieved object pages is limited. This work proposes a method for both identifying and searching object pages, named OPIS (acronyms to Object Page Identifying and Searching). The kernel of OPIS is to adopt relevance feedback and machine learning techniques in the task of content-based classification of object pages. OPIS does not discard the use of GSEs and, instead, in his search step, proposes the integration of a classifier to a GSE, adding a filtering step to the traditional search process. This simple approach allows that only pages identified as object pages are retrieved by user queries, improving the results for object search. Experiments with real datasets show that OPIS outperforms the baseline with average boost of 47% considering the average precision.
|
Page generated in 0.0603 seconds