• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 890
  • 73
  • 66
  • 66
  • 66
  • 39
  • 29
  • 29
  • 26
  • 26
  • 13
  • 9
  • 1
  • 1
  • 1
  • Tagged with
  • 931
  • 931
  • 438
  • 291
  • 234
  • 191
  • 185
  • 162
  • 161
  • 144
  • 124
  • 118
  • 114
  • 100
  • 97
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
331

Utilização de ontologias para busca em um sistema colaborativo de imagens arquitetônicas / On the use of ontologies for search in a collaborative system for architectural images

Yucra, Marisol Solis 27 October 2016 (has links)
A recuperação de informação é ainda um assunto essencial a melhorar nos diferentes tipos de sistemas web. Um tipo de sistema web que é muito utilizado na atualidade, é o sistema colaborativo. Estes sistemas permitem que os usuários estejam mais envolvidos, seja contribuindo com a inserção de textos, imagens ou dados, assim como utilizando etiquetas (tags) para identificar aos elementos existentes no sistema e que serão compartilhados com outros usuários. Nesta dissertação utilizamos um sistema colaborativo de compartilhamento de imagens arquitetônicas, onde os usuários podem inserir títulos e tags livremente para descrever uma imagem. Contudo as tags podem ter um significado ambíguo, resultando em imagens recuperadas que não são relevantes, quando são utilizadas técnicas tradicionais, como por exemplo busca booleana ou por palavra-chave. Além disso, os usuários podem utilizar consultas mais complexas utilizando uma linguagem livre, e utilizando as técnicas mencionadas podem recuperar informação não relevante. Assim, esta pesquisa aborda, a construção de uma ontologia no domínio arquitetônico denominada OntoArq, baseada no vocabulário controlado da USP e no tesauro experimental de arquitetura brasileira, a qual possibilitou fortalecer a relação entre as tags e os conceitos estruturados da ontologia, por meio de uso de hierarquias de classes e relações semânticas existentes entre as classes. A ontologia também ajudou a melhorar a recuperação de documentos para consultas complexas que utilizam uma linguagem livre, por meio da adição de termos arquitetônicos relacionados à consulta original dada pelo usuário. E quando a consulta expandida é utilizada em conjunto com o modelo de espaço vetorial existente no sistema de recuperação, auxilia na recuperação de imagens mais relevantes. A avaliação de nossa abordagem foi realizada através de experimentos que utilizaram os dados do sistema Arquigrafia, dois conjuntos de consultas e medidas de avaliação como precisão, cobertura e medida-F. Os conjuntos eram compostos por 11 consultas dada por especialistas da área de arquitetura e 9 consultas aleatórias extraídas do log de busca do Google Analytics do sistema Arquigrafia, tendo um total de 20 consultas. Para nossos experimentos utilizamos as 20 consultas que pertenciam aos dois conjuntos de consultas mencionados, dentre os quais obtivemos resultados positivos para 16 consultas, considerando um valor de precisão, cobertura e medida-F maior do que 50%, com nossa abordagem. Em comparação a outra abordagem, que usa a técnica de busca boolena, obteve-se 1 consulta com resultado positivo, também considerando precisão, cobertura e medida-F maior do que 50%. Assim, podemos concluir que nossa abordagem obteve melhores resultados. Além disso, pelos resultados obtidos, consideramos que nossa abordagem, ao utilizar uma ontologia, pode ser um inicio de como empregar as ontologias como ferramenta de apoio para dar um maior significado semântico às tags que existem num sistema colaborativo e como as ontologias permitem a adição de termos na consulta, sendo estes termos relacionados a uma área do conhecimento, que para nosso caso, a área da arquitetura. Desta maneira podemos recuperar os documentos associados às imagens, os quais serão mais relevantes para consulta feita pelo usuário. / Information retrieval is an essential issue in different web system that needs to be improved. In recent years, collaborative systems have gained popularity. In this thesis, we use a collaborative system of architectural image sharing, that users can add titles and tags freely to describe an image. However, the tags may have an ambiguous meaning, resulting in recovering images that are not relevant when traditional technics are used, such as Boolean and keyword search. In addition, users usually use natural language in their queries and with the mentioned techniques it is less posible to retrieve relevant information. Our research approach is to construct an ontology for architectural domain, based on the controlled vocabulary of USP and the experimental thesaurus architecture information. The ontology allowed to enhance the relationship between tags and structured concepts of ontology, improving the information retrieval through the expanded terms. And when the expanded query is used in conjunction with the vector space model in the recovery system, it helps retrieve more relevant images. The evaluation of our approach was carried out through experiments that used data of Arquigrafia system, two sets of queries were created and metrics like precision, coverage and measure-F were used. The sets consisted of 11 queries given by architecture experts and 9 random queries extracted from Google Analytics logs of the Arquigrafia system, taking a total of 20 queries. In our experiments we used the 20 queries from the two sets, among which we obtained positive results for 16 queries, considering precision, coverage and F-measure values greater than 50%, applying our approach. In comparison to another approach, which uses the Boolean search technique, we obtained 1 query with positive result, also considering the same metrics with values greater than 50%. Thus, we can conclude that our approach has achieved better results. In addition, from the results obtained, we consider that our approach using an ontology can be a beginning of how to use ontologies as a support tool to give a greater semantic meaning to tags that exist in a collaborative system, and how Ontologies allow the addition of semantic terms in queries, like terms related to a knowledge area, in our case the area of architecture. In this way we can retrieve documents associated with images, which will be more relevant to the user\'s query.
332

Recuperação de informação com realimentação de relevância apoiada em visualização / Information retrieval with relevance feedback on supported display

Melo, Diogo Oliveira de 16 April 2014 (has links)
A mineração de grandes coleções de textos, imagens e outros tipos de documentos tem se mostrado uma forma efetiva para exploração e interação com grandes quantidades de informações disponíveis, principalmente na World Wide Web. Neste contexto, diversos trabalhos têm tratado de mineração tanto de coleções estáticas quanto de coleções dinâmicas de objetos. Adicionalmente, técnicas de visualização têm sido propostas para auxiliar o processo de entendimento e de exploração dessas coleções, permitindo que a interação do usuário melhore o processo de mineração (user in the loop). No caso específico de dados dinâmicos, foi desenvolvido por Roberto Pinho e colegas uma técnica incremental (IncBoard) com o objetivo de visualizar coleções dinâmicas de elementos. Tal técnica posiciona os elementos em um grid bidimensional baseado na similaridade de conteúdo entre os elementos. Procura-se manter elementos similares próximos no grid. A técnica foi avaliada em um processo que simulava a chegada de novos dados, apresentando iterativamente novos elementos a serem posicionados no mapa corrente. Observa-se, entretanto, que um aspecto importante de tal ferramenta seria a possibilidade de novos elementos - a serem exibidos no mapa, mantendo coerência com o mapa corrente - serem selecionados a partir do interesse demonstrado pelo usuário. Realimentação de relevância tem se mostrado muito efetiva na melhoria da acurácia do processo de recuperação. Entretanto, um problema ainda em aberto é como utilizar técnicas de realimentação de relevância em conjunto com exploração visual no processo de recuperação de informação. Neste trabalho, é investigado o desenvolvimento de técnicas de exploração visual utilizando realimentação de relevância para sistemas de recuperação de informação de domínio específico. O Amuzi, um sistema de busca de músicas, foi desenvolvido como uma prova de conceito para a abordagem investigada. Dados coletados da utilização do Amuzi, por usuários, sugerem que a combinação de tais técnicas oferece vantagens, quando utilizadas em determinados domínios. Nesta dissertação, a recuperação de informação com realimentação de relevância apoiada em visualização, bem como o sistema Amuzi são descritos. Também são analisados os registros de utilização dos usuários / The mining of large text collections, images and other types of digital objects has shown to be a very effective way to explore and interact with big data, specially on the World Wide Web. On that subject, many researchers have been done on data mining of static and dynamic collections. Moreover, data visualization techniques have been proposed to aid on the understanding and exploration of such data collections, also allowing users to interact with data, user in the loop. On the speciific subject of dynamic data, Roberto Pinho and colleagues have developed an incremental technique, called Inc-Board, which aims to visualize dynamic data collections. IncBoard displays the documents on a two dimensional grid in a way that similar elements tends to be close to each other. This technique was evaluated in a process that simulated the arrival of new data elements, iteratively inserting new elements on the grid. Nonetheless, it would be useful if the user could interact with such documents to point out which are relevant and which are not relevant to his/her search. Relevance Feedback has also shown to be effective on improving the accuracy of Information Retrieval techniques. An issue that still open is how to combine data visualization and Relevance Feedback to improve Information Retrieval. On this dissertation, the development of techniques with data visualization and Relevance Feedback are investigated to aid on the Information Retrieval task, for specific domains. Amuzi is an Information Retrieval system, built to be a proof of concept for the investigated approach. Data collected from the usage of the system suggests that combining such techniques may outperform traditional Information Retrieval systems when applied for specifc domains. This dissertation has the description the information retrieval process with feedback relevance supported by visualization and the Amuzi system. Usage log are processed and analyzed to evaluate the investigated approach
333

Identificação de covers a partir de grandes bases de dados de músicas / Cover song identification using big data bases

Ferreira, Martha Dais 30 April 2014 (has links)
Acrescente capacidade de armazenamento introduziu novos desafios no contexto de exploração de grandes bases de dados de músicas. Esse trabalho consiste em investigar técnicas de comparação de músicas representadas por sinais polifônicos, com o objetivo de encontrar similaridades, permitindo a identificação de músicas cover em grandes bases de dados. Técnicas de extração de características a partir de sinais musicais foram estudas, como também métricas de comparação a partir das características obtidas. Os resultados mostraram que é possível encontrar um novo método de identificação de covers com um menor custo computacional do que os existentes, mantendo uma boa precisão / The growing capacity in storage and transmission of songs has introduced a new challenges in the context of large music data sets exploration. This work aims at investigating techniques for comparison of songs represented by polyphonic signals, towards identifying cover songs in large data sets. Techniques for music feature extraction were evaluated and compared. The results show that it is possible to develop new methods for cover identification with a lower computational cost when compared to existing solutions, while keeping the good precision
334

Arquitetura e implementação de um sistema distribuído e recuperação de informação / Architecture and implementation of a distributed information retrieval system

Augusto, Luiz Daniel Creao 09 June 2010 (has links)
A busca por documentos relevantes ao usuário é um problema que se torna mais custoso conforme as bases de conhecimento crescem em seu ritmo acelerado. Este problema passou a resolvido por sistemas distribuídos, devido a sua escalabilidade e tolerância a falhas. O desenvolvimento de sistemas voltados a estas enormes bases de conhecimento -- e a maior de todas, a Internet -- é uma indústria que movimenta bilhões de dólares por ano no mundo inteiro e criou gigantes. Neste trabalho, são apresentadas e discutidas estruturas de dados e arquiteturas distribuídas que tratem o problema de indexar e buscar grandes coleções de documentos em sistemas distribuídos, alcançando grande desempenho e escalabilidade. Serão também discutidos alguns dos grandes sistemas de busca da atualidade, como o Google e o Apache Solr, além do planejamento de uma grande aplicação com protótipo em desenvolvimento. Um projeto próprio de sistema de busca distribuído foi implementado, baseado no Lucene, com idéias coletadas noutros trabalhos e outras novas. Em nossos experimentos, o sistema distribuído desenvolvido neste trabalho superou o Apache Solr com um vazão 37,4\\% superior e mostrou números muito superiores a soluções não-distribuídas em hardware de custo muito superior ao nosso cluster. / The search for relevant documents for the final user is a problem that becomes more expensive as the databases grown faster. The solution was brought by distributed systems, because of its scalability and fail tolerance. The development of systems focused on enormous databases -- including the World Wide Web -- is an industry that involves billions of dollars in the world and had created giants. In this work, will be presented and discussed data structures and distributed architectures related to the indexes and searching in great document collections in distributed systems, reaching high performance and scalability. We will also discuss some of the biggest search engines, such as Google e Apache Solr, and the planning of an application with a developing prototype. At last, a new project of a distributed searching system will be presented and implemented, based on Lucene, with ideas from other works and new ideas of our own. On our tests, the system developed in this work had throughput 37.4\\% higher than Apache Solr and revealed higher performance than non-distributed solutions in a hardware more expensive than our cluster.
335

Apoio à execução de experimentos controlados usando uma ontologia para empacotamento : a ferramenta OntoExpTool /

Pucci Neto, João. January 2015 (has links)
Orientador: Rogério Eduardo Garcia / Banca: Reginaldo Ré / Banca: Danilo Medeiros Eler / Resumo: A condução de experimentos controlados e suas replicações gera dados que são armazenados em um pacote de laboratório, o que contribui para a criação de um corpo de conhecimento sobre Engenharia de Software. A replicação de um estudo depende do pacote de laboratório, em especial, replicações inter grupos. A transferência do conhecimento armazenado nos pacotes de laboratório é dificultada pela falta de padrão na organização das informações e dificuldades na compreensão. O uso de ontologia na instanciação de pacotes de laboratórios pode facilitar a transferência de conhecimento entre grupos de pesquisa de Engenharia de Software. Este trabalho apresenta uma ferramenta computacional que executa um workflow definido para as atividades da experimentação (Definição, Planejamento, Execução, Análises e Interpretações, e Empacotamento). Ela permite acesso diferenciado para experimentador e participante. O experimentador tem acesso a todas atividades do processo experimental, em especial, controle sobre a atividade Operação. O participante do experimento tem acesso restrito à tarefa a ele associada, bem como os artefatos necessários. O pacote de laboratório é instanciado de acordo com a E xperOntology (ontologia de domínio para experimentos controlados) gerando um arquivo OWL ou XML. Para avaliar o uso da ferramenta foi registrado e empacotado um experimento controlado / Abstract: Conducting controlled experiments and their replication generates data to be stored in a lab package, which contributes to create a body ofknowledge on Software Engineering. Replication of a study depends on the lab package, in particular inter groups replication. The transfer of knowledge stored into lab packages is hampered by the lack of standard to organize information and its understanding. The use of ontology on lab packages instantiation might facilitate transfering of knowledge among Software Engineering research groups. This work presents a computational tool to execute the workflow defined for experimentation (Definition, Planning, Operation, Analysis and Packaging activities). The lab package is instantiated according to E xperOntology (domain ontology for controlled experiments) generating OWL or XML file. The tool allows different access to experimenter and participant roles. The experimenter has access to all activities of the experimental process, particularly to control the operation activity. The experiment participant has restricted access to the tasks associated to himher, as well as the required artifacts. To evaluate the use of the tool was recorded and packaged a controlled experiment / Mestre
336

Extração de dados de produtos em páginas de comércio eletrônico /

Godoy, Lucas Antonio Toledo. January 2015 (has links)
Orientador: Ivan Rizzo Guilherme / Coorientador: Daniel C. G. Pedronette / Banca: Fabrício Aparecido Breve / Banca: Jurandy Gomes de Almeida Junior / A extração de dados em páginas Web é um imp ortante problema que começou a ganhar força a partir da metade da década de 90. Um dos sub domínios dessa categoria de extração de dados p ossui como fo co os pro dutos em páginas de vendas online, dada a riqueza de informações disponibilizadas pelas lojas de e-commerce, ou comércio eletrônico, em seus portais de vendas. A extração dos dados dos produtos contidos nessas páginas, como nomes e preços, permite a criação de uma grande variedade de outras ferramentas que façam uso de tais dados com o objetivo de fornecer uma interpretação semântica a eles, como comparações entre preços praticados por diferentes lojas ou análises de hábitos de consumo. Diversas abordagens têm sido empregadas para se chegar à correta extração dos dados de interesse das páginas, fazendo uso de uma gama variada de técnicas para alcançarem seus objetivos, sendo que a técnica de Tree Matching apresenta grande destaque devido aos bons resultados. Este trabalho teve como objetivo implementar e avaliar o uso da técnica de Tree Matching para a extração de dados de produtos, especificamente o nome do produto, seu preço e, porventura, o preço promocional, em páginas de comércio eletrônico, a fim de determinar sua aplicabilidade a um sistema comercial. Foram propostas melhorias ao processo de extração com a finalidade de reduzir o tempo de resposta e aumentar a acurácia do algoritmo Generalized Simple Tree Matching. Resultados experimentais demonstraram uma precisão na extração dos dados de produtos na ordem de 93.6% sobre as páginas contidas na base Ecommerce DB e um ganho médio no tempo de resposta na ordem de 36% quando as páginas são reduzidas pelos métodos propostos neste trabalho / Web data extraction is an imp ortant issue which started b ecoming a strong line of study in the mid 90s. A sub domain of that category of study is the pro duct data extraction from online sales pages, given the wealth of information provided by stores through their websites. Data extraction of pro ducts contained in these kind of pages, like pro duct name and prices, enables the creation of a wide variety of other to ols that are able to use such data in order to provide a semantic interpretation to them, such as prices comparison among different stores and consumption habits analysis. Several approaches have b een applied to reach the target data extraction from Web pages. These approaches, in turn, use a wide range of techniques to reach their goals, and Tree Matching technique has great prominence due to its go o d results. This dissertation aimed to implement and evaluate the Tree Matching technique for the extraction of pro duct data, sp ecifically the pro duct name, its price and, p erhaps, the promotional price, on e-commerce pages, in order to determine its applicability to a commercial system. Improvements have b een prop osed to the extraction pro cess in order to reduce the resp onse time and increase the accuracy of the Generalized Simple Tree Matching algorithm. Experimental results demonstrated that the extraction process got an accuracy of about 93.6% on pages contained in Ecommerce Database and an average gain in response time of about 36% when the pages were reduced by the methods proposed in this study / Mestre
337

Empacotamento de experimentos controlados em engenharia de software : uma abordagem baseada em ontologia /

Scatalon, Lilian Passos. January 2013 (has links)
Orientador: Rogério Eduardo Garcia / Banca: Ellen Francine Barbosa / Banca: Solange Oliveira Rezende / Resumo: Engenharia de Software Experimental visa a avaliar e medir o desempenho de métodos, técnicas e ferramentas aplicadas em atividades de desenvolvimento de software. A meta é criar um corpo de conhecimento validado experimentalmente para apoiar as tomadas de decisões no domínio de Engenharia de Software. Construir esse corpo de conhecimento requer a condução de experimentos controlados e suas replicações a fim de generalizar os resultados obtidos. As informações e o conhecimento gerados por um experimento são registrados em seu pacote de laboratório, que deve ser revisado por um eventual grupo de pesquisa com a intenção de replicá-lo. Entretanto, pesquisadores enfrentam dificuldades ao revisar os pacotes de laboratório disponíveis. Um dos fatores desse problema é a falta de padronização dos pacotes de laboratório. Os experimentos são reportados com diferentes conjuntos de informações, o que também se constitui em uma barreira para a integração dos estudos em um corpo comum. Nesse contexto, considerando que compartilhamento e integração de conhecimento são aplicações recorrentes de ontologias, neste trabalho é proposto um workflow para aplicar uma ontologia ao empacotamento de experimentos controlados em Engenharia de Software. Para avaliar essa abordagem, foi implementada a ferramenta PontoLab++, que corresponde a uma instância do workflow que adota como padrão a EXPEROntology, uma ontologia para experimentos controlados / Abstract: Experimental Software Engineering attempts to assess the performance of methods, techniques and tools applied on software development activities. The goal is to build a body of experimentally validated knowledge in order to support decision making on Software Engineering domain. Building this body of knowledge requires to run controlled experiments and their replications in order to generalize the obtained results. The information and the knowledge generated by an experiment are registered in the so-called lab package, which must be reviewed by an eventual research group with the intention to replicate it. However, researchers face difficulties while reviewing the available lab packages. One of the factors that leads to this problem is the lab packages lack of standardization. The experiments are reported with different information sets, what is also a barrier to integrate studies in a common body. In this context, considering that knowledge sharing and integration are recurring applications of ontologies, in this work is proposed a workflow that applies an ontology to package controlled experiments in Software Engineering. In order to evaluate this approach, the tool Ponto- Lab++ was implemented, which corresponds to a workflow instance that adopts EXPEROntology, an ontology for controlled experiments / Mestre
338

Avaliação da recuperação no raciocínio baseado em caso estrutural e textual em um sistema de help-desk

Sá, Fábio Pessôa de 02 February 2007 (has links)
Made available in DSpace on 2015-02-04T21:45:27Z (GMT). No. of bitstreams: 1 fabio pessoa de sa.pdf: 639587 bytes, checksum: dd40b9a42e4fa77bca19755ccf66e42b (MD5) Previous issue date: 2007-02-02 / Raciocínio Baseado em Casos (RBC) é uma técnica da Inteligência Artificial que pode ser utilizada para diagnóstico, com a finalidade de resolver problemas. Esta dissertação apresenta uma avaliação da etapa da recuperação em duas abordagens de RBC: estrutural e textual. Para a recuperação dos casos é utilizada uma base de casos existente do domínio de help-desk. Essa base de casos é modelada de acordo com as abordagens de RBC estrutural e textual. As modelagens são desenvolvidas através de fundamentos teóricos da área de RBC e da contribuição do engenheiro de conhecimento. A recuperação no RBC estrutural utiliza a base de casos estruturada na forma de pares atributo-valor. A recuperação no RBC textual utiliza uma FAQ (Frequently Asked Questions) como base de casos. No RBC estrutural é utilizado o método do vizinho-mais-próximo em conjunto com a medida de similaridade denominada coeficiente de casamento simples. No RBC textual são utilizados modelos da área de Recuperação de Informação: préprocessamento do texto, pesagem de termos e uma medida de similaridade baseada no modelo de vetor.
339

Solving University entrance assessment using information retrieval / Resolvendo Vestibular utilizando recuperação de informação

Silveira, Igor Cataneo 05 July 2018 (has links)
Answering questions posed in natural language is a key task in Artificial Intelligence. However, producing a successful Question Answering (QA) system is challenging, since it requires text understanding, information retrieval, information extraction and text production. This task is made even harder by the difficulties in collecting reliable datasets and in evaluating techniques, two pivotal points for machine learning approaches. This has led many researchers to focus on Multiple-Choice Question Answering (MCQA), a special case of QA where systems must select the correct answers from a small set of alternatives. One particularly interesting type of MCQA is solving Standardized Tests, such as Foreign Language Proficiency exams, Elementary School Science exams and University Entrance exams. These exams provide easy-to-evaluate challenging multiple-choice questions of varying difficulties about large, but limited, domains. The Exame Nacional do Ensino Médio (ENEM) is a High School level exam taken every year by students all over Brazil. It is widely used by Brazilian universities as an entrance exam and is the world\'s second biggest university entrance examination in number of registered candidates. This exam consists in writing an essay and solving a multiple-choice test comprising questions on four major topics: Humanities, Language, Science and Mathematics. Questions inside each major topic are not segmented by standard scholar disciplines (e.g. Geography, Biology, etc.) and often require interdisciplinary reasoning. Moreover, the previous editions of the exam and their solutions are freely available online, making it a suitable benchmark for MCQA. In this work we automate solving the ENEM focusing, for simplicity, on purely textual questions that do not require mathematical thinking. We formulate the problem of answering multiple-choice questions as finding the candidate-answer most similar to the statement. We investigate two approaches for measuring textual similarity of candidate-answer and statement. The first approach addresses this as a Text Information Retrieval (IR) problem, that is, as a problem of finding in a database the most relevant document to a query. Our queries are made of statement plus candidate-answer and we use three different corpora as database: the first comprises plain-text articles extracted from a dump of the Wikipedia in Portuguese language; the second contains only the text given in the question\'s header and the third is composed by pairs of question and correct answer extracted from ENEM assessments. The second approach is based on Word Embedding (WE), a method to learn vectorial representation of words in a way such that semantically similar words have close vectors. WE is used in two manners: to augment IR\'s queries by adding related words to those on the query according to the WE model, and to create vectorial representations for statement and candidate-answers. Using these vectorial representations we answer questions either directly, by selecting the candidate-answer that maximizes the cosine similarity to the statement, or indirectly, by extracting features from the representations and then feeding them into a classifier that decides which alternative is the answer. Along with the two mentioned approaches we investigate how to enhance them using WordNet, a structured lexical database where words are connected according to some relations like synonymy and hypernymy. Finally, we combine different configurations of the two approaches and their WordNet variations by creating an ensemble of algorithms found by a greedy search. This ensemble chooses an answer by the majority voting of its components. The first approach achieved an average of 24% accuracy using the headers, 25% using the pairs database and 26.9% using Wikipedia. The second approach achieved 26.6% using WE indirectly and 28% directly. The ensemble achieved 29.3% accuracy. These results, slightly above random guessing (20%), suggest that these techniques can capture some of the necessary skills to solve standardized tests. However, more sophisticated techniques that perform text understanding and common sense reasoning might be required to achieve human-level performance. / Responder perguntas feitas em linguagem natural é uma capacidade há muito desejada pela Inteligência Artificial. Porém, produzir um sistema de Question Answering (QA) é uma tarefa desafiadora, uma vez que ela requer entendimento de texto, recuperação de informação, extração de informação e produção de texto. Além disso, a tarefa se torna ainda mais difícil dada a dificuldade em coletar datasets confiáveis e em avaliar as técnicas utilizadas, sendo estes pontos de suma importância para abordagens baseadas em aprendizado de máquina. Isto tem levado muitos pesquisadores a focar em Multiple-Choice Question Answering (MCQA), um caso especial de QA no qual os sistemas devem escolher a resposta correta dentro de um grupo de possíveis respostas. Um caso particularmente interessante de MCQA é o de resolver testes padronizados, tal como testes de proficiência linguística, teste de ciências para ensino fundamental e vestibulares. Estes exames fornecem perguntas de múltipla escolha de fácil avaliação sobre diferentes domínios e de diferentes dificuldades. O Exame Nacional do Ensino Médio (ENEM) é um exame realizado anualmente por estudantes de todo Brasil. Ele é utilizado amplamente por universidades brasileiras como vestibular e é o segundo maior vestibular do mundo em número de candidatos inscritos. Este exame consiste em escrever uma redação e resolver uma parte de múltipla escolha sobre questões de: Ciências Humanas, Linguagens, Matemática e Ciências Naturais. As questões nestes tópicos não são divididas por matérias escolares (Geografia, Biologia, etc.) e normalmente requerem raciocínio interdisciplinar. Ademais, edições passadas do exame e suas soluções estão disponíveis online, tornando-o um benchmark adequado para MCQA. Neste trabalho nós automatizamos a resolução do ENEM focando, por simplicidade, em questões puramente textuais que não requerem raciocínio matemático. Nós formulamos o problema de responder perguntas de múltipla escolha como um problema de identificar a alternativa mais similar à pergunta. Nós investigamos duas abordagens para medir a similaridade textual entre pergunta e alternativa. A primeira abordagem trata a tarefa como um problema de Recuperação de Informação Textual (IR), isto é, como um problema de identificar em uma base de dados qualquer qual é o documento mais relevante dado uma consulta. Nossas consultas são feitas utilizando a pergunta mais alternativa e utilizamos três diferentes conjuntos de texto como base de dados: o primeiro é um conjunto de artigos em texto simples extraídos da Wikipedia em português; o segundo contém apenas o texto dado no cabeçalho da pergunta e o terceiro é composto por pares de questão-alternativa correta extraídos de provas do ENEM. A segunda abordagem é baseada em Word Embedding (WE), um método para aprender representações vetoriais de palavras de tal modo que palavras semanticamente próximas possuam vetores próximos. WE é usado de dois modos: para aumentar o texto das consultas de IR e para criar representações vetoriais para a pergunta e alternativas. Usando essas representações vetoriais nós respondemos questões diretamente, selecionando a alternativa que maximiza a semelhança de cosseno em relação à pergunta, ou indiretamente, extraindo features das representações e dando como entrada para um classificador que decidirá qual alternativa é a correta. Junto com as duas abordagens nós investigamos como melhorá-las utilizando a WordNet, uma base estruturada de dados lexicais onde palavras são conectadas de acordo com algumas relações, tais como sinonímia e hiperonímia. Por fim, combinamos diferentes configurações das duas abordagens e suas variações usando WordNet através da criação de um comitê de resolvedores encontrado através de uma busca gulosa. O comitê escolhe uma alternativa através de voto majoritário de seus constituintes. A primeira abordagem teve 24% de acurácia utilizando o cabeçalho, 25% usando a base de dados de pares e 26.9% usando Wikipedia. A segunda abordagem conseguiu 26.6% de acurácia usando WE indiretamente e 28% diretamente. O comitê conseguiu 29.3%. Estes resultados, pouco acima do aleatório (20%), sugerem que essas técnicas conseguem captar algumas das habilidades necessárias para resolver testes padronizados. Entretanto, técnicas mais sofisticadas, capazes de entender texto e de executar raciocínio de senso comum talvez sejam necessárias para alcançar uma performance humana.
340

Ontologias na representação do conhecimento : uma ferramenta semântica para a ciência da informação /

Marin Neto, Antonio. January 2018 (has links)
Orientador: Edberto Ferneda / Banca: / Resumo: As ontologias surgiram a partir de discussões na Filosofia com o objetivo de discutir a essência das coisas, nos estudos da metafísica por Aristóteles, que dentre os diferentes ramos de investigação filosófica, tratava do conhecimento da essência de toda a realidade. A ontologia trata do estudo do "Ser" enquanto ser. O termo foi posteriormente utilizado em diferentes áreas como a Ciência da Computação (CC), Psicologia, Ciência da Informação (CI), entre outros. Nesse texto é apresentado um levantamento da utilização das ontologias na representação do conhecimento, identificando e destacando a forma de utilização da ontologia como ferramenta na CC e CI. Para tal, o trabalho inicial com uma contextualização do termo ontologia, desde a sua origem na Filosofia até a sua utilização em algumas das áreas do conhecimento. Em seguida é apresentado um levantamento sobre a representação do conhecimento, a destacar a CC e CI, bem como sobre a utilização da ontologia nesse contexto informacional. Afim de evidenciar a importância das ontologias para representação do conhecimento, também são listadas as principais metodologias de criação de ontologia, aprendizado de ontologia, bem como as ferramentas utilizadas para essas tarefas, além do gerenciamento e engenharia de ontologias. E por fim são apresentadas as considerações finais acerca da utilização das ontologias como ferramentas semânticas na CI e como as futuruas pesquisas podem se beneficiar desse trabalho como uma base para o entendime... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: Ontologies come from discussions in Philosophy to debate the essence of things in Aristotle's studies of metaphysics, which among the different branches of philosophical inquiry dealt with the knowledge of the essence of all reality. Ontology deals with the study of "Being" as being. The term was later used in different areas such as Computer Science (CC), Psychology, Information Science (IS), andothers. This thesis presents a survey of the use of ontologies in knowledge representation, identifying and highlighting how ontology is used as a semantic tool in CC and IS. For this, is presented a contextualization of the term ontology, from its origin in Philosophy to its use in some of the areas of knowledge. Next, a survey is presented on the representation of knowledge, highlighting the CC and IS, as well as on the use of the ontology in this informational context. In order to demonstrate the importance of ontologies for knowledge representation, the main methodologies for ontology creation, ontology learning, as well as the tools used for these tasks, as well as the management and engineering of ontologies are also listed. Finally, it's present the final considerations about the use of ontologies as semantic tools in IS and how future researches can benefit from this work as a basis for the understanding of ontologies as a semantic tool in IS. / Mestre

Page generated in 0.5295 seconds