Global ETD Search

611	Análise de métodos para programação de contextualização. / Analysis of methods for programming of page context classification. Marangon, Sílvio Luís 26 October 2006 (has links) A localização de páginas relevantes na Internet em atividades como clipping de notícias, detecção de uso indevido de marcas ou em serviços anti-phishing torna-se cada vez mais complexa devido a vários fatores como a quantidade cada vez maior de páginas na Web e a grande quantidade de páginas irrelevantes retornadas por mecanismos de busca. Em muitos casos as técnicas tradicionais utilizadas em mecanismos de busca na Internet, isto é, localização de termos em páginas e ordenação por relevância, não são suficientes para resolver o problema de localização de páginas específicas em atividades como as citadas anteriormente. A contextualização das páginas, ou seja, a classificação de páginas segundo um contexto definido pelo usuário baseando-se nas necessidades de uma atividade específica deve permitir uma busca mais eficiente por páginas na Internet. Neste trabalho é estudada a utilização de métodos de mineração na Web para a composição de métodos de contextualização de páginas, que permitam definir contextos mais sofisticados como seu assunto ou alguma forma de relacionamento. A contextualização de páginas deve permitir a solução de vários problemas na busca de páginas na Internet pela composição de métodos, que permitam a localização de páginas através de um conjunto de suas características, diferentemente de mecanismos de busca tradicionais que apenas localizam páginas que possuam um ou mais termos especificados. / Internet services as news clipping service, anti-phising, anti-plagiarism service and other that require intensive searching in Internet have a difficult work, because of huge number of existing pages. Search Engines try driver this problem, but search engines methods retrieve a lot of irrelevant pages, some times thousands of pages and more powerful methods are necessary to drive this problem. Page content, subject, hyperlinks or location can be used to define page context and create a more powerful method that can retrieve more relevant pages, improving precision. Classification of page context is defined as classification of a page by a set of its feature. This report presents a study about Web Mining, Search Engines and application of web mining technologies to classify page context. Page context classification applied to search engines must solve the problem of irrelevant pages flood by allowing search engines retrieve pages of a context. Information retrieval Mecanismos de busca Mineração de Web Recuperação de informação Search engines Web mining
612	Recuperação de documentos e pessoas em ambientes empresariais através de árvores de decisão. / Documents and people retrieval in enterprises using decision tree. Barth, Fabrício Jailson 29 May 2009 (has links) Este trabalho avalia o desempenho do uso de árvores de decisão como função de ordenação para documentos e pessoas em ambientes empresariais. Para tanto, identificouse atributos relevantes das entidades a serem recuperadas a partir da análise de: (i) dinâmica de produção e consumo de informações em um ambiente empresarial; (ii) algoritmos existentes na literatura para a recuperação de documentos e pessoas; e (iii) conceitos utilizados em funções de ordenação para domínios genéricos. Montou-se um ambiente de avaliação, utilizando a coleção de referência CERC, para avaliar a aplicabilidade do algoritmo C4.5 na obtenção de funções de ordenação para o domínio empresarial. O uso do algoritmo C4.5 para a construção de funções de ordenação mostrou-se parcialmente efetivo. Para a tarefa de recuperação de documentos não trouxe resultados bons. Porém, constatou-se que é possível controlar a forma de construção da função de ordenação a fim de otimizar a precisão nas primeiras posições do ranking ou otimizar a média das precisões (MAP). Para a tarefa de recuperação de pessoas o algoritmo C4.5 obteve uma árvore de decisão que consegue resultados melhores que todas as outras funções de ordenação avaliadas. OMAP obtido pela árvore de decisão foi 0, 83, enquanto que a média do MAP das outras funções de ordenação foi de 0, 74. Percebeu-se que a árvore de decisão utilizada para representar a função de ordenação contribui para a compreensão da composição dos diversos atributos utilizados na caracterização dos documentos e pessoas. A partir da análise da árvore de decisão utilizada como função de ordenação para pessoas foi possível entender que uma pessoa é considerada especialista em algum tópico se ela aparecer em muitos documentos, aparecer muitas vezes nos documentos e os documentos onde aparece têm uma relevância alta para a consulta. / This work evaluates the performance of using decision trees as ranking functions for documents and people in enterprises. It was identified relevant attributes of the entities to be retrieved from the analysis of: (i) the production and consumption of information behavior in an enterprise, (ii) algorithms for documents and people retrieval at literature, and (iii) the concepts used in ranking functions for generic domains. It was set up an evaluation environment, using the CERC collection, to evaluate the applicability of the C4.5 algorithm to obtain a ranking function for the enterprise domain. The use of C4.5 algorithm for the construction of ranking function was proved to be partially effective. In the case of documents retrieval the C4.5 has not found good results. However, it was found that is possible to control the way of building the ranking function in order to optimize the precision in the first positions of the ranking or optimize the mean average precision (MAP). For the task of people retrieval the C4.5 algorithm developed a ranking function that obtain better results than all other ranking functions assessed. The value of MAP obtained by decision tree was 0, 83, while the average MAP of other ranking functions was 0, 74. The decision tree used to represent the ranking function contributes to understanding the attributes composition used in the characterization of documents and people. Through the analysis of the decision tree used as ranking function for people, we could realise that a person is considered expert in any topic if he/she appear in many documents, appear many times in same documents and documents where he/she appears have a high relevance to the query. Aprendizado computacional Gestão da informação Information management Information retrieval Learning to rank Machine learning Recuperação da informação
613	Privacy Preservation for Nearby-Friends and Nearby-Places Location-Based Services Hezaveh, Maryam 24 May 2019 (has links) This thesis looks at the problem of discovering nearby friends and nearby places of interest in a privacy-preserving way using location-based services on mobile devices (e.g., smartphones). First, we propose a privacy-preserving protocol for the discovery of nearby friends. In this scenario, Alice wants to verify whether any of her friends are close to her or not. This should be done without disclosing any information about Alice to her friends and also any of the other parties’ information to Alice. We also demonstrate that our approach can be efficiently applied to other similar problems; in particular, we use it to provide a solution to the socialist millionaires' problem. Second, we propose a privacy-preserving protocol for discovering nearby places of interest. In this scenario, the proposed protocol allows Alice to learn whether there is any place that she is looking for near her. However, the location-based service (LBS) that tries to help Alice to find nearby places does not learn Alice’s location. Alice can send a request to the LBS database to retrieve nearby places of interest (POIs) without the database learning what Alice fetched by using private information retrieval (PIR). Our approach reduces the client side computational overhead by applying the grid square system and the POI types ideas to block-based PIR schemes to make it suitable for LBS smartphone applications. We also show our second approach is flexible and can support all types of block-based PIR schemes. As an item of independent interest, we also propose the idea of adding a machine learning algorithm to our nearby friends’ Android application to estimate the validity of a user's claimed location to prevent users from sending a fake location to the LBS application. Location-Based Services Privacy Homomorphic Encryption Private Information Retrieval Smartphones Application
614	Aprendizado de máquina parcialmente supervisionado multidescrição para realimentação de relevância em recuperação de informação na WEB / Partially supervised multi-view machine learning for relevance feedback in WEB information retrieval Soares, Matheus Victor Brum 28 May 2009 (has links) Atualmente, o meio mais comum de busca de informações é a WEB. Assim, é importante procurar métodos eficientes para recuperar essa informação. As máquinas de busca na WEB usualmente utilizam palavras-chaves para expressar uma busca. Porém, não é trivial caracterizar a informação desejada. Usuários diferentes com necessidades diferentes podem estar interessados em informações relacionadas, mas distintas, ao realizar a mesma busca. O processo de realimentação de relevância torna possível a participação ativa do usuário no processo de busca. A idéia geral desse processo consiste em, após o usuário realizar uma busca na WEB permitir que indique, dentre os sites encontrados, quais deles considera relevantes e não relevantes. A opinião do usuário pode então ser considerada para reordenar os dados, de forma que os sites relevantes para o usuário sejam retornados mais facilmente. Nesse contexto, e considerando que, na grande maioria dos casos, uma consulta retorna um número muito grande de sites WEB que a satisfazem, das quais o usuário é responsável por indicar um pequeno número de sites relevantes e não relevantes, tem-se o cenário ideal para utilizar aprendizado parcialmente supervisionado, pois essa classe de algoritmos de aprendizado requer um número pequeno de exemplos rotulados e um grande número de exemplos não-rotulados. Assim, partindo da hipótese que a utilização de aprendizado parcialmente supervisionado é apropriada para induzir um classificador que pode ser utilizado como um filtro de realimentação de relevância para buscas na WEB, o objetivo deste trabalho consiste em explorar algoritmos de aprendizado parcialmente supervisionado, mais especificamente, aqueles que utilizam multidescrição de dados, para auxiliar na recuperação de sites na WEB. Para avaliar esta hipótese foi projetada e desenvolvida uma ferramenta denominada C-SEARCH que realiza esta reordenação dos sites a partir da indicação do usuário. Experimentos mostram que, em casos que buscas genéricas, que o resultado possui um bom diferencial entre sites relevantes e irrelevantes, o sistema consegue obter melhores resultados para o usuário / As nowadays the WEB is the most common source of information, it is very important to find reliable and efficient methods to retrieve this information. However, the WEB is a highly volatile and heterogeneous information source, thus keyword based querying may not be the best approach when few information is given. This is due to the fact that different users with different needs may want distinct information, although related to the same keyword query. The process of relevance feedback makes it possible for the user to interact actively with the search engine. The main idea is that after performing an initial search in the WEB, the process enables the user to indicate, among the retrieved sites, a small number of the ones considered relevant or irrelevant according with his/her required information. The users preferences can then be used to rearrange sites returned in the initial search, so that relevant sites are ranked first. As in most cases a search returns a large amount of WEB sites which fits the keyword query, this is an ideal situation to use partially supervised machine learning algorithms. This kind of learning algorithms require a small number of labeled examples, and a large number of unlabeled examples. Thus, based on the assumption that the use of partially supervised learning is appropriate to induce a classifier that can be used as a filter for relevance feedback in WEB information retrieval, the aim of this work is to explore the use of a partially supervised machine learning algorithm, more specifically, one that uses multi-description data, in order to assist the WEB search. To this end, a computational tool called C-SEARCH, which performs the reordering of the searched results using the users feedback, has been implemented. Experimental results show that in cases where the keyword query is generic and there is a clear distinction between relevant and irrelevant sites, which is recognized by the user, the system can achieve good results Aprendizado de máquina Information retrieval Machine learning Mineração de textos Multi-view Multidescrição Recuperação de informação Text mining
615	Busca guiada de patentes de Bioinformática / Guided Search of Bioinformatics Patents Dutra, Marcio Branquinho 17 October 2013 (has links) As patentes são licenças públicas temporárias outorgadas pelo Estado e que garantem aos inventores e concessionários a exploração econômica de suas invenções. Escritórios de marcas e patentes recomendam aos interessados na concessão que, antes do pedido formal de uma patente, efetuem buscas em diversas bases de dados utilizando sistemas clássicos de busca de patentes e outras ferramentas de busca específicas, com o objetivo de certificar que a criação a ser depositada ainda não foi publicada, seja na sua área de origem ou em outras áreas. Pesquisas demonstram que a utilização de informações de classificação nas buscas por patentes melhoram a eficiência dos resultados das consultas. A pesquisa associada ao trabalho aqui reportado tem como objetivo explorar artefatos linguísticos, técnicas de Recuperação de Informação e técnicas de Classificação Textual para guiar a busca por patentes de Bioinformática. O resultado dessa investigação é o Sistema de Busca Guiada de Patentes de Bioinformática (BPS), o qual utiliza um classificador automático para guiar as buscas por patentes de Bioinformática. A utilização do BPS é demonstrada em comparações com ferramentas de busca de patentes atuais para uma coleção específica de patentes de Bioinformática. No futuro, deve-se experimentar o BPS em coleções diferentes e mais robustas. / Patents are temporary public licenses granted by the State to ensure to inventors and assignees economical exploration rights. Trademark and patent offices recommend to perform wide searches in different databases using classic patent search systems and specific tools before a patent\'s application. The goal of these searches is to ensure the invention has not been published yet, either in its original field or in other fields. Researches have shown the use of classification information improves the efficiency on searches for patents. The objetive of the research related to this work is to explore linguistic artifacts, Information Retrieval techniques and Automatic Classification techniques, to guide searches for Bioinformatics patents. The result of this work is the Bioinformatics Patent Search System (BPS), that uses automatic classification to guide searches for Bioinformatics patents. The utility of BPS is illustrated by a comparison with other patent search tools. In the future, BPS system must be experimented with more robust collections. automatic text classification bioinformática bioinformatics classificação automática de textos information retrieval ontologia ontology patent patentes recuperação de informação
616	Utilização de ontologias para busca em um sistema colaborativo de imagens arquitetônicas / On the use of ontologies for search in a collaborative system for architectural images Yucra, Marisol Solis 27 October 2016 (has links) A recuperação de informação é ainda um assunto essencial a melhorar nos diferentes tipos de sistemas web. Um tipo de sistema web que é muito utilizado na atualidade, é o sistema colaborativo. Estes sistemas permitem que os usuários estejam mais envolvidos, seja contribuindo com a inserção de textos, imagens ou dados, assim como utilizando etiquetas (tags) para identificar aos elementos existentes no sistema e que serão compartilhados com outros usuários. Nesta dissertação utilizamos um sistema colaborativo de compartilhamento de imagens arquitetônicas, onde os usuários podem inserir títulos e tags livremente para descrever uma imagem. Contudo as tags podem ter um significado ambíguo, resultando em imagens recuperadas que não são relevantes, quando são utilizadas técnicas tradicionais, como por exemplo busca booleana ou por palavra-chave. Além disso, os usuários podem utilizar consultas mais complexas utilizando uma linguagem livre, e utilizando as técnicas mencionadas podem recuperar informação não relevante. Assim, esta pesquisa aborda, a construção de uma ontologia no domínio arquitetônico denominada OntoArq, baseada no vocabulário controlado da USP e no tesauro experimental de arquitetura brasileira, a qual possibilitou fortalecer a relação entre as tags e os conceitos estruturados da ontologia, por meio de uso de hierarquias de classes e relações semânticas existentes entre as classes. A ontologia também ajudou a melhorar a recuperação de documentos para consultas complexas que utilizam uma linguagem livre, por meio da adição de termos arquitetônicos relacionados à consulta original dada pelo usuário. E quando a consulta expandida é utilizada em conjunto com o modelo de espaço vetorial existente no sistema de recuperação, auxilia na recuperação de imagens mais relevantes. A avaliação de nossa abordagem foi realizada através de experimentos que utilizaram os dados do sistema Arquigrafia, dois conjuntos de consultas e medidas de avaliação como precisão, cobertura e medida-F. Os conjuntos eram compostos por 11 consultas dada por especialistas da área de arquitetura e 9 consultas aleatórias extraídas do log de busca do Google Analytics do sistema Arquigrafia, tendo um total de 20 consultas. Para nossos experimentos utilizamos as 20 consultas que pertenciam aos dois conjuntos de consultas mencionados, dentre os quais obtivemos resultados positivos para 16 consultas, considerando um valor de precisão, cobertura e medida-F maior do que 50%, com nossa abordagem. Em comparação a outra abordagem, que usa a técnica de busca boolena, obteve-se 1 consulta com resultado positivo, também considerando precisão, cobertura e medida-F maior do que 50%. Assim, podemos concluir que nossa abordagem obteve melhores resultados. Além disso, pelos resultados obtidos, consideramos que nossa abordagem, ao utilizar uma ontologia, pode ser um inicio de como empregar as ontologias como ferramenta de apoio para dar um maior significado semântico às tags que existem num sistema colaborativo e como as ontologias permitem a adição de termos na consulta, sendo estes termos relacionados a uma área do conhecimento, que para nosso caso, a área da arquitetura. Desta maneira podemos recuperar os documentos associados às imagens, os quais serão mais relevantes para consulta feita pelo usuário. / Information retrieval is an essential issue in different web system that needs to be improved. In recent years, collaborative systems have gained popularity. In this thesis, we use a collaborative system of architectural image sharing, that users can add titles and tags freely to describe an image. However, the tags may have an ambiguous meaning, resulting in recovering images that are not relevant when traditional technics are used, such as Boolean and keyword search. In addition, users usually use natural language in their queries and with the mentioned techniques it is less posible to retrieve relevant information. Our research approach is to construct an ontology for architectural domain, based on the controlled vocabulary of USP and the experimental thesaurus architecture information. The ontology allowed to enhance the relationship between tags and structured concepts of ontology, improving the information retrieval through the expanded terms. And when the expanded query is used in conjunction with the vector space model in the recovery system, it helps retrieve more relevant images. The evaluation of our approach was carried out through experiments that used data of Arquigrafia system, two sets of queries were created and metrics like precision, coverage and measure-F were used. The sets consisted of 11 queries given by architecture experts and 9 random queries extracted from Google Analytics logs of the Arquigrafia system, taking a total of 20 queries. In our experiments we used the 20 queries from the two sets, among which we obtained positive results for 16 queries, considering precision, coverage and F-measure values greater than 50%, applying our approach. In comparison to another approach, which uses the Boolean search technique, we obtained 1 query with positive result, also considering the same metrics with values greater than 50%. Thus, we can conclude that our approach has achieved better results. In addition, from the results obtained, we consider that our approach using an ontology can be a beginning of how to use ontologies as a support tool to give a greater semantic meaning to tags that exist in a collaborative system, and how Ontologies allow the addition of semantic terms in queries, like terms related to a knowledge area, in our case the area of architecture. In this way we can retrieve documents associated with images, which will be more relevant to the user\'s query. Arquigrafia Arquigrafia Collaborative systems Information retrieval Ontologias Ontologies Recuperação da informação Sistemas colaborativos Vocabulário controlado Vocabulary controlled
617	Recuperação de informação com realimentação de relevância apoiada em visualização / Information retrieval with relevance feedback on supported display Melo, Diogo Oliveira de 16 April 2014 (has links) A mineração de grandes coleções de textos, imagens e outros tipos de documentos tem se mostrado uma forma efetiva para exploração e interação com grandes quantidades de informações disponíveis, principalmente na World Wide Web. Neste contexto, diversos trabalhos têm tratado de mineração tanto de coleções estáticas quanto de coleções dinâmicas de objetos. Adicionalmente, técnicas de visualização têm sido propostas para auxiliar o processo de entendimento e de exploração dessas coleções, permitindo que a interação do usuário melhore o processo de mineração (user in the loop). No caso específico de dados dinâmicos, foi desenvolvido por Roberto Pinho e colegas uma técnica incremental (IncBoard) com o objetivo de visualizar coleções dinâmicas de elementos. Tal técnica posiciona os elementos em um grid bidimensional baseado na similaridade de conteúdo entre os elementos. Procura-se manter elementos similares próximos no grid. A técnica foi avaliada em um processo que simulava a chegada de novos dados, apresentando iterativamente novos elementos a serem posicionados no mapa corrente. Observa-se, entretanto, que um aspecto importante de tal ferramenta seria a possibilidade de novos elementos - a serem exibidos no mapa, mantendo coerência com o mapa corrente - serem selecionados a partir do interesse demonstrado pelo usuário. Realimentação de relevância tem se mostrado muito efetiva na melhoria da acurácia do processo de recuperação. Entretanto, um problema ainda em aberto é como utilizar técnicas de realimentação de relevância em conjunto com exploração visual no processo de recuperação de informação. Neste trabalho, é investigado o desenvolvimento de técnicas de exploração visual utilizando realimentação de relevância para sistemas de recuperação de informação de domínio específico. O Amuzi, um sistema de busca de músicas, foi desenvolvido como uma prova de conceito para a abordagem investigada. Dados coletados da utilização do Amuzi, por usuários, sugerem que a combinação de tais técnicas oferece vantagens, quando utilizadas em determinados domínios. Nesta dissertação, a recuperação de informação com realimentação de relevância apoiada em visualização, bem como o sistema Amuzi são descritos. Também são analisados os registros de utilização dos usuários / The mining of large text collections, images and other types of digital objects has shown to be a very effective way to explore and interact with big data, specially on the World Wide Web. On that subject, many researchers have been done on data mining of static and dynamic collections. Moreover, data visualization techniques have been proposed to aid on the understanding and exploration of such data collections, also allowing users to interact with data, user in the loop. On the speciific subject of dynamic data, Roberto Pinho and colleagues have developed an incremental technique, called Inc-Board, which aims to visualize dynamic data collections. IncBoard displays the documents on a two dimensional grid in a way that similar elements tends to be close to each other. This technique was evaluated in a process that simulated the arrival of new data elements, iteratively inserting new elements on the grid. Nonetheless, it would be useful if the user could interact with such documents to point out which are relevant and which are not relevant to his/her search. Relevance Feedback has also shown to be effective on improving the accuracy of Information Retrieval techniques. An issue that still open is how to combine data visualization and Relevance Feedback to improve Information Retrieval. On this dissertation, the development of techniques with data visualization and Relevance Feedback are investigated to aid on the Information Retrieval task, for specific domains. Amuzi is an Information Retrieval system, built to be a proof of concept for the investigated approach. Data collected from the usage of the system suggests that combining such techniques may outperform traditional Information Retrieval systems when applied for specifc domains. This dissertation has the description the information retrieval process with feedback relevance supported by visualization and the Amuzi system. Usage log are processed and analyzed to evaluate the investigated approach Exploração visual Information retrieval Realimentação de relevância Recuperação de informação Relevance feedback Visual exploration
618	Identificação de covers a partir de grandes bases de dados de músicas / Cover song identification using big data bases Ferreira, Martha Dais 30 April 2014 (has links) Acrescente capacidade de armazenamento introduziu novos desafios no contexto de exploração de grandes bases de dados de músicas. Esse trabalho consiste em investigar técnicas de comparação de músicas representadas por sinais polifônicos, com o objetivo de encontrar similaridades, permitindo a identificação de músicas cover em grandes bases de dados. Técnicas de extração de características a partir de sinais musicais foram estudas, como também métricas de comparação a partir das características obtidas. Os resultados mostraram que é possível encontrar um novo método de identificação de covers com um menor custo computacional do que os existentes, mantendo uma boa precisão / The growing capacity in storage and transmission of songs has introduced a new challenges in the context of large music data sets exploration. This work aims at investigating techniques for comparison of songs represented by polyphonic signals, towards identifying cover songs in large data sets. Techniques for music feature extraction were evaluated and compared. The results show that it is possible to develop new methods for cover identification with a lower computational cost when compared to existing solutions, while keeping the good precision Agrupamento de dados Cover song identification Data clustering Identificação de covers Music information retrieval Recuperação da informação de música
619	Arquitetura e implementação de um sistema distribuído e recuperação de informação / Architecture and implementation of a distributed information retrieval system Augusto, Luiz Daniel Creao 09 June 2010 (has links) A busca por documentos relevantes ao usuário é um problema que se torna mais custoso conforme as bases de conhecimento crescem em seu ritmo acelerado. Este problema passou a resolvido por sistemas distribuídos, devido a sua escalabilidade e tolerância a falhas. O desenvolvimento de sistemas voltados a estas enormes bases de conhecimento -- e a maior de todas, a Internet -- é uma indústria que movimenta bilhões de dólares por ano no mundo inteiro e criou gigantes. Neste trabalho, são apresentadas e discutidas estruturas de dados e arquiteturas distribuídas que tratem o problema de indexar e buscar grandes coleções de documentos em sistemas distribuídos, alcançando grande desempenho e escalabilidade. Serão também discutidos alguns dos grandes sistemas de busca da atualidade, como o Google e o Apache Solr, além do planejamento de uma grande aplicação com protótipo em desenvolvimento. Um projeto próprio de sistema de busca distribuído foi implementado, baseado no Lucene, com idéias coletadas noutros trabalhos e outras novas. Em nossos experimentos, o sistema distribuído desenvolvido neste trabalho superou o Apache Solr com um vazão 37,4\\% superior e mostrou números muito superiores a soluções não-distribuídas em hardware de custo muito superior ao nosso cluster. / The search for relevant documents for the final user is a problem that becomes more expensive as the databases grown faster. The solution was brought by distributed systems, because of its scalability and fail tolerance. The development of systems focused on enormous databases -- including the World Wide Web -- is an industry that involves billions of dollars in the world and had created giants. In this work, will be presented and discussed data structures and distributed architectures related to the indexes and searching in great document collections in distributed systems, reaching high performance and scalability. We will also discuss some of the biggest search engines, such as Google e Apache Solr, and the planning of an application with a developing prototype. At last, a new project of a distributed searching system will be presented and implemented, based on Lucene, with ideas from other works and new ideas of our own. On our tests, the system developed in this work had throughput 37.4\\% higher than Apache Solr and revealed higher performance than non-distributed solutions in a hardware more expensive than our cluster. arquivo invertido distributed systems information retrieval inverted file recuperação de informação sistemas distribuídos
620	Approximate content match of multimedia data with natural language queries. January 1995 (has links) Wong Kit-pui. / Thesis (M.Phil.)--Chinese University of Hong Kong, 1995. / Includes bibliographical references (leaves 117-119). / ACKNOWLEDGMENT --- p.4 / ABSTRACT --- p.6 / KEYWORDS --- p.7 / Chapter Chapter 1 --- INTRODUCTION --- p.9 / Chapter Chapter 2 --- APPROACH --- p.14 / Chapter 2.1 --- Challenges --- p.15 / Chapter 2.2 --- Knowledge Representation --- p.16 / Chapter 2.3 --- Proposed Information Model --- p.17 / Chapter 2.4 --- Restricted Language Set --- p.20 / Chapter Chapter 3 --- THEORY --- p.26 / Chapter 3.1 --- Features --- p.26 / Chapter 3.1.1 --- Superficial Details --- p.30 / Chapter 3.1.2 --- Hidden Details --- p.31 / Chapter 3.2 --- Matching Process --- p.36 / Chapter 3.2.1 --- Inexact Match --- p.37 / Chapter 3.2.2 --- An Illustration --- p.38 / Chapter 3.2.2.1 --- Stage 1 - Query Parsing --- p.39 / Chapter 3.2.2.2 --- Stage 2 - Gross Filtering --- p.41 / Chapter 3.2.2.3 --- Stage 3 - Fine Scoring --- p.42 / Chapter 3.3 --- Extending Knowledge --- p.46 / Chapter 3.3.1 --- Attributes with Intermediate Closeness --- p.47 / Chapter 3.3.2 --- Comparing Different Entities --- p.48 / Chapter 3.4 --- Putting Concepts to Work --- p.50 / Chapter Chapter 4 --- IMPLEMENTATION --- p.52 / Chapter 4.1 --- Overall Structure --- p.53 / Chapter 4.2 --- Choosing NL Parser --- p.55 / Chapter 4.3 --- Ambiguity --- p.56 / Chapter 4.4 --- Storing Knowledge --- p.59 / Chapter 4.4.1 --- Type Hierarchy --- p.60 / Chapter 4.4.1.1 --- Node Name --- p.61 / Chapter 4.4.1.2 --- Node Identity --- p.61 / Chapter 4.4.1.3 --- Operations --- p.68 / Chapter 4.4.1.3.1 --- Direct Edit --- p.68 / Chapter 4.4.1.3.2 --- Interactive Edit --- p.68 / Chapter 4.4.2 --- Implicit Features --- p.71 / Chapter 4.4.3 --- Database of Captions --- p.72 / Chapter 4.4.4 --- Explicit Features --- p.73 / Chapter 4.4.5 --- Transformation Map --- p.74 / Chapter Chapter 5 --- ILLUSTRATION --- p.78 / Chapter 5.1 --- Gloss Tags --- p.78 / Chapter 5.2 --- Parsing --- p.81 / Chapter 5.2.1 --- Resolving Nouns and Verbs --- p.81 / Chapter 5.2.2 --- Resolving Adjectives and Adverbs --- p.84 / Chapter 5.2.3 --- Normalizing Features --- p.89 / Chapter 5.2.4 --- Resolving Prepositions --- p.90 / Chapter 5.3 --- Matching --- p.93 / Chapter 5.3.1 --- Gross Filtering --- p.94 / Chapter 5.3.2 --- Fine Scoring --- p.96 / Chapter Chapter 6 --- DISCUSSION --- p.101 / Chapter 6.1 --- Performance Measures --- p.101 / Chapter 6.1.1 --- General Parameters --- p.101 / Chapter 6.1.2 --- Experiments --- p.103 / Chapter 6.1.2.1 --- Inexact Matching Behaviour --- p.103 / Chapter 6.1.2.2 --- Exact Matching Behaviour --- p.106 / Chapter 6.2 --- Difficulties --- p.108 / Chapter 6.3 --- Possible Improvement --- p.110 / Chapter 6.4 --- Conclusion --- p.112 / REFERENCES --- p.117 / APPENDICES --- p.121 / Appendix A Notation --- p.121 / Appendix B Glossary --- p.123 / Appendix C Proposed Feature Slots and Value --- p.126 / Appendix D Sample Captions and Queries --- p.128 / Appendix E Manual Pages --- p.130 / Appendix F Directory Structure --- p.136 / Appendix G Imported Toolboxes --- p.137 / Appendix H Program Listing --- p.140 Computational linguistics Information retrieval Multimedia systems

Search results