Global ETD Search

61	Comportamento de busca e recuperação da informação em serviços de descoberta em rede no contexto acadêmico / Behavior of information seeking and retrieval in web discovery services in the academic context / Comportamiento de búsqueda y recuperación de información en plataformas de descubrimiento en contexto académico Pavão, Caterina Marta Groposo January 2014 (has links) Esta pesquisa teve como objetivo principal desenvolver um modelo de comportamento de busca e recuperação da informação num ambiente ainda não explorado: os serviços de descoberta em rede. Para este fim, foi aplicada a metodologia da teoria fundamentada, o que permitiu conduzir, controlar e organizar a coleta de dados. Os dados formaram a base da teoria e a análise dos mesmos originou os conceitos que foram construídos. Os dados foram coletados durante a interação dos entrevistados com o serviço de descoberta em rede enquanto realizavam tarefas de busca e recuperação da informação. Os entrevistados foram selecionados aleatoriamente entre os usuários das bibliotecas da Universidad Complutense de Madrid. O modelo de comportamento de busca e recuperação da informação encontrado sugere duas etapas. O comportamento durante a busca relaciona-se com a maneira como os entrevistados reconhecem o problema, como exploram as opções de busca e como distinguem a informação para formular a expressão de busca. O comportamento de recuperação está relacionado à navegação e à diferenciação até a obtenção de uma lista de resultados considerados satisfatórios. A partir da lista de resultados é declarada a solução do problema por meio do reconhecimento da relevância, avaliação das fontes e seleção da informação. O referido modelo foi confrontado com modelos já referendados. Foram identificadas semelhanças com aqueles que pretendem entender o comportamento do usuário de forma mais ampla, levando em conta sua história, valores, contexto no qual está inserido e conhecimentos construídos a partir das experiências anteriores. Além disso, a pesquisa pretende colaborar com os aspectos metodológicos relacionados ao entendimento e a construção de uma teoria fundamentada. Conclui-se que é necessário proporcionar um maior conhecimento, aumentar a compreensão e fornecer um guia para a ação, com foco no usuário, para a adoção de serviços de descoberta de web em bibliotecas universitárias. Sugere aprimoramentos na sua customização e treinamentos para dotar os usuários de condições que lhes permitam extrair o máximo proveito possível das potencialidades deste tipo de ferramenta. / This research work aimed to develop a model of information seeking and retrieval behavior in an environment yet unexplored: the web discovery services. To this end, grounded theory methodologies were applied, which enabled the driving, tracking, and organizing of data collection. The data formed the basis of the theory and data analysis originated the concepts that were built. Data was collected during the interaction of interviewees with the web discovery service while performing tasks of information seeking and retrieval. The subjects were randomly selected from among the library users at the Universidad Complutense de Madrid. The information seeking and retrieval behavior model found suggests two steps. Behavior during searching is related to the way the respondents recognize the problem, exploit the searching options and distinguish information to formulate the expression. Behavior during information retrieval is related to navigation and differentiation to obtain a list of satisfactory results. From the list of results the solution of the problem is declared by recognizing the relevance, evaluation of sources and selection of information. The proposed model was confronted with models already established. Similarities to models that aim to understand user behavior more broadly, taking into account its history, values, context and knowledge constructed from previous experiences were identified. Besides, this research intends to collaborate with the methodological aspects related to the understanding and construction of a grounded theory. It concludes that is necessary to provide greater insight, enhance understanding and provide a guide to action, with a focus on the user, to the adoption of web discovery services in university libraries. It suggest customization and training to provide users with conditions that allow them to extract the maximum possible advantage of this type of tool. / Esta investigación tuvo como objetivo desarrollar un modelo de comportamiento para la búsqueda y recuperación de información en un entorno aún no explorado: las plataformas de descubrimiento. Para ello, se aplicó la metodología de la teoría fundamentada, lo que permitió dirigir, controlar y organizar la recopilación de datos. Los datos fueron la base de la teoría y del análisis se originaron los conceptos que fueron construidos. Los datos fueron recolectados durante la interacción de los participantes con la plataforma de descubrimiento mientras desempeñaban tareas de búsqueda y recuperación de información. Los encuestados fueron seleccionados al azar de entre los usuarios de las bibliotecas de la Universidad Complutense de Madrid. El modelo de comportamiento de búsqueda y de recuperación de la información encontrado sugiere dos etapas. El comportamiento durante la búsqueda se refiere a cómo los encuestados reconocen el problema, explotan las opciones de búsqueda y cómo distinguen la información para formular la expresión de búsqueda. El comportamiento durante la recuperación está relacionado con la navegación y la diferenciación para obtener una lista de resultados satisfactorios. En la lista de resultados se declara la solución del problema mediante el reconocimiento de la pertinencia, evaluación y selección de fuentes de información. El modelo se confronta a modelos ya aprobados. Se identificaron similitudes con los que tratan de comprender el comportamiento del usuario de manera más amplia, teniendo en cuenta su historia, valores, el contexto en el que se inserta y el conocimiento construido a partir de las experiencias anteriores. Por otra parte, la investigación tiene la intención de colaborar con los aspectos metodológicos relacionados con la comprensión y la construcción de una teoría fundamentada. Se concluye que es necesario proporcionar un mayor conocimiento, mejorar la comprensión y proporcionar un guía de acción, centrado en el usuario para la adopción de plataformas de descubrimiento en bibliotecas universitarias. Sugiere mejoras en su personalización y formación para dotar a los usuarios de las condiciones que les permitan sacar el máximo provecho posible del potencial de este tipo de herramienta. Serviço de descoberta em rede Biblioteca universitária Teoria fundamentada Recuperação da informação Busca de informação Comportamento do usuário Web discovery service University library Grounded theory Plataformas de descubrimiento Bibliotecas universitarias Teoría fundamentada
62	Content-based audio search: from fingerprinting to semantic audio retrieval Cano Vila, Pedro 27 April 2007 (has links) Aquesta tesi tracta de cercadors d'audio basats en contingut. Específicament, tracta de desenvolupar tecnologies que permetin fer més estret l'interval semàntic o --semantic gap' que, a avui dia, limita l'ús massiu de motors de cerca basats en contingut. Els motors de cerca d'àudio fan servir metadades, en la gran majoria generada per editors, per a gestionar col.leccions d'àudio. Tot i ser una tasca àrdua i procliu a errors, l'anotació manual és la pràctica més habitual. Els mètodes basats en contingut àudio, és a dir, aquells algorismes que extreuen automàticament etiquetes descriptives de fitxers d'àudio, no són generalment suficientment madurs per a permetre una interacció semàntica. En la gran majoria, els mètodes basats en contingut treballen amb descriptors de baix nivell, mentre que els descriptors d'alt nivell estan més enllà de les possibilitats actuals. En la tesi explorem mètodes, que considerem pas previs per a atacar l'interval semàntic. / This dissertation is about audio content-based search. Specifically, it is on developing technologies for bridging the semantic gap that currently prevents wide-deployment of audio content-based search engines.Audio search engines rely on metadata, mostly human generated, to manage collections of audio assets.Even though time-consuming and error-prone, human labeling is a common practice.Audio content-based methods, algorithms that automatically extract description from audio files, are generally not mature enough to provide a user friendly representation for interacting with audio content. Mostly, content-based methods are based on low-level descriptions, while high-level or semantic descriptions are beyond current capabilities. In this thesis we explore technologies that can help close the semantic gap. classificacio d'audio ontologies identificacio d'audio recuperacio d'informacio audio cerca d'audio basada en contingut audio classification wordnet ontology audio fingerprinting audio retrieval content based audio search recuperación de información de audio identificación de audio ontologías clasificación de áudio 531/534 68 78
63	Comportamento de busca e recuperação da informação em serviços de descoberta em rede no contexto acadêmico / Behavior of information seeking and retrieval in web discovery services in the academic context / Comportamiento de búsqueda y recuperación de información en plataformas de descubrimiento en contexto académico Pavão, Caterina Marta Groposo January 2014 (has links) Esta pesquisa teve como objetivo principal desenvolver um modelo de comportamento de busca e recuperação da informação num ambiente ainda não explorado: os serviços de descoberta em rede. Para este fim, foi aplicada a metodologia da teoria fundamentada, o que permitiu conduzir, controlar e organizar a coleta de dados. Os dados formaram a base da teoria e a análise dos mesmos originou os conceitos que foram construídos. Os dados foram coletados durante a interação dos entrevistados com o serviço de descoberta em rede enquanto realizavam tarefas de busca e recuperação da informação. Os entrevistados foram selecionados aleatoriamente entre os usuários das bibliotecas da Universidad Complutense de Madrid. O modelo de comportamento de busca e recuperação da informação encontrado sugere duas etapas. O comportamento durante a busca relaciona-se com a maneira como os entrevistados reconhecem o problema, como exploram as opções de busca e como distinguem a informação para formular a expressão de busca. O comportamento de recuperação está relacionado à navegação e à diferenciação até a obtenção de uma lista de resultados considerados satisfatórios. A partir da lista de resultados é declarada a solução do problema por meio do reconhecimento da relevância, avaliação das fontes e seleção da informação. O referido modelo foi confrontado com modelos já referendados. Foram identificadas semelhanças com aqueles que pretendem entender o comportamento do usuário de forma mais ampla, levando em conta sua história, valores, contexto no qual está inserido e conhecimentos construídos a partir das experiências anteriores. Além disso, a pesquisa pretende colaborar com os aspectos metodológicos relacionados ao entendimento e a construção de uma teoria fundamentada. Conclui-se que é necessário proporcionar um maior conhecimento, aumentar a compreensão e fornecer um guia para a ação, com foco no usuário, para a adoção de serviços de descoberta de web em bibliotecas universitárias. Sugere aprimoramentos na sua customização e treinamentos para dotar os usuários de condições que lhes permitam extrair o máximo proveito possível das potencialidades deste tipo de ferramenta. / This research work aimed to develop a model of information seeking and retrieval behavior in an environment yet unexplored: the web discovery services. To this end, grounded theory methodologies were applied, which enabled the driving, tracking, and organizing of data collection. The data formed the basis of the theory and data analysis originated the concepts that were built. Data was collected during the interaction of interviewees with the web discovery service while performing tasks of information seeking and retrieval. The subjects were randomly selected from among the library users at the Universidad Complutense de Madrid. The information seeking and retrieval behavior model found suggests two steps. Behavior during searching is related to the way the respondents recognize the problem, exploit the searching options and distinguish information to formulate the expression. Behavior during information retrieval is related to navigation and differentiation to obtain a list of satisfactory results. From the list of results the solution of the problem is declared by recognizing the relevance, evaluation of sources and selection of information. The proposed model was confronted with models already established. Similarities to models that aim to understand user behavior more broadly, taking into account its history, values, context and knowledge constructed from previous experiences were identified. Besides, this research intends to collaborate with the methodological aspects related to the understanding and construction of a grounded theory. It concludes that is necessary to provide greater insight, enhance understanding and provide a guide to action, with a focus on the user, to the adoption of web discovery services in university libraries. It suggest customization and training to provide users with conditions that allow them to extract the maximum possible advantage of this type of tool. / Esta investigación tuvo como objetivo desarrollar un modelo de comportamiento para la búsqueda y recuperación de información en un entorno aún no explorado: las plataformas de descubrimiento. Para ello, se aplicó la metodología de la teoría fundamentada, lo que permitió dirigir, controlar y organizar la recopilación de datos. Los datos fueron la base de la teoría y del análisis se originaron los conceptos que fueron construidos. Los datos fueron recolectados durante la interacción de los participantes con la plataforma de descubrimiento mientras desempeñaban tareas de búsqueda y recuperación de información. Los encuestados fueron seleccionados al azar de entre los usuarios de las bibliotecas de la Universidad Complutense de Madrid. El modelo de comportamiento de búsqueda y de recuperación de la información encontrado sugiere dos etapas. El comportamiento durante la búsqueda se refiere a cómo los encuestados reconocen el problema, explotan las opciones de búsqueda y cómo distinguen la información para formular la expresión de búsqueda. El comportamiento durante la recuperación está relacionado con la navegación y la diferenciación para obtener una lista de resultados satisfactorios. En la lista de resultados se declara la solución del problema mediante el reconocimiento de la pertinencia, evaluación y selección de fuentes de información. El modelo se confronta a modelos ya aprobados. Se identificaron similitudes con los que tratan de comprender el comportamiento del usuario de manera más amplia, teniendo en cuenta su historia, valores, el contexto en el que se inserta y el conocimiento construido a partir de las experiencias anteriores. Por otra parte, la investigación tiene la intención de colaborar con los aspectos metodológicos relacionados con la comprensión y la construcción de una teoría fundamentada. Se concluye que es necesario proporcionar un mayor conocimiento, mejorar la comprensión y proporcionar un guía de acción, centrado en el usuario para la adopción de plataformas de descubrimiento en bibliotecas universitarias. Sugiere mejoras en su personalización y formación para dotar a los usuarios de las condiciones que les permitan sacar el máximo provecho posible del potencial de este tipo de herramienta. Serviço de descoberta em rede Biblioteca universitária Teoria fundamentada Recuperação da informação Busca de informação Comportamento do usuário Web discovery service University library Grounded theory Plataformas de descubrimiento Bibliotecas universitarias Teoría fundamentada
64	Comportamento de busca e recuperação da informação em serviços de descoberta em rede no contexto acadêmico / Behavior of information seeking and retrieval in web discovery services in the academic context / Comportamiento de búsqueda y recuperación de información en plataformas de descubrimiento en contexto académico Pavão, Caterina Marta Groposo January 2014 (has links) Esta pesquisa teve como objetivo principal desenvolver um modelo de comportamento de busca e recuperação da informação num ambiente ainda não explorado: os serviços de descoberta em rede. Para este fim, foi aplicada a metodologia da teoria fundamentada, o que permitiu conduzir, controlar e organizar a coleta de dados. Os dados formaram a base da teoria e a análise dos mesmos originou os conceitos que foram construídos. Os dados foram coletados durante a interação dos entrevistados com o serviço de descoberta em rede enquanto realizavam tarefas de busca e recuperação da informação. Os entrevistados foram selecionados aleatoriamente entre os usuários das bibliotecas da Universidad Complutense de Madrid. O modelo de comportamento de busca e recuperação da informação encontrado sugere duas etapas. O comportamento durante a busca relaciona-se com a maneira como os entrevistados reconhecem o problema, como exploram as opções de busca e como distinguem a informação para formular a expressão de busca. O comportamento de recuperação está relacionado à navegação e à diferenciação até a obtenção de uma lista de resultados considerados satisfatórios. A partir da lista de resultados é declarada a solução do problema por meio do reconhecimento da relevância, avaliação das fontes e seleção da informação. O referido modelo foi confrontado com modelos já referendados. Foram identificadas semelhanças com aqueles que pretendem entender o comportamento do usuário de forma mais ampla, levando em conta sua história, valores, contexto no qual está inserido e conhecimentos construídos a partir das experiências anteriores. Além disso, a pesquisa pretende colaborar com os aspectos metodológicos relacionados ao entendimento e a construção de uma teoria fundamentada. Conclui-se que é necessário proporcionar um maior conhecimento, aumentar a compreensão e fornecer um guia para a ação, com foco no usuário, para a adoção de serviços de descoberta de web em bibliotecas universitárias. Sugere aprimoramentos na sua customização e treinamentos para dotar os usuários de condições que lhes permitam extrair o máximo proveito possível das potencialidades deste tipo de ferramenta. / This research work aimed to develop a model of information seeking and retrieval behavior in an environment yet unexplored: the web discovery services. To this end, grounded theory methodologies were applied, which enabled the driving, tracking, and organizing of data collection. The data formed the basis of the theory and data analysis originated the concepts that were built. Data was collected during the interaction of interviewees with the web discovery service while performing tasks of information seeking and retrieval. The subjects were randomly selected from among the library users at the Universidad Complutense de Madrid. The information seeking and retrieval behavior model found suggests two steps. Behavior during searching is related to the way the respondents recognize the problem, exploit the searching options and distinguish information to formulate the expression. Behavior during information retrieval is related to navigation and differentiation to obtain a list of satisfactory results. From the list of results the solution of the problem is declared by recognizing the relevance, evaluation of sources and selection of information. The proposed model was confronted with models already established. Similarities to models that aim to understand user behavior more broadly, taking into account its history, values, context and knowledge constructed from previous experiences were identified. Besides, this research intends to collaborate with the methodological aspects related to the understanding and construction of a grounded theory. It concludes that is necessary to provide greater insight, enhance understanding and provide a guide to action, with a focus on the user, to the adoption of web discovery services in university libraries. It suggest customization and training to provide users with conditions that allow them to extract the maximum possible advantage of this type of tool. / Esta investigación tuvo como objetivo desarrollar un modelo de comportamiento para la búsqueda y recuperación de información en un entorno aún no explorado: las plataformas de descubrimiento. Para ello, se aplicó la metodología de la teoría fundamentada, lo que permitió dirigir, controlar y organizar la recopilación de datos. Los datos fueron la base de la teoría y del análisis se originaron los conceptos que fueron construidos. Los datos fueron recolectados durante la interacción de los participantes con la plataforma de descubrimiento mientras desempeñaban tareas de búsqueda y recuperación de información. Los encuestados fueron seleccionados al azar de entre los usuarios de las bibliotecas de la Universidad Complutense de Madrid. El modelo de comportamiento de búsqueda y de recuperación de la información encontrado sugiere dos etapas. El comportamiento durante la búsqueda se refiere a cómo los encuestados reconocen el problema, explotan las opciones de búsqueda y cómo distinguen la información para formular la expresión de búsqueda. El comportamiento durante la recuperación está relacionado con la navegación y la diferenciación para obtener una lista de resultados satisfactorios. En la lista de resultados se declara la solución del problema mediante el reconocimiento de la pertinencia, evaluación y selección de fuentes de información. El modelo se confronta a modelos ya aprobados. Se identificaron similitudes con los que tratan de comprender el comportamiento del usuario de manera más amplia, teniendo en cuenta su historia, valores, el contexto en el que se inserta y el conocimiento construido a partir de las experiencias anteriores. Por otra parte, la investigación tiene la intención de colaborar con los aspectos metodológicos relacionados con la comprensión y la construcción de una teoría fundamentada. Se concluye que es necesario proporcionar un mayor conocimiento, mejorar la comprensión y proporcionar un guía de acción, centrado en el usuario para la adopción de plataformas de descubrimiento en bibliotecas universitarias. Sugiere mejoras en su personalización y formación para dotar a los usuarios de las condiciones que les permitan sacar el máximo provecho posible del potencial de este tipo de herramienta. Serviço de descoberta em rede Biblioteca universitária Teoria fundamentada Recuperação da informação Busca de informação Comportamento do usuário Web discovery service University library Grounded theory Plataformas de descubrimiento Bibliotecas universitarias Teoría fundamentada
65	Arquitectura para analíticas de datos orientada a la ayuda del proceso de la toma de decisiones Kauffmann, Erick 16 January 2020 (has links) Internet ha ayudado a revolucionar muchas actividades cotidianas, y en ellas se generan grandes cantidades de datos, muchos de ellos expresados por los usuarios en lenguaje natural. Son datos no estructurados que no son fáciles de procesar ni de organizar. Obtener información relevante de esos datos puede ayudar a conocer un entorno, organizarlo y/o tomar decisiones respecto al conocimiento que se adquiere con ellos. Para esto, en esta tesis doctoral se propone una arquitectura para analíticas de datos a través de las herramientas de procesamiento de lenguaje natural para transformar esos datos en información cuantitativa que permitirá tomar decisiones y/o organizar mejor la información. La arquitectura se ha probado en dos áreas en los que se genera un gran volumen de datos textuales en actividades diarias que se realizan actualmente por Internet: Comercio electrónico y Foros de discusión de cursos masivos abiertos en línea. En las redes sociales de comercio electrónico, diariamente los compradores generan una gran cantidad de revisiones y calificaciones acerca de los productos en venta. Estas evaluaciones contienen información importante que puede ser utilizada para mejorar la toma de decisiones de directivos y compradores. El reto principal es automáticamente extraer información fiable de las opiniones textuales de los consumidores y utilizarla para calificar los mejores productos o marcas. Se utilizan herramientas de Análisis de Sentimientos y detección de Revisiones Falsas (Fake Reviews) para ayudar tanto a usuarios como a empresarios en la toma de decisiones respecto a los productos afectados por esas opiniones. Para ello, se propone transformar las opiniones de los usuarios en una nueva variable cuantitativa empleando Análisis de Sentimiento, así como detectar y eliminar las Revisiones Falsas. La propuesta se ha evaluado sobre productos de electrónica para clasificar la imagen de la marca de acuerdo al sentimiento expresado por el consumidor y mostrar el comportamiento en cuadros de mandos. Otra actividad que ha hecho uso del Internet es el aprendizaje en línea como una respuesta a las nuevas necesidades educativas. Sin embargo, presenta muchos retos, tales como el procesamiento de la gran cantidad de datos que se genera en los foros en línea. Darle seguimiento y buscar información en ese volumen de datos puede ser contraproducente, dado que son datos no estructurados y de una gran variedad de temas. La arquitectura propuesta en esta tesis propone resolver los principales retos encontrados en el estado del arte administrando los datos de forma eficiente mediante un monitoreo y seguimiento eficiente de los foros, el diseño de mecanismos efectivos de búsqueda para preguntas y respuestas en los foros, y extrayendo indicadores claves de rendimiento para administrar adecuadamente los foros. / Este trabajo ha sido parcialmente financiado por el Ministerio de Ciencia, Innovación y Universidades de España a través del Proyecto ECLIPSE-UA (Enhancing Data Quality and Security for Improving Business Processes and Strategic Decisions in Cyber Physical Systems) con referencia RTI2018-094283-B-C32. Big Data Procesamiento de Lenguaje Natural Recuperación de Información Comercio Electrónico Análisis de Sentimientos Detección de Revisiones Falsas Decisiones de Marketing Foros en Línea Minería de Datos MOOC Lenguajes y Sistemas Informáticos
66	Diseño de un sistema colaborativo para la creación y gestión de tesauros en Internet basado en SKOS Pastor Sánchez, Juan Antonio 30 March 2009 (has links) Esta tesis se enmarca en los procesos de recuperación de información en la Web, mediante la aplicación de tesauros y orientada hacia las propuestas de representación de información en la Web Semántica. Se plantea la creación de un modelo conceptual para desarrollar aplicaciones web para la gestión colaborativa de tesauros basados en SKOS y su aplicación en la indización de recursos de información, agrupados en repositorios y descritos mediante metadatos. Se han estudiado modelos de recuperación de información aplicados a la Web, junto con el significado, estructura, tecnologías y evolución de la Web Semántica, así como la representación de tesauros en este ámbito a partir de iniciativas basadas en RDF, analizando detalladamente SKOS. Se ha llevado a cabo una descripción funcional de las principales características de una aplicación de este tipo. La formalización de la propuesta se ha realizado con diagramas UML de casos de uso y de clases. / The field of this thesis is the web information retrieval process applying thesauri and its orientation is the representation of information in the Semantic Web. It raises the creation of a conceptual model in order to develop web applications for the collaborative management of SKOS based thesauri and the information resorces indexing, group by repositories and using metadata to describe it. Web information retrieval models has been analized, likewise meaning, structure, technologies and evolution of the Semantic Web and the representation of thesauri in this enviroment using RDF specifications, specially SKOS. Main characteristics of this type of applications have been studied. The author use case of use and class UML diagrams to formalize the proposal. RDF/RDFS Ontologies Modeling Web Applications Metadata Conceptual Schemes Integral Web Desing Web Semántica Tesauros SKOS Sistemas colaborativos Recuperación de información RDF/RDFS Ontologías Modelado de aplicaciones web Metadatos Esquemas conceptuales Diseño integral web Information Retrieval Collaborative Systems SKOS Thesauri Semantic Web Biblioteconomía y Documentación 004 02
67	A Probabilistic Formulation of Keyword Spotting Puigcerver I Pérez, Joan 18 February 2019 (has links) [ES] La detección de palabras clave (Keyword Spotting, en inglés), aplicada a documentos de texto manuscrito, tiene como objetivo recuperar los documentos, o partes de ellos, que sean relevantes para una cierta consulta (query, en inglés), indicada por el usuario, entre una gran colección de documentos. La temática ha recogido un gran interés en los últimos 20 años entre investigadores en Reconocimiento de Formas (Pattern Recognition), así como bibliotecas y archivos digitales. Esta tesis, en primer lugar, define el objetivo de la detección de palabras clave a partir de una perspectiva basada en la Teoría de la Decisión y una formulación probabilística adecuada. Más concretamente, la detección de palabras clave se presenta como un caso particular de Recuperación de la Información (Information Retrieval), donde el contenido de los documentos es desconocido, pero puede ser modelado mediante una distribución de probabilidad. Además, la tesis también demuestra que, bajo las distribuciones de probabilidad correctas, el marco de trabajo desarrollada conduce a la solución óptima del problema, según múltiples medidas de evaluación utilizadas tradicionalmente en el campo. Más tarde, se utilizan distintos modelos estadísticos para representar las distribuciones necesarias: Redes Neuronales Recurrentes o Modelos Ocultos de Markov. Los parámetros de estos son estimados a partir de datos de entrenamiento, y las respectivas distribuciones son representadas mediante Transductores de Estados Finitos con Pesos (Weighted Finite State Transducers). Con el objetivo de hacer que el marco de trabajo sea práctico en grandes colecciones de documentos, se presentan distintos algoritmos para construir índices de palabras a partir de modelos probabilísticos, basados tanto en un léxico cerrado como abierto. Estos índices son muy similares a los utilizados por los motores de búsqueda tradicionales. Además, se estudia la relación que hay entre la formulación probabilística presentada y otros métodos de gran influencia en el campo de la detección de palabras clave, destacando cuáles son las limitaciones de los segundos. Finalmente, todas la aportaciones se evalúan de forma experimental, no sólo utilizando pruebas académicas estándar, sino también en colecciones con decenas de miles de páginas provenientes de manuscritos históricos. Los resultados muestran que el marco de trabajo presentado permite construir sistemas de detección de palabras clave muy rápidos y precisos, con una sólida base teórica. / [CA] La detecció de paraules clau (Keyword Spotting, en anglès), aplicada a documents de text manuscrit, té com a objectiu recuperar els documents, o parts d'ells, que siguen rellevants per a una certa consulta (query, en anglès), indicada per l'usuari, dintre d'una gran col·lecció de documents. La temàtica ha recollit un gran interés en els últims 20 anys entre investigadors en Reconeixement de Formes (Pattern Recognition), així com biblioteques i arxius digitals. Aquesta tesi defineix l'objectiu de la detecció de paraules claus a partir d'una perspectiva basada en la Teoria de la Decisió i una formulació probabilística adequada. Més concretament, la detecció de paraules clau es presenta com un cas concret de Recuperació de la Informació (Information Retrieval), on el contingut dels documents és desconegut, però pot ser modelat mitjançant una distribució de probabilitat. A més, la tesi també demostra que, sota les distribucions de probabilitat correctes, el marc de treball desenvolupat condueix a la solució òptima del problema, segons diverses mesures d'avaluació utilitzades tradicionalment en el camp. Després, diferents models estadístics s'utilitzen per representar les distribucions necessàries: Xarxes Neuronal Recurrents i Models Ocults de Markov. Els paràmetres d'aquests són estimats a partir de dades d'entrenament, i les corresponents distribucions són representades mitjançant Transductors d'Estats Finits amb Pesos (Weighted Finite State Transducers). Amb l'objectiu de fer el marc de treball útil per a grans col·leccions de documents, es presenten distints algorismes per construir índexs de paraules a partir dels models probabilístics, tan basats en un lèxic tancat com en un obert. Aquests índexs són molt semblants als utilitzats per motors de cerca tradicionals. A més a més, s'estudia la relació que hi ha entre la formulació probabilística presentada i altres mètodes de gran influència en el camp de la detecció de paraules clau, destacant algunes limitacions dels segons. Finalment, totes les aportacions s'avaluen de forma experimental, no sols utilitzant proves acadèmics estàndard, sinó també en col·leccions amb desenes de milers de pàgines provinents de manuscrits històrics. Els resultats mostren que el marc de treball presentat permet construir sistemes de detecció de paraules clau molt acurats i ràpids, amb una sòlida base teòrica. / [EN] Keyword Spotting, applied to handwritten text documents, aims to retrieve the documents, or parts of them, that are relevant for a query, given by the user, within a large collection of documents. The topic has gained a large interest in the last 20 years among Pattern Recognition researchers, as well as digital libraries and archives. This thesis, first defines the goal of Keyword Spotting from a Decision Theory perspective. Then, the problem is tackled following a probabilistic formulation. More precisely, Keyword Spotting is presented as a particular instance of Information Retrieval, where the content of the documents is unknown, but can be modeled by a probability distribution. In addition, the thesis also proves that, under the correct probability distributions, the framework provides the optimal solution, under many of the evaluation measures traditionally used in the field. Later, different statistical models are used to represent the probability distribution over the content of the documents. These models, Hidden Markov Models or Recurrent Neural Networks, are estimated from training data, and the corresponding distributions over the transcripts of the images can be efficiently represented using Weighted Finite State Transducers. In order to make the framework practical for large collections of documents, this thesis presents several algorithms to build probabilistic word indexes, using both lexicon-based and lexicon-free models. These indexes are very similar to the ones used by traditional search engines. Furthermore, we study the relationship between the presented formulation and other seminal approaches in the field of Keyword Spotting, highlighting some limitations of the latter. Finally, all the contributions are evaluated experimentally, not only on standard academic benchmarks, but also on collections including tens of thousands of pages of historical manuscripts. The results show that the proposed framework and algorithms allow to build very accurate and very fast Keyword Spotting systems, with a solid underlying theory. / Puigcerver I Pérez, J. (2018). A Probabilistic Formulation of Keyword Spotting [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/116834 Keyword Spotting Handwritten Text Recognition Information Retrieval Pattern Recognition Image Retrieval Probabilistic Text Indexing Historical Manuscripts Weighted Finite State Transducer Hidden Markov Model Artificial Neural Network LENGUAJES Y SISTEMAS INFORMATICOS

Page generated in 0.0665 seconds