41 |
Análisis de las estrategias de innovación de federaciones deportivas internacionales y de federaciones de tenis nacionalesCrespo Celda, Miguel 06 October 2022 (has links)
Tesis por compendio / [ES] Esta tesis doctoral analiza las estrategias de innovación de federaciones deportivas internacionales y federaciones nacionales de tenis. Se presenta en la modalidad "por compendio de artículos". El primero estudia las percepciones de entrenadores de tenis sobre las estrategias y programas de innovación de la Real Federación Española de Tenis (RFET). El segundo investiga las percepciones de otros grupos de interés (directivos, gestores, árbitros, etc.) sobre la estrategia innovadora y los programas de la RFET. El tercero amplía el ámbito de estudio a los gerentes y personal administrativo de las distintas federaciones de tenis de Latinoamérica. Finalmente, el cuarto, se centra en estudio de la innovación y del crowdfunding en las federaciones deportivas internacionales. Los estudios también analizaron el impacto de la pandemia COVID-19 en la estructura y capacidad innovadora de estas organizaciones. Las hipótesis plantearon la relevancia de una cultura innovadora en estas entidades, la identificación de programas específicos de cada deporte como los más innovadores y el considerable impacto de la pandemia en estas organizaciones. Se diseñó una metodología mixta que incluyó instrumentos cuantitativos (un cuestionario validado) y cualitativos (entrevistas y consulta de información). Los resultados se analizaron utilizando las herramientas estadísticas habituales y, en general, confirmaron las hipótesis planteadas pues se observó una orientación claramente favorable hacia la adopción de estrategias innovadoras y a la implementación de programas específicamente deportivos como los más innovadores. Nuestros estudios concluyen que es fundamental que estas organizaciones adopten las estrategias innovadoras necesarias para seguir mejorando en la generación e implementación de servicios y productos para satisfacer las necesidades de sus grupos de interés. / [CA] Aquesta tesi doctoral analitza les estratègies d'innovació de federacions esportives internacionals i federacions nacionals de tennis. Es presenta a la modalitat "per compendi d'articles". El primer estudia les percepcions d'entrenadors de tennis sobre les estratègies i els programes d'innovació de la Reial Federació Espanyola de Tennis (RFET). El segon investiga les percepcions d'altres grups d'interès (directius, gestors, àrbitres, etc.) sobre l'estratègia innovadora i els programes de la RFET. El tercer amplia l'àmbit d'estudi als gerents i al personal administratiu de les diferents federacions de tennis de Llatinoamèrica. Finalment, el quart, es centra en l'estudi de la innovació i del crowdfunding a les federacions esportives internacionals. Els estudis també van analitzar l'impacte de la pandèmia COVID-19 en l'estructura i la capacitat innovadora d'aquestes organitzacions. Les hipòtesis van plantejar la rellevància d'una cultura innovadora en aquestes entitats, la identificació de programes específics de cada esport com els més innovadors i el impacte considerable de la pandèmia en aquestes organitzacions. Es va dissenyar una metodologia mixta que va incloure instruments quantitatius (un qüestionari validat) i qualitatius (entrevistes i consulta d'informació). Els resultats es van analitzar utilitzant el programes estadístics habituals i, en general, van confirmar les hipòtesis plantejades, ja que es va observar una orientació clarament favorable cap a l'adopció d'estratègies innovadores i la implementació de programes específicament esportius com els més innovadors. Els nostres estudis conclouen que és fonamental que aquestes organitzacions adopten les estratègies innovadores necessàries per continuar millorant en la generació i la implementació de serveis i productes per satisfer les necessitats dels seus grups d'interès. / [EN] This doctoral thesis analyses the innovation strategies of international sports federations and national tennis federations. It is presented in the form of a "compendium of articles". The first one studies the perceptions of tennis coaches on the innovation strategies and programmes of the Royal Spanish Tennis Federation (RFET). The second investigates the perceptions of other stakeholders (directors, managers, umpires, etc.) on the RFET's innovation strategy and programmes. The third extends the scope of the study to managers and administrative staff of the different tennis federations in Latin America. Finally, the fourth focuses on the study of innovation and crowdfunding in international sports federations. The studies also analysed the impact of the COVID-19 pandemic on the structure and innovative capacity of these organisations. The hypotheses raised the relevance of an innovative culture in these organisations, the identification of sport-specific programmes as the most innovative and the considerable impact of the pandemic on these organisations. A mixed methodology was designed that included both quantitative (a validated questionnaire) and qualitative (interviews and data collection) instruments. The results were analysed using the usual statistical tools and, in general, confirmed the hypotheses put forward as there was a clear favourable orientation towards the adoption of innovative strategies and the implementation of sport-specific programmes as the most innovative. Our studies conclude that it is essential for these organisations to adopt the necessary innovative strategies to further improve the generation and implementation of services and products to meet the needs of their stakeholders. / Crespo Celda, M. (2022). Análisis de las estrategias de innovación de federaciones deportivas internacionales y de federaciones de tenis nacionales [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/187328 / Compendio
|
42 |
Chemometric Approaches for Systems BiologyFolch Fortuny, Abel 23 January 2017 (has links)
The present Ph.D. thesis is devoted to study, develop and apply approaches commonly used in chemometrics to the emerging field of systems biology. Existing procedures and new methods are applied to solve research and industrial questions in different multidisciplinary teams. The methodologies developed in this document will enrich the plethora of procedures employed within omic sciences to understand biological organisms and will improve processes in biotechnological industries integrating biological knowledge at different levels and exploiting the software packages derived from the thesis.
This dissertation is structured in four parts. The first block describes the framework in which the contributions presented here are based. The objectives of the two research projects related to this thesis are highlighted and the specific topics addressed in this document via conference presentations and research articles are introduced. A comprehensive description of omic sciences and their relationships within the systems biology paradigm is given in this part, jointly with a review of the most applied multivariate methods in chemometrics, on which the novel approaches proposed here are founded.
The second part addresses many problems of data understanding within metabolomics, fluxomics, proteomics and genomics. Different alternatives are proposed in this block to understand flux data in steady state conditions. Some are based on applications of multivariate methods previously applied in other chemometrics areas. Others are novel approaches based on a bilinear decomposition using elemental metabolic pathways, from which a GNU licensed toolbox is made freely available for the scientific community. As well, a framework for metabolic data understanding is proposed for non-steady state data, using the same bilinear decomposition proposed for steady state data, but modelling the dynamics of the experiments using novel two and three-way data analysis procedures. Also, the relationships between different omic levels are assessed in this part integrating different sources of information of plant viruses in data fusion models. Finally, an example of interaction between organisms, oranges and fungi, is studied via multivariate image analysis techniques, with future application in food industries.
The third block of this thesis is a thoroughly study of different missing data problems related to chemometrics, systems biology and industrial bioprocesses. In the theoretical chapters of this part, new algorithms to obtain multivariate exploratory and regression models in the presence of missing data are proposed, which serve also as preprocessing steps of any other methodology used by practitioners. Regarding applications, this block explores the reconstruction of networks in omic sciences when missing and faulty measurements appear in databases, and how calibration models between near infrared instruments can be transferred, avoiding costs and time-consuming full recalibrations in bioindustries and research laboratories. Finally, another software package, including a graphical user interface, is made freely available for missing data imputation purposes.
The last part discusses the relevance of this dissertation for research and biotechnology, including proposals deserving future research. / Esta tesis doctoral se centra en el estudio, desarrollo y aplicación de técnicas quimiométricas en el emergente campo de la biología de sistemas. Procedimientos comúnmente utilizados y métodos nuevos se aplican para resolver preguntas de investigación en distintos equipos multidisciplinares, tanto del ámbito académico como del industrial. Las metodologías desarrolladas en este documento enriquecen la plétora de técnicas utilizadas en las ciencias ómicas para entender el funcionamiento de organismos biológicos y mejoran los procesos en la industria biotecnológica, integrando conocimiento biológico a diferentes niveles y explotando los paquetes de software derivados de esta tesis.
Esta disertación se estructura en cuatro partes. El primer bloque describe el marco en el cual se articulan las contribuciones aquí presentadas. En él se esbozan los objetivos de los dos proyectos de investigación relacionados con esta tesis. Asimismo, se introducen los temas específicos desarrollados en este documento mediante presentaciones en conferencias y artículos de investigación. En esta parte figura una descripción exhaustiva de las ciencias ómicas y sus interrelaciones en el paradigma de la biología de sistemas, junto con una revisión de los métodos multivariantes más aplicados en quimiometría, que suponen las pilares sobre los que se asientan los nuevos procedimientos aquí propuestos.
La segunda parte se centra en resolver problemas dentro de metabolómica, fluxómica, proteómica y genómica a partir del análisis de datos. Para ello se proponen varias alternativas para comprender a grandes rasgos los datos de flujos metabólicos en estado estacionario. Algunas de ellas están basadas en la aplicación de métodos multivariantes propuestos con anterioridad, mientras que otras son técnicas nuevas basadas en descomposiciones bilineales utilizando rutas metabólicas elementales. A partir de éstas se ha desarrollado software de libre acceso para la comunidad científica. A su vez, en esta tesis se propone un marco para analizar datos metabólicos en estado no estacionario. Para ello se adapta el enfoque tradicional para sistemas en estado estacionario, modelando las dinámicas de los experimentos empleando análisis de datos de dos y tres vías. En esta parte de la tesis también se establecen relaciones entre los distintos niveles ómicos, integrando diferentes fuentes de información en modelos de fusión de datos. Finalmente, se estudia la interacción entre organismos, como naranjas y hongos, mediante el análisis multivariante de imágenes, con futuras aplicaciones a la industria alimentaria.
El tercer bloque de esta tesis representa un estudio a fondo de diferentes problemas relacionados con datos faltantes en quimiometría, biología de sistemas y en la industria de bioprocesos. En los capítulos más teóricos de esta parte, se proponen nuevos algoritmos para ajustar modelos multivariantes, tanto exploratorios como de regresión, en presencia de datos faltantes. Estos algoritmos sirven además como estrategias de preprocesado de los datos antes del uso de cualquier otro método. Respecto a las aplicaciones, en este bloque se explora la reconstrucción de redes en ciencias ómicas cuando aparecen valores faltantes o atípicos en las bases de datos. Una segunda aplicación de esta parte es la transferencia de modelos de calibración entre instrumentos de infrarrojo cercano, evitando así costosas re-calibraciones en bioindustrias y laboratorios de investigación. Finalmente, se propone un paquete software que incluye una interfaz amigable, disponible de forma gratuita para imputación de datos faltantes.
En la última parte, se discuten los aspectos más relevantes de esta tesis para la investigación y la biotecnología, incluyendo líneas futuras de trabajo. / Aquesta tesi doctoral es centra en l'estudi, desenvolupament, i aplicació de tècniques quimiomètriques en l'emergent camp de la biologia de sistemes. Procediments comúnment utilizats i mètodes nous s'apliquen per a resoldre preguntes d'investigació en diferents equips multidisciplinars, tant en l'àmbit acadèmic com en l'industrial. Les metodologies desenvolupades en aquest document enriquixen la plétora de tècniques utilitzades en les ciències òmiques per a entendre el funcionament d'organismes biològics i milloren els processos en la indústria biotecnològica, integrant coneixement biològic a distints nivells i explotant els paquets de software derivats d'aquesta tesi.
Aquesta dissertació s'estructura en quatre parts. El primer bloc descriu el marc en el qual s'articulen les contribucions ací presentades. En ell s'esbossen els objectius dels dos projectes d'investigació relacionats amb aquesta tesi. Així mateix, s'introduixen els temes específics desenvolupats en aquest document mitjançant presentacions en conferències i articles d'investigació. En aquesta part figura una descripació exhaustiva de les ciències òmiques i les seues interrelacions en el paradigma de la biologia de sistemes, junt amb una revisió dels mètodes multivariants més aplicats en quimiometria, que supossen els pilars sobre els quals s'assenten els nous procediments ací proposats.
La segona part es centra en resoldre problemes dins de la metabolòmica, fluxòmica, proteòmica i genòmica a partir de l'anàlisi de dades. Per a això es proposen diverses alternatives per a compendre a grans trets les dades de fluxos metabòlics en estat estacionari. Algunes d'elles estàn basades en l'aplicació de mètodes multivariants propostos amb anterioritat, mentre que altres són tècniques noves basades en descomposicions bilineals utilizant rutes metabòliques elementals. A partir d'aquestes s'ha desenvolupat software de lliure accés per a la comunitat científica. Al seu torn, en aquesta tesi es proposa un marc per a analitzar dades metabòliques en estat no estacionari. Per a això s'adapta l'enfocament tradicional per a sistemes en estat estacionari, modelant les dinàmiques dels experiments utilizant anàlisi de dades de dues i tres vies. En aquesta part de la tesi també s'establixen relacions entre els distints nivells òmics, integrant diferents fonts d'informació en models de fusió de dades. Finalment, s'estudia la interacció entre organismes, com taronges i fongs, mitjançant l'anàlisi multivariant d'imatges, amb futures aplicacions a la indústria alimentària.
El tercer bloc d'aquesta tesi representa un estudi a fons de diferents problemes relacionats amb dades faltants en quimiometria, biologia de sistemes i en la indústria de bioprocessos. En els capítols més teòrics d'aquesta part, es proposen nous algoritmes per a ajustar models multivariants, tant exploratoris com de regressió, en presencia de dades faltants. Aquests algoritmes servixen ademés com a estratègies de preprocessat de dades abans de l'ús de qualsevol altre mètode. Respecte a les aplicacions, en aquest bloc s'explora la reconstrucció de xarxes en ciències òmiques quan apareixen valors faltants o atípics en les bases de dades. Una segona aplicació d'aquesta part es la transferència de models de calibració entre instruments d'infrarroig proper, evitant així costoses re-calibracions en bioindústries i laboratoris d'investigació. Finalment, es proposa un paquet software que inclou una interfície amigable, disponible de forma gratuïta per a imputació de dades faltants.
En l'última part, es discutixen els aspectes més rellevants d'aquesta tesi per a la investigació i la biotecnologia, incloent línies futures de treball. / Folch Fortuny, A. (2016). Chemometric Approaches for Systems Biology [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/77148 / Premios Extraordinarios de tesis doctorales
|
43 |
Advances on the Transcription of Historical Manuscripts based on Multimodality, Interactivity and CrowdsourcingGranell Romero, Emilio 01 September 2017 (has links)
Natural Language Processing (NLP) is an interdisciplinary research field of Computer Science, Linguistics, and Pattern Recognition that studies, among others, the use of human natural languages in Human-Computer Interaction (HCI). Most of NLP research tasks can be applied for solving real-world problems. This is the case of natural language recognition and natural language translation, that can be used for building automatic systems for document transcription and document translation.
Regarding digitalised handwritten text documents, transcription is used to obtain an easy digital access to the contents, since simple image digitalisation only provides, in most cases, search by image and not by linguistic contents (keywords, expressions, syntactic or semantic categories). Transcription is even more important in historical manuscripts, since most of these documents are unique and the preservation of their contents is crucial for cultural and historical reasons.
The transcription of historical manuscripts is usually done by paleographers, who are experts on ancient script and vocabulary. Recently, Handwritten Text Recognition (HTR) has become a common tool for assisting paleographers in their task, by providing a draft transcription that they may amend with more or less sophisticated methods. This draft transcription is useful when it presents an error rate low enough to make the amending process more comfortable than a complete transcription from scratch. Thus, obtaining a draft transcription with an acceptable low error rate is crucial to have this NLP technology incorporated into the transcription process.
The work described in this thesis is focused on the improvement of the draft transcription offered by an HTR system, with the aim of reducing the effort made by paleographers for obtaining the actual transcription on digitalised historical manuscripts.
This problem is faced from three different, but complementary, scenarios:
· Multimodality: The use of HTR systems allow paleographers to speed up the manual transcription process, since they are able to correct on a draft transcription. Another alternative is to obtain the draft transcription by dictating the contents to an Automatic Speech Recognition (ASR) system. When both sources (image and speech) are available, a multimodal combination is possible and an iterative process can be used in order to refine the final hypothesis.
· Interactivity: The use of assistive technologies in the transcription process allows one to reduce the time and human effort required for obtaining the actual transcription, given that the assistive system and the palaeographer cooperate to generate a perfect transcription.
Multimodal feedback can be used to provide the assistive system with additional sources of information by using signals that represent the whole same sequence of words to transcribe (e.g. a text image, and the speech of the dictation of the contents of this text image), or that represent just a word or character to correct (e.g. an on-line handwritten word).
· Crowdsourcing: Open distributed collaboration emerges as a powerful tool for massive transcription at a relatively low cost, since the paleographer supervision effort may be dramatically reduced. Multimodal combination allows one to use the speech dictation of handwritten text lines in a multimodal crowdsourcing platform, where collaborators may provide their speech by using their own mobile device instead of using desktop or laptop computers, which makes it possible to recruit more collaborators. / El Procesamiento del Lenguaje Natural (PLN) es un campo de investigación interdisciplinar de las Ciencias de la Computación, Lingüística y Reconocimiento de Patrones que estudia, entre otros, el uso del lenguaje natural humano en la interacción Hombre-Máquina. La mayoría de las tareas de investigación del PLN se pueden aplicar para resolver problemas del mundo real. Este es el caso del reconocimiento y la traducción del lenguaje natural, que se pueden utilizar para construir sistemas automáticos para la transcripción y traducción de documentos.
En cuanto a los documentos manuscritos digitalizados, la transcripción se utiliza para facilitar el acceso digital a los contenidos, ya que la simple digitalización de imágenes sólo proporciona, en la mayoría de los casos, la búsqueda por imagen y no por contenidos lingüísticos. La transcripción es aún más importante en el caso de los manuscritos históricos, ya que la mayoría de estos documentos son únicos y la preservación de su contenido es crucial por razones culturales e históricas.
La transcripción de manuscritos históricos suele ser realizada por paleógrafos, que son personas expertas en escritura y vocabulario antiguos. Recientemente, los sistemas de Reconocimiento de Escritura (RES) se han convertido en una herramienta común para ayudar a los paleógrafos en su tarea, la cual proporciona un borrador de la transcripción que los paleógrafos pueden corregir con métodos más o menos sofisticados. Este borrador de transcripción es útil cuando presenta una tasa de error suficientemente reducida para que el proceso de corrección sea más cómodo que una completa transcripción desde cero. Por lo tanto, la obtención de un borrador de transcripción con una baja tasa de error es crucial para que esta tecnología de PLN sea incorporada en el proceso de transcripción.
El trabajo descrito en esta tesis se centra en la mejora del borrador de transcripción ofrecido por un sistema RES, con el objetivo de reducir el esfuerzo realizado por los paleógrafos para obtener la transcripción de manuscritos históricos digitalizados.
Este problema se enfrenta a partir de tres escenarios diferentes, pero complementarios:
· Multimodalidad: El uso de sistemas RES permite a los paleógrafos acelerar el proceso de transcripción manual, ya que son capaces de corregir en un borrador de la transcripción. Otra alternativa es obtener el borrador de la transcripción dictando el contenido a un sistema de Reconocimiento Automático de Habla. Cuando ambas fuentes están disponibles, una combinación multimodal de las mismas es posible y se puede realizar un proceso iterativo para refinar la hipótesis final.
· Interactividad: El uso de tecnologías asistenciales en el proceso de transcripción permite reducir el tiempo y el esfuerzo humano requeridos para obtener la transcripción correcta, gracias a la cooperación entre el sistema asistencial y el paleógrafo para obtener la transcripción perfecta. La realimentación multimodal se puede utilizar en el sistema asistencial para proporcionar otras fuentes de información adicionales con señales que representen la misma secuencia de palabras a transcribir (por ejemplo, una imagen de texto, o la señal de habla del dictado del contenido de dicha imagen de texto), o señales que representen sólo una palabra o carácter a corregir (por ejemplo, una palabra manuscrita mediante una pantalla táctil).
· Crowdsourcing: La colaboración distribuida y abierta surge como una poderosa herramienta para la transcripción masiva a un costo relativamente bajo, ya que el esfuerzo de supervisión de los paleógrafos puede ser drásticamente reducido. La combinación multimodal permite utilizar el dictado del contenido de líneas de texto manuscrito en una plataforma de crowdsourcing multimodal, donde los colaboradores pueden proporcionar las muestras de habla utilizando su propio dispositivo móvil en lugar de usar ordenadores, / El Processament del Llenguatge Natural (PLN) és un camp de recerca interdisciplinar de les Ciències de la Computació, la Lingüística i el Reconeixement de Patrons que estudia, entre d'altres, l'ús del llenguatge natural humà en la interacció Home-Màquina. La majoria de les tasques de recerca del PLN es poden aplicar per resoldre problemes del món real. Aquest és el cas del reconeixement i la traducció del llenguatge natural, que es poden utilitzar per construir sistemes automàtics per a la transcripció i traducció de documents.
Quant als documents manuscrits digitalitzats, la transcripció s'utilitza per facilitar l'accés digital als continguts, ja que la simple digitalització d'imatges només proporciona, en la majoria dels casos, la cerca per imatge i no per continguts lingüístics (paraules clau, expressions, categories sintàctiques o semàntiques). La transcripció és encara més important en el cas dels manuscrits històrics, ja que la majoria d'aquests documents són únics i la preservació del seu contingut és crucial per raons culturals i històriques.
La transcripció de manuscrits històrics sol ser realitzada per paleògrafs, els quals són persones expertes en escriptura i vocabulari antics. Recentment, els sistemes de Reconeixement d'Escriptura (RES) s'han convertit en una eina comuna per ajudar els paleògrafs en la seua tasca, la qual proporciona un esborrany de la transcripció que els paleògrafs poden esmenar amb mètodes més o menys sofisticats. Aquest esborrany de transcripció és útil quan presenta una taxa d'error prou reduïda perquè el procés de correcció siga més còmode que una completa transcripció des de zero. Per tant, l'obtenció d'un esborrany de transcripció amb un baixa taxa d'error és crucial perquè aquesta tecnologia del PLN siga incorporada en el procés de transcripció.
El treball descrit en aquesta tesi se centra en la millora de l'esborrany de la transcripció ofert per un sistema RES, amb l'objectiu de reduir l'esforç realitzat pels paleògrafs per obtenir la transcripció de manuscrits històrics digitalitzats.
Aquest problema s'enfronta a partir de tres escenaris diferents, però complementaris:
· Multimodalitat: L'ús de sistemes RES permet als paleògrafs accelerar el procés de transcripció manual, ja que són capaços de corregir un esborrany de la transcripció. Una altra alternativa és obtenir l'esborrany de la transcripció dictant el contingut a un sistema de Reconeixement Automàtic de la Parla. Quan les dues fonts (imatge i parla) estan disponibles, una combinació multimodal és possible i es pot realitzar un procés iteratiu per refinar la hipòtesi final.
· Interactivitat: L'ús de tecnologies assistencials en el procés de transcripció permet reduir el temps i l'esforç humà requerits per obtenir la transcripció real, gràcies a la cooperació entre el sistema assistencial i el paleògraf per obtenir la transcripció perfecta. La realimentació multimodal es pot utilitzar en el sistema assistencial per proporcionar fonts d'informació addicionals amb senyals que representen la mateixa seqüencia de paraules a transcriure (per exemple, una imatge de text, o el senyal de parla del dictat del contingut d'aquesta imatge de text), o senyals que representen només una paraula o caràcter a corregir (per exemple, una paraula manuscrita mitjançant una pantalla tàctil).
· Crowdsourcing: La col·laboració distribuïda i oberta sorgeix com una poderosa eina per a la transcripció massiva a un cost relativament baix, ja que l'esforç de supervisió dels paleògrafs pot ser reduït dràsticament. La combinació multimodal permet utilitzar el dictat del contingut de línies de text manuscrit en una plataforma de crowdsourcing multimodal, on els col·laboradors poden proporcionar les mostres de parla utilitzant el seu propi dispositiu mòbil en lloc d'utilitzar ordinadors d'escriptori o portàtils, la qual cosa permet ampliar el nombr / Granell Romero, E. (2017). Advances on the Transcription of Historical Manuscripts based on Multimodality, Interactivity and Crowdsourcing [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/86137
|
44 |
Application of multivariate image analysis to prostate cancer for improving the comprehension of the related physiological phenomena and the development and validation of new imaging biomarkersAguado Sarrió, Eric 07 January 2020 (has links)
[ES] El aumento de la esperanza de vida en la población con edad por encima de 50 años está generando un mayor número de casos detectados de cáncer de próstata (CaP). Por este motivo, los recursos se destinan al diagnóstico en etapas tempranas y al tratamiento efectivo. A pesar de la multitud de estudios basados en biomarcadores y discriminación histológica, es difícil diferenciar con efectividad los casos de CaP con baja agresividad de aquellos que progresarán y acabarán produciendo mortalidad o una disminución en la esperanza de vida del paciente. Con el objetivo de mejorar el diagnostico, localización y gradación de los tumores malignos, las técnicas de imagen por Resonancia Magnética (MRI) son las más adecuadas para el estudio del cáncer, proporcionando métodos de diagnóstico no-invasivos, sensibles y específicos, basados en secuencias morfológicas (T2w) y funcionales (perfusión de la sangre y difusión del agua). Las diferentes características y parámetros extraídos de estas secuencias, conocidos como biomarcadores de imagen, pueden evaluar las diferencias asociadas al desarrollo de los procesos tumorales, como los modelos farmacocinéticos para estudiar angiogénesis (perfusión) y los modelos mono- y bi-exponenciales para estudiar la caída de la señal en difusión con el objetivo de estudiar la celularización. Normalmente, estos biomarcadores de imagen se analizan de forma "univariante", sin aprovechar la información de las estructuras de correlación interna que existen entre ellos. Una manera de mejorar este análisis es mediante la aplicación de las técnicas estadísticas que ofrece el Análisis Multivariante de Imágenes (MIA), obteniendo estructuras (latentes) simplificadas que ayudan a entender la relación entre los parámetros (variables) y sus propios procesos fisiológicos, además de reducir la incertidumbre en la estimación de los biomarcadores. En esta tesis, se han desarrollado nuevos biomarcadores de imagen para perfusión y difusión con la aplicación de alguna de las herramientas de MIA como la Resolución Multivariante de Curvas con Mínimos Cuadrados Alternos (MCR-ALS), obteniendo parámetros que tienen interpretación clínica directa. A continuación, los métodos basados en mínimos cuadrados parciales (PLS) se aplicaron para estudiar la capacidad de clasificación de estos biomarcadores. En primer lugar, los biomarcadores de perfusión se utilizaron para la detección de tumores (control vs lesión). Posteriormente, la combinación de perfusión + difusión + T2 se empleó para estudiar agresividad tumoral con la aplicación de métodos PLS multibloque, en concreto (secuencial) SMB-PLS. Los resultados mostrados indican que los biomarcadores de perfusión obtenidos mediante MCR son mejores que los parámetros farmacocinéticos en la diferenciación de la lesión. Con lo que respecta al estudio de la agresividad tumoral, la combinación de los biomarcadores de difusión (empleando ambos métodos: modelos paramétricos y MCR) y los valores de T2w normalizados proporcionaron los mejores resultados.
En conclusión, MIA se puede aplicar a las secuencias morfológicas y funcionales de resonancia magnética para mejorar el diagnóstico y el estudio de la agresividad de los tumores en próstata. Obteniendo nuevos parámetros cuantitativos y combinándolos con los biomarcadores más ampliamente utilizados en el ambiente clínico. / [CA] El increment de la esperança de vida en la població per damunt dels 50 anys està generant un major nombre de casos detectats de càncer de pròstata (CaP). Per aquest motiu, els recursos es destinen al diagnòstic en etapes primerenques i al tractament efectiu. Tot i la multitud de estudis basats en biomarcadors y discriminació histològica, es difícil diferenciar amb efectivitat els casos de CaP que tenen baixa agressivitat dels que progressaran y acabaran produint mortalitat o una disminució en la esperança de vida del pacient. Amb el objectiu de millorar el diagnòstic, localització y gradació dels tumors malignes, les tècniques de imatge per Ressonància Magnètica (MRI) son els mètodes més adequats per al estudi del càncer, proporcionant metodologies de diagnòstic no-invasius, sensibles y específiques basades en seqüències morfològiques (T2w) y funcionals (perfusió de la sang y difusió del aigua). Les diferents característiques i paràmetres extrets de aquestes seqüències, coneguts com biomarcadors d'imatge, poden avaluar les diferències associades al desenvolupament dels processos tumorals. Primer, amb els models farmacocinétics per a estudiar angiogènesis (perfusió) y segon, amb els models mono- i bi-exponencials per a estudiar la caiguda de la senyal en difusió amb el objectiu de estudiar la cel·lularització. Normalment, aquests biomarcadors d'imatge s'analitzen de forma "univariant", sense aprofitar la informació de las estructures de correlació interna que existeixen entre ells. Una forma de millorar aquest anàlisis es mitjançant la aplicació de las tècniques estadístiques aportades pel Anàlisis Multivariant de Imatges (MIA), obtenint estructures (latents) simplificades què ajuden a entendre la relació entre els paràmetres (variables) i els seus processos fisiològics, a més de reduir la incertesa en la estimació dels biomarcadors. En aquesta tesis, s'han desenvolupat nous biomarcadors d'imatge per a perfusió i difusió amb la aplicació de alguna de las ferramentes de MIA com la Resolució Multivariant de Corbes i Mínims Quadrats Alterns (MCR-ALS), obtenint paràmetres què tenen interpretació clínica directa. A continuació, els mètodes basats en mínims quadrats parcials (PLS) s'han aplicat per a estudiar la capacitat de classificació d'aquests biomarcadors. En primer lloc, els biomarcadors de perfusió s'han utilitzat per a la detecció de tumors (control contra lesió). Posteriorment, la combinació de perfusió + difusió + T2 s'ha utilitzat per a estudiar agressivitat tumoral amb la aplicació de mètodes PLS multi-bloc, en concret (seqüencial) SMB-PLS. Els resultats mostren què els biomarcadors de perfusió obtinguts mitjançant MCR són millors què els paràmetres farmacocinètics en la diferenciació de la lesió. En lo què es refereix al estudi de la agressivitat tumoral, la combinació dels biomarcadors de difusió (utilitzant els dos mètodes: models paramètrics i MCR) i els valors de T2w normalitzats proporcionaren els millors resultats.
En conclusió, MIA es pot aplicar a les seqüències morfològiques i funcionals de ressonància magnètica per a millorar el diagnòstic i el estudi de l'agressivitat dels tumors en pròstata. Obtenint nous paràmetres quantitatius y combinant-los amb els biomarcadors més utilitzats en el ambient clínic. / [EN] The increase in life expectancy and population with age higher than 50 years is producing a major number of detected cases of prostate cancer (PCa). For this reason, the resources are focused in the early diagnosis and effective treatment. In spite of multiple studies with histologic discriminant biomarkers, it is hard to clearly differentiate the low aggressiveness PCa cases from those that will progress and produce mortality or rather a decrease in the life expectancy.
With the objective of improving the diagnosis, location and gradation of the malignant tumors, Magnetic Resonance Imaging (MRI) has come up as the most appropriate image acquisition technique for cancer studies, which provides a non-invasive, sensitive and specific diagnosis, based on morphological and functional (blood perfusion and water diffusion) sequences. The different characteristics and parameters extracted from these sequences, known as imaging biomarkers, can evaluate the different processes associated to tumor development, like pharmacokinetic modeling for angiogenesis assessment (perfusion) or mono- and bi-exponential signal decay modeling for cellularization (diffusion).
Normally, these imaging biomarkers are analyzed in a "univariate" way, without taking advantage of the internal correlation structures among them. One way to improve this analysis is by applying Multivariate Image Analysis (MIA) statistical techniques, obtaining simplified (latent) structures that help to understand the relation between parameters (variables) and the inner physiological processes, moreover reducing the uncertainty in the estimation of the biomarkers.
In this thesis, new imaging biomarkers are developed for perfusion and diffusion by applying MIA tools like Multivariate Curve Resolution Alternating Least Squares (MCR-ALS), obtaining parameters with direct clinical interpretation. Partial Least Squares (PLS) based methods are then used for studying the classification capability of these biomarkers. First, perfusion imaging biomarkers have been tested for tumor detection (control vs lesion). Then, diffusion + perfusion have been combined to study tumor aggressiveness by applying PLS-multiblock methods (SMB-PLS).
The results showed that MCR-based perfusion biomarkers performed better than state-of-the-art pharmacokinetic parameters for lesion differentiation. Regarding the assessment of tumor aggressiveness, the combination of diffusion-based imaging biomarkers (using both the parametric models and MCR) and normalized T2-weighted measurements provided the best discriminating outcome, while perfusion was not needed as it did not supply additional information.
In conclusion, MIA can be applied to morphologic and functional MRI to improve the diagnosis and aggressiveness assessment of prostate tumors by obtaining new quantitative parameters and combining them with state-of-the-art imaging biomarkers. / Aguado Sarrió, E. (2019). Application of multivariate image analysis to prostate cancer for improving the comprehension of the related physiological phenomena and the development and validation of new imaging biomarkers [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/134023
|
45 |
Statistical Methods Development for the Multiomic Systems BiologyUgidos Guerrero, Manuel 28 April 2023 (has links)
[ES] La investigación en Biología de Sistemas se ha expandido en los últimos años. El análisis simultáneo de diferentes tipos de datos ómicos permite el estudio de las conexiones y relaciones entre los diferentes niveles de organización celular. La presente tesis doctoral tiene como objetivo desarrollar y aplicar estrategias de integración multiómica al campo de la biología de sistemas.
El elevado coste de las tecnologías ómicas, dificulta que los laboratorios puedan abordar un estudio multiómico completo. No obstante, la gran disponibilidad de datos ómicos en repositorios públicos, permite el uso de estos datos ya generados. Desafortunadamente, la combinación de datos ómicos provenientes de diferentes orígenes, da lugar a la aparición de un ruido no deseado en los datos, el efecto lote. El efecto lote impide el correcto análisis conjunto de los datos y es necesario el uso de los llamados Algoritmos de Corrección de Efecto Lote para eliminarlo. En la actualidad, existe un gran número de éstos algoritmos que se basan en diferentes modelos estadísticos. Sin embargo, los métodos existentes no están pensados para los diseños multiómicos ya que solo permiten la corrección de un mismo tipo de ómica que debe haber sido medida en todos los lotes. Por ello desarrollamos la herramienta MultiBaC basada en la regresión PLS y modelos ANOVA-SCA, que permite la corrección del efecto lote en diseños multiómicos, permitiendo la corrección de datos que no hayan sido medidos en todos los lotes. En este trabajo, MultiBaC fué validado y evaluado en diferentes conjuntos de datos, además presentamos MultiBaC como paquete de R para facilitar su uso.
La mayoría de métodos existentes de integración multiómica son métodos multivariantes basados en el análisis del espacio latente. Estos métodos se conocen como ``dirigidos por datos'', y se basan en la búsqueda de correlaciones para determinar las relaciones entre las variables. Estos métodos necesitan de gran cantidad de observaciones o muestras para poder encontrar correlaciones significativas. Lamentablemente, en el mundo de la biología molecular, los conjuntos de datos con un gran número de muestras no son muy habituales, debido al elevado coste de generación de los datos. Como alternativa a los métodos dirigidos por datos, algunas estrategias de integración multiómicas se basan en métodos ``dirigidos por modelos''. Estos métodos pueden ajustarse con un menor número de observaciones y son muy útiles para encontrar relaciones mecanísticas entre los componentes celulares. Los métodos dirigidos por modelos necesitan de una información a priori, el modelo, que normalmente es un modelo metabólico del organismo estudiado. Actualmente, sólo transcriptómica y metabolómica cuantitativa, han sido los dos tipos de dato ómico que se han integrado con éxito usando métodos dirigidos por modelos.Sin embargo, la metabolómica cuantitativa no está muy extendida y la mayoría de laboratorios generan metabolómica no cuantitativa, la cuál no puede integrarse con los métodos actuales. Para contribuir en esta cuestión, desarrollamos MAMBA, una herramienta de integración multiómica dirigida por modelos y basada en métodología de optimización matemática, que es capaz de analizar conjuntamente metabolómica no cuantitativa con otro tipo de ómica asociada a genes, como por ejemplo la trascriptómica. MAMBA fue comparado con otros métodos existentes en cuanto a la capacidad de predcción de metabolitos y fué aplicado al conjunto interno de datos multiómicos. Este conjunto de datos multiómicos fue generado dentro del proyecto PROMETEO, en el cuál está enmarcada esta tesis. MAMBA demostró capturar la biología conocida sobre nuestro diseño experimental, además de ser útil para derivar nuevas observaciones e hipótesis biológicas.
En conjunto, esta tesis presenta herramientas útiles para el campo de la biología de sistemas, y que cubren tanto el preprocesado de datos multiómicos como su posterior análisis estadístico integrativo. / [CA] La investigació en Biologia de Sistemes s'ha expandit els darrers. L'anàlisi simultània de diferents tipus de dades òmiques permet l'estudi de les connexions i les relacions entre els diferents nivells d'organització cel·lular. Aquesta tesi doctoral té com a objectiu desenvolupar i aplicar estratègies dintegració multiòmica al camp de la biologia de sistemes.
L'elevat cost de les tecnologies òmiques dificulta que els laboratoris puguin abordar un estudi multiòmic complet. Això no obstant, la gran disponibilitat de dades òmiques en repositoris públics permet l'ús d'aquestes dades ja generades. Malauradament, la combinació de dades òmiques provinents de diferents orígens, dóna lloc a l'aparició d'un soroll no desitjat en les dades, l'efecte lot. L'efecte lot impedeix la correcta anàlisi conjunta de les dades i cal utilitzar els anomenats algorismes de correcció d'Efecte lot per eliminar-lo. Actualment hi ha un gran nombre d'aquests algorismes que corregeixen l'efecte lot que es basen en diferents models estadístics. Tot i això, els mètodes existents no estan pensats per als dissenys multiòmics ja que només permeten la correcció d'un mateix tipus de dada òmica que ha d'haver estat mesurada en tots els lots. Per això desenvolupem la nostra eina MultiBaC basada en la regressió PLS i models ANOVA-SCA, que pot corregir l'efecte lot en dissenys multiòmics, permetent la correcció de dades que no hagin estat mesurades a tots els lots. En aquest treball, MultiBaC ha sigut validat i avaluat en diferents conjunts de dades, a més a més, presentem MultiBaC com a paquet de R per facilitar l'ús de la nostra eina.
La majoria de mètodes d'integració multiòmica existents són mètodes multivariants basats en l'anàlisi de l'espai latent. Aquests mètodes es coneixen com a "dirigits per dades", i es basen en la cerca de correlacions per determinar les relacions entre les diferents variables. Els mètodes dirigits per dades necessiten gran quantitat d'observacions o mostres per poder trobar correlacions significatives entre les variables. Lamentablement, al món de la biologia molecular, els conjunts de dades amb un gran nombre de mostres no són molt habituals, degut a l'elevat cost de generació de les dades òmiques. Com a alternativa als mètodes dirigits per dades, algunes estratègies d'integració multiòmiques es basen en mètodes "dirigits per models". Aquests mètodes poden ajustar-se amb un nombre menor d'observacions i són molt útils per trobar relacions mecanístiques entre els components cel·lulars. Tot i això, els mètodes dirigits per models necessiten una informació a priori, el model, que normalment és un model metabòlic de l'organisme estudiat. Actualment, únicament transcriptòmica i metabolòmica quantitativa, han estat els dos tipus de dada òmica que s'han integrat amb èxit usant mètodes dirigits per models. No obstant això, la metabolòmica quantitativa no està gaire estesa i la majoria de laboratoris generen metabolòmica no quantitativa, les quals no es poden integrar amb els mètodes actuals. Per contribuir en aquesta qüestió, hem desenvolupat MAMBA, una eina d'integració multiòmica dirigida per models i basada en la metodologia d'optimització matemàtica, que és capaç d'analitzar conjuntament metabolòmica no quantitativa amb un altre tipus d'òmica associada a gens, com per exemple la trascriptòmica. MAMBA va ser comparat amb altres mètodes existents quant a la capacitat de predcció de metabòlits i va ser aplicat al conjunt intern de dades multiòmiques. Aquest conjunt de dades multiòmiques va ser generat dins del projecte PROMETEO, en el qual està emmarcada aquesta tesi. Es demostra que MAMBA capturar la biologia coneguda sobre el nostre disseny experimental, a més de ser útil per derivar noves observacions i hipòtesis biològiques.
En conjunt, aquesta tesi presenta eines útils per al camp de la biologia de sistemes, i que cobreixen tant el preprocessament de dades multiòmiques com la seua posterior anàlisi estadística integrativa. / [EN] Systems Biology research has expanded over the last years together with the development of omic technologies. The combination and simultaneous analysis of different kind of omic data allows the study of the connections and relationships between different cellular layers. Indeed, multiomic integration strategies provides a key source of knowledge about the cell as a system. The present Ph.D. thesis aims to study, develop and apply multiomic integration approaches to the field of systems biology.
The still high cost of omics technologies makes it difficult for most laboratories to afford a complete multiomic study. However, the wide availability of omic data in public repositories allows the use of these already generated data. Unfortunately, the combination of omic data from different sources provokes the appearance of unwanted noise in data, known as batch effect. Batch effect impairs the correct integrative analysis of the data. Therefore, the use of so-called Batch Effect Correction Algorithms is necessary. As of today, there is a large number of such algorithms based on different statistical models and methods that correct batch effect and are part of the data pre-processing steps. However, the existing methods are not intended for multi-omics designs as they only allow the correction of the same type of omic data that must be measured across all batches. For this reason, we developed MultiBaC algorithm, which removes batch effect in multiomic designs, allowing the correction of data that are not measured across all batches. MultiBaC is based on PLS regression and ANOVA-SCA models and was validated and evaluated on different datasets. We also present MultiBaC as an R package to facilitate the use of this tool.
Most existing multiomic integration approaches are multivariate methods based on latent space analysis. These methods are known as data-driven as they are based on the search for correlations to determine the relationships between the different variables. Data-driven methods require a large number of observations or samples to find robust and/or significant correlations among features. Unfortunately, in the molecular biology field, data sets with a large number of samples are not very common, again due to the high cost of generating omic data. As an alternative to data-driven methods, some multiomic integration strategies are based on model-driven approaches. These methods can be fitted with a smaller number of observations and are very useful for finding mechanistic relationships between different cellular components. However, model-driven methods require a priori information, which is usually a metabolic model of the organism under study. Currently, only transcriptomics and quantitative metabolomics have been successfully integrated using model-driven methods. Nonetheless, quantitative metabolomics is not very widespread and most laboratories generate non-quantitative or semi-quantitative metabolomics, which cannot be integrated with current methods. To address this issue, we developed MAMBA, a model-driven multiomic integration method that relies on mathematical optimization problems and is able to jointly analyze non-quantitative or semi-quantitative metabolomics with other types of gene-centric omic data, such as transcriptomics. MAMBA was compared to other existing methods in terms of metabolite prediction accuracy and was applied to a multiomic dataset generated within the PROMETEO project, in which this thesis is framed. MAMBA proved to capture the known biology of our experimental design and was useful for deriving new findings and biological hypotheses.
Altogether, this thesis presents useful tools for the field of systems biology, covering both the pre-processing of multiomic datasets and their subsequent statistical integrative analysis. / Ugidos Guerrero, M. (2023). Statistical Methods Development for the Multiomic Systems Biology [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/193031
|
46 |
Arabic Text Recognition and Machine TranslationAlkhoury, Ihab 13 July 2015 (has links)
[EN] Research on Arabic Handwritten Text Recognition (HTR) and Arabic-English Machine Translation (MT) has been usually approached as two independent areas of study. However, the idea of creating one system that combines both areas together, in order to generate English translation out of images containing Arabic text, is still a very challenging task. This process can be interpreted as the translation of Arabic images. In this thesis, we propose a system that recognizes Arabic handwritten text images, and translates the recognized text into English. This system is built from the combination of an HTR system and an MT system.
Regarding the HTR system, our work focuses on the use of Bernoulli Hidden Markov Models (BHMMs). BHMMs had proven to work very well with Latin script. Indeed, empirical results based on it were reported on well-known corpora, such as IAM and RIMES. In this thesis, these results are extended to Arabic script, in particular, to the well-known IfN/ENIT and NIST OpenHaRT databases for Arabic handwritten text.
The need for transcribing Arabic text is not only limited to handwritten text, but also to printed text. Arabic printed text might be considered as a simple form of handwritten text version. Thus, for this kind of text, we also propose Bernoulli HMMs. In addition, we propose to compare BHMMs with state-of-the-art technology based on neural networks.
A key idea that has proven to be very effective in this application of Bernoulli HMMs is the use of a sliding window of adequate width for feature extraction. This idea has allowed us to obtain very competitive results in the recognition of both Arabic handwriting and printed text. Indeed, a system based on it ranked first at the ICDAR 2011 Arabic recognition competition on the Arabic Printed Text Image (APTI) database. Moreover, this idea has been refined by using repositioning techniques for extracted windows, leading to further improvements in Arabic text recognition.
In the case of handwritten text, this refinement improved our system which ranked first at the ICFHR 2010 Arabic handwriting recognition competition on IfN/ENIT. In the case of printed text, this refinement led to an improved system which ranked second at the ICDAR 2013 Competition on Multi-font and Multi-size Digitally Represented Arabic Text on APTI. Furthermore, this refinement was used with neural networks-based technology, which led to state-of-the-art results.
For machine translation, the system was based on the combination of three state-of-the-art statistical models: the standard phrase-based models, the hierarchical phrase-based models, and the N-gram phrase-based models. This combination was done using the Recognizer Output Voting Error Reduction (ROVER) method. Finally, we propose three methods of combining HTR and MT to develop an Arabic image translation system. The system was evaluated on the NIST OpenHaRT database, where competitive results were obtained. / [ES] El reconocimiento de texto manuscrito (HTR) en árabe y la traducción automática (MT) del árabe al inglés se han tratado habitualmente como dos áreas de estudio independientes. De hecho, la idea de crear un sistema que combine las dos áreas, que directamente genere texto en inglés a partir de imágenes que contienen texto en árabe, sigue siendo una tarea difícil. Este proceso se puede interpretar como la traducción de imágenes de texto en árabe. En esta tesis, se propone un sistema que reconoce las imágenes de texto manuscrito en árabe, y que traduce el texto reconocido al inglés. Este sistema está construido a partir de la combinación de un sistema HTR y un sistema MT.
En cuanto al sistema HTR, nuestro trabajo se enfoca en el uso de los Bernoulli Hidden Markov Models (BHMMs). Los modelos BHMMs ya han sido probados anteriormente en tareas con alfabeto latino obteniendo buenos resultados. De hecho, existen resultados empíricos publicados usando corpus conocidos, tales como IAM o RIMES. En esta tesis, estos resultados se han extendido al texto manuscrito en árabe, en particular, a las bases de datos IfN/ENIT y NIST OpenHaRT.
En aplicaciones reales, la transcripción del texto en árabe no se limita únicamente al texto manuscrito, sino también al texto impreso. El texto impreso se puede interpretar como una forma simplificada de texto manuscrito. Por lo tanto, para este tipo de texto, también proponemos el uso de modelos BHMMs. Además, estos modelos se han comparado con tecnología del estado del arte basada en redes neuronales.
Una idea clave que ha demostrado ser muy eficaz en la aplicación de modelos BHMMs es el uso de una ventana deslizante (sliding window) de anchura adecuada durante la extracción de características. Esta idea ha permitido obtener resultados muy competitivos tanto en el reconocimiento de texto manuscrito en árabe como en el de texto impreso. De hecho, un sistema basado en este tipo de extracción de características quedó en la primera posición en el concurso ICDAR 2011 Arabic recognition competition usando la base de datos Arabic Printed Text Image (APTI). Además, esta idea se ha perfeccionado mediante el uso de técnicas de reposicionamiento aplicadas a las ventanas extraídas, dando lugar a nuevas mejoras en el reconocimiento de texto árabe.
En el caso de texto manuscrito, este refinamiento ha conseguido mejorar el sistema que ocupó el primer lugar en el concurso ICFHR 2010 Arabic handwriting recognition competition usando IfN/ENIT. En el caso del texto impreso, este refinamiento condujo a un sistema mejor que ocupó el segundo lugar en el concurso ICDAR 2013 Competition on Multi-font and Multi-size Digitally Represented Arabic Text en el que se usaba APTI. Por otro lado, esta técnica se ha evaluado también en tecnología basada en redes neuronales, lo que ha llevado a resultados del estado del arte.
Respecto a la traducción automática, el sistema se ha basado en la combinación de tres tipos de modelos estadísticos del estado del arte: los modelos standard phrase-based, los modelos hierarchical phrase-based y los modelos N-gram phrase-based. Esta combinación se hizo utilizando el método Recognizer Output Voting Error Reduction (ROVER). Por último, se han propuesto tres métodos para combinar los sistemas HTR y MT con el fin de desarrollar un sistema de traducción de imágenes de texto árabe a inglés. El sistema se ha evaluado sobre la base de datos NIST OpenHaRT, donde se han obtenido resultados competitivos. / [CA] El reconeixement de text manuscrit (HTR) en àrab i la traducció automàtica (MT) de l'àrab a l'anglès s'han tractat habitualment com dues àrees d'estudi independents. De fet, la idea de crear un sistema que combine les dues àrees, que directament genere text en anglès a partir d'imatges que contenen text en àrab, continua sent una tasca difícil. Aquest procés es pot interpretar com la traducció d'imatges de text en àrab. En aquesta tesi, es proposa un sistema que reconeix les imatges de text manuscrit en àrab, i que tradueix el text reconegut a l'anglès. Aquest sistema està construït a partir de la combinació d'un sistema HTR i d'un sistema MT.
Pel que fa al sistema HTR, el nostre treball s'enfoca en l'ús dels Bernoulli Hidden Markov Models (BHMMs). Els models BHMMs ja han estat provats anteriorment en tasques amb alfabet llatí obtenint bons resultats. De fet, existeixen resultats empírics publicats emprant corpus coneguts, tals com IAM o RIMES. En aquesta tesi, aquests resultats s'han estès a la escriptura manuscrita en àrab, en particular, a les bases de dades IfN/ENIT i NIST OpenHaRT.
En aplicacions reals, la transcripció de text en àrab no es limita únicament al text manuscrit, sinó també al text imprès. El text imprès es pot interpretar com una forma simplificada de text manuscrit. Per tant, per a aquest tipus de text, també proposem l'ús de models BHMMs. A més a més, aquests models s'han comparat amb tecnologia de l'estat de l'art basada en xarxes neuronals.
Una idea clau que ha demostrat ser molt eficaç en l'aplicació de models BHMMs és l'ús d'una finestra lliscant (sliding window) d'amplària adequada durant l'extracció de característiques. Aquesta idea ha permès obtenir resultats molt competitius tant en el reconeixement de text àrab manuscrit com en el de text imprès. De fet, un sistema basat en aquest tipus d'extracció de característiques va quedar en primera posició en el concurs ICDAR 2011 Arabic recognition competition emprant la base de dades Arabic Printed Text Image (APTI).
A més a més, aquesta idea s'ha perfeccionat mitjançant l'ús de tècniques de reposicionament aplicades a les finestres extretes, donant lloc a noves millores en el reconeixement de text en àrab. En el cas de text manuscrit, aquest refinament ha aconseguit millorar el sistema que va ocupar el primer lloc en el concurs ICFHR 2010 Arabic handwriting recognition competition usant IfN/ENIT. En el cas del text imprès, aquest refinament va conduir a un sistema millor que va ocupar el segon lloc en el concurs ICDAR 2013 Competition on Multi-font and Multi-size Digitally Represented Arabic Text en el qual s'usava APTI. D'altra banda, aquesta tècnica s'ha avaluat també en tecnologia basada en xarxes neuronals, el que ha portat a resultats de l'estat de l'art.
Respecte a la traducció automàtica, el sistema s'ha basat en la combinació de tres tipus de models estadístics de l'estat de l'art: els models standard phrase-based, els models hierarchical phrase-based i els models N-gram phrase-based. Aquesta combinació es va fer utilitzant el mètode Recognizer Output Voting Errada Reduction (ROVER). Finalment, s'han proposat tres mètodes per combinar els sistemes HTR i MT amb la finalitat de desenvolupar un sistema de traducció d'imatges de text àrab a anglès. El sistema s'ha avaluat sobre la base de dades NIST OpenHaRT, on s'han obtingut resultats competitius. / Alkhoury, I. (2015). Arabic Text Recognition and Machine Translation [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/53029
|
47 |
Inteligencia computacional en la programación de la producción con recursos adicionalesAlfaro Fernández, Pedro 26 October 2023 (has links)
[ES] En esta Tesis Doctoral se aborda el problema del taller de flujo de permutación considerando recursos adicionales renovables, que es una versión más realista del clásico problema de taller de flujo de permutación, muy estudiado en la literatura. La inclusión de los recursos ayuda a acercar el mundo académico-científico al mundo real de la industria. Se ha realizado una completa revisión bibliográfica que no se ha limitado a problemas del taller de flujo, sino que han revisado problemas similares del ámbito de scheduling que consideren recursos. En esta revisión, no se han encontrado en la literatura artículos para el problema concreto que se estudia en esta tesis. Por ello, la aportación principal de esta Tesis Doctoral es el estudio por primera vez de este problema y la propuesta y adaptación de métodos para su resolución. Inicialmente, el problema se modeliza a través de un modelo de programación lineal entera mixta (MILP). Dada la complejidad del problema, el MILP es capaz de resolver instancias de un tamaño muy pequeño. Por ello, es necesario adaptar, diseñar e implementar heurísticas constructivas y metaheurísticas para obtener buenas soluciones en un tiempo de computación razonable. Para evaluar la eficacia y eficiencia de los métodos propuestos, se generan instancias de problemas partiendo de los conjuntos más utilizados en la literatura para el taller de flujo de permutación. Se utilizan estas instancias propuestas tanto para calibrar los distintos métodos como para evaluar su rendimiento a través de experimentos computacionales masivos. Los experimentos muestran que las heurísticas propuestas son métodos sencillos que consiguen soluciones factibles de una forma muy rápida. Para mejorar las soluciones obtenidas con las heurísticas y facilitar el movimiento a otros espacios de soluciones, se proponen tres metaheurísticas: un método basado en búsqueda local iterativa (ILS), un método voraz iterativo (IG) y un algoritmo genético con búsqueda local (HGA). Todos ellos utilizan las heurísticas propuestas más eficaces como solución o soluciones iniciales. Las metaheurísticas obtienen las mejores soluciones utilizando tiempos de computación razonables, incluso para las instancias de mayor tamaño. Todos los métodos han sido implementados dentro de la plataforma FACOP (Framework for Applied Combinatorial Optimization Problems). Dicha plataforma es capaz de incorporar nuevos algoritmos de optimización para problemas de investigación operativa relacionados con la toma de decisiones de las organizaciones y está diseñada para abordar casos reales en empresas. El incorporar en esta plataforma todas las metodologías propuestas en esta Tesis Doctoral, acerca el mundo académico al mundo empresarial. / [CA] En aquesta Tesi Doctoral s'aborda el problema del taller de flux de permutació considerant recursos addicionals renovables, que és una versió més realista del clàssic problema de taller de flux de permutació, molt estudiat a la literatura. La inclusió dels recursos ajuda a apropar el món acadèmic-científic al món real de la indústria. S'ha realitzat una revisió bibliogràfica completa que no s'ha limitat a problemes del taller de flux, sinó que ha revisat problemes similars de l'àmbit de scheduling que considerin recursos. En aquesta revisió, no s'ha trobat a la literatura articles per al problema concret que s'estudia en aquesta tesi. Per això, l'aportació principal d'aquesta Tesi Doctoral és l'estudi per primera vegada d'aquest problema i la proposta i l'adaptació de mètodes per resoldre'ls. Inicialment, el problema es modelitza mitjançant un model de programació lineal sencera mixta (MILP). Donada la complexitat del problema, el MILP és capaç de resoldre instàncies d'un tamany molt petita. Per això, cal adaptar, dissenyar i implementar heurístiques constructives i metaheurístiques per obtenir bones solucions en un temps de computació raonable. Per avaluar l'eficàcia i l'eficiència dels mètodes proposats, es generen instàncies de problemes partint dels conjunts més utilitzats a la literatura per al taller de flux de permutació. S'utilitzen aquestes instàncies proposades tant per calibrar els diferents mètodes com per avaluar-ne el rendiment a través d'experiments computacionals massius. Els experiments mostren que les heurístiques proposades són mètodes senzills que aconsegueixen solucions factibles de manera molt ràpida. Per millorar les solucions obtingudes amb les heurístiques i facilitar el moviment a altres espais de solucions, es proposen tres metaheurístiques: un mètode basat en cerca local iterativa (ILS), un mètode voraç iteratiu (IG) i un algorisme genètic híbrid (HGA). Tots ells utilitzen les heurístiques proposades més eficaces com a solució o solucions inicials. Les metaheurístiques obtenen les millors solucions utilitzant temps de computació raonables, fins i tot per a les instàncies més grans. Tots els mètodes han estat implementats dins de la plataforma FACOP (Framework for Applied Combinatorial Optimization Problems). Aquesta plataforma és capaç d'incorporar nous algorismes d'optimització per a problemes de recerca operativa relacionats amb la presa de decisions de les organitzacions i està dissenyada per abordar casos reals a empreses. El fet d'incorporar en aquesta plataforma totes les metodologies proposades en aquesta Tesi Doctoral, apropa el món acadèmic al món empresarial. / [EN] In this Doctoral Thesis, the permutation flowshop problem is addressed considering additional renewable resources, which is a more realistic version of the classic permutation flowshop problem, widely studied in the literature. The inclusion of resources helps to bring the academic-scientific world closer to the real world of industry. A complete bibliographic review has been carried out that has not been limited to flow shop problems, but has reviewed similar problems in the scheduling field that consider resources. In this review, no articles have been found in the literature for the specific problem studied in this thesis. Therefore, the main contribution of this Doctoral Thesis is the study for the first time of this problem and the proposal and adaptation of methods for its resolution. Initially, the problem is modeled through a mixed integer linear programming (MILP) model. Given the complexity of the problem, the MILP is capable of solving very small instances. Therefore, it is necessary to adapt, design and implement constructive heuristics and metaheuristics to obtain good solutions in a reasonable computation time. In order to evaluate the effectiveness and efficiency of the proposed methods, problem instances are generated starting from the sets most used in the literature for the permutation flowshop. These proposed instances are used both to calibrate the different methods and to evaluate their performance through massive computational experiments. Experiments show that proposed heuristics are simple methods that achieve feasible solutions very quickly. To improve the solutions obtained with the heuristics and facilitate movement to other solution spaces, three metaheuristics are proposed: a method based on iterated local search (ILS), an iterative greedy method (IG) and a hybrid genetic algorithm (HGA). All of them use the most effective proposed heuristics as initial solution or solutions. Metaheuristics get the best solutions using reasonable computation times, even for the largest instances. All the methods have been implemented within the FACOP platform (Framework for Applied Combinatorial Optimization Problems). Said platform is capable of incorporating new optimization algorithms for operational research problems related to decision-making in organizations and it is designed to address real cases in companies. Incorporating in this platform all the methodologies proposed in this Doctoral Thesis, brings the academic world closer to the business world. / Alfaro Fernández, P. (2023). Inteligencia computacional en la programación de la producción con recursos adicionales [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/198891
|
48 |
Mejoras a la implementación del gráfico de control CEV para procesos con observaciones censuradas. Aportaciones, mediciones de propiedades y potencia de predicciónNeira Rueda, Javier Orlando 17 March 2024 (has links)
[ES] El proceso de estimación de parámetros para caracterizar una población mediante algoritmos está en constante desarrollo y perfeccionamiento. Los últimos años demuestran que la toma de decisiones basada en datos es compleja cuando existe incertidumbre generada por la censura estadística. La presente tesis evalúa el efecto de la censura estadística en una variable aleatoria normalmente distribuida común en muchos procesos. Posteriormente, las propiedades de estimación de los parámetros se caracterizarán con el algoritmo de máximo verosimilitud llamado valor condicional esperado CEV (Siglas en ingles), utilizando diferentes porcentajes de censura y tamaños de muestra. Posteriormente, se sistematiza y caracteriza el proceso de implementación del gráfico de control para supervisar tales variables aleatorias, proponiendo acciones de mejora y haciendo observaciones en el proceso.
Finalmente, esta tesis resalta la importancia actual de tomar de decisiones basadas en algoritmos de estimación de datos con presencia de algún tipo de censura estadística, que a su vez se interpreta como una pérdida de información. / [CA] El procés d'estimació de paràmetres per a caracteritzar una població mitjançant algorismes està en constant desenvolupament i perfeccionament. Els últims anys demostren que la presa de decisions basada en dades és complexa quan existeix incertesa per la censura estadística. La present tesi avalua l'efecte de la censura estadística en una variable aleatòriament distribuïda comuna en molts processos. Posteriorment, les propietats d'estimació dels paràmetres es caracteritzaran amb l'algorisme de màxima versemblança anomenat valor condicional esperat CEV (Sigles en anglés), utilitzant diferents percentatges de censura i grandària de mostra. Se sistematitza i caracteritza el procés d'implementació del gràfic de control per a supervisar les variables aleatòries, proposant accions de millora i fent observacions posteriors en el procés.
Finalment, aquesta tesi ressalta la importància actual de prendre decisions basades en algorismes d'estimació de dades amb presència d'alguna mena de censura estadística, que al seu torn s'interpreta com una pèrdua d'informació. / [EN] The process of parameter estimation in order to characterize a population using algorithms is in constant development and perfection. Recent years show that data-based decision-making is complex when there is uncertainty generated by statistical censoring. This thesis evaluates the effect of statistical censoring on a normally distributed random variable common to many processes. Subsequently, the estimation properties of the parameters will be characterised with the maximum likelihood algorithm called conditional expected value (CEV), using different censoring percentages and sample sizes. Subsequently, the process of implementing the control chart to monitor such random variables is systematised and characterised, proposing improvement actions and making observations in the process.
Finally, this thesis highlights the current importance of making decisions based on data estimation algorithms with the presence of some kind of statistical censoring, which in turn is interpreted as a loss of information. / Neira Rueda, JO. (2024). Mejoras a la implementación del gráfico de control CEV para procesos con observaciones censuradas. Aportaciones, mediciones de propiedades y potencia de predicción [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/203154
|
49 |
Técnicas estadísticas para el control y la mejora de la calidad en el sector textil: aplicación en la manta y la napa termofusionadaMiró Martínez, Pau 07 May 2008 (has links)
El sector textil y las herramientas de Control Estadístico de la Calidad han evolucionado con las distintas revoluciones industriales. El nivel tecnológico de muchas empresas del sector es muy elevado pero en cambio el uso de técnicas Estadísticas es muy reducido, considerándose a menudo de gran dificultad, innecesarias y cuyos costos son elevados. La tesis que se presenta se plantea como objetivo romper con esta forma de pensar y demostrar algunas de las ventajas que puede aportar el uso de la Estadística para tomar decisiones y mejorar la calidad de productos y procesos.
Para alcanzar este objetivo, se hace un breve repaso al grado de utilización de la ciencia en el sector, sobre todo en algunas comarcas de la Comunidad Valenciana en las que se centrarán las propuestas después realizadas. Esta indagación proporciona las claves necesarias para encaminar la investigación hacia dos tipos de productos diferentes, por un lado, los de hogar que son los que tradicionalmente se producen en la zona, y por otro, los técnicos que representan una oportunidad de innovación.
La primera propuesta se realiza con la intención de dotar de mayor valor añadido a los productos tradicionales, mediante la incorporación de un sistema de Control de la Calidad de sus características sensoriales. Utilizando algunas técnicas de Análisis Sensorial se quiere controlar la calidad del artículo en el proceso de producción, así como definir las características sensoriales que lo caractericen y lo pueden distinguir de sus competidores. Esta propuesta se aplica a la manta para cama.
La segunda propuesta quiere facilitar la innovación en materiales técnicos, aportando las herramientas necesarias para la realización de la experimentación de forma sistemática y ordenada, para poder analizar y tomar las decisiones de forma más objetiva y eficiente. Se aplica a aquellos productos técnicos que se realicen mediante la mezcla de diferentes tipos de fibras. El caso estudio consiste en optimizar la Napa obte / Miró Martínez, P. (2005). Técnicas estadísticas para el control y la mejora de la calidad en el sector textil: aplicación en la manta y la napa termofusionada [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1991
|
50 |
Propuesta de mejora de los gráficos de control por atributos mediante la metodología de DaudinPérez Bernabeu, Elena 15 December 2008 (has links)
Esta Tesis Doctoral se centra en la propuesta de mejora del gráfico por atributos u. Se aplica a este gráfico el muestreo doble propuesto por J.J. Daudin (1992) para el gráfico de la media. Se trata de un caso particular en dos etapas del muestreo múltiple, y el gráfico propuesto recibe el nombre de DS-u.
El objetivo de esta Tesis Doctoral es conocer cómo se comporta la metodología de Daudin aplicada al gráfico por atributos u, y si mejora la potencia que ofrece el gráfico u clásico. Para ello se ha programado una aplicación empleando algoritmos genéticos con la cual se han realizado simulaciones que han permitido la obtención de conclusiones. Se ha conseguido mejorar para algunos casos concretos. / Pérez Bernabeu, E. (2008). Propuesta de mejora de los gráficos de control por atributos mediante la metodología de Daudin [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/3786
|
Page generated in 0.0773 seconds