Spelling suggestions: "subject:"estadística"" "subject:"estatistica""
71 |
Análisis experimental del fresado de materiales compuestos reforzados con fibra de basaltoNavarro Mas, María Dolores 29 November 2021 (has links)
[ES] Los materiales compuestos reforzados con fibra son ampliamente utilizados en diversos sectores, como el aeroespacial y el de automoción. Tras su conformado, estos materiales necesitan procesos de mecanizado para eliminar el material sobrante y facilitar la unión entre piezas. Debido a la naturaleza heterogénea y la anisotropía de estos materiales, su comportamiento ante el mecanizado es diferente que los metálicos. Las fibras abrasivas provocan un rápido desgaste de la herramienta y, además, la aparición del delaminado puede hacer necesario el reprocesado o rechazo de las piezas. El delaminado es un defecto que provoca la separación de capas del material compuesto y hace que la pieza presente un aspecto deshilachado en el borde mecanizado porque la herramienta dobla las fibras en vez de cortarlas, además de poder producir un daño superficial en la pieza.
En esta tesis se ha abordado el estudio experimental del fresado de materiales compuestos reforzados con fibra de basalto, en concreto, en la operación de contorneado. En el mecanizado de este material se ha estudiado el desgaste de la herramienta, el acabado superficial y el delaminado, analizando la influencia de los parámetros de corte (velocidad, avance y profundidad de pasada), y de las características del material compuesto (volumen y orientación de fibra). Con respecto al material de las fibras, casi todos los estudios existentes se han centrado en las fibras de carbono y de vidrio, no habiendo estudios con fibras de basalto, aunque este material es de origen natural y una buena alternativa a las fibras de vidrio. Con respecto al proceso de fresado, los estudios existentes en la bibliografía se han centrado más en la operación de ranurado que en la de contorneado.
Una parte fundamental de la tesis se ha centrado en el estudio del delaminado. Para ello se han definido y desarrollado los diferentes aspectos teóricos que caracterizan este defecto. Además, se han cuantificado los tipos de delaminado (Tipos I y II) mediante la definición y comparación de parámetros unidimensionales y de superficie, evaluando su evolución temporal. Los parámetros unidimensionales permiten evaluar la longitud de las fibras que sobresalen o dañan la superficie, mientras que los parámetros de superficie permiten cuantificar la densidad del delaminado.
Como complemento al estudio experimental, se han utilizado herramientas estadísticas (diseño de experimentos, ANOVA y modelos de regresión cuantílica) para estudiar el fresado de este tipo de materiales en relación a la rugosidad, el desgaste de la herramienta y el delaminado. / [CA] Els materials compostos reforçats amb fibra són àmpliament utilitzats en diversos sectors, com l'aeroespacial i el d'automoció. Després del seu conformat, aquests materials necessiten processos de mecanitzat per a eliminar el material sobrant i facilitar la unió entre peces. A causa de la naturalesa heterogènia i anisotropia d'aquests materials, el seu comportament davant el mecanitzat és diferent que els metàl·lics. Les fibres abrasives provoquen un ràpid desgast de l'eina i, a més, l'aparició de la delaminació pot fer necessari el reprocessament o rebuig de les peces. La delaminació és un defecte que provoca la separació de capes del material compost i fa que la peça presente un aspecte esfilagarsat en la vora mecanitzada perquè l'eina doblega les fibres en lloc de tallar-les, a més de poder produir un mal superficial en la peça.
En aquesta tesi s'ha abordat l'estudi experimental del fresat de materials compostos reforçats amb fibra de basalt, en concret, en l'operació de contornejat. En el mecanitzat d'aquest material s'ha estudiat el desgast de l'eina, l'acabat superficial i la delaminació, analitzant la influència dels paràmetres de tall (velocitat, avanç i profunditat de passada), i de les característiques del material compost (volum i orientació de fibra). Respecte al material de les fibres, quasi tots els estudis existents s'han centrat en les fibres de carboni i de vidre, no havent-hi estudis amb fibres de basalt, encara que aquest material és d'origen natural i una bona alternativa a les fibres de vidre. Respecte al procés de fresat, els estudis existents en la bibliografia s'han centrat més en l'operació de ranurat que en la de contornejat.
Una part fonamental de la tesi s'ha centrat en l'estudi de la delaminació. Per a això s'han definit i desenvolupat els diferents aspectes teòrics que caracteritzen aquest defecte. A més, s'han quantificat els tipus de delaminació (Tipus I i II) mitjançant la definició i comparació de paràmetres unidimensionals i de superfície, avaluant la seua evolució temporal. Els paràmetres unidimensionals permeten avaluar la longitud de les fibres que sobreïxen o danyen la superfície, mentre que els paràmetres de superfície permeten quantificar la densitat de la delaminació.
Com a complement a l'estudi experimental, s'han utilitzat eines estadístiques (disseny d'experiments, ANOVA i models de regressió quantílica) per estudiar el fresat d'aquesta mena de materials i predir alguns aspectes de la rugositat, el desgast de l'eina i la delaminació. / [EN] Fiber reinforced composites are widely used in diverse fields such as aeronautics and automotive. After their shaping, these materials require machining processes to remove excess material and facilitate joining between parts. Due to the heterogeneous nature and anisotropy of these materials, their behavior when being machined is different from metallic ones. Abrasive fibers trigger fast tool wear and delamination appearance can cause piece reprocessing or discard. Delamination is a defect which induces the separation of composite layers and makes the piece present a frayed appearance on the machined edge because the tool bends the fibers instead of cutting them, in addition to producing surface damage to the piece.
In this thesis, the experimental study of milling of basalt fiber reinforced composite materials has been approached, specifically, in edge trimming. In the machining of this material, tool wear, surface finish and delamination have been studied, analyzing the influence of cutting parameters (cutting speed, feed per tooth and depth of cut) and characteristics of the composite material (fiber volume fraction and fiber orientation). Regarding the fiber material, almost all existing studies have focused on carbon and glass fibers, there are no studies with basalt fibers, although this material is of natural origin and a good alternative to glass fibers. About the milling process, existing studies in the literature have focused more on the grooving operation than on the edge trimming operation.
A fundamental part of the thesis has focused on the study of delamination. To characterize this defect, different theoretical aspects have been defined and developed. Additionally, different types of delamination (types I and II) have been quantified through the definition and comparison of one-dimensional and surface parameters, evaluating their temporal evolution. One-dimensional parameters allow the evaluation of the length of the fibers that protrude or damage the surface, while the surface parameters allow the quantification of the density of delaminate.
As a complement to the experimental study, statistical tools (experiment design, ANOVA and quantile regression models) have been used to study the milling of this type of materials and predict certain roughness, tool wear, and delamination aspects. / Navarro Mas, MD. (2021). Análisis experimental del fresado de materiales compuestos reforzados con fibra de basalto [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/177645
|
72 |
Ajuste y predicción de la mortalidad. Aplicación a ColombiaDíaz Rojo, Gisou 17 January 2022 (has links)
[ES] En la actualidad resulta de gran importancia el análisis de los fenómenos como el crecimiento poblacional y la reducción de la mortalidad por la repercusión económica y social que dichos procesos tienen en el desarrollo de los países. En este sentido las tablas de vida constituyen una herramienta para comprender, a través de las probabilidades de muerte, la esperanza de vida y otros indicadores, la dinámica poblacional. Lee y Carter (1992), plantearon un modelo, cuyo ajuste permite a los analistas obtener una visión dinámica del comportamiento de la mortalidad durante un periodo de análisis.
Esta tesis doctoral busca contribuir en la comprensión de los cambios que ha experimentado la población colombiana en cuanto a mortalidad. Para lograrlo se plantearon cuatro objetivos. El primero, construir modelos estocásticos de mortalidad como Lee-Carter para datos de Colombia y hacer un estudio comparativo de dichos modelos para evaluar su coherencia a partir de la calidad de los resultados obtenidos. El segundo, calcular y analizar algunos indicadores relacionados con la mortalidad tales como la mortalidad infantil, la esperanza de vida al nacer, la esperanza de vida a los 65 años, el índice de Gini al nacer y el índice de Gini a los 65 años. El tercero, aplicar gráficos de control para identificar los momentos en el tiempo y los intervalos de edad en los que la probabilidad de muerte observada es sustancialmente diferente de la pauta de mortalidad en el período estudiado. Para esto, los residuos de los modelos seleccionados se vigilaron mediante el gráfico de control multivariado T2 de Hotelling para detectar cambios sustanciales en la mortalidad que no fueron identificados por los modelos. El cuarto, analizar el comportamiento de la mortalidad para los departamentos de Colombia mediante técnicas de análisis multivariado como el análisis de componentes principales, el clúster jerárquico y el fuzzy clúster, para posteriormente identificar grupos de departamentos con comportamientos similares y caracterizarlos mediante los indicadores de mortalidad estudiados.
La metodología descrita relacionada con los tres primeros objetivos se aplicó a datos de las tablas de vida abreviadas por sexo para Colombia para el período 1973-2005, utilizando la información disponible en The Latin America Human Mortality Database. Para el análisis de la mortalidad por departamentos se construyeron nuevas tablas de vida abreviadas por sexo con la información de los departamentos para el período 1985-2014, ajustándonos a la información disponible para los departamentos de Colombia en cuanto a defunciones y población. La metodología fue implementada a través del software estadístico libre R, lo que permite la replicabilidad y reproducibilidad de los resultados. / [CA] En l'actualitat resulta de gran importància l'anàlisi dels fenòmens com el creixement poblacional i la reducció de la mortalitat per la repercussió econòmica i social que aquests processos tenen en el desenvolupament dels països. En aquest sentit les taules de vida constitueixen una eina per a comprendre, a través de les probabilitats de mort, l'esperança de vida i altres indicadors, la dinàmica poblacional. Lee i Carter (1992), van plantejar un model, l'ajust del qual permet als analistes obtenir una visió dinàmica del comportament de la mortalitat durant un període d'anàlisi.
Aquesta tesi doctoral cerca contribuir en la comprensió dels canvis que ha experimentat la població colombiana quant a mortalitat. Per a aconseguir-ho es van plantejar quatre objectius. El primer, construir models estocàstics de mortalitat com Lee-Carter per a dades de Colòmbia i fer un estudi comparatiu d'aquests models per a avaluar la seua coherència a partir de la qualitat dels resultats obtinguts. El segon, calcular i analitzar alguns indicadors relacionats amb la mortalitat tals com la mortalitat infantil, l'esperança de vida en nàixer, l'esperança de vida als 65 anys, l'índex de Gini en nàixer i l'índex de Gini als 65 anys. El tercer, aplicar gràfics de control per a identificar els moments en el temps i els intervals d'edat en els quals la probabilitat de mort observada és substancialment diferent de la pauta de mortalitat en el període estudiat. Per a això, els residus dels models seleccionats es van vigilar mitjançant el gràfic de control multivariat T2 de Hotelling per a detectar canvis substancials en la mortalitat que no van ser identificats pels models. El quart, analitzar el comportament de la mortalitat per als departaments de Colòmbia mitjançant tècniques d'anàlisi multivariada com l'anàlisi de components principals, el clúster jeràrquic i el fuzzy clúster, per a posteriorment identificar grups de departaments amb comportaments similars i caracteritzar-los mitjançant els indicadors de mortalitat estudiats.
La metodologia descrita relacionada amb els tres primers objectius es va aplicar a dades de les taules de vida abreujades per sexe per a Colòmbia per al període 1973-2005, utilitzant la informació disponible en The Latin America Human Mortality Database. Per a l'anàlisi de la mortalitat per departaments es van construir noves taules de vida abreujades per sexe amb la informació dels departaments per al període 1985-2014, ajustant-nos a la informació disponible per als departaments de Colòmbia quant a defuncions i població. La metodologia va ser implementada a través del programari estadístic lliure R, la qual cosa permet la replicabilidad i reproducibilidad dels resultats. / [EN] The analysis of phenomena such as population growth and mortality reduction is currently of great importance because of the economic and social impact that these processes have on the development of countries. In this sense, life tables are a tool for understanding population dynamics through death probabilities, life expectancy and other indicators. Lee and Carter (1992) proposed a model whose adjustment allows analysts to obtain a dynamic view of the behavior of mortality during a period of analysis.
This doctoral thesis seeks to contribute to the understanding of the changes experienced by the Colombian population in terms of mortality. To achieve this, four objectives were proposed. The first, to construct stochastic mortality models such as Lee-Carter for Colombian data and to make a comparative study of these models to evaluate their coherence based on the quality of the results obtained. The second is to calculate and analyze some mortality-related indicators such as infant mortality, life expectancy at birth, life expectancy at age 65, the Gini index at birth and the Gini index at age 65. The third is to apply control charts to identify moments in time and age intervals in which the observed probability of death is substantially different from the mortality pattern in the period studied. For this, the residuals of the selected models were monitored using Hotelling's T2 multivariate control chart to detect substantial changes in mortality that were not identified by the models. Fourth, to analyze the behavior of mortality for the departments of Colombia using multivariate analysis techniques such as principal component analysis, hierarchical clustering and fuzzy clustering, in order to subsequently identify groups of departments with similar behavior and characterize them by means of the mortality indicators studied.
The methodology described in relation to the first three objectives was applied to data from the abbreviated life tables by sex for Colombia for the period 1973-2005, using the information available in The Latin America Human Mortality Database. For the analysis of mortality by department, new abbreviated life tables by sex were constructed with information from the departments for the period 1985-2014, adjusting to the information available for the departments of Colombia in terms of deaths and population. The methodology was implemented through the free statistical software R, which allows the replicability and reproducibility of the results. / Díaz Rojo, G. (2021). Ajuste y predicción de la mortalidad. Aplicación a Colombia [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/179995
|
73 |
Nueva metodología de integración: Six Sigma + Gestión de riesgos + Gestión de la calidad. Aplicabilidad en pymes industriales de la Comunidad ValencianaBlasco Torregrosa, Marta 11 February 2022 (has links)
[ES] Alcanzar eficiencia y la efectividad empresarial es un aspecto vital para las organizaciones y, como viene siendo tendencia desde hace muchos años, se puede lograr mediante la implementación de sistemas de gestión y metodologías de mejora continua.
Los sistemas de gestión más conocidos son aquellos desarrollados por la Organización Internacional de Estandarización (ISO), siendo los más implantados el sistema de gestión de la calidad en base a la norma ISO 9001 y el sistema de gestión medioambiental en base a la norma ISO 14001. Estas normas han supuesto un cambio en la forma de gestionar las organizaciones alcanzando un éxito sin precedentes.
Sin embargo, la proliferación de estos sistemas de gestión ha dado lugar a que las organizaciones implanten varios sistemas de gestión simultáneamente. Para aprovechar las sinergias de cada sistema de gestión implantado individualmente surge la necesidad de la integración, es decir, unir los distintos sistemas de gestión presentes en un solo sistema. En este contexto, debido a la inexistencia de una metodología de integración universal, en la literatura existen numerosas metodologías de integración, ya que tanto los académicos como las instituciones han elaborado varias metodologías de integración, que abarcan fundamentalmente los sistemas de calidad y medio ambiente.
Es por ello que un nuevo planteamiento de investigación podría incluir la integración de otros sistemas de gestión distintos a los mencionados anteriormente, con el fin de diferenciarse y así crear nuevas líneas de investigación. Por tanto, una buena opción sería la integración de la gestión del riesgo que, aunque no sea uno de los sistemas de gestión más extendidos, conllevaría cuantiosos beneficios para las organizaciones, pudiendo así controlar de la forma más adecuada los problemas referentes a los riesgos.
Por otro lado, cuando en la literatura se analizan las metodologías de integración, todas ellas engloban únicamente sistemas de gestión. No hay que obviar, que además de estas normas, existen otras metodologías de mejora continua y de mejora de la calidad, como es el caso de Six Sigma. En referencia a esta metodología, existen estudios donde se reflejan los beneficios que conlleva la implantación de la metodología Six Sigma en las organizaciones.
Llegados a este punto, en la presente tesis se pretende diseñar una nueva metodología de integración para ayudar a las organizaciones a incrementar la competitividad, productividad y calidad y mediante la integración de metodología Six Sigma, la Gestión de la Calidad basado en la norma ISO 9001:2015 y la Gestión del Riesgo en base a la norma ISO 31000:2018.
La metodología de integración propuesta se podrá aplicar en pymes industriales de la Comunidad Valenciana y, además, será validada por un panel de expertos y por las pymes valencianas. Adicionalmente se ha realizado un estudio comparativo con pymes españolas establecidas en la República Checa. / [CA] Aconseguir l'eficiència i l'efectivitat empresarial és un aspecte vital per a les organitzacions i, com és tendència des de fa molts anys, es pot aconseguir mitjançant la implantació de sistemes de gestió i metodologies de millora contínua.
Els sistemes de gestió més coneguts són aquells desenvolupats per l'Organització Internacional de Estandardització (ISO), sent els més implantats el sistema de gestió de la qualitat en base ala norma ISO 9001 i el sistema de gestió mediambiental en base a la normal ISO 14001. Aquestes normes han suposat un canvi en la forma de gestionar les organitzacions aconseguint un èxit sense precedents.
No obstant això, la proliferació d'aquests sistemes de gestió ha donat lloc al fet que les organitzacions implanten diversos sistemes de gestió simultàniament. Per aprofitar les sinèrgies de cada sistema de gestió implantat individualment sorgeix la necessitat de la integració, és a dir, unir els diversos sistemes de gestió presents en un sol sistema integrat. En aquest context, ja que no existeix una metodologia d'integració universal, a la literatura existeixen nombroses metodologies d'integració, ja que tant els acadèmics com les institucions han elaborat diverses metodologies d'integració, que abasten principalment els sistemes de qualitat i medi ambient.
Per això, un nou plantejament de recerca podria incloure la integració d'altres sistemes de gestió diferents als esmentats anteriorment, amb la finalitat de diferenciar-se i així crear noves línies de recerca. Per tant, una bona opció seria la integració de la gestió del risc que, encara que no és un dels sistemes de gestió més estesos, comportaria quantiosos beneficis per a les organitzacions, podent així controlar de la forma més adequada els problemes referents als riscos.
D'altra banda, quan a la literatura s'analitzen les metodologies d'integració, totes elles engloben únicament sistemes de gestió. No cal obviar, que a més d'aquestes normes, existeixen altres metodologies de millora contínua i de millora de la qualitat, com és el cas de Six Sigma. En referència a aquesta metodologia, es troben estudis on es reflecteixen els beneficis que comporta la implantació de la metodologia Six Sigma en les organitzacions.
Arribats a aquest punt, en la present tesi es pretén desenvolupar una nova metodologia d'integració que ajude a les organitzacions a millorar la competitivitat, productivitat i qualitat mitjançant la integració de metodologia Six Sigma, la Gestió de la Qualitat basat en la norma ISO 9001:2015 i la Gestió del Risc basat en la norma ISO 31000:2018.
La metodologia d'integració proposta serà aplicable a pimes industrials de la Comunitat Valenciana i a més, serà validada per un panel d'experts i per les pimes valencianes. Addicionalment s'ha dut a terme una comparativa amb pimes espanyoles establides en la República Txeca. / [EN] Achieve business efficiency and effectiveness is a vital aspect for organizations and, as it has been the tendency for many years, this can be achieved through the implementation of management systems and continuous improvement methodologies.
The best-known management systems are those developed by the International Organization for Standardization (ISO), being the most implemented quality management system based on the ISO 9001 standard and the environmental management system based on ISO 14001. These standards have meant a change in the way organizations are managed, leading to unprecedented success.
However, the proliferation of these management systems has resulted in organizations implementing simultaneously various management systems. To take advantage of the synergies of each management system implemented individually, the need of integration arises to join the different management systems into a one integrated system. In this context, since there is not a universal integration methodology, there are abundant integration methodologies in the literature, due to both academics and institutions have developed several integration methodologies, which mainly cover quality and environmental systems.
Thus, a new research approach could include the integration of other management systems different from those mentioned above, in order to differentiate and then create new lines of research. Therefore, a good option would be the integration of risk management which, although it is not one of the most widespread management systems, would involve significant benefits for organizations, being able to control the problems related to risks in the most appropriate way.
On the other hand, we must not forget that in addition to the above standards, there are other methodologies for continuous improvement and improvement of quality, such as the case of Six Sigma. According to this methodology, there are studies where the benefits of implementing Six Sigma methodology in organizations are reflected.
At this point, this thesis aims to develop a new integration methodology that can help organizations improve competitiveness, productivity and quality and through the integration of Six Sigma methodology, Quality Management based on ISO 9001:2015, and Risk Management based on ISO 31000:2018 standard.
The proposed integration methodology will be applicable to industrial SMEs in the Valencia region in Spain and it will also be validated by a panel of experts and SMEs. It has beena dditionally carried out a comparison with Spanish SMEs located in the Czech Republic. / Blasco Torregrosa, M. (2022). Nueva metodología de integración: Six Sigma + Gestión de riesgos + Gestión de la calidad. Aplicabilidad en pymes industriales de la Comunidad Valenciana [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/180812
|
74 |
A Statistical Methodology for Classifying Time Series in the Context of Climatic DataRamírez Buelvas, Sandra Milena 24 February 2022 (has links)
[ES] De acuerdo con las regulaciones europeas y muchos estudios científicos, es necesario monitorear y analizar las condiciones microclimáticas en museos o edificios, para preservar las obras de arte en ellos. Con el objetivo de ofrecer herramientas para el monitoreo de las condiciones climáticas en este tipo de edificios, en esta tesis doctoral se propone una nueva metodología estadística para clasificar series temporales de parámetros climáticos como la temperatura y humedad relativa. La metodología consiste en aplicar un método de clasificación usando variables que se computan a partir de las series de tiempos. Los dos primeros métodos de clasificación son versiones conocidas de métodos sparse PLS que no se habían aplicado a datos correlacionados en el tiempo. El tercer método es una nueva propuesta que usa dos algoritmos conocidos. Los métodos de clasificación se basan en diferentes versiones de un método sparse de análisis discriminante de mínimos cuadra- dos parciales PLS (sPLS-DA, SPLSDA y sPLS) y análisis discriminante lineal (LDA). Las variables que los métodos de clasificación usan como input, corresponden a parámetros estimados a partir de distintos modelos, métodos y funciones del área de las series de tiempo, por ejemplo, modelo ARIMA estacional, modelo ARIMA- TGARCH estacional, método estacional Holt-Winters, función de densidad espectral, función de autocorrelación (ACF), función de autocorrelación parcial (PACF), rango móvil (MR), entre otras funciones. También fueron utilizadas algunas variables que se utilizan en el campo de la astronomía para clasificar estrellas. En los casos que a priori no hubo información de los clusters de las series de tiempos, las dos primeras componentes de un análisis de componentes principales (PCA) fueron utilizadas por el algoritmo k- means para identificar posibles clusters de las series de tiempo. Adicionalmente, los resultados del método sPLS-DA fueron comparados con los del algoritmo random forest. Tres bases de datos de series de tiempos de humedad relativa o de temperatura fueron analizadas. Los clusters de las series de tiempos se analizaron de acuerdo a diferentes zonas o diferentes niveles de alturas donde fueron instalados sensores para el monitoreo de las condiciones climáticas en los 3 edificios.El algoritmo random forest y las diferentes versiones del método sparse PLS fueron útiles para identificar las variables más importantes en la clasificación de las series de tiempos. Los resultados de sPLS-DA y random forest fueron muy similares cuando se usaron como variables de entrada las calculadas a partir del método Holt-Winters o a partir de funciones aplicadas a las series de tiempo. Aunque los resultados del método random forest fueron levemente mejores que los encontrados por sPLS-DA en cuanto a las tasas de error de clasificación, los resultados de sPLS- DA fueron más fáciles de interpretar. Cuando las diferentes versiones del método sparse PLS utilizaron variables resultantes del método Holt-Winters, los clusters de las series de tiempo fueron mejor discriminados. Entre las diferentes versiones del método sparse PLS, la versión sPLS con LDA obtuvo la mejor discriminación de las series de tiempo, con un menor valor de la tasa de error de clasificación, y utilizando el menor o segundo menor número de variables.En esta tesis doctoral se propone usar una versión sparse de PLS (sPLS-DA, o sPLS con LDA) con variables calculadas a partir de series de tiempo para la clasificación de éstas. Al aplicar la metodología a las distintas bases de datos estudiadas, se encontraron modelos parsimoniosos, con pocas variables, y se obtuvo una discriminación satisfactoria de los diferentes clusters de las series de tiempo con fácil interpretación. La metodología propuesta puede ser útil para caracterizar las distintas zonas o alturas en museos o edificios históricos de acuerdo con sus condiciones climáticas, con el objetivo de prevenir problemas de conservación con las obras de arte. / [CA] D'acord amb les regulacions europees i molts estudis científics, és necessari monitorar i analitzar les condiciones microclimàtiques en museus i en edificis similars, per a preservar les obres d'art que s'exposen en ells. Amb l'objectiu d'oferir eines per al monitoratge de les condicions climàtiques en aquesta mena d'edificis, en aquesta tesi es proposa una nova metodologia estadística per a classificar series temporals de paràmetres climàtics com la temperatura i humitat relativa.La metodologia consisteix a aplicar un mètode de classificació usant variables que es computen a partir de les sèries de temps. Els dos primers mètodes de classificació són versions conegudes de mètodes sparse PLS que no s'havien aplicat adades correlacionades en el temps. El tercer mètode és una nova proposta que usados algorismes coneguts. Els mètodes de classificació es basen en diferents versions d'un mètode sparse d'anàlisi discriminant de mínims quadrats parcials PLS (sPLS-DA, SPLSDA i sPLS) i anàlisi discriminant lineal (LDA). Les variables queels mètodes de classificació usen com a input, corresponen a paràmetres estimats a partir de diferents models, mètodes i funcions de l'àrea de les sèries de temps, per exemple, model ARIMA estacional, model ARIMA-TGARCH estacional, mètode estacional Holt-Winters, funció de densitat espectral, funció d'autocorrelació (ACF), funció d'autocorrelació parcial (PACF), rang mòbil (MR), entre altres funcions. També van ser utilitzades algunes variables que s'utilitzen en el camp de l'astronomia per a classificar estreles. En els casos que a priori no va haver-hi información dels clústers de les sèries de temps, les dues primeres components d'una anàlisi de components principals (PCA) van ser utilitzades per l'algorisme k-means per a identificar possibles clústers de les sèries de temps. Addicionalment, els resultats del mètode sPLS-DA van ser comparats amb els de l'algorisme random forest.Tres bases de dades de sèries de temps d'humitat relativa o de temperatura varen ser analitzades. Els clústers de les sèries de temps es van analitzar d'acord a diferents zones o diferents nivells d'altures on van ser instal·lats sensors per al monitoratge de les condicions climàtiques en els edificis.L'algorisme random forest i les diferents versions del mètode sparse PLS van ser útils per a identificar les variables més importants en la classificació de les series de temps. Els resultats de sPLS-DA i random forest van ser molt similars quan es van usar com a variables d'entrada les calculades a partir del mètode Holt-winters o a partir de funcions aplicades a les sèries de temps. Encara que els resultats del mètode random forest van ser lleument millors que els trobats per sPLS-DA quant a les taxes d'error de classificació, els resultats de sPLS-DA van ser més fàcils d'interpretar.Quan les diferents versions del mètode sparse PLS van utilitzar variables resultants del mètode Holt-Winters, els clústers de les sèries de temps van ser més ben discriminats. Entre les diferents versions del mètode sparse PLS, la versió sPLS amb LDA va obtindre la millor discriminació de les sèries de temps, amb un menor valor de la taxa d'error de classificació, i utilitzant el menor o segon menor nombre de variables.En aquesta tesi proposem usar una versió sparse de PLS (sPLS-DA, o sPLS amb LDA) amb variables calculades a partir de sèries de temps per a classificar series de temps. En aplicar la metodologia a les diferents bases de dades estudiades, es van trobar models parsimoniosos, amb poques variables, i varem obtindre una discriminació satisfactòria dels diferents clústers de les sèries de temps amb fácil interpretació. La metodologia proposada pot ser útil per a caracteritzar les diferents zones o altures en museus o edificis similars d'acord amb les seues condicions climàtiques, amb l'objectiu de previndre problemes amb les obres d'art. / [EN] According to different European Standards and several studies, it is necessary to monitor and analyze the microclimatic conditions in museums and similar buildings, with the goal of preserving artworks. With the aim of offering tools to monitor the climatic conditions, a new statistical methodology for classifying time series of different climatic parameters, such as relative humidity and temperature, is pro- posed in this dissertation.The methodology consists of applying a classification method using variables that are computed from time series. The two first classification methods are ver- sions of known sparse methods which have not been applied to time dependent data. The third method is a new proposal that uses two known algorithms. These classification methods are based on different versions of sparse partial least squares discriminant analysis PLS (sPLS-DA, SPLSDA, and sPLS) and Linear Discriminant Analysis (LDA). The variables that are computed from time series, correspond to parameter estimates from functions, methods, or models commonly found in the area of time series, e.g., seasonal ARIMA model, seasonal ARIMA-TGARCH model, seasonal Holt-Winters method, spectral density function, autocorrelation function (ACF), partial autocorrelation function (PACF), moving range (MR), among others functions. Also, some variables employed in the field of astronomy (for classifying stars) were proposed.The methodology proposed consists of two parts. Firstly, different variables are computed applying the methods, models or functions mentioned above, to time series. Next, once the variables are calculated, they are used as input for a classification method like sPLS-DA, SPLSDA, or SPLS with LDA (new proposal). When there was no information about the clusters of the different time series, the first two components from principal component analysis (PCA) were used as input for k-means method for identifying possible clusters of time series. In addition, results from random forest algorithm were compared with results from sPLS-DA.This study analyzed three sets of time series of relative humidity or temperate, recorded in different buildings (Valencia's Cathedral, the archaeological site of L'Almoina, and the baroque church of Saint Thomas and Saint Philip Neri) in Valencia, Spain. The clusters of the time series were analyzed according to different zones or different levels of the sensor heights, for monitoring the climatic conditions in these buildings.Random forest algorithm and different versions of sparse PLS helped identifying the main variables for classifying the time series. When comparing the results from sPLS-DA and random forest, they were very similar for variables from seasonal Holt-Winters method and functions which were applied to the time series. The results from sPLS-DA were easier to interpret than results from random forest. When the different versions of sparse PLS used variables from seasonal Holt- Winters method as input, the clusters of the time series were identified effectively.The variables from seasonal Holt-Winters helped to obtain the best, or the second best results, according to the classification error rate. Among the different versions of sparse PLS proposed, sPLS with LDA helped to classify time series using a fewer number of variables with the lowest classification error rate.We propose using a version of sparse PLS (sPLS-DA, or sPLS with LDA) with variables computed from time series for classifying time series. For the different data sets studied, the methodology helped to produce parsimonious models with few variables, it achieved satisfactory discrimination of the different clusters of the time series which are easily interpreted. This methodology can be useful for characterizing and monitoring micro-climatic conditions in museums, or similar buildings, for preventing problems with artwork. / I gratefully acknowledge the financial support of Pontificia Universidad Javeriana Cali – PUJ and Instituto Colombiano de Crédito Educativo y Estudios Técnicos en el Exterior – ICETEX who awarded me the scholarships ’Convenio de Capacitación para Docentes O. J. 086/17’ and ’Programa Crédito Pasaporte a la Ciencia ID 3595089 foco-reto salud’ respectively. The scholarships were essential for obtaining the Ph.D. Also, I gratefully acknowledge the financial support of the European Union’s Horizon 2020 research and innovation programme under grant agreement No. 814624. / Ramírez Buelvas, SM. (2022). A Statistical Methodology for Classifying Time Series in the Context of Climatic Data [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/181123
|
75 |
La situación y el fomento de los emprendimientos rurales: aspectos que determinan la creación de agronegocios en EcuadorBurbano Salazar, Javier Enrique 07 January 2020 (has links)
[ES] Ecuador es un país muy rico en recursos naturales, lo que le permite tener un importante sector agrario, gracias a sus diversos microclimas y regiones productivas. Sin embargo, predomina una agricultura de supervivencia y los agentes de la cadena de valor necesitan profesionalizarse e innovar si pretenden alcanzar un modelo de agricultura mucho más moderna y competitiva, en estos tiempos en los que los mercados mundiales están muy influidos por la globalización parece que solo hay espacio para las empresas más fuertes, innovadoras o creativas.
Revisando el ecosistema emprendedor que caracteriza al sector agrario, se comprueba que arrastra una serie de falencias que le exigen un cambio a corto plazo. No solo es preciso impulsar la creación de nuevas empresas, también hay que mejorar o innovar en las que ya están funcionando. Dada la dimensión social de la agricultura en Ecuador, esta debería posicionarse como el principal motor del desarrollo global del país, pero la realidad es que se fundamenta en una cadena de valor muy desequilibrada y el sector no tiene ni la industrialización ni la organización interna que permita este liderazgo.
La presente Tesis doctoral se planteó con cuatro objetivos específicos. El primero era "conocer el estado actual en el que se encuentra el sector agroalimentario incidiendo en aquellos aspectos que pueden influir en mayor medida en el desarrollo de su ecosistema emprendedor"; para su cumplimiento se han confirmado los principales problemas y enfoques para abordarlos con personal experto de los diferentes eslabones de la cadena agroalimentaria (método Delphi), y elaborado unas matrices DAFO y CAME. A este objetivo se le une el de "analizar la conformación general de la cadena de valor", para lo que se ha tomado como referencia el cultivo del cacao y la palma africana, y además de revisar cómo están estructuradas dichas cadenas, se ha profundizado en los motivos que llevan al eslabón de origen a ser el que menor valor capta en toda la cadena.
Junto al diagnóstico del sector, el otro aspecto fundamental era "determinar la actitud emprendedora que caracteriza a distintos colectivos que pueden impulsar los agroemprendimientos". Para ello se eligieron, por un lado, el alumnado universitario de distintas escuelas de empresa de la Pontificia Universidad Católica de Ecuador, sede Esmeraldas (PUCESE); gracias a su formación son potenciales emprendedores, por lo tanto, básicamente se necesita motivarlos para que se integren en el sector primario. Por otro lado, también se trabajó con productores, que, a pesar de tener una situación socioeconómica muy limitada y un nivel formativo muy deficiente, son quienes sustentan desde la base la producción de alimentos, y deberían tener un rol mucho más proactivo en la cadena agroalimentaria, por lo que es procedente cualquier labor de formación y motivación que pueda hacerse con ellos. Se pudo trabajar con 70 estudiantes y con 80 productores y a ambos colectivos, se le sometió a una capacitación específica para fomentar su actitud emprendedora, basada especialmente en una serie de talleres formativos.
Para analizar cuál es la caracterización de las actitudes emprendedoras de ambos grupos se utilizó la herramienta impulsada por las Naciones Unidas dentro de su programa EMPRETEC. También se profundizó, usando diferentes técnicas de inferencia estadística, la relación que podría haber entre los cambios de actitud percibidos antes y después de la capacitación respecto a otros aspectos. Así se contemplaron para los estudiantes factores como: el sexo, el cantón de procedencia, el parentesco con un familiar emprendedor o la modalidad de docencia empleada (ya que se usaron dinámicas más tradicionales frente a otras basadas en las metodologías ágiles). Respecto a los productores los factores fueron: sexo, parroquia de procedencia, y nivel de estudio.
Se han obtenido conclusiones en cada uno de los capítulos a modo de re / [CA] L'Equador és un país molt ric en recursos naturals, la qual cosa li permet tindre un important sector agrari, gràcies als seus diversos microclimes i regions productives. No obstant això, predomina una agricultura de supervivència i els agents de la cadena de valor necessiten professionalitzar-se i innovar si pretenen aconseguir un model d'agricultura molt més moderna i competitiva, en aquests temps en els quals els mercats mundials estan molt influïts per la globalització sembla que només hi ha espai per a les empreses més fortes, innovadores o creatives.
Revisant l'ecosistema emprenedor que caracteritza al sector agrari, es comprova que arrossega una sèrie de carències que li exigeixen un canvi a curt termini. No solament cal impulsar la creació de noves empreses, també cal millorar o innovar en les que ja estan funcionant. Donada la dimensió social de l'agricultura a l'Equador, aquesta hauria de posicionar-se com el principal motor del desenvolupament global del país, però la realitat és que es fonamenta en una cadena de valor molt desequilibrada i el sector no té ni la industrialització ni l'organització interna que permeta aquest lideratge.
La present Tesi doctoral es va plantejar amb quatre objectius específics. El primer era "conéixer l'estat actual en el qual es troba el sector agroalimentari incidint en aquells aspectes que poden influir en major mesura en el desenvolupament del seu ecosistema emprenedor". Per al seu compliment s'han confirmat els principals problemes i enfocaments per a abordar-los amb personal expert de les diferents baules de la cadena agroalimentària (mètode Delphi), i elaborat unes matrius DAFO i CAME. A aquest objectiu se li uneix el d'"analitzar la conformació general de la cadena de valor", per al que s'ha pres com a referència el cultiu del cacau i la palma africana, i, a més de revisar com estan estructurades aquestes cadenes, s'ha aprofundit en els motius que porten a la baula d'origen a ser el que menor valor capta en tota la cadena.
A més del diagnòstic del sector, l'altre aspecte fonamental era "determinar l'actitud emprenedora que caracteritza a diferents col·lectius que poden impulsar les agroemprenedories". Amb aquest objectiu es van triar, d'una banda, l'alumnat universitari de diferents escoles d'empresa de la Pontifícia Universitat Catòlica de l'Equador, seu Esmeraldas (PUCESE). Gràcies a la seua formació són potencials emprenedors, i per tant, bàsicament es necessita motivar-los perquè s'integren en el sector primari. D'altra banda, també es va treballar amb productors, que, malgrat tindre una situació socioeconòmica molt limitada i un nivell formatiu molt deficient, són els qui sustenten des de la base la producció d'aliments, i haurien de tindre un rol molt més proactiu en la cadena agroalimentària, per la qual cosa és procedent qualsevol labor de formació i motivació que puga fer-se amb ells. Es va poder treballar amb 70 estudiants i amb 80 productors, i a tots dos col·lectius se'ls va sotmetre a una capacitació específica per a fomentar la seua actitud emprenedora, basada especialment en una sèrie de tallers formatius.
Per a analitzar quina és la caracterització de les actituds emprenedores de tots dos grups es va utilitzar l'eina impulsada per les Nacions Unides dins del seu programa EMPRETEC. També es va aprofundir, usant diferents tècniques d'inferència estadística, en la relació que podria haver-hi entre els canvis d'actitud percebuts abans i després de la capacitació respecte a altres aspectes. Així es van contemplar per als estudiants factors com el sexe, el cantó de procedència, el parentiu amb un familiar emprenedor o la modalitat de docència emprada (ja que es van usar dinàmiques més tradicionals enfront d'altres basades en les metodologies àgils). Respecte als productors, els factors van ser sexe, parròquia de procedència, i nivell d'estudi.
S'han obtingut conclusions en cadascun dels capítols a m / [EN] Ecuador has many different natural resources, thanks to its diverse microclimates and productive regions, which allows it to have an important agricultural sector. However, survival agriculture predominates and value chain agents need to professionalize and innovate if they intend to achieve a much more modern and competitive agriculture model. This is particularly important in these times when world markets are heavily influenced by globalization, in which it seems that there is only room for the strongest, innovative or creative companies.
Reviewing the entrepreneurial ecosystem that characterizes the agricultural sector, it is found that it carries a series of shortcomings that require a change in the short term. Not only does the creation of new companies need to be promoted, but we must also improve or innovate in those that are already functioning. Given the social dimension of agriculture in Ecuador, it should be positioned as the main engine of the country's global development. However, the reality is that it is based on a very unbalanced value chain and the sector has neither industrialization nor the internal organization that allows this leadership.
This doctoral thesis was proposed with four specific objectives. The first was "to know the current state of the agri-food sector, influencing in those aspects that may have a greater impact on the development of its entrepreneurial ecosystem". For compliance, the main problems and approaches have been confirmed to address them with expert personnel from the different links of the agri-food chain (Delphi method), and developed SWOT and CAME matrices. This objective is joined to "analyze the general conformation of the value chain", for which the cultivation of cocoa and African palm has been taken as a reference. Besides, it has been reviewed how these chains are structured, and it has deepened in the reasons that lead to the link of origin to be the one that captures the lowest value in the whole chain.
Along with the diagnosis of the sector, the other fundamental aspect was "to determine the entrepreneurial attitude that characterizes different groups that can boost agribusinesses". To achieve this goal, university students of different business schools of the Pontifical Catholic University of Ecuador, Esmeraldas headquarters (PUCESE), were chosen. Thanks to their training they are potential entrepreneurs, therefore, they only need to be motivated for being integrated into the primary sector. On the other hand, we also worked with producers, who, despite having a very limited socioeconomic situation and a very poor training level, are those who support food production from the base, and would have to have a much more proactive role in the agri-food chain, so it is appropriate any training and motivation work that can be done with them. It was possible to work with 70 students and with 80 producers, and both groups underwent specific training to promote their entrepreneurial attitude, based especially on a series of training workshops.
To analyze the characterization of the entrepreneurial attitudes of both groups, the tool promoted by the United Nations was used within its EMPRETEC program. It also deepened, using different techniques of statistical inference, in the relationship that could be between changes in attitude perceived before and after training concerning other aspects. Thus, factors such as sex, the canton of origin, the relationship with an entrepreneurial family member or the teaching modality used (since more traditional dynamics were used compared to others based on agile methodologies) were contemplated for students. Regarding the producers, the factors were sex, parish of origin, and level of study. / Hago un agradecimiento especial al Estado ecuatoriano por financiar por más de 7 años todos mis estudios de posgrado, por creer en los jóvenes y apostar por nosotros, sin duda alguna los programas de becas nos han permitido a muchos ecuatorianos, alcanzar metas que sin esa oportunidad nunca hubiésemos logrado. / Burbano Salazar, JE. (2019). La situación y el fomento de los emprendimientos rurales: aspectos que determinan la creación de agronegocios en Ecuador [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/133998
|
76 |
Long-Read RNA-Seq: Quality Control and BenchmarkingPardo Palacios, Francisco José 18 November 2024 (has links)
[ES] La presente tesis muestra la utilización de las lecturas largas para resolver las limitaciones asociadas al ARN-Seq habitual, presentando innovaciones significativas en este campo. Las lecturas largas permiten capturar transcritos completos y detectar nuevas variantes de splicing, mejorando los resultados obtenidos con lecturas cortas en términos de precisión ya que no existe la necesidad de realizar un ensamblado de lecturas que podría dar lugar a isoformas quiméricas.
En el marco de este trabajo, se ha desarrollado la herramienta SQANTI3, diseñada para la evaluación y filtrado de transcriptomas. SQANTI3 clasifica modelos de transcripción de lecturas largas según categorías estructurales basadas en sus splice junctions (SJ) y anota diversas características de calidad, tales como la presencia de SJ no canónicas o la fiabilidad de las anotaciones de los sitios de inicio y término de transcripción (TSS y TTS, por sus siglas en inglés) utilizando datos ortogonales. También ofrece un módulo de filtrado de artefactos basado en aprendizaje automático y reglas definidas por el usuario, así como un módulo de "rescate" para evitar la pérdida de genes completos por un filtrado excesivo. Por último, SQANTI3 integra la anotación funcional de los transcriptomas con isoAnnot Lite, facilitando el análisis de cambios en la expresión de isoformas y sus implicaciones funcionales.
SQANTI3 se utilizó en los retos 1 y 3 del proyecto LRGASP (Long-read RNA-seq Genome Annotation Assessment Project), un esfuerzo internacional y multicéntrico para el benchmarking de herramientas bioinformáticas de lecturas largas en ARN-Seq. Ambos retos se centraron en la identificación correcta de transcritos en organismos altamente anotados (reto 1) y en organismos no modelo con limitaciones de información a priori (reto 3). LRGASP proporcionó datos de diferentes tecnologías y protocolos a los participantes para que presentaran los resultados obtenidos sus herramientas bioinformáticas. Estos resultados se evaluaron y compararon utilizando SQANTI3, dejando patente las diferencias de transcriptomas obtenidos para una misma muestra dependiendo de los datos y métodos empleados.
En resumen, el trabajo en esta tesis resalta la importancia que la utilización de lecturas largas para ARN-Seq puede tener en el futuro y como SQANTI3 es y será una herramienta clave para la evaluación y mejora de la calidad de los transcriptomas. / [CA] La present tesi mostra la utilització de les lectures llargues per resoldre les limitacions associades a l'ARN-Seq habitual, presentant innovacions significatives en aquest camp. Les lectures llargues permeten capturar transcrits complets i detectar noves variants de splicing, millorant els resultats obtinguts amb lectures curtes en termes de precisió, ja que no és necessari realitzar un assemblatge de lectures que podria donar lloc a isoformes quimèriques.
En el marc d'aquest treball, s'ha desenvolupat l'eina SQANTI3, dissenyada per a l'avaluació i filtratge de transcriptomes. SQANTI3 classifica models de transcripció de lectures llargues segons categories estructurals basades en les seues splice junctions (SJ) i anota diverses característiques de qualitat, com la presència de SJ no canòniques o la fiabilitat de les anotacions dels llocs d'inici i terme de transcripció (TSS i TTS, per les seues sigles en anglés) utilitzant dades ortogonals. També ofereix un mòdul de filtratge d'artefactes basat en aprenentatge automàtic o regles definides per l'usuari, així com un mòdul de "rescat" per a evitar la pèrdua de gens complets per un filtratge excessiu. Finalment, SQANTI3 integra l'anotació funcional dels transcriptomes amb isoAnnot Lite, facilitant l'anàlisi de canvis en l'expressió d'isoformes i les seues implicacions funcionals.
SQANTI3 es va utilitzar en els reptes 1 i 3 del projecte LRGASP (Long-read RNA-seq Genome Annotation Assessment Project), un esforç internacional i multicèntric per al benchmarking d'eines bioinformàtiques de lectures llargues en ARN-Seq. Ambdós reptes es van centrar en la identificació correcta de transcrits en organismes altament anotats (repte 1) i en organismes no model amb limitacions d'informació a priori (repte 3). LRGASP va proporcionar dades de diferents tecnologies i protocols als participants perquè presentaren els resultats obtinguts amb les seues eines bioinformàtiques. Aquests resultats es van avaluar i comparar utilitzant SQANTI3, deixant patent les diferències de transcriptomes obtinguts per a una mateixa mostra depenent de les dades i mètodes emprats.
En resum, aquesta tesi ressalta la importància que la utilització de lectures llargues per a ARN-Seq pot tindre en el futur i com SQANTI3 és i serà una eina clau per a l'avaluació i millora de la qualitat dels transcriptomes. / [EN] This thesis presents the usage of long-read sequencing to overcome the limitations associated with conventional RNA-Seq, introducing significant innovations in this field. Long-read sequencing enables the capture of full-length transcripts and the detection of novel splicing variants, improving the accuracy of results compared to short-read sequencing, as there is no need for assembly, which could otherwise lead to chimeric isoforms.
As part of this work, the SQANTI3 tool has been designed and developed for the evaluation and filtering of transcriptomes. SQANTI3 classifies long-read transcription models into structural categories based on their splice junctions (SJ) and annotates a wide variety of quality features, such as the presence of non-canonical SJs or the reliability of Transcription Start and Termination Sites (TSS and TTS) detected using orthogonal data. It also includes an artifact filtering module based on machine learning or user-defined rules, as well as a "rescue" module to prevent the loss of complete genes due to excessive filtering. Finally, SQANTI3 integrates the functional annotation of transcriptomes with isoAnnot Lite, facilitating the analysis of isoform expression changes and their functional implications.
SQANTI3 was used in challenges 1 and 3 of the Long-read RNA-seq Genome Annotation Assessment Project (LRGASP), an international and multicenter effort to benchmark bioinformatic tools for long-read RNA-Seq data. Both challenges focused on the correct identification of transcripts in well-annotated organisms (challenge 1) and in non-model organisms with limited prior information (challenge 3). LRGASP provided participants with data from different sequencing technologies and protocols to submit the results obtained by their bioinformatics tools. These results were evaluated and compared using SQANTI3, highlighting the differences in transcriptomes obtained from the same sample depending on the data and methods used.
In summary, the work in thesis emphasizes the importance that long-read RNA-Seq can have in the future and how SQANTI3 is and will continue to be a key tool for the evaluation and improvement of transcriptome quality. / The project is supported by the following grants: Pew Charitable Trust, NIGMS R35GM138122, NHGRI R21HG011280, Spanish Ministry of Science PID2020-119537RB-10, NIGMS R35GM142647, NIGMS R35GM133569, NHGRI U41HG007234, NHGRI F31HG010999, and UM1 HG009443, NHGRI R01HG008759 and R01HG011469, NHGRI R01HG007182, NHGRI UM1HG009402, NHMRC Investigator Grant GNT2017257, Comunitat Valenciana Grant ACIF/2018/290, Chan Zuckerberg Initiative DAF, an advised fund of Silicon Valley Community Foundation, Grant No. 2019-002443, an institutional fund from the Department of Biomedical Informatics, The Ohio State University, an institutional fund
from the Department of Computational Medicine and Bioinformatics, University of Michigan, SPBU 73023672, AMED 22kk0305013h9903,
23kk0305024h0001, Wellcome Trust [WT222155/Z/20/Z] , and European Molecular Biology Laboratory. We acknowledge the support of the Spanish Ministry of Science and Innovation to the EMBL partnership, Centro de Excelencia Severo Ochoa, and CERCA Programme / Generalitat de Catalunya and the support of the German Federal Ministry of Education and Research with the grant 161L0242A. This work has been also funded by NIH grant R21HG011280, by the Spanish Ministry of Science grants BES-2016-076994 and PID2020-119537RB-100, and by the Comunitat Valenciana grant ACIF/2018/290. / Pardo Palacios, FJ. (2024). Long-Read RNA-Seq: Quality Control and Benchmarking [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/212027
|
77 |
Machine Learning and Multivariate Statistical Tools for Football AnalyticsMalagón Selma, María del Pilar 05 October 2023 (has links)
[ES] Esta tesis doctoral se centra en el estudio, implementación y aplicación de técnicas de aprendizaje automático y estadística multivariante en el emergente campo de la analítica deportiva, concretamente en el fútbol. Se aplican procedimientos comunmente utilizados y métodos nuevos para resolver cuestiones de investigación en diferentes áreas del análisis del fútbol, tanto en el ámbito del rendimiento deportivo como en el económico. Las metodologías empleadas en esta tesis enriquecen las técnicas utilizadas hasta el momento para obtener una visión global del comportamiento de los equipos de fútbol y pretenden ayudar al proceso de toma de decisiones. Además, la metodología se ha implementado utilizando el software estadístico libre R y datos abiertos, lo que permite la replicabilidad de los resultados.
Esta tesis doctoral pretende contribuir a la comprensión de los modelos de aprendizaje automático y estadística multivariante para la predicción analítica deportiva, comparando su capacidad predictiva y estudiando las variables que más influyen en los resultados predictivos de estos modelos. Así, siendo el fútbol un juego de azar donde la suerte juega un papel importante, se proponen metodologías que ayuden a estudiar, comprender y modelizar la parte objetiva de este deporte. Esta tesis se estructura en cinco bloques, diferenciando cada uno en función de la base de datos utilizada para alcanzar los objetivos propuestos.
El primer bloque describe las áreas de estudio más comunes en la analítica del fútbol y las clasifica en función de los datos utilizados. Esta parte contiene un estudio exhaustivo del estado del arte de la analítica del fútbol. Así, se recopila parte de la literatura existente en función de los objetivos alcanzados, conjuntamente con una revisión de los métodos estadísticos aplicados. Estos modelos son los pilares sobre los que se sustentan los nuevos procedimientos aquí propuestos.
El segundo bloque consta de dos capítulos que estudian el comportamiento de los equipos que alcanzan la Liga de Campeones o la Europa League, descienden a segunda división o permanecen en mitad de la tabla. Se proponen varias técnicas de aprendizaje automático y estadística multivariante para predecir la
posición de los equipos a final de temporada. Una vez realizada la predicción, se selecciona el modelo con mejor precisión predictiva para estudiar las acciones de juego que más discriminan entre posiciones. Además, se analizan las ventajas de las técnicas propuestas frente a los métodos clásicos utilizados hasta el momento.
El tercer bloque consta de un único capítulo en el que se desarrolla un código de web scraping para facilitar la recuperación de una nueva base de datos con información cuantitativa de las acciones de juego realizadas a lo largo del tiempo en los partidos de fútbol. Este bloque se centra en la predicción de los resultados de los partidos (victoria, empate o derrota) y propone la combinación de una técnica de aprendizaje automático, random forest, y la regresión Skellam, un método clásico utilizado habitualmente para predecir la diferencia de goles en el fútbol. Por último, se compara la precisión predictiva de los métodos clásicos utilizados hasta ahora con los métodos multivariantes propuestos.
El cuarto bloque también comprende un único capítulo y pertenece al área económica del fútbol. En este capítulo se aplica un novedoso procedimiento para desarrollar indicadores que ayuden a predecir los precios de traspaso. En concreto, se muestra la importancia de la popularidad a la hora de calcular el valor de mercado de los jugadores, por lo que este capítulo propone una nueva metodología para la recogida de información sobre la popularidad de los jugadores.
En el quinto bloque se revelan los aspectos más relevantes de esta tesis para la investigación y la analítica en el fútbol, incluyendo futuras líneas de trabajo. / [CA] Aquesta tesi doctoral se centra en l'estudi, implementació i aplicació de tècniques d'aprenentatge automàtic i estadística multivariant en l'emergent camp de l'analítica esportiva, concretament en el futbol. S'apliquen procediments comunament utilitzats i mètodes nous per a resoldre qu¿estions d'investigació en diferents àrees de l'anàlisi del futbol, tant en l'àmbit del rendiment esportiu com en l'econòmic. Les metodologies emprades en aquesta tesi enriqueixen les tècniques utilitzades fins al moment per a obtindre una visió global del comportament dels equips de futbol i pretenen ajudar al procés de presa de decisions. A més, la metodologia s'ha implementat utilitzant el programari estadístic lliure R i dades obertes, la qual cosa permet la replicabilitat dels resultats.
Aquesta tesi doctoral pretén contribuir a la comprensió dels models d'aprenentatge automàtic i estadística multivariant per a la predicció analítica esportiva, comparant la seua capacitat predictiva i estudiant les variables que més influeixen en els resultats predictius d'aquests models. Així, sent el futbol un joc d'atzar on la sort juga un paper important, es proposen metodologies que ajuden a estudiar, comprendre i modelitzar la part objectiva d'aquest esport. Aquesta tesi s'estructura en cinc blocs, diferenciant cadascun en funció de la base de dades utilitzada per a aconseguir els objectius proposats.
El primer bloc descriu les àrees d'estudi més comuns en l'analítica del futbol i les classifica en funció de les dades utilitzades. Aquesta part conté un estudi exhaustiu de l'estat de l'art de l'analítica del futbol. Així, es recopila part de la literatura existent en funció dels objectius aconseguits, conjuntament amb una revisió dels mètodes estadístics aplicats. Aquests models són els pilars sobre els quals se sustenten els nous procediments ací proposats.
El segon bloc consta de dos capítols que estudien el comportament dels equips que aconsegueixen la Lliga de Campions o l'Europa League, descendeixen a segona divisió o romanen a la meitat de la taula. Es proposen diverses tècniques d'aprenentatge automàtic i estadística multivariant per a predir la posició dels
equips a final de temporada. Una vegada realitzada la predicció, se selecciona el model amb millor precisió predictiva per a estudiar les accions de joc que més discriminen entre posicions. A més, s'analitzen els avantatges de les tècniques proposades enfront dels mètodes clàssics utilitzats fins al moment.
El tercer bloc consta d'un únic capítol en el qual es desenvolupa un codi de web scraping per a facilitar la recuperació d'una nova base de dades amb informació quantitativa de les accions de joc realitzades al llarg del temps en els partits de futbol. Aquest bloc se centra en la predicció dels resultats dels partits (victòria, empat o derrota) i proposa la combinació d'una tècnica d'aprenentatge automàtic, random forest, i la regressió Skellam, un mètode clàssic utilitzat habitualment per a predir la diferència de gols en el futbol. Finalment, es compara la precisió predictiva dels mètodes clàssics utilitzats fins ara amb els mètodes multivariants proposats.
El quart bloc també comprén un únic capítol i pertany a l'àrea econòmica del futbol. En aquest capítol s'aplica un nou procediment per a desenvolupar indicadors que ajuden a predir els preus de traspàs. En concret, es mostra la importància de la popularitat a l'hora de calcular el valor de mercat dels jugadors, per la qual cosa aquest capítol proposa una nova metodologia per a la recollida d'informació sobre la popularitat dels jugadors.
En el cinqué bloc es revelen els aspectes més rellevants d'aquesta tesi per a la investigació i l'analítica en el futbol, incloent-hi futures línies de treball. / [EN] This doctoral thesis focuses on studying, implementing, and applying machine learning and multivariate statistics techniques in the emerging field of sports analytics, specifically in football. Commonly used procedures and new methods are applied to solve research questions in different areas of football analytics, both in the field of sports performance and in the economic field. The methodologies used in this thesis enrich the techniques used so far to obtain a global vision of the behaviour of football teams and are intended to help the decision-making process. In addition, the methodology was implemented using the free statistical software R and open data, which allows for reproducibility of the results.
This doctoral thesis aims to contribute to the understanding of the behaviour of machine learning and multivariate models for analytical sports prediction, comparing their predictive capacity and studying the variables that most influence the predictive results of these models. Thus, since football is a game of chance where luck plays an important role, this document proposes methodologies that help to study, understand, and model the objective part of this sport. This thesis is structured into five blocks, differentiating each according to the database used to achieve the proposed objectives.
The first block describes the most common study areas in football analytics and classifies them according to the available data. This part contains an exhaustive study of football analytics state of the art. Thus, part of the existing literature is compiled based on the objectives achieved, with a review of the statistical methods applied. These methods are the pillars on which the new procedures proposed here are based.
The second block consists of two chapters that study the behaviour of teams concerning the ranking at the end of the season: top (qualifying for the Champions League or Europa League), middle, or bottom (relegating to a lower division). Several machine learning and multivariate statistical techniques are proposed to predict the teams' position at the season's end. Once the prediction has been made, the model with the best predictive accuracy is selected to study the game actions that most discriminate between positions. In addition, the advantages of our proposed techniques compared to the classical methods used so far are analysed.
The third block consists of a single chapter in which a web scraping code is developed to facilitate the retrieval of a new database with quantitative information on the game actions carried out over time in football matches. This block focuses on predicting match outcomes (win, draw, or loss) and proposing the combination of a machine learning technique, random forest, and Skellam regression model, a classical method commonly used to predict goal difference in football. Finally, the predictive accuracy of the classical methods used so far is compared with the proposed multivariate methods.
The fourth block also comprises a single chapter and pertains to the economic football area. This chapter applies a novel procedure to develop indicators that help predict transfer fees. Specifically, it is shown the importance of popularity when calculating the players' market value, so this chapter is devoted to propose a new methodology for collecting players' popularity information.
The fifth block reveals the most relevant aspects of this thesis for research and football analytics, including future lines of work. / Malagón Selma, MDP. (2023). Machine Learning and Multivariate Statistical Tools for Football Analytics [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/197630
|
78 |
Deep Learning Strategies for Overcoming Diagnosis Challenges with Limited AnnotationsAmor del Amor, María Rocío del 27 November 2023 (has links)
Tesis por compendio / [ES] En los últimos años, el aprendizaje profundo (DL) se ha convertido en una de
las principales áreas de la inteligencia artificial (IA), impulsado principalmente
por el avance en la capacidad de procesamiento. Los algoritmos basados en
DL han logrado resultados asombrosos en la comprensión y manipulación de
diversos tipos de datos, incluyendo imágenes, señales de habla y texto.
La revolución digital del sector sanitario ha permitido la generación de nuevas
bases de datos, lo que ha facilitado la implementación de modelos de DL bajo
el paradigma de aprendizaje supervisado. La incorporación de estos métodos
promete mejorar y automatizar la detección y el diagnóstico de enfermedades,
permitiendo pronosticar su evolución y facilitar la aplicación de intervenciones
clínicas de manera más efectiva.
Una de las principales limitaciones de la aplicación de algoritmos de DL
supervisados es la necesidad de grandes bases de datos anotadas por expertos,
lo que supone una barrera importante en el ámbito médico. Para superar este
problema, se está abriendo un nuevo campo de desarrollo de estrategias de
aprendizaje no supervisado o débilmente supervisado que utilizan los datos
disponibles no anotados o débilmente anotados. Estos enfoques permiten
aprovechar al máximo los datos existentes y superar las limitaciones de la
dependencia de anotaciones precisas.
Para poner de manifiesto que el aprendizaje débilmente supervisado puede
ofrecer soluciones óptimas, esta tesis se ha enfocado en el desarrollado de
diferentes paradigmas que permiten entrenar modelos con bases de datos
débilmente anotadas o anotadas por médicos no expertos. En este sentido, se
han utilizado dos modalidades de datos ampliamente empleadas en la literatura
para estudiar diversos tipos de cáncer y enfermedades inflamatorias: datos
ómicos e imágenes histológicas. En el estudio sobre datos ómicos, se han
desarrollado métodos basados en deep clustering que permiten lidiar con las
altas dimensiones inherentes a este tipo de datos, desarrollando un modelo predictivo sin la necesidad de anotaciones. Al comparar el método propuesto
con otros métodos de clustering presentes en la literatura, se ha observado una
mejora en los resultados obtenidos.
En cuanto a los estudios con imagen histológica, en esta tesis se ha abordado
la detección de diferentes enfermedades, incluyendo cáncer de piel (melanoma
spitzoide y neoplasias de células fusocelulares) y colitis ulcerosa. En este
contexto, se ha empleado el paradigma de multiple instance learning (MIL)
como línea base en todos los marcos desarrollados para hacer frente al
gran tamaño de las imágenes histológicas. Además, se han implementado
diversas metodologías de aprendizaje, adaptadas a los problemas específicos
que se abordan. Para la detección de melanoma spitzoide, se ha utilizado
un enfoque de aprendizaje inductivo que requiere un menor volumen de
anotaciones. Para abordar el diagnóstico de colitis ulcerosa, que implica la
identificación de neutrófilos como biomarcadores, se ha utilizado un enfoque de
aprendizaje restrictivo. Con este método, el coste de anotación se ha reducido
significativamente al tiempo que se han conseguido mejoras sustanciales en los
resultados obtenidos. Finalmente, considerando el limitado número de expertos
en el campo de las neoplasias de células fusiformes, se ha diseñado y validado
un novedoso protocolo de anotación para anotaciones no expertas. En este
contexto, se han desarrollado modelos de aprendizaje profundo que trabajan
con la incertidumbre asociada a dichas anotaciones.
En conclusión, esta tesis ha desarrollado técnicas de vanguardia para abordar
el reto de la necesidad de anotaciones precisas que requiere el sector médico.
A partir de datos débilmente anotados o anotados por no expertos, se han
propuesto novedosos paradigmas y metodologías basados en deep learning para
abordar la detección y diagnóstico de enfermedades utilizando datos ómicos
e imágenes histológicas. / [CA] En els últims anys, l'aprenentatge profund (DL) s'ha convertit en una de les
principals àrees de la intel·ligència artificial (IA), impulsat principalment per
l'avanç en la capacitat de processament. Els algorismes basats en DL han
aconseguit resultats sorprenents en la comprensió i manipulació de diversos
tipus de dades, incloent-hi imatges, senyals de parla i text.
La revolució digital del sector sanitari ha permés la generació de noves
bases de dades, la qual cosa ha facilitat la implementació de models de
DL sota el paradigma d'aprenentatge supervisat. La incorporació d'aquests
mètodes promet millorar i automatitzar la detecció i el diagnòstic de malalties,
permetent pronosticar la seua evolució i facilitar l'aplicació d'intervencions
clíniques de manera més efectiva.
Una de les principals limitacions de l'aplicació d'algorismes de DL supervisats
és la necessitat de grans bases de dades anotades per experts, la qual cosa
suposa una barrera important en l'àmbit mèdic. Per a superar aquest
problema, s'està obrint un nou camp de desenvolupament d'estratègies
d'aprenentatge no supervisat o feblement supervisat que utilitzen les dades
disponibles no anotades o feblement anotats. Aquests enfocaments permeten
aprofitar al màxim les dades existents i superar les limitacions de la
dependència d'anotacions precises.
Per a posar de manifest que l'aprenentatge feblement supervisat pot oferir
solucions òptimes, aquesta tesi s'ha enfocat en el desenvolupat de diferents
paradigmes que permeten entrenar models amb bases de dades feblement
anotades o anotades per metges no experts. En aquest sentit, s'han utilitzat
dues modalitats de dades àmpliament emprades en la literatura per a estudiar
diversos tipus de càncer i malalties inflamatòries: dades ómicos i imatges
histològiques. En l'estudi sobre dades ómicos, s'han desenvolupat mètodes
basats en deep clustering que permeten bregar amb les altes dimensions
inherents a aquesta mena de dades, desenvolupant un model predictiu sense la
necessitat d'anotacions. En comparar el mètode proposat amb altres mètodes
de clustering presents en la literatura, s'ha observat una millora en els resultats
obtinguts.
Quant als estudis amb imatge histològica, en aquesta tesi s'ha abordat la
detecció de diferents malalties, incloent-hi càncer de pell (melanoma spitzoide
i neoplàsies de cèl·lules fusocelulares) i colitis ulcerosa. En aquest context,
s'ha emprat el paradigma de multiple instance learning (MIL) com a línia
base en tots els marcs desenvolupats per a fer front a la gran grandària de
les imatges histològiques. A més, s'han implementat diverses metodologies
d'aprenentatge, adaptades als problemes específics que s'aborden. Per a la
detecció de melanoma spitzoide, s'ha utilitzat un enfocament d'aprenentatge
inductiu que requereix un menor volum d'anotacions. Per a abordar el
diagnòstic de colitis ulcerosa, que implica la identificació de neutròfils com
biomarcadores, s'ha utilitzat un enfocament d'aprenentatge restrictiu. Amb
aquest mètode, el cost d'anotació s'ha reduït significativament al mateix
temps que s'han aconseguit millores substancials en els resultats obtinguts.
Finalment, considerant el limitat nombre d'experts en el camp de les neoplàsies
de cèl·lules fusiformes, s'ha dissenyat i validat un nou protocol d'anotació
per a anotacions no expertes. En aquest context, s'han desenvolupat models
d'aprenentatge profund que treballen amb la incertesa associada a aquestes
anotacions.
En conclusió, aquesta tesi ha desenvolupat tècniques d'avantguarda per a
abordar el repte de la necessitat d'anotacions precises que requereix el sector
mèdic. A partir de dades feblement anotades o anotats per no experts,
s'han proposat nous paradigmes i metodologies basats en deep learning per a
abordar la detecció i diagnòstic de malalties utilitzant dades *ómicos i imatges
histològiques. Aquestes innovacions poden millorar l'eficàcia i l'automatització
en la detecció precoç i el seguiment de malalties. / [EN] In recent years, deep learning (DL) has become one of the main areas of
artificial intelligence (AI), driven mainly by the advancement in processing
power. DL-based algorithms have achieved amazing results in understanding
and manipulating various types of data, including images, speech signals and
text.
The digital revolution in the healthcare sector has enabled the generation
of new databases, facilitating the implementation of DL models under the
supervised learning paradigm. Incorporating these methods promises to
improve and automate the detection and diagnosis of diseases, allowing
the prediction of their evolution and facilitating the application of clinical
interventions with higher efficacy.
One of the main limitations in the application of supervised DL algorithms is
the need for large databases annotated by experts, which is a major barrier
in the medical field. To overcome this problem, a new field of developing
unsupervised or weakly supervised learning strategies using the available
unannotated or weakly annotated data is opening up. These approaches make
the best use of existing data and overcome the limitations of reliance on precise
annotations.
To demonstrate that weakly supervised learning can offer optimal solutions,
this thesis has focused on developing different paradigms that allow training
models with weakly annotated or non-expert annotated databases. In this
regard, two data modalities widely used in the literature to study various
types of cancer and inflammatory diseases have been used: omics data and
histological images. In the study on omics data, methods based on deep
clustering have been developed to deal with the high dimensions inherent to
this type of data, developing a predictive model without requiring annotations.
In comparison, the results of the proposed method outperform other existing
clustering methods.
Regarding histological imaging studies, the detection of different diseases has
been addressed in this thesis, including skin cancer (spitzoid melanoma and
spindle cell neoplasms) and ulcerative colitis. In this context, the multiple
instance learning (MIL) paradigm has been employed as the baseline in
all developed frameworks to deal with the large size of histological images.
Furthermore, diverse learning methodologies have been implemented, tailored
to the specific problems being addressed. For the detection of spitzoid
melanoma, an inductive learning approach has been used, which requires a
smaller volume of annotations. To address the diagnosis of ulcerative colitis,
which involves the identification of neutrophils as biomarkers, a constraint
learning approach has been utilized. With this method, the annotation cost
has been significantly reduced while achieving substantial improvements in the
obtained results. Finally, considering the limited number of experts in the field
of spindle cell neoplasms, a novel annotation protocol for non-experts has been
designed and validated. In this context, deep learning models that work with
the uncertainty associated with such annotations have been developed.
In conclusion, this thesis has developed cutting-edge techniques to address
the medical sector's challenge of precise data annotation. Using weakly
annotated or non-expert annotated data, novel paradigms and methodologies
based on deep learning have been proposed to tackle disease detection and
diagnosis in omics data and histological images. These innovations can improve
effectiveness and automation in early disease detection and monitoring. / The work of Rocío del Amor to carry out this research and to elaborate this
dissertation has been supported by the Spanish Ministry of Universities under
the FPU grant FPU20/05263. / Amor Del Amor, MRD. (2023). Deep Learning Strategies for Overcoming Diagnosis Challenges with Limited Annotations [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/200227 / Compendio
|
79 |
Understanding Isoform Expression and Alternative Splicing Biology through Single-Cell RNAseqArzalluz Luque, Ángeles 27 April 2024 (has links)
[ES] La introducción de la secuenciación de ARN a nivel de célula única (scRNA-seq) en el ámbito de la transcriptómica ha redefinido nuestro entendimiento de la diversidad celular, arrojando luz sobre los mecanismos subyacentes a la heterogeneidad tisular. No obstante, al inicio de esta tesis, las limitaciones de a esta tecnología obstaculizaban su aplicación en el estudio de procesos complejos, entre ellos el splicing alternativo. A pesar de ello, los patrones de splicing a nivel celular planteaban incógnitas que esta tecnología tenía el potencial de resolver: ¿es posible observar, a nivel celular, la misma diversidad de isoformas que se detecta mediante RNA-seq a nivel de tejido? ¿Qué función desempeñan las isoformas alternativas en la constitución de la identidad celular?
El objetivo de esta tesis es desbloquear el potencial del scRNA-seq para el análisis de isoformas, abordando sus dificultades técnicas y analíticas mediante el desarrollo de nuevas metodologías computacionales. Para lograrlo, se trazó una hoja de ruta con tres objetivos. Primero, se establecieron cuatro requisitos para el estudio de las isoformas mediante scRNA-seq, llevando a cabo una revisión de la literatura existente para evaluar su cumplimiento. Tras completar este marco con simulaciones computacionales, se identificaron las debilidades y fortalezas de los métodos de scRNA-seq y las herramientas computacionales disponibles. Durante la segunda etapa de la investigación, estos conocimientos se utilizaron para diseñar un protocolo óptimo de procesamiento de datos de scRNA-seq. En concreto, se integraron datos de lecturas largas a nivel de tejido con datos de scRNA-seq para garantizar una identificación adecuada de las isoformas así como su cuantificación a nivel celular. Este proceso permitió ampliar las estrategias computacionales disponibles para la reconstrucción de transcriptomas a partir de lecturas largas, mejoras que fueron implementadas en SQANTI3, software de referencia en transcriptómica. Por último, los datos procesados se utilizaron para desarrollar un nuevo método de análisis de co-expresión de isoformas a fin de desentrañar redes de regulación del splicing alternativo implicadas en la constitución de la identidad celular.
Dada la elevada variabilidad de los datos de scRNA-seq, este método se basa en la utilización de una estrategia de correlación basada en percentiles que atenúa el ruido técnico y permite la identificación de grupos de isoformas co-expresadas. Una vez configurada la red de co-expresión, se introdujo una nueva estrategia de análisis para la detección de patrones de co-utilización de isoformas que suceden de forma independiente a la expresión a nivel de gen, denominada co-Differential Isoform Usage. Este enfoque facilita la identificación de una capa de regulación de la identidad celular atribuible únicamente a mecanismos post-transcripcionales. Para una interpretación biológica más profunda, se aplicó una estrategia de anotación computacional de motivos y dominios funcionales en las isoformas definidas con lecturas largas, revelando las propiedades biológicas de las isoformas involucradas en la red de co-expresión. Estas investigaciones culminan en el lanzamiento de acorde, un paquete de R que encapsula las diferentes metodologías desarrolladas en esta tesis, potenciando la reproducibilidad de sus resultados y proporcionando una nueva herramienta para explorar la biología de las isoformas alternativas a nivel de célula única.
En resumen, esta tesis describe una serie de esfuerzos destinados a desbloquear el potencial de los datos de scRNA-seq para avanzar en la comprensión del splicing alternativo. Desde un contexto de escasez de herramientas y conocimiento previo, se han desarrollado soluciones de análisis innovadoras que permiten la aplicación de scRNA-seq al estudio de las isoformas alternativas, proporcionando recursos innovadores para profundizar en la regulación post-transcripcional y la función celular. / [CA] La introducció de la seqüenciació d'ARN a escala de cèl·lula única (scRNA-seq) en l'àmbit de la transcriptòmica ha redefinit el nostre enteniment de la diversitat cel·lular, projectant llum sobre els mecanismes subjacents a l'heterogeneïtat tissular. Malgrat les limitacions inicials d'aquesta tecnologia, especialment en el context de processos complexos com l'splicing alternatiu, els patrons d'splicing a escala cel·lular plantejaven incògnites amb potencial de resolució: és possible observar, a escala cel·lular, la mateixa diversitat d'isoformes que es detecta mitjançant RNA-seq en teixits? Quina funció tenen les isoformes alternatives en la constitució de la identitat cel·lular?
L'objectiu d'aquesta tesi és desbloquejar el potencial del scRNA-seq per a l'anàlisi d'isoformes alternatives, abordant les seues dificultats tècniques i analítiques amb noves metodologies computacionals. Per a això, es va traçar una ruta amb tres objectius. Primerament, es van establir quatre requisits per a l'estudi de les isoformes mitjançant scRNA-seq, amb una revisió de la literatura existent per avaluar-ne el compliment. Després de completar aquest marc amb simulacions computacionals, es van identificar les debilitats i fortaleses dels mètodes de scRNA-seq i de les eines computacionals disponibles. Durant la segona etapa de la investigació, aquests coneixements es van utilitzar per dissenyar un protocol òptim de processament de dades de scRNA-seq. En concret, es van integrar dades de lectures llargues a escala de teixit amb dades de scRNA-seq per a garantir una identificació adequada de les isoformes així com la seua quantificació a escala cel·lular. Aquest procés va permetre ampliar les estratègies computacionals disponibles per a la reconstrucció de transcriptomes a partir de lectures llargues, millores que van ser implementades en SQANTI3, un programari de referència en transcriptòmica. Finalment, les dades processades es van fer servir per a desenvolupar un nou mètode d'anàlisi de coexpressió d'isoformes amb l'objectiu de desentranyar xarxes de regulació de l'splicing alternatiu implicades en la constitució de la identitat cel·lular.
Donada l'elevada variabilitat de les dades de scRNA-seq, aquest mètode es basa en la utilització d'una estratègia de correlació basada en percentils que minimitza el soroll tècnic i permet la identificació de grups d'isoformes coexpressades. Un cop configurada la xarxa de coexpressió, es va introduir una nova estratègia d'anàlisi per a la detecció de patrons de co-utilització d'isoformes que succeeixen de forma independent a l'expressió del seu gen, denominada co-Differential Isoform Usage. Aquest enfocament facilita la identificació d'una capa de regulació de la identitat cel·lular atribuïble únicament a mecanismes post-transcripcionals. Per a una interpretació biològica més profunda, es va aplicar una estratègia d'anotació computacional de motius i dominis funcionals en les isoformes definides amb lectures llargues, revelant les propietats biològiques de les isoformes involucrades en la xarxa de coexpressió. Aquestes investigacions culminen en el llançament d'acorde, un paquet de R que encapsula les diferents metodologies desenvolupades en aquesta tesi, potenciant la reproducibilitat dels seus resultats i proporcionant una nova eina per a explorar la biologia de les isoformes alternatives a escala de cèl·lula única.
En resum, aquesta tesi descriu una sèrie d'esforços destinats a desbloquejar el potencial de les dades de scRNA-seq per a avançar en la comprensió de l'splicing alternatiu. Des d'un context de manca d'eines i coneixement previ, s'han desenvolupat solucions d'anàlisi innovadores que permeten l'aplicació de scRNA-seq a l'estudi de les isoformes alternatives, proporcionant recursos innovadors per a aprofundir en la regulació post-transcripcional i la funció cel·lular. / [EN] In the world of transcriptomics, the emergence of single-cell RNA sequencing (scRNA-seq) ignited a revolution in our understanding of cellular diversity, unraveling novel mechanisms in tissue heterogeneity, development and disease. However, when this thesis began, using scRNA-seq to understand Alternative Splicing (AS) was a challenging frontier due the inherent limitations of the technology. In spite of this research gap, pertinent questions persisted regarding cell-level AS patterns, particularly concerning the recapitulation of isoform diversity observed in bulk RNA-seq data at the cellular level and the roles played by cell and cell type-specific isoforms.
The work conducted in the present thesis aims to harness the potential of scRNA-seq for alternative isoform analysis, outlining technical and analytical challenges and designing computational methods to overcome them. To achieve this, we established a roadmap with three main aims. First, we set requirements for studying isoforms using scRNA-seq and conducted an extensive review of existing research, interrogating whether these requirements were met. Combining this acquired knowledge with several computational simulations allowed us to delineate the strengths and pitfalls of available data generation methods and computational tools. During the second research stage, this insight was used to design a suitable data processing pipeline, in which we jointly employed bulk long-read and short-read scRNA-seq sequenced from full-length cDNAs to ensure adequate isoform reconstruction as well as sensitive cell-level isoform quantification. Additionally, we refined available transcriptome curation strategies, introducing them as innovative modules in the transcriptome quality control software SQANTI3. Lastly, we harnessed single-cell isoform expression data and the rich biological diversity inherent in scRNA-seq, encompassing various cell types, in the design of a novel isoform co-expression analysis method. Percentile correlations effectively mitigated single-cell noise, unveiling clusters of co-expressed isoforms and exposing a layer of regulation in cellular identity that operated independently of gene expression. We additionally introduced co-Differential Isoform Usage (coDIU) analysis, enhancing our ability to interpret isoform cluster networks. This endeavour, combined with the computational annotation of functional sites and domains in the long read-defined isoform models, unearthed a distinctive functional signature in coDIU genes. This research effort materialized in the release of acorde, an R package that encapsulates all analyses functionalities developed throughout this thesis, providing a reproducible means for the scientific community to further explore the depths of alternative isoform biology within single-cell transcriptomics.
This thesis describes a complex journey aimed at unlocking the potential of scRNA-seq data for investigating AS and isoforms: from a landscape marked by the scarcity of tools and guidelines, towards the development of novel analysis solutions and the acquisition of valuable biological insight. In a swiftly evolving field, our methodological contributions constitute a significant leap forward in the application of scRNA-seq to the study of alternative isoform expression, providing innovative resources for delving deeper into the intricacies of post-transcriptional regulation and cellular function through the lens of single-cell transcriptomics. / The research project was funded by the BIO2015-71658 and BES-2016-076994 grants awarded by
the Spanish Ministry of Science and Innovation / Arzalluz Luque, Á. (2024). Understanding Isoform Expression and Alternative Splicing Biology through Single-Cell RNAseq [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/203888
|
80 |
Estudio del cuestionario de evaluación del profesorado de la UPV mediante opinión de los estudiantes. Tratamiento estadísticoMartínez Gómez, Mónica 06 May 2008 (has links)
La mejora de la calidad de las instituciones universitarias constituye el reto más importante en los próximos años para las universidades y el instrumento potencial para ello lo constituye la evaluación institucional, en general, y la evaluación de la actividad docente, en especial.
El cuestionario de opinión de los estudiantes, es el instrumento de evaluación de la actividad docente más generalizado en las universidades españolas.
El objetivo general del trabajo es desarrollar una metodología estadística adecuada para extraer, analizar e interpretar la información contenida en el Cuestionario de Evaluación Docente mediante Opinión de los Alumnos (CEDA) de la UPV, con la finalidad de optimizar su utilización práctica.
El estudio se centra en la aplicación de distintas técnicas multivariantes a las puntuaciones medias e individuales obtenidas en los ítems del cuestionario y a diversas características descriptivas referentes al profesor o asignatura. Con la utilización conjunta de las técnicas propuestas, se pretende optimizar el uso del CEDA como herramienta de medida e indicador de calidad de la enseñanza en la universidad, para introducir actuaciones de mejora continua en los procesos educativos de la UPV.
DESCRIPTORES
Análisis multivariantes; Análisis de encuestas; Calidad de la docencia universitaria; Cuestionario de Evaluación Docente. / Martínez Gómez, M. (2005). Estudio del cuestionario de evaluación del profesorado de la UPV mediante opinión de los estudiantes. Tratamiento estadístico [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1891
|
Page generated in 0.1109 seconds