Spelling suggestions: "subject:"dados"" "subject:"dadas""
31 |
Limit of detection for second-order calibration methodsRodríguez Cuesta, Mª José 02 June 2006 (has links)
Analytical chemistry can be split into two main types, qualitative and quantitative. Most modern analytical chemistry is quantitative. Popular sensitivity to health issues is aroused by the mountains of government regulations that use science to, for instance, provide public health information to prevent disease caused by harmful exposure to toxic substances. The concept of the minimum amount of an analyte or compound that can be detected or analysed appears in many of these regulations (for example, to discard the presence of traces of toxic substances in foodstuffs) generally as a part of method validation aimed at reliably evaluating the validity of the measurements.The lowest quantity of a substance that can be distinguished from the absence of that substance (a blank value) is called the detection limit or limit of detection (LOD). Traditionally, in the context of simple measurements where the instrumental signal only depends on the amount of analyte, a multiple of the blank value is taken to calculate the LOD (traditionally, the blank value plus three times the standard deviation of the measurement). However, the increasing complexity of the data that analytical instruments can provide for incoming samples leads to situations in which the LOD cannot be calculated as reliably as before.Measurements, instruments and mathematical models can be classified according to the type of data they use. Tensorial theory provides a unified language that is useful for describing the chemical measurements, analytical instruments and calibration methods. Instruments that generate two-dimensional arrays of data are second-order instruments. A typical example is a spectrofluorometer, which provides a set of emission spectra obtained at different excitation wavelengths.The calibration methods used with each type of data have different features and complexity. In this thesis, the most commonly used calibration methods are reviewed, from zero-order (or univariate) to second-order (or multi-linears) calibration models. Second-order calibration models are treated in details since they have been applied in the thesis.Concretely, the following methods are described:- PARAFAC (Parallel Factor Analysis)- ITTFA (Iterative Target Transformation Analysis)- MCR-ALS (Multivariate Curve Resolution-Alternating Least Squares)- N-PLS (Multi-linear Partial Least Squares)Analytical methods should be validated. The validation process typically starts by defining the scope of the analytical procedure, which includes the matrix, target analyte(s), analytical technique and intended purpose. The next step is to identify the performance characteristics that must be validated, which may depend on the purpose of the procedure, and the experiments for determining them. Finally, validation results should be documented, reviewed and maintained (if not, the procedure should be revalidated) as long as the procedure is applied in routine work.The figures of merit of a chemical analytical process are 'those quantifiable terms which may indicate the extent of quality of the process. They include those terms that are closely related to the method and to the analyte (sensitivity, selectivity, limit of detection, limit of quantification, ...) and those which are concerned with the final results (traceability, uncertainty and representativity) (Inczédy et al., 1998). The aim of this thesis is to develop theoretical and practical strategies for calculating the limit of detection for complex analytical situations. Specifically, I focus on second-order calibration methods, i.e. when a matrix of data is available for each sample.The methods most often used for making detection decisions are based on statistical hypothesis testing and involve a choice between two hypotheses about the sample. The first hypothesis is the "null hypothesis": the sample is analyte-free. The second hypothesis is the "alternative hypothesis": the sample is not analyte-free. In the hypothesis test there are two possible types of decision errors. An error of the first type occurs when the signal for an analyte-free sample exceeds the critical value, leading one to conclude incorrectly that the sample contains a positive amount of the analyte. This type of error is sometimes called a "false positive". An error of the second type occurs if one concludes that a sample does not contain the analyte when it actually does and it is known as a "false negative". In zero-order calibration, this hypothesis test is applied to the confidence intervals of the calibration model to estimate the LOD as proposed by Hubaux and Vos (A. Hubaux, G. Vos, Anal. Chem. 42: 849-855, 1970).One strategy for estimating multivariate limits of detection is to transform the multivariate model into a univariate one. This strategy has been applied in this thesis in three practical applications:1. LOD for PARAFAC (Parallel Factor Analysis).2. LOD for ITTFA (Iterative Target Transformation Factor Analysis).3. LOD for MCR-ALS (Multivariate Curve Resolution - Alternating Least Squares)In addition, the thesis includes a theoretical contribution with the proposal of a sample-dependent LOD in the context of multivariate (PLS) and multi-linear (N-PLS) Partial Least Squares. / La Química Analítica es pot dividir en dos tipus d'anàlisis, l'anàlisi quantitativa i l'anàlisi qualitativa. La gran part de la química analítica moderna és quantitativa i fins i tot els govern fan ús d'aquesta ciència per establir regulacions que controlen, per exemple, nivells d'exposició a substàncies tòxiques que poden afectar la salut pública. El concepte de mínima quantitat d'un analit o component que es pot detectar apareix en moltes d'aquestes regulacions, en general com una part de la validació dels mètodes per tal de garantir la qualitat i la validesa dels resultats.La mínima quantitat d'una substància que pot ser diferenciada de l'absència d'aquesta substància (el que es coneix com un blanc) s'anomena límit de detecció (limit of detection, LOD). En procediments on es treballa amb mesures analítiques que són degudes només a la quantitat d'analit present a la mostra (situació d'ordre zero) el LOD es pot calcular com un múltiple de la mesura del blanc (tradicionalment, 3 vegades la desviació d'aquesta mesura). Tanmateix, l'evolució dels instruments analítics i la complexitat creixent de les dades que generen, porta a situacions en les que el LOD no es pot calcular fiablement d'una forma tan senzilla. Les mesures, els instruments i els models de calibratge es poden classificar en funció del tipus de dades que utilitzen. La Teoria Tensorial s'ha utilitzat en aquesta tesi per fer aquesta classificació amb un llenguatge útil i unificat. Els instruments que generen dades en dues dimensions s'anomenen instruments de segon ordre i un exemple típic és l'espectrofluorímetre d'excitació-emissió, que proporciona un conjunt d'espectres d'emissió obtinguts a diferents longituds d'ona d'excitació.Els mètodes de calibratge emprats amb cada tipus de dades tenen diferents característiques i complexitat. En aquesta tesi, es fa una revisió dels models de calibratge més habituals d'ordre zero (univariants), de primer ordre (multivariants) i de segon ordre (multilinears). Els mètodes de segon ordre estan tractats amb més detall donat que són els que s'han emprat en les aplicacions pràctiques portades a terme. Concretament es descriuen:- PARAFAC (Parallel Factor Analysis)- ITTFA (Iterative Target Transformation Analysis)- MCR-ALS (Multivariate Curve Resolution-Alternating Least Squares)- N-PLS (Multi-linear Partial Least Squares)Com s'ha avançat al principi, els mètodes analítics s'han de validar. El procés de validació inclou la definició dels límits d'aplicació del procediment analític (des del tipus de mostres o matrius fins l'analit o components d'interès, la tècnica analítica i l'objectiu del procediment). La següent etapa consisteix en identificar i estimar els paràmetres de qualitat (figures of merit, FOM) que s'han de validar per, finalment, documentar els resultats de la validació i mantenir-los mentre sigui aplicable el procediment descrit.Algunes FOM dels processos químics de mesura són: sensibilitat, selectivitat, límit de detecció, exactitud, precisió, etc. L'objectiu principal d'aquesta tesi és desenvolupar estratègies teòriques i pràctiques per calcular el límit de detecció per problemes analítics complexos. Concretament, està centrat en els mètodes de calibratge que treballen amb dades de segon ordre.Els mètodes més emprats per definir criteris de detecció estan basats en proves d'hipòtesis i impliquen una elecció entre dues hipòtesis sobre la mostra. La primera hipòtesi és la hipòtesi nul·la: a la mostra no hi ha analit. La segona hipòtesis és la hipòtesis alternativa: a la mostra hi ha analit. En aquest context, hi ha dos tipus d'errors en la decisió. L'error de primer tipus té lloc quan es determina que la mostra conté analit quan no en té i la probabilitat de cometre l'error de primer tipus s'anomena fals positiu. L'error de segon tipus té lloc quan es determina que la mostra no conté analit quan en realitat si en conté i la probabilitat d'aquest error s'anomena fals negatiu. En calibratges d'ordre zero, aquesta prova d'hipòtesi s'aplica als intervals de confiança de la recta de calibratge per calcular el LOD mitjançant les fórmules d'Hubaux i Vos (A. Hubaux, G. Vos, Anal. Chem. 42: 849-855, 1970)Una estratègia per a calcular límits de detecció quan es treballa amb dades de segon ordre es transformar el model multivariant en un model univariant. Aquesta estratègia s'ha fet servir en la tesi en tres aplicacions diferents::1. LOD per PARAFAC (Parallel Factor Analysis).2. LOD per ITTFA (Iterative Target Transformation Factor Analysis).3. LOD per MCR-ALS (Multivariate Curve Resolution - Alternating Least Squares)A més, la tesi inclou una contribució teòrica amb la proposta d'un LOD que és específic per cada mostra, en el context del mètode multivariant PLS i del multilinear N-PLS.
|
32 |
Information sources selection methodology for recommender systems based on intrinsic characteristics and trust measureAciar, Silvana Vanesa 18 June 2007 (has links)
El treball desenvolupat en aquesta tesi presenta un profund estudi i proveïx solucions innovadores en el camp dels sistemes recomanadors. Els mètodes que usen aquests sistemes per a realitzar les recomanacions, mètodes com el Filtrat Basat en Continguts (FBC), el Filtrat Col·laboratiu (FC) i el Filtrat Basat en Coneixement (FBC), requereixen informació dels usuaris per a predir les preferències per certs productes. Aquesta informació pot ser demogràfica (Gènere, edat, adreça, etc), o avaluacions donades sobre algun producte que van comprar en el passat o informació sobre els seus interessos. Existeixen dues formes d'obtenir aquesta informació: els usuaris ofereixen explícitament aquesta informació o el sistema pot adquirir la informació implícita disponible en les transaccions o historial de recerca dels usuaris. Per exemple, el sistema recomanador de pel·lícules MovieLens (http://movielens.umn.edu/login) demana als usuaris que avaluïn almenys 15 pel·lícules dintre d'una escala de * a * * * * * (horrible, ...., ha de ser vista). El sistema genera recomanacions sobre la base d'aquestes avaluacions. Quan els usuaris no estan registrat en el sistema i aquest no té informació d'ells, alguns sistemes realitzen les recomanacions tenint en compte l'historial de navegació. Amazon.com (http://www.amazon.com) realitza les recomanacions tenint en compte les recerques que un usuari a fet o recomana el producte més venut. No obstant això, aquests sistemes pateixen de certa falta d'informació. Aquest problema és generalment resolt amb l'adquisició d'informació addicional, se li pregunta als usuaris sobre els seus interessos o es cerca aquesta informació en fonts addicionals. La solució proposada en aquesta tesi és buscar aquesta informació en diverses fonts, específicament aquelles que contenen informació implícita sobre les preferències dels usuaris. Aquestes fonts poden ser estructurades com les bases de dades amb informació de compres o poden ser no estructurades com les pàgines web on els usuaris deixen la seva opinió sobre algun producte que van comprar o posseïxen.Nosaltres trobem tres problemes fonamentals per a aconseguir aquest objectiu: 1 . La identificació de fonts amb informació idònia per als sistemes recomanadors.2 . La definició de criteris que permetin la comparança i selecció de les fonts més idònies. 3 . La recuperació d'informació de fonts no estructurades. En aquest sentit, en la tesi proposada s'ha desenvolupat: 1 . Una metodologia que permet la identificació i selecció de les fonts més idònies. Criteris basats en les característiques de les fonts i una mesura de confiança han estat utilitzats per a resoldre el problema de la identificació i selecció de les fonts. 2 . Un mecanisme per a recuperar la informació no estructurada dels usuaris disponible en la web. Tècniques de Text Mining i ontologies s'han utilitzat per a extreure informació i estructurar-la apropiadament perquè la utilitzin els recomanadors. Les contribucions del treball desenvolupat en aquesta tesi doctoral són: 1. Definició d'un conjunt de característiques per a classificar fonts rellevants per als sistemes recomanadors2. Desenvolupament d'una mesura de rellevància de les fonts calculada sobre la base de les característiques definides3. Aplicació d'una mesura de confiança per a obtenir les fonts més fiables. La confiança es definida des de la perspectiva de millora de la recomanació, una font fiable és aquella que permet millorar les recomanacions. 4. Desenvolupament d'un algorisme per a seleccionar, des d'un conjunt de fonts possibles, les més rellevants i fiable utilitzant les mitjanes esmentades en els punts previs. 5. Definició d'una ontologia per a estructurar la informació sobre les preferències dels usuaris que estan disponibles en Internet. 6. Creació d'un procés de mapatge que extreu automàticament informació de les preferències dels usuaris disponibles en la web i posa aquesta informació dintre de l'ontologia. Aquestes contribucions permeten aconseguir dos objectius importants: 1 . Millorament de les recomanacions usant fonts d'informació alternatives que sigui rellevants i fiables.2 . Obtenir informació implícita dels usuaris disponible en Internet. / The work developed in this thesis presents an in-depth study and provides innovative solutions in the field of recommender systems. The methods used by these systems to carry out recommendations, such as Content-Based Filtering (CBF), Collaborative Filtering (CF) and Knowledge-Based Filtering (KBF), require information from users to predict preferences for certain products. This may be demographic information (genre, age and address), evaluations given to certain products in the past or information about their interests. There are two ways of obtaining this information: users offer it explicitly or the system can retrieve the implicit information available in the purchase and search history. For example, the movie recommender system MovieLens (http://movielens.umn.edu/login) asks users to rate at least 15 movies on a scale of * to * * * * * (awful, ... , must be seen). The system generates recommendations based on these evaluations. When users are not registered into the site and it has no information about them, recommender systems make recommendations according to the site search history. Amazon.com (http://www.amazon.com) make recommendations according to the site search history or recommend the best selling products. Nevertheless, these systems suffer from a certain lack of information. This problem is generally solved with the acquisition of additional information; users are asked about their interests or that information is searched for in additional available sources. The solution proposed in this thesis is to look for that information in various sources, specifically those that contain implicit information about user preferences. These sources can be structured like databases with purchasing information or they can be unstructured sources like review pages where users write their experiences and opinions about a product they buy or possess.We have found three fundamental problems to achieve this objective: 1. The identification of sources with suitable information for recommender systems.2. The definition of criteria that allows the comparison and selection of the most suitable sources.3. Retrieving the information from unstructured sources.In this sense, the proposed thesis has developed:1. A methodology that allows the identification and selection of the most suitable sources. Criteria based on the characteristics of sources and a trust measure have been used to solve the problem of identifying and selecting sources.2. A mechanism to retrieve unstructured information from users available on the Web. Text mining techniques and ontologies have been used to extract information and structure it appropriately for use by the recommenders.The contributions of the work developed in this doctoral thesis are:1. Definition of a set of characteristics to classify relevant sources of information for recommender systems.2. Development of a measure of relevance of sources according to characteristics defined in previous point.3. Application of a trust measure to obtain the most reliable sources. Confidence is measured from the perspective of improving the recommendation; a reliable source is one that leads to improved recommendations.4. Development of an algorithm to select, from a set of possible sources, the most relevant and reliable ones according to measures defined in previous points.5. Definition of an ontology to structure information about user preferences that are available on the Internet.6. The creation of a mapping process that automatically extracts information about user preferences available on the web and put in the ontology.These contributions allow us the achievement of two important objectives:1. Improving recommendations using alternative sources of information that are relevant and trustworthy.2. Obtaining implicit information about user available on the Internet.
|
33 |
Data Integration with XML and Semantic Web TechnologiesTous Liesa, Rubén 04 October 2006 (has links)
En general, la integració de múltiples bases de dades heterogènies té com a objectiu oferir una visió unificada sobre un conjunt de dades preexistent. Aquesta tesi contribueix a diferents aspectes del disseny de sistemes de integració de dades moderns en el context de la World Wide Web. Per un costat, la tesi contribueix a la línia de recerca de la Integració Semàntica, que fa referència al problema de reconciliar dades de fonts autònomes mitjançant l'ús d'ontologies i altres eines semàntiques. La tesi suggereix una nova solució a la integració semàntica XML-RDF, i també contribueix al problema de l'Alineació d'Ontologies, definint una mesura de similitud semàntica rigorosa i escalable per grafs etiquetats i dirigits RDF. Per un altre costat, la tesi suggereix una nova solució al problema de traduir una consulta d'un usuari (dirigida a un esquema lògic intermediari), en consultes sobre un conjunt de fonts de dades autònomes, provistes de interfícies web restringides. / En general, la integración de múltiples bases de datos heterogenias tiene como objetivo ofrecer una visión unificada sobre un conjunto de datos preexistente. Esta tesis contribuye a diferentes aspectos del diseño de sistemas de integración de datos modernos en el contexto de la World Wide Web. Por un lado, la tesis contribuye a la línea de investigación de la Integración Semántica, que hace referencia al problema de reconciliar datos de fuentes autónomas mediante el uso de ontologías i otras herramientas semánticas. La tesis sugiere una nueva solución a la integración semántica XML-RDF, y también contribuye al problema de la Alineación de Ontologías, definiendo una medida de similitud semántica rigurosa i escalable para grafos etiquetados y dirigidos RDF. Por otro lado, la tesis sugiere una nueva solución al problema de traducir una consulta de un usuario (dirigida a un esquema lógico intermediario), en consultas sobre un conjunto de fuentes de datos autónomas, provistas de interfaces web restringidas. / In general, integration of multiple heterogeneous databases aims at giving a unified view over a set of pre-existent data. This thesis contributes to different aspects of the design of modern data integration systems in the context of the World Wide Web. On one hand, this thesis contributes to the Semantic Integration research trend, which refers to the problem of reconciling data from autonomous sources using ontologies and other semantic-based tools. The thesis suggests a novel solution to XML-RDF semantic integration and also contributes to the problem of Ontology Alignment, defining a rigorous and scalable semantic similarity measure for RDF labelled directed graphs. On the other hand, this thesis suggests a novel solution to the problem of translating a user query (targeting a logical mediated schema), into queries over a set of autonomous data sources provided with restricted web interfaces.
|
34 |
Computational study of cancerGundem, Gunes 29 September 2011 (has links)
In my thesis, I focused on integrative analysis of high-throughput oncogenomic data. This was done in two parts: In the first part, I describe IntOGen, an integrative data mining tool for the study of cancer. This system collates, annotates, pre-processes and analyzes large-scale data for transcriptomic, copy number aberration and mutational profiling of a large number of tumors in multiple cancer types. All oncogenomic data is annotated with ICD-O terms. We perform analysis at different levels of complexity: at the level of genes, at the level of modules, at the level of studies and finally combination of studies. The results are publicly available in a web service. I also present the Biomart interface of IntOGen for bulk download of data. In the final part, I propose a methodology based on sample-level enrichment analysis to identify patient subgroups from high-throughput profiling of tumors. I also apply this approach to a specific biological problem and characterize properties of worse prognosis tumor in multiple cancer types. This methodology can be used in the translational version of IntOGen.
|
35 |
Development and application of computational methdologies for Integrated Molecular Systems BiologyKarathia, Hiren Mahendrabhai 30 November 2012 (has links)
L'objectiu del treball presentat en aquesta tesi va ser el desenvolupament i l'aplicació de metodologies computacionals que integren l’anàlisis de informació sobre seqüències proteiques, informació funcional i genòmica per a la reconstrucció, anotació i organització de proteomes complets, de manera que els resultats es poden comparar entre qualsevol nombre d'organismes amb genomes completament seqüenciats.
Metodològicament, m'he centrat en la identificació de l'organització molecular dins d'un proteoma complet d'un organisme de referència i comparació amb proteomes d'altres organismes, en espacial, estructural i funcional, el teixit cel • lular de desenvolupament, o els nivells de la fisiologia. La metodologia es va aplicar per abordar la qüestió de la identificació de organismes model adequats per a estudiar diferents fenòmens biològics. Això es va fer mitjançant la comparació d’un conjunt de proteines involucrades en diferents fenòmens biològics en Saccharomyces cerevisiae i Homo sapiens amb els conjunts corresponents d'altres organismes amb genomes. La tesi conclou amb la presentació d'un servidor web, Homol-MetReS, en què s'implementa la metodologia. Homol-MetReS proporciona un entorn de codi obert a la comunitat científica en què es poden realitzar múltiples nivells de comparació i anàlisi de proteomes. / El objetivo del trabajo presentado en esta tesis fue el desarrollo y la aplicación de metodologías computacionales que integran el análisis de la secuencia y de la información funcional y genómica, con el objetivo de reconstruir, anotar y organizar proteomas completos, de tal manera que estos proteomas se puedan comparar entre cualquier número de organismos con genomas completamente secuenciados.
Metodológicamente, I centrado en la identificación de organización molecular dentro de un proteoma completo de un organismo de referencia, vinculando cada proteína en que proteoma a las proteínas de otros organismos, de tal manera que cualquiera puede comparar los dos proteomas en espacial, estructural, funcional tejido, celular, el desarrollo o los niveles de la fisiología. La metodología se aplicó para abordar la cuestión de la identificación de organismos modelo adecuados para estudiar diferentes fenómenos biológicos. Esto se hizo comparando conjuntos de proteínas involucradas en diferentes fenómenos biológicos en Saccharomyces cerevisiae y Homo sapiens con los conjuntos correspondientes de otros organismos con genomas completamente secuenciados. La tesis concluye con la presentación de un servidor web, Homol-MetReS, en el que se implementa la metodología. Homol-MetReS proporciona un entorno de código abierto a la comunidad científica en la que se pueden realizar múltiples niveles de comparación y análisis de proteomas. / The aim of the work presented in this thesis was the development and application of computational methodologies that integrate sequence, functional, and genomic information to provide tools for the reconstruction, annotation and organization of complete proteomes in such a way that the results can be compared between any number of organisms with fully sequenced genomes. Methodologically, I focused on identifying molecular organization within a complete proteome of a reference organism and comparing with proteomes of other organisms at spatial, structural, functional, cellular tissue, development or physiology levels. The methodology was applied to address the issue of identifying appropriate model organisms to study different biological phenomena. This was done by comparing the protein sets involved in different biological phenomena in Saccharomyces cerevisiae and Homo sapiens. This thesis concludes by presenting a web server, Homol-MetReS, on which the methodology is implemented. It provides an open source environment to the scientific community on which they can perform multi-level comparison and analysis of proteomes.
|
36 |
The Pricing Behavior of Depository Receipts: Evidence from Emerging MarketsBassiouny Mohamed, Aliaa 29 May 2012 (has links)
Aquesta tesi ofereix un examen en profunditat del comportament d’apreuament de les accions dipositades per part dels mercats emergents que, en gran part, s’han menystingut tot i el seu paper de dominació en l’àmbit del creuament de cotitzacions estrangeres. Les característiques de les accions dipositades fan que tinguin un valor idèntic al del seu stock subjacent i, per tant, esperen ser valorades de la mateixa manera. El fet de dur a terme una anàlisi detallada d’aquesta qüestió ha estat obstaculitzat fins ara per la falta de qualitat de les dades del dia a dia dels mercats emergents, unes informacions que faciliten l’anàlisi a temps real de la relació entre els preus de les accions dipositades i els seus stocks subjacents. Aquest estudi directe és necessari des del moment que aquests mercats tenen grans barreres comercials que possiblement distorsionen les relacions d’apreuament teòriques i emmascaren els veritables patrons d’apreuament.
En el primer assaig s’examina el llarg funcionament fonamental de la relació econòmica que lliga els dos valors: la llei del preu únic. Proves recents demostren que, contràriament a allò que ocorre amb els valors de mercat, l’equitat de preus es trenca en els valors dels mercats emergents a causa de la presència de barreres comercials com ara els preus de comerç, les restriccions de la venda al detall i el control de capital. En el primer assaig es confirma la violació de la llarga carrera de la paritat en els preus de les accions dipositades egípcies, fet que està corroborat per proves de fortalesa dutes a terme durant diversos caps de setmana al mercat local i al mercat amfitrió, com també en els moviments del règim del tipus de canvi.
El segon assaig se centra a identificar si existeixen oportunitats reals d’arbitratge quan es viola l’equilibri en la relació d’apreuaments subjacent. En l’anàlisi s’utilitza una única freqüència elevada durant dos anys de dades diàries de 16 valors egipcis i argentins per identificar si existeixen oportunitats d’arbitratge durant el període en què els dos valors estan comerciant i establir si les comercialitzacions d’arbitratge juguen algun paper en la convergència de preus. La metodologia emprada es basa en un procediment d’identificació del nou arbitratge que té en compte les despeses del comerç dinàmic i el volum d’aquest. S’ha establert una evidència de la presència d’un gran nombre d’oportunitats d’arbitratge a través de la mostra. S’ha vist que les oportunitats d’arbitratge persisteixen durant uns quants minuts i demanen més d’una comercialització per convergir en zones no arbitrades. A partir d’un algoritme de filtració s’extreuen les veritables comercialitzacions d’arbitratge de la comercialització d’arbitratge de les dades i s’estableix la importància del rol d’arbitratge en el moment de restablir els preus al seu valor fonamental i en el moment d’evitar que els preus vagin a la deriva lluny d’un preu implícit comú i eficient.
El tercer assaig afegeix l’anàlisi de l’arbitratge i fa servir les mateixes dades diàries per examinar si és el mercat local o l’estranger el que juga un paper més dominant en l’apreuament diari dels valors de les cotitzacions creuades egípcies i argentines. Els resultats mostren que els dos mercats són importants per al procés de descobriment de preus, però que tant per a tots els valors egipcis com per a la major part dels argentins, el mercat local juga un paper més dominant. S’ha determinat que la localització de la descoberta del preu depèn de múltiples factors, entre els quals la liquiditat i el volum de comercialitzacions que cada mercat pot atraure són els més importants.
El darrer assaig de la tesi va estar motivat pels resultats del tercer assaig i inspirat pels moviments de la Primavera Àrab de l’Orient Mitjà. L’aixecament a Egipte del 25 de gener va estar acompanyat pel tancament complet dels mercats d’stock durant dos mesos sencers. Aquest fet va crear una situació interessant en la qual els únics valors egipcis que podien comercialitzar eren aquells que tenien accions dipositades i que comercialitzaven al Regne Unit. Utilitzem aquest fet per examinar l’efecte d’un canvi en el marc legal en la localització de la descoberta del preu i per determinar que durant el període d’excepció durant el qual el mercat local va estar tancat, la localització de la descoberta del preu va canviar al mercat estranger, fent que aquest fos la localització dominant per a les activitats d’apreuament. Això proporciona dades de la naturalesa dinàmica del descobriment de preus de les accions dipositades. / Esta tesis ofrece un examen en profundidad del comportamiento de pricing de los recibos de depósito por parte de los mercados emergentes que, en gran parte, ha sido negligido a pesar de su papel dominante en el ámbito del cross-listing extranjero. Las características de los recibos de depósito hacen que sean títulos idénticos a su stock subyacente y, por tanto, se espera que sean valorados de la misma forma. El análisis detallado esta cuestión ha visto obstaculizado hasta ahora por la falta de datos de calidad intradía de los mercados emergentes, que facilite el análisis en tiempo real de la relación entre los precios de los recibos de depósito y su stock subyacente. Este análisis directo es necesario desde el momento que estos mercados tienen grandes barreras comerciales que posiblemente distorsionan las relaciones de pricing teóricas y enmascaran los verdaderos patrones de pricing.
En el primer estudio, se examina la relación económica fundamental a largo plazo que relaciona los dos títulos: la ley del precio único. Pruebas recientes demuestran que, contrariamente a aquello que ocurre con los valores del mercado desarrollado, la paridad de precios se rompe en los valores de los mercados emergentes debido a la presencia de barreras comerciales como los precios comerciales, las restricciones de venta a corto y el control de capital. Este primer estudio confirma la violación de la paridad de precios de los recibos de depósito egipcios, hecho que está corroborado por los tests de fortaleza llevados a cabo durante varios fines de semana entre el mercado local y el de acogida, como también en los cambios de régimen del tipo de cambio.
El segundo estudio se centra en identificar si existen oportunidades reales de arbitraje cuando se viola la relación de pricing de equilibrio subyacente. En el análisis, se usa una única serie de datos intradía de alta frecuencia durante dos años de 16 valores egipcios y argentinos para identificar si existen oportunidades de arbitraje durante el período en que los dos valores se están comerciando y establecer si las comercializaciones de arbitraje tienen algún papel en la convergencia de precios. La metodología usada se basa en un nuevo procedimiento de identificación del arbitraje que tiene en cuenta los costes comerciales dinámicos y los volúmenes. Se ha constatado que existe un gran número de oportunidades de arbitraje a lo largo de la muestra. Se ha visto que las oportunidades de arbitraje persisten durante unos cuantos minutos y requieren más de una comercialización para converger en zonas no arbitradas. A partir de un algoritmo de filtración, se extraen los intercambios reales de arbitraje de los intercambios de la serie de datos y se establece la importancia del rol de los árbitros para restablecer los precios a sus valores fundamentales y evitar que los precios se alejen de un precio implícito común y eficiente.
El tercer estudio se basa en el análisis del arbitraje y utiliza la misma serie de datos intradía para examinar si es el mercado local o el extranjero el que tiene un papel más dominante en el pricing intradía de los valores de las cotizaciones cruzadas egipcias y argentinas. Los resultados muestran que los dos mercados son importantes para el proceso de revelación del precio, pero que para todos los valores egipcios y para la mayor parte de los argentinos el mercado local tiene un papel más dominante. Se ha observado que la localización de la revelación del precio depende de múltiples factores, entre los cuales la liquidez y el volumen de comercialización que cada mercado puede atraer son los más importantes.
El último estudio de esta tesis fue motivado por los resultados del tercer estudio e inspirado por los movimientos de la Primavera Árabe del Oriente Medio. La revuelta del 25 de enero vino acompañado por el cierre total de los mercados bursátiles durante dos meses enteros. Este hecho creó un escenario interesante en el cual los únicos valores egipcios que se podían comercializar eran aquellos que tenían recibos de depósito y que comercializaban en el Reino Unido. Utilizamos este hecho para examinar el efecto de un cambio en el marco legal de la locación del descubrimiento del precio y para ver que durante el período de excepción durante el cual el mercado estuvo cerrado, la localización de la revelación del precio ha pasado al mercado emergente, haciendo que este fuera la localización dominante para las actividades de pricing. Esto demuestra la naturaleza dinámica del descubrimiento de precios de los recibos de depósito. / This thesis provides an in-depth examination of the pricing behavior of depository receipts from emerging markets which have been largely overlooked despite their dominating role in the foreign cross-listing arena. Characteristics of depository receipts make them identical securities to their underlying stock and therefore both are expected to be priced equally. A detailed analysis of the issue has been so far hampered by the lack of quality intraday data from emerging markets that facilitates a real time analysis of the relationship between the prices of the depository receipt and its underlying stock. This direct examination is required since those markets have large trading barriers that are hypothesized to distort the theoretical pricing relationship and mask true pricing patterns.
The first essay examines the fundamental long run economic relationship that ties both securities: the law of one price. Recent evidence shows that contrary to developed market equities, price parity is broken in emerging market equities due to the presence of trading barriers such as trading costs, short selling restrictions and capital controls. The first essay confirms the violation of long run price parity in Egyptian depository receipts which is corroborated by robustness tests around the different weekends between the local and host market as well as around exchange rate regime shifts.
The second essay focuses on identifying whether real arbitrage opportunities exist when the underlying equilibrium pricing relationship is violated. The analysis uses a unique two year high frequency intraday dataset from 16 Egyptian and Argentinean equities to identify whether arbitrage opportunities exist during the period when both securities are simultaneously trading and establish whether arbitrage trades play a role in price convergence. The methodology used relies on a novel arbitrage identification procedure that uses dynamic trading costs and volumes. Evidence of the presence of large number of arbitrage opportunities across the sample is established. Arbitrage opportunities are found to persist for several minutes and require more than one trade to converge to no-arbitrage zones. A filtering algorithm extracts real arbitrage trades from the arbitrage trades from the dataset and establishes the important role of arbitrageurs in restoring prices to their fundamental values and in keeping prices from drifting away from a common efficient implicit price.
The third essay builds on the arbitrage analysis and uses the same intraday dataset to examine whether the local or foreign market plays a more dominant role in the intraday pricing of the Egyptian and Argentinean cross-listed securities. The results show that both markets are important for the price discovery process, but that for all of the Egyptian and most of the Argentinean securities, the local market plays a more dominant role. The location of price discovery is found to depend on several factors, most importantly the liquidity and trading volume that each market can attract.
The final essay in the thesis was motivated by the results of the third essay and inspired by the Arab spring movements in the Middle East. The 25th of January uprising in Egypt was accompanied by a full stock market closure for a complete two months. This created an interesting setting in which the only Egyptian equities that were allowed to trade were those with depository receipts trading in the UK. We use this event to examine the effect of a change in the legal environment on the location of price discovery and find that during the interim period where the local market was closed, the location of price discovery has shifted to the foreign market making it the dominant location for pricing activity. This provides evidence of the dynamic nature of the price discovery of depository receipts.
|
37 |
Entorno virtual para el aprendizaje y la evaluación automática en bases de datosSoler i Masó, Josep 04 November 2010 (has links)
La enseñanza y evaluación automática a través de un sistema Computer Based Assessment (CBA) requiere de software especializado que se adapte a la tipología de actividades a tratar y evaluar. En esta tesis se ha desarrollado un entorno CBA que facilita el aprendizaje y evaluación de los principales temas de una asignatura de bases de datos. Para ello se han analizado las herramientas existentes en cada uno de estos temas (Diagramas Entidad/Relación, diagramas de clases, esquemas de bases de datos relacionales, normalización, consultas en álgebra relacional y lenguaje SQL) y para cada uno de ellos se ha analizado, diseñado e implementado un módulo de corrección y evaluación automática que aporta mejoras respecto a los existentes. Estos módulos se han integrado en un mismo entorno al que hemos llamado ACME-DB. / Teaching and automatic evaluation through Computer Based Assessment (CBA) requires of specialized software tools capable to correct different type of activities. In this work, we have analyzed the main topics of a database course (entity/ relationship diagrams, class diagrams, relational database schemas, normalization, relational algebra and SQL) and for each one of them we have reported the state of art on CBA tools. Afterwards, we have proposed a new CBA environment for teaching and learning database. This environment, denoted ACME-DB, is composed of different modules capable to automatically correct and evaluate exercises of main topics of a database course providing improvements over existing tools.
|
38 |
Aportació als criteris de disseny ergonomic de les interfícies persona-màquina (HMI) per a vehicles submarins teleoperats.Bonyuet Lee, David 27 September 2002 (has links)
El creixement de la robòtica (especialment en l'àrea dels sistemes intel·ligents) continua a grans passos, malgrat que encara no hi ha sistemes totalment autònoms per treballar en entorns complexos i desconeguts. Consideracions de cost, seguretat, temps de desenvolupament i altres, fan molt atractiva la teleoperació per a algunes tasques. És ben sabut que la interacció entre els operadors humans i els ordinadors encara és molt problemàtica (com es pot veure en les operacions de rescat del Titànic, Txernòbil i, més recentment, en la pèrdua d'un avió teleoperat a l'Afganistan). Aquests exemples fan ressaltar les dificultats inherents en la utilització de la informació i la teleoperació de robots. Una interfície persona-màquina (HMI) adequada podria resoldre aquest problemes, cosa que incrementaria la satisfacció de l'usuari i la utilització del sistema. Aquest projecte ofereix una contribució al desenvolupament i els criteris de disseny ergonòmic d'interfícies d'usuari per a sistemes teleoperats, especialment en el cas d'aplicacions amb robots submarins. Aquesta recerca es va desenvolupar com part del projecte GARBÍ, el robot submari teleoperat dissenyat per el Dr. Josep Amat i el seu equip, per ajudar als usuaris en les seves tasques marines. Una de les eines que ajuda a treballar millor un sistema teleoperat és la interfície persona-màquina (HMI) que serveix com canal de comunicació entre el sistema i l'usuari. Per iniciar el disseny de la interfície s'ha fet una recerca per determinar el marc teòric i l'estat de l'art en sistemes teleoperats, interfícies d'usuari i eines ergonomiques de disseny. S'han desenvolupat eines per mesurar qualitativament la qualitat de les interfícies persona-màquina (HMI) dels sistemes teleoperats presents en la literatura cientifica i determinar les millores que s'haurien d'introduir en les interficies en ordre de millorar la velocitat de transferencia d'informació.Les tasques de teleoperació han de mostrar una gran quantitat d'informació; aquesta situació es va resoldre en part mitjançant la realitat virtual, que es va fer servir com una eina per millorar les imatges de les càmeres. La realitat virtual, doncs, ajuda a resoldre alguns d'aquest problemes, com ara la representació espacial i la programació d'objectes. Aquest enfocament també permet una millora visual: la imatge real podria estar afectada per les condicions climàtiques (pluja, boirassa, etc.), per la part del dia (tarda, nit, etc.) i per l'entorn natural (la composició de l'aigua pot reduir la visibilitat submarina); la realitat virtual elimina tots aquests inconvenients i ofereix una imatge neta i filtrada. Un entorn virtual es va crear per introduir a l'usuari dintre de les tasques marines i totes les eines necessaries per la conducció del vehicle es van possar en la interfície. Per desenvolupar una interfície ergonómica i òptima s'ha d'involucrar als usuaris en el proces i aquestes activitats s'han de desenvolupar en forma especifica i organitzada. Durant aquesta recerca es van desenvolupar diverses interfícies persona-màquina, tenint en compte les necessitats i reaccions d'usuaris nous i experts. Dues interfícies es van desenvolupar per analitzar l'impacte de la visualització de la informació i la controlabilitat: una de les interfícies es va dissenyar amb finestres d'informació millorada per enfocar-la més a la visualització de dades i en l'altra es va simplificar el control i la manipulació del robot. El proces d'avaluació de les interfícies es va descriure, incloent una nova metodologia basat en els paràmetres d'utilització, la qual abasta diversos paràmetres i etapes de la interacció usuari-ordinador: la tasca, l'usuari i la interfície. Aquesta metodologia es va provar amb les interfícies desenvolupades i amb interfícies de jocs semblants. / The growth of robotics -specially in intelligent systems- continues at an ever-faster pace, even though we still lack of totally autonomous systems to work in complex, unknown environments. Cost, safety needs and development time, among other considerations, make teleoperation an appealing way to perform some tasks. As we know, however, interaction between human operators and computers remains problematic -as can be seen in rescue operations from the Titanic to Chernobyl and, more recently, the missing teleoperated airplane in Afghanistan. These examples underscore the difficulties inherent in information utilization and robot teleoperation. An adequate user interface would solve these problems, increasing both user satisfaction and system usage. The present project offers a contribution to the development and ergonomic design rules of user interfaces for teleoperated systems, specifically in the case of underwater robot applications.Teleoperated robots are currently employed in different fields, for example: mine exploration, spatial and underwater research, high-risk exploration areas and other applications where human intelligence is indispensable. Kress (from IEEE Robotics & Automation Society) <www.engr.utk.edu/maes/ff/rlk/ieee/> and others have pointed out that human machine interfaces (HMI) are critical to the success of teleoperation systems. A teleoperation task must display a great deal of information. Thus, virtual reality was added as a tool to enhance the plane camera images. Virtual reality helps solve some of those problems, e.g. spatial representation and object programming. This approach allows even for visual enhancement: the real image might be affected by weather conditions (rain, fog, etc.), time of the day (afternoon, night, etc.) and by natural environment (water composition can reduce underwater visibility). Virtual reality, allowing a clean, filtered image, would eliminate these and other inconveniences.As this research progressed, several human-machine interfaces (HMI) were developed, taking into account the needs and reactions of average as well as expert users. The interfaces were created with virtual reality tools and programmed in C language. Two interfaces were developed to analyze the impact of information visualization and controllability. One of them was designed with enhanced information windows to focus primarily on data visualization; while the other simplifies robot maneuverability and control. The fruit of this research allows for both a framework and guidelines for HMI design and a model for teleoperated human-machine interaction.In addition to the framework design, two interface evaluation methodologies were proposed. One, the Interface Index, is for rapid assessment. The other, the Usability Assessment, is for deep interface analysis, covering several parameters and stages in human-computer interaction. Several papers related to the development, design and evaluation of these interfaces have been published in international congresses related to this field.
|
39 |
Desarrollo de un sistema integral para monitorización in situ de metales pesadosDíaz Rengifo, Juan Arturo 27 March 2001 (has links)
El presente trabajo de investigación titulado "Desarrollo de un Sistema Integrado para Monitorización "in situ" de metales pesados", trata de la puesta en marcha de un nuevo sistema de medida potenciométrico portátil para la determinación cuantitativa de metales pesados tóxicos al medio ambiente para medidas en el campo.Comprende tres áreas disciplinarias: En la primera área, la electroquímica, se desarrollan sensores químicos que a su vez se dividen en tres etapas: En la primera etapa, se estudia la fabricación de electrodos convencionales de cabezal reemplazable selectivos a los cationes de cobre(II), cadmio(II) y plomo(II). En la segunda etapa, el estudio de nuevos electrodos selectivos a los mismos cationes del estudio anterior en configuración plana basado en tecnología "thick film", adaptada a nuestras necesidades de fabricación mediante la técnica de moldeo ("casting"). Por último, en la tercera etapa, se estudia la fabricación de electrodos de referencia de configuración plana con la misma tecnología.La segunda área es la informática, en la que se desarrolla un paquete de herramientas basado en "software" de LabVIEW versión 5.1, con el nombre de Instrumentación Virtual para el Control Potenciométrico de Sensores Químicos, (en inglés "VIPCCHES"). Este paquete está capacitado para el tratamiento de la información que contienen las señales analíticas procdentes de los sensores. Tiene tres funciones importantes. La primera función es la calibración de los electrodos por dos métodos: calibración externa continua y calibración externa discontinua, ambos en dos modos de operación, modo individual y modo "array" de electrodos.Una segunda función del paquete VIPCCHES es la adquisición de datos en modo continuo de un electrodo o un array de electrodos, permitiendo al usuario programar las medidas necesarias en tiempos de adquisición variables. La tercera función operativa del programa, es la realización de análisis de muestras de metales para un electrodo o un "array" de electrodos. El valor de la señal adquirida es promediado y éste es confrontado con una curva de calibración del electrodo plano de manera automática, presentando los resultados de manera gráfica y numérica. Finalmente, los resultados pueden ser tratados mediante programas estándar tipo Excel.En el área de la electrónica, se ha construido un dispositivo para procesar las señales que proceden de los electrodos planos de nombre "SPPAE" que permite la adecuación de las señales a la Tarjeta de Adquisición de Datos (TAD) en el ordenador. Está diseñado con filosofía de expansión, por medio de módulos de amplificación y filtrado (anti-aliasing) que se insertan en un Bus de alimentación.La integración de estos tres sistemas (electrodos de configuración plana, el SPPAE y el VIPCCHES) forman parte del Sistema Integrado para Monitorización Ambiental que conocemos como SIMA estando dicho sistema capacitado para realizar análisis "in situ" de metales pesados. / In this work, a Integrated System for monitoring in situ of heavy metals was developed. Include three disciplinary areas, the electronic, the information technology and the electrochemical. The first step was development now chemical sensors selective to cationes using thick film technology. The second task was the development of one virtual instrument (VI), which is the essential part of the system, using the graphical programming language LabVIEW which is capable of performing measurements functions, including data acquisition, display, analysis in the time and frequency domains, data archiving and read to file. Finally its build a signals processor, for the now plane and miniaturised electrodes. The installations of these elements in a portable computer consist in the Integrated System.Keywords: thick film, chemical sensors, integrated systems, virtual instrumentation, signals processor, in situ measurements, monitoring, heavy metals.
|
40 |
Distributed Computing Solutions for High Energy Physics Interactive Data AnalysisPadulano, Vincenzo Eduardo 04 May 2023 (has links)
[ES] La investigación científica en Física de Altas Energías (HEP) se caracteriza por desafíos computacionales complejos, que durante décadas tuvieron que ser abordados mediante la investigación de técnicas informáticas en paralelo a los avances en la comprensión de la física. Uno de los principales actores en el campo, el CERN, alberga tanto el Gran Colisionador de Hadrones (LHC) como miles de investigadores cada año que se dedican a recopilar y procesar las enormes cantidades de datos generados por el acelerador de partículas. Históricamente, esto ha proporcionado un terreno fértil para las técnicas de computación distribuida, conduciendo a la creación de Worldwide LHC Computing Grid (WLCG), una red global de gran potencia informática para todos los experimentos LHC y del campo HEP. Los datos generados por el LHC hasta ahora ya han planteado desafíos para la informática y el almacenamiento. Esto solo aumentará con futuras actualizaciones de hardware del acelerador, un escenario que requerirá grandes cantidades de recursos coordinados para ejecutar los análisis HEP. La estrategia principal para cálculos tan complejos es, hasta el día de hoy, enviar solicitudes a sistemas de colas por lotes conectados a la red. Esto tiene dos grandes desventajas para el usuario: falta de interactividad y tiempos de espera desconocidos. En años más recientes, otros campos de la investigación y la industria han desarrollado nuevas técnicas para abordar la tarea de analizar las cantidades cada vez mayores de datos generados por humanos (una tendencia comúnmente mencionada como "Big Data"). Por lo tanto, han surgido nuevas interfaces y modelos de programación que muestran la interactividad como una característica clave y permiten el uso de grandes recursos informáticos.
A la luz del escenario descrito anteriormente, esta tesis tiene como objetivo aprovechar las herramientas y arquitecturas de la industria de vanguardia para acelerar los flujos de trabajo de análisis en HEP, y proporcionar una interfaz de programación que permite la paralelización automática, tanto en una sola máquina como en un conjunto de recursos distribuidos. Se centra en los modelos de programación modernos y en cómo hacer el mejor uso de los recursos de hardware disponibles al tiempo que proporciona una experiencia de usuario perfecta. La tesis también propone una solución informática distribuida moderna para el análisis de datos HEP, haciendo uso del software llamado ROOT y, en particular, de su capa de análisis de datos llamada RDataFrame. Se exploran algunas áreas clave de investigación en torno a esta propuesta. Desde el punto de vista del usuario, esto se detalla en forma de una nueva interfaz que puede ejecutarse en una computadora portátil o en miles de nodos informáticos, sin cambios en la aplicación del usuario. Este desarrollo abre la puerta a la explotación de recursos distribuidos a través de motores de ejecución estándar de la industria que pueden escalar a múltiples nodos en clústeres HPC o HTC, o incluso en ofertas serverless de nubes comerciales. Dado que el análisis de datos en este campo a menudo está limitado por E/S, se necesita comprender cuáles son los posibles mecanismos de almacenamiento en caché. En este sentido, se investigó un sistema de almacenamiento novedoso basado en la tecnología de almacenamiento de objetos como objetivo para el caché.
En conclusión, el futuro del análisis de datos en HEP presenta desafíos desde varias perspectivas, desde la explotación de recursos informáticos y de almacenamiento distribuidos hasta el diseño de interfaces de usuario ergonómicas. Los marcos de software deben apuntar a la eficiencia y la facilidad de uso, desvinculando la definición de los cálculos físicos de los detalles de implementación de su ejecución. Esta tesis se enmarca en el esfuerzo colectivo de la comunidad HEP hacia estos objetivos, definiendo problemas y posibles soluciones que pueden ser adoptadas por futuros investigadores. / [CA] La investigació científica a Física d'Altes Energies (HEP) es caracteritza per desafiaments computacionals complexos, que durant dècades van haver de ser abordats mitjançant la investigació de tècniques informàtiques en paral·lel als avenços en la comprensió de la física. Un dels principals actors al camp, el CERN, acull tant el Gran Col·lisionador d'Hadrons (LHC) com milers d'investigadors cada any que es dediquen a recopilar i processar les enormes quantitats de dades generades per l'accelerador de partícules. Històricament, això ha proporcionat un terreny fèrtil per a les tècniques de computació distribuïda, conduint a la creació del Worldwide LHC Computing Grid (WLCG), una xarxa global de gran potència informàtica per a tots els experiments LHC i del camp HEP. Les dades generades per l'LHC fins ara ja han plantejat desafiaments per a la informàtica i l'emmagatzematge. Això només augmentarà amb futures actualitzacions de maquinari de l'accelerador, un escenari que requerirà grans quantitats de recursos coordinats per executar les anàlisis HEP. L'estratègia principal per a càlculs tan complexos és, fins avui, enviar sol·licituds a sistemes de cues per lots connectats a la xarxa. Això té dos grans desavantatges per a l'usuari: manca d'interactivitat i temps de espera desconeguts. En anys més recents, altres camps de la recerca i la indústria han desenvolupat noves tècniques per abordar la tasca d'analitzar les quantitats cada vegada més grans de dades generades per humans (una tendència comunament esmentada com a "Big Data"). Per tant, han sorgit noves interfícies i models de programació que mostren la interactivitat com a característica clau i permeten l'ús de grans recursos informàtics. A la llum de l'escenari descrit anteriorment, aquesta tesi té com a objectiu aprofitar les eines i les arquitectures de la indústria d'avantguarda per accelerar els fluxos de treball d'anàlisi a HEP, i proporcionar una interfície de programació que permet la paral·lelització automàtica, tant en una sola màquina com en un conjunt de recursos distribuïts. Se centra en els models de programació moderns i com fer el millor ús dels recursos de maquinari disponibles alhora que proporciona una experiència d'usuari perfecta. La tesi també proposa una solució informàtica distribuïda moderna per a l'anàlisi de dades HEP, fent ús del programari anomenat ROOT i, en particular, de la seva capa d'anàlisi de dades anomenada RDataFrame. S'exploren algunes àrees clau de recerca sobre aquesta proposta. Des del punt de vista de l'usuari, això es detalla en forma duna nova interfície que es pot executar en un ordinador portàtil o en milers de nodes informàtics, sense canvis en l'aplicació de l'usuari. Aquest desenvolupament obre la porta a l'explotació de recursos distribuïts a través de motors d'execució estàndard de la indústria que poden escalar a múltiples nodes en clústers HPC o HTC, o fins i tot en ofertes serverless de núvols comercials. Atès que sovint l'anàlisi de dades en aquest camp està limitada per E/S, cal comprendre quins són els possibles mecanismes d'emmagatzematge en memòria cau. En aquest sentit, es va investigar un nou sistema d'emmagatzematge basat en la tecnologia d'emmagatzematge d'objectes com a objectiu per a la memòria cau. En conclusió, el futur de l'anàlisi de dades a HEP presenta reptes des de diverses perspectives, des de l'explotació de recursos informàtics i d'emmagatzematge distribuïts fins al disseny d'interfícies d'usuari ergonòmiques. Els marcs de programari han d'apuntar a l'eficiència i la facilitat d'ús, desvinculant la definició dels càlculs físics dels detalls d'implementació de la seva execució. Aquesta tesi s'emmarca en l'esforç col·lectiu de la comunitat HEP cap a aquests objectius, definint problemes i possibles solucions que poden ser adoptades per futurs investigadors. / [EN] The scientific research in High Energy Physics (HEP) is characterised by complex computational challenges, which over the decades had to be addressed by researching computing techniques in parallel to the advances in understanding physics. One of the main actors in the field, CERN, hosts both the Large Hadron Collider (LHC) and thousands of researchers yearly who are devoted to collecting and processing the huge amounts of data generated by the particle accelerator. This has historically provided a fertile ground for distributed computing techniques, which led to the creation of the Worldwide LHC Computing Grid (WLCG), a global network providing large computing power for all the experiments revolving around the LHC and the HEP field. Data generated by the LHC so far has already posed challenges for computing and storage. This is only going to increase with future hardware updates of the accelerator, which will bring a scenario that will require large amounts of coordinated resources to run the workflows of HEP analyses. The main strategy for such complex computations is, still to this day, submitting applications to batch queueing systems connected to the grid and wait for the final result to arrive. This has two great disadvantages from the user's perspective: no interactivity and unknown waiting times. In more recent years, other fields of research and industry have developed new techniques to address the task of analysing the ever increasing large amounts of human-generated data (a trend commonly mentioned as "Big Data"). Thus, new programming interfaces and models have arised that most often showcase interactivity as one key feature while also allowing the usage of large computational resources.
In light of the scenario described above, this thesis aims at leveraging cutting-edge industry tools and architectures to speed up analysis workflows in High Energy Physics, while providing a programming interface that enables automatic parallelisation, both on a single machine and on a set of distributed resources. It focuses on modern programming models and on how to make best use of the available hardware resources while providing a seamless user experience. The thesis also proposes a modern distributed computing solution to the HEP data analysis, making use of the established software framework called ROOT and in particular of its data analysis layer implemented with the RDataFrame class. A few key research areas that revolved around this proposal are explored. From the user's point of view, this is detailed in the form of a new interface to data analysis that is able to run on a laptop or on thousands of computing nodes, with no change in the user application. This development opens the door to exploiting distributed resources via industry standard execution engines that can scale to multiple nodes on HPC or HTC clusters, or even on serverless offerings of commercial clouds. Since data analysis in this field is often I/O bound, a good comprehension of what are the possible caching mechanisms is needed. In this regard, a novel storage system based on object store technology was researched as a target for caching.
In conclusion, the future of data analysis in High Energy Physics presents challenges from various perspectives, from the exploitation of distributed computing and storage resources to the design of ergonomic user interfaces. Software frameworks should aim at efficiency and ease of use, decoupling as much as possible the definition of the physics computations from the implementation details of their execution. This thesis is framed in the collective effort of the HEP community towards these goals, defining problems and possible solutions that can be adopted by future researchers. / Padulano, VE. (2023). Distributed Computing Solutions for High Energy Physics Interactive Data Analysis [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/193104
|
Page generated in 0.0335 seconds