Spelling suggestions: "subject:"inteligência artificial."" "subject:"inteligentes artificial.""
571 |
Optimización de arquitecturas distribuidas para el procesado de datos masivosHerrera Hernández, José 02 September 2020 (has links)
Tesis por compendio / [ES] La utilización de sistemas para el tratamiento eficiente de grandes volúmenes de información ha crecido en popularidad durante los últimos años. Esto conlleva el desarrollo de nuevas tecnologías, métodos y algoritmos, que permitan un uso eficiente de las infraestructuras. El tratamiento de grandes volúmenes de información no está exento de numerosos problemas y retos, algunos de los cuales se tratarán de mejorar. Dentro de las posibilidades actuales debemos tener en cuenta la evolución que han tenido los sistemas durante los últimos años y las oportunidades de mejora que existan en cada uno de ellos.
El primer sistema de estudio, el Grid, constituye una aproximación inicial de procesamiento masivo y representa uno de los primeros sistemas distribuidos de tratamiento de grandes conjuntos de datos. Participando en la modernización de uno de los mecanismos de acceso a los datos se facilita la mejora de los tratamientos que se realizan en la genómica actual. Los estudios que se presentan están centrados en la transformada de Burrows-Wheeler, que ya es conocida en el análisis genómico por su capacidad para mejorar los tiempos en el alineamiento de cadenas cortas de polinucleótidos. Esta mejora en los tiempos, se perfecciona mediante la reducción de los accesos remotos con la utilización de un sistema de caché intermedia que optimiza su ejecución en un sistema Grid ya consolidado. Esta caché se implementa como complemento a la librería de acceso estándar GFAL utilizada en la infraestructura de IberGrid.
En un segundo paso se plantea el tratamiento de los datos en arquitecturas de Big Data. Las mejoras se realizan tanto en la arquitectura Lambda como Kappa mediante la búsqueda de métodos para tratar grandes volúmenes de información multimedia. Mientras que en la arquitectura Lambda se utiliza Apache Hadoop como tecnología para este tratamiento, en la arquitectura Kappa se utiliza Apache Storm como sistema de computación distribuido en tiempo real. En ambas arquitecturas se amplía el ámbito de utilización y se optimiza la ejecución mediante la aplicación de algoritmos que mejoran los problemas en cada una de las tecnologías.
El problema del volumen de datos es el centro de un último escalón, por el que se permite mejorar la arquitectura de microservicios. Teniendo en cuenta el número total de nodos que se ejecutan en sistemas de procesamiento tenemos una aproximación de las magnitudes que podemos obtener para el tratamiento de grandes volúmenes. De esta forma, la capacidad de los sistemas para aumentar o disminuir su tamaño permite un gobierno óptimo. Proponiendo un sistema bioinspirado se aporta un método de autoescalado dinámico y distribuido que mejora el comportamiento de los métodos comúnmente utilizados frente a las circunstancias cambiantes no predecibles.
Las tres magnitudes clave del Big Data, también conocidas como V's, están representadas y mejoradas: velocidad, enriqueciendo los sistemas de acceso de datos por medio de una reducción de los tiempos de tratamiento de las búsquedas en los sistemas Grid bioinformáticos; variedad, utilizando sistemas multimedia menos frecuentes que los basados en datos tabulares; y por último, volumen, incrementando las capacidades de autoescalado mediante el aprovechamiento de contenedores software y algoritmos bioinspirados. / [CA] La utilització de sistemes per al tractament eficient de grans volums d'informació ha crescut en popularitat durant els últims anys. Açò comporta el desenvolupament de noves tecnologies, mètodes i algoritmes, que aconsellen l'ús eficient de les infraestructures. El tractament de grans volums d'informació no està exempt de nombrosos problemes i reptes, alguns dels quals es tractaran de millorar. Dins de les possibilitats actuals hem de tindre en compte l'evolució que han tingut els sistemes durant els últims anys i les ocasions de millora que existisquen en cada un d'ells. El primer sistema d'estudi, el Grid, constituïx una aproximació inicial de processament massiu i representa un dels primers sistemes de tractament distribuït de grans conjunts de dades. Participant en la modernització d'un dels mecanismes d'accés a les dades es facilita la millora dels tractaments que es realitzen en la genòmica actual. Els estudis que es presenten estan centrats en la transformada de Burrows-Wheeler, que ja és coneguda en l'anàlisi genòmica per la seua capacitat per a millorar els temps en l'alineament de cadenes curtes de polinucleòtids. Esta millora en els temps, es perfecciona per mitjà de la reducció dels accessos remots amb la utilització d'un sistema de memòria cau intermèdia que optimitza la seua execució en un sistema Grid ja consolidat. Esta caché s'implementa com a complement a la llibreria d'accés estàndard GFAL utilitzada en la infraestructura d'IberGrid. En un segon pas es planteja el tractament de les dades en arquitectures de Big Data. Les millores es realitzen tant en l'arquitectura Lambda com a Kappa per mitjà de la busca de mètodes per a tractar grans volums d'informació multimèdia. Mentre que en l'arquitectura Lambda s'utilitza Apache Hadoop com a tecnologia per a este tractament, en l'arquitectura Kappa s'utilitza Apache Storm com a sistema de computació distribuït en temps real. En ambdós arquitectures s'àmplia l'àmbit d'utilització i s'optimitza l'execució per mitjà de l'aplicació d'algoritmes que milloren els problemes en cada una de les tecnologies. El problema del volum de dades és el centre d'un últim escaló, pel qual es permet millorar l'arquitectura de microserveis. Tenint en compte el nombre total de nodes que s'executen en sistemes de processament tenim una aproximació de les magnituds que podem obtindre per al tractaments de grans volums. D'aquesta manera la capacitat dels sistemes per a augmentar o disminuir la seua dimensió permet un govern òptim. Proposant un sistema bioinspirat s'aporta un mètode d'autoescalat dinàmic i distribuït que millora el comportament dels mètodes comunment utilitzats enfront de les circumstàncies canviants no predictibles. Les tres magnituds clau del Big Data, també conegudes com V's, es troben representades i millorades: velocitat, enriquint els sistemes d'accés de dades per mitjà d'una reducció dels temps de tractament de les busques en els sistemes Grid bioinformàtics; varietat, utilitzant sistemes multimèdia menys freqüents que els basats en dades tabulars; i finalment, volum, incrementant les capacitats d'autoescalat per mitjà de l'aprofitament de contenidors i algoritmes bioinspirats. / [EN] The use of systems for the efficient treatment of large data volumes has grown in popularity during the last few years. This has led to the development of new technologies, methods and algorithms to efficiently use of infrastructures. The Big Data treatment is not exempt from numerous problems and challenges, some of which will be attempted to improve. Within the existing possibilities, we must take into account the evolution that systems have had during the last years and the improvement that exists in each one.
The first system of study, the Grid, constitutes an initial approach of massive distributed processing and represents one of the first treatment systems of big data sets. By researching in the modernization of the data access mechanisms, the advance of the treatments carried out in current genomics is facilitated. The studies presented are centred on the Burrows-Wheeler Transform, which is already known in genomic analysis for its ability to improve alignment times of short polynucleotids chains. This time, the update is enhanced by reducing remote accesses by using an intermediate cache system that optimizes its execution in an already consolidated Grid system. This cache is implemented as a GFAL standard file access library complement used in IberGrid infrastructure.
In a second step, data processing in Big Data architectures is considered. Improvements are made in both the Lambda and Kappa architectures searching for methods to process large volumes of multimedia information. For the Lambda architecture, Apache Hadoop is used as the main processing technology, while for the Kappa architecture, Apache Storm is used as a real time distributed computing system. In both architectures the use scope is extended and the execution is optimized applying algorithms that improve problems for each technology.
The last step is focused on the data volume problem, which allows the improvement of the microservices architecture. The total number of nodes running in a processing system provides a measure for the capacity of processing large data volumes. This way, the ability to increase and decrease capacity allows optimal governance. By proposing a bio-inspired system, a dynamic and distributed self-scaling method is provided improving common methods when facing unpredictable workloads.
The three key magnitudes of Big Data, also known as V's, will be represented and improved: speed, enriching data access systems by reducing search processing times in bioinformatic Grid systems; variety, using multimedia data less used than tabular data; and finally, volume, increasing self-scaling capabilities using software containers and bio-inspired algorithms. / Herrera Hernández, J. (2020). Optimización de arquitecturas distribuidas para el procesado de datos masivos [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/149374 / Compendio
|
572 |
Una Aproximación de Ingeniería de Requisitos para Líneas de Productos Software Basada en una Estrategia de Desarrollo Dirigido por ModelosBlanes Domínguez, David 02 May 2016 (has links)
[EN] The Requirements Engineering (RE) activity is crucial in software engineering. A failure when defining the requirements of a system could increase the costs of the entire product development process. This problem is even more critical in the Software Product Lines (SPL) development, since the definition and specification of requirements must deal with a new dimension: requirements variability. Requirements variability is specified during the domain engineering process, in which variability points are defined so as to distinguish which requirements will be common, and which will be variable. These variability points are resolved during an application engineering activity called requirements derivation in order to obtain the requirements for a specific product.
Another paradigm that is widely applied in SPL Development is Model-Driven Software Development (MDSD). MDSD can reduce production costs by increasing software reuse. Despite this fact, the RE approaches for SPL found in literature have some weaknesses. Many of the current approaches represent the variability information in the requirements models, thus reducing the requirements' readability. Moreover, the RE approaches for SPL used during application engineering are normally limited to deriving the product requirements from the SPL requirements and do not indicate how to represent non-existent requirements in the SPL: the delta requirements. This has an undesirable effect on the flexibility of the approaches.
The aim of this thesis is to define and validate an RE approach in the context of SPL that will support the definition and specification of the requirements of an SPL, allowing them to be derived from the requirements of a product using the MDSD paradigm, and also supporting the definition and specification of delta requirements.
In this context, we have defined a process called FEDRE. During domain engineering, strategy definition and requirements specification obtained from model features are used. During application engineering, the derivation and validation of product requirements ensure that requirements meet customer needs. The necessary delta requirements could be specified, when they will be required, with the aim to prevent that product requirements are limited to a mere combination of LPS requirements.
Moreover, a technological approach based on a MDSD strategy was defined. During domain engineering, the variability of the SPL and the requirements variability are represented as multi-model views, and traceability relationships are established among them. During application engineering, the productconfiguration is defined and the requirements of the product to be built are derived using a strategy based on model transformations.
The process proposed in FEDRE has been validated using two quasi-experiments. In the first quasi-experiment, the SPL requirements were specified with the aim of validating the FEDRE domain engineering guidelines. According to the results, FeDRE was perceived as easy to use and useful as regards specifying the requirements for an SPL. In the second quasi-experiment, the requirements of a product were validated with the aim of verifying whether the customer needs where covered. In the case of their not being covered, the participants specified the delta requirements. Most of the subjects were able to correctly identify what needs were covered and which requirements had to be added as delta requirements.
This dissertation contributes to the field of development of SPL by providing a process and technology, along with an automated and generic approach with which to define and specify requirements in SPL environments. / [ES] La actividad de Ingeniería de Requisitos (IR) resulta crucial dentro de la ingeniería del software. Un fallo durante la definición de los requisitos de un sistema puede provocar sobrecostes durante todo el proceso de desarrollo. Este problema se acentúa aún más en el desarrollo de Líneas de Producto Software (LPS) debido a que la definición y especificación de los requisitos deben de tratar con una nueva dimensión: la variabilidad de los requisitos. Esta variabilidad de los requisitos de la LPS se específica durante el proceso de ingeniería del dominio, donde se definen los puntos de variabilidad que permiten diferenciar qué requisitos serán comunes y cuáles serán variables. Estos puntos de variabilidad se resuelven durante el proceso de ingeniería de la aplicación para obtener los requisitos de un producto específico, en la actividad llamada derivación de requisitos.
Otro paradigma ampliamente aplicado en las LPS es de Desarrollo de Software Dirigido por Modelos (DSDM). El DSDM puede reducir costes de producción, gracias al aumento de la reutilización de software. Sin embargo las aproximaciones actuales representan la información de la variabilidad de los requisitos exclusivamente en el mismo modelo de requisitos, perjudicando la legibilidad de los requisitos. Por otra parte durante la ingeniería de la aplicación, las aproximaciones de IR para LPS normalmente se limitan a derivar los requisitos del producto a partir de los requisitos de la LPS, pero no explicitaban cómo representar requisitos que no existían previamente en la LPS: los requisitos delta. Este hecho incide negativamente en la flexibilidad de las aproximaciones.
El objetivo de esta tesis doctoral es definir y validar una aproximación de IR en el contexto de LPS que soporte la definición y especificación de los requisitos de una LPS, permitiendo derivar a partir de ellos los requisitos de un producto haciendo uso del paradigma de DSDM, y soportando además la definición y especificación los requisitos delta.
En este contexto, se ha definido un proceso llamado FeDRE. Durante la ingeniería del dominio se utiliza una estrategia de definición y especificación de los requisitos a partir del modelo de características. Durante la ingeniería de la aplicación se cubre la derivación de los requisitos y la validación para comprobar que satisfacen las necesidades del cliente. En el caso de que fuera necesario se permiten modelar los requisitos delta, evitando que los requisitos del producto estén limitados a una mera combinación de requisitos de la LPS. Por otra parte se ha definido una aproximación tecnológica basada en una estrategia de DSDM. Durante la ingeniería del dominio se representan en un multimodelo las vistas de variabilidad de la LPS y la de requisitos, estableciendo relaciones de trazabilidad entre ellas. Durante la ingeniería de la aplicación se define una configuración del producto y se derivan, mediante una estrategia basada en transformaciones de modelos, los requisitos del producto a desarrollar.
El proceso propuesto en FeDRE se ha validado mediante dos cuasi-experimentos. El primer cuasi-experimento modelaba los requisitos de una LPS con el objetivo de validar las guías de la ingeniería del dominio de FeDRE. Los resultados mostraron que FeDRE fue percibido como fácil de usar y útil para especificar los requisitos de una LPS. En el segundo cuasi-experimento se validaron los requisitos de un producto con el objetivo de comprobar si cubrían las necesidades del cliente. En el caso de que no lo hicieran, los participantes especificaron los requisitos delta. La mayor parte de los sujetos fueron capaces de identificar correctamente qué necesidades estaba cubiertas y qué requisitos debían de añadirse como requisitos delta.
Esta tesis doctoral contribuye al campo de desarrollo de LPS proveyendo de un proceso y una aproximación tecnológica, automatizada y genérica para la definición y especificación de re / [CA] L'activitat d'Enginyeria de Requeriments (ER) és crucial dins de l'enginyeria del programari. Un error durant la definició dels requeriments d'un sistema pot provocar sobrecostos durant tot el procés de desenvolupament. Aquest problema s'accentua en el desenvolupament de Línies de Producte Software (LPS) a causa de que la definició i especificació dels requeriments han de treballar amb una nova dimensió: la variabilitat dels requeriments. Aquesta variabilitat dels requeriments de l'LPS s'especifica durant el procés d'enginyeria del domini, on es defineixen els punts de variabilitat que permeten diferenciar quins requeriments seran comuns i quins seran variables. Aquests punts de variabilitat es resolen durant el procés d'enginyeria de l'aplicació per obtenir els requeriments d'un producte específic, en l'activitat anomenada derivació de requeriments.
Un altre paradigma àmpliament aplicat a les LPS és el Desenvolupament de Programari Dirigit per Models (DSDM). El DSDM pot reduir costos de producció, gràcies a l'augment de la reutilització de programari. Malgrat això les aproximacions d'ER per a LPS presenten algunes debilitats. Moltes de les aproximacions actuals representen la informació de la variabilitat dels requeriments exclusivament en el mateix model de requeriments, perjudicant la llegibilitat dels requeriments. D'altra banda, durant l'enginyeria de l'aplicació, les aproximacions d'ER per a LPS normalment es limiten a derivar els requeriments del producte a partir dels de la LPS, però no expliciten com representar requeriments que no existien prèviament a l'LPS: els requeriments delta. Aquest fet incideix negativament en la flexibilitat de les aproximacions.
L'objectiu d'aquesta tesi doctoral és definir i validar una aproximació d'ER en el context de LPS que done suport a la definició i especificació dels requeriments d'una LPS, permetent derivar a partir d'ells els requeriments d'un producte fent ús del paradigma de DSDM i donant suport a més a la definició i especificació dels requeriments delta.
En aquest context, s'ha definit un procés anomenat FeDRE. Durant l'enginyeria del domini s'utilitza una estratègia de definició i especificació dels requeriments a partir del model de característiques. Durant l'enginyeria de l'aplicació es cobreix la derivació dels requeriments i la validació per comprovar que satisfan les necessitats del client. En el cas que fora necessari es permetrà modelar els requeriments delta, evitant que els requeriments del producte estiguen limitats a una mera combinació de requeriments de l'LPS. D'altra banda s'ha definit una aproximació tecnològica basada en una estratègia de DSDM. Durant l'enginyeria del domini es representen en un multimodel les vistes de variabilitat de l'LPS i la de requeriments, establint relacions de traçabilitat entre elles. Durant l'enginyeria de l'aplicació es defineix una configuració del producte i es deriven, mitjançant una estratègia basada en transformacions de models, els requeriments del producte a desenvolupar.
El procés proposat en FeDRE s'ha validat mitjançant dos quasi-experiments. El primer quasi-experiment modelava els requeriments d'una LPS amb l'objectiu de validar les guies de l'enginyeria del domini de FeDRE. Els resultats mostren que FeDRE va ser percebut com fàcil d'utilitzar i útil per especificar els requeriments d'una LPS. En el segon quasi-experiment es van validar els requeriments d'un producte amb l'objectiu de comprovar si cobrien les necessitats del client. En el cas que no ho feren, els participants especificaren els requeriments delta. La major part dels subjectes van ser capaços d'identificar correctament quines necessitats estaven cobertes i quins requeriments havien d'afegir com a requeriments delta.
Aquesta tesi doctoral contribueix al camp del desenvolupament de LPS proveint d'un procés i d'una aproximació tecnològica, automatitzada i genèrica per a la definició i especificació d / Blanes Domínguez, D. (2016). Una Aproximación de Ingeniería de Requisitos para Líneas de Productos Software Basada en una Estrategia de Desarrollo Dirigido por Modelos [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/63266
|
573 |
Improved Error Correction of NGS DataAlic, Andrei Stefan 15 July 2016 (has links)
Tesis por compendio / [EN] The work done for this doctorate thesis focuses on error correction of Next Generation Sequencing (NGS) data in the context of High Performance Computing (HPC).
Due to the reduction in sequencing cost, the increasing output of the sequencers and the advancements in the biological and medical sciences, the amount of NGS data has increased tremendously.
Humans alone are not able to keep pace with this explosion of information, therefore computers must assist them to ease the handle of the deluge of information generated by the sequencing machines.
Since NGS is no longer just a research topic (used in clinical routine to detect cancer mutations, for instance), requirements in performance and accuracy are more stringent.
For sequencing to be useful outside research, the analysis software must work accurately and fast.
This is where HPC comes into play.
NGS processing tools should leverage the full potential of multi-core and even distributed computing, as those platforms are extensively available.
Moreover, as the performance of the individual core has hit a barrier, current computing tendencies focus on adding more cores and explicitly split the computation to take advantage of them.
This thesis starts with a deep analysis of all these problems in a general and comprehensive way (to reach out to a very wide audience), in the form of an exhaustive and objective review of the NGS error correction field.
We dedicate a chapter to this topic to introduce the reader gradually and gently into the world of sequencing.
It presents real problems and applications of NGS that demonstrate the impact this technology has on science.
The review results in the following conclusions: the need of understanding of the specificities of NGS data samples (given the high variety of technologies and features) and the need of flexible, efficient and accurate tools for error correction as a preliminary step of any NGS postprocessing.
As a result of the explosion of NGS data, we introduce MuffinInfo.
It is a piece of software capable of extracting information from the raw data produced by the sequencer to help the user understand the data.
MuffinInfo uses HTML5, therefore it runs in almost any software and hardware environment.
It supports custom statistics to mould itself to specific requirements.
MuffinInfo can reload the results of a run which are stored in JSON format for easier integration with third party applications.
Finally, our application uses threads to perform the calculations, to load the data from the disk and to handle the UI.
In continuation to our research and as a result of the single core performance limitation, we leverage the power of multi-core computers to develop a new error correction tool.
The error correction of the NGS data is normally the first step of any analysis targeting NGS.
As we conclude from the review performed within the frame of this thesis, many projects in different real-life applications have opted for this step before further analysis.
In this sense, we propose MuffinEC, a multi-technology (Illumina, Roche 454, Ion Torrent and PacBio -experimental), any-type-of-error handling (mismatches, deletions insertions and unknown values) corrector.
It surpasses other similar software by providing higher accuracy (demonstrated by three type of tests) and using less computational resources.
It follows a multi-steps approach that starts by grouping all the reads using a k-mers based metric.
Next, it employs the powerful Smith-Waterman algorithm to refine the groups and generate Multiple Sequence Alignments (MSAs).
These MSAs are corrected by taking each column and looking for the correct base, determined by a user-adjustable percentage.
This manuscript is structured in chapters based on material that has been previously published in prestigious journals indexed by the Journal of Citation Reports (on outstanding positions) and relevant congresses. / [ES] El trabajo realizado en el marco de esta tesis doctoral se centra en la corrección de errores en datos provenientes de técnicas NGS utilizando técnicas de computación intensiva.
Debido a la reducción de costes y el incremento en las prestaciones de los secuenciadores, la cantidad de datos disponibles en NGS se ha incrementado notablemente. La utilización de computadores en el análisis de estas muestras se hace imprescindible para poder dar respuesta a la avalancha de información generada por estas técnicas. El uso de NGS transciende la investigación con numerosos ejemplos de uso clínico y agronómico, por lo que aparecen nuevas necesidades en cuanto al tiempo de proceso y la fiabilidad de los resultados. Para maximizar su aplicabilidad clínica, las técnicas de proceso de datos de NGS deben acelerarse y producir datos más precisos. En este contexto es en el que las técnicas de comptuación intensiva juegan un papel relevante. En la actualidad, es común disponer de computadores con varios núcleos de proceso e incluso utilizar múltiples computadores mediante técnicas de computación paralela distribuida. Las tendencias actuales hacia arquitecturas con un mayor número de núcleos ponen de manifiesto que es ésta una aproximación relevante.
Esta tesis comienza con un análisis de los problemas fundamentales del proceso de datos en NGS de forma general y adaptado para su comprensión por una amplia audiencia, a través de una exhaustiva revisión del estado del arte en la corrección de datos de NGS. Esta revisión introduce gradualmente al lector en las técnicas de secuenciación masiva, presentando problemas y aplicaciones reales de las técnicas de NGS, destacando el impacto de esta tecnología en ciencia. De este estudio se concluyen dos ideas principales: La necesidad de analizar de forma adecuada las características de los datos de NGS, atendiendo a la enorme variedad intrínseca que tienen las diferentes técnicas de NGS; y la necesidad de disponer de una herramienta versátil, eficiente y precisa para la corrección de errores.
En el contexto del análisis de datos, la tesis presenta MuffinInfo. La herramienta MuffinInfo es una aplicación software implementada mediante HTML5. MuffinInfo obtiene información relevante de datos crudos de NGS para favorecer el entendimiento de sus características y la aplicación de técnicas de corrección de errores, soportando además la extensión mediante funciones que implementen estadísticos definidos por el usuario. MuffinInfo almacena los resultados del proceso en ficheros JSON. Al usar HTML5, MuffinInfo puede funcionar en casi cualquier entorno hardware y software. La herramienta está implementada aprovechando múltiples hilos de ejecución por la gestión del interfaz.
La segunda conclusión del análisis del estado del arte nos lleva a la oportunidad de aplicar de forma extensiva técnicas de computación de altas prestaciones en la corrección de errores para desarrollar una herramienta que soporte múltiples tecnologías (Illumina, Roche 454, Ion Torrent y experimentalmente PacBio). La herramienta propuesta (MuffinEC), soporta diferentes tipos de errores (sustituciones, indels y valores desconocidos). MuffinEC supera los resultados obtenidos por las herramientas existentes en este ámbito. Ofrece una mejor tasa de corrección, en un tiempo muy inferior y utilizando menos recursos, lo que facilita además su aplicación en muestras de mayor tamaño en computadores convencionales. MuffinEC utiliza una aproximación basada en etapas multiples. Primero agrupa todas las secuencias utilizando la métrica de los k-mers. En segundo lugar realiza un refinamiento de los grupos mediante el alineamiento con Smith-Waterman, generando contigs. Estos contigs resultan de la corrección por columnas de atendiendo a la frecuencia individual de cada base.
La tesis se estructura por capítulos cuya base ha sido previamente publicada en revistas indexadas en posiciones dest / [CA] El treball realitzat en el marc d'aquesta tesi doctoral se centra en la correcció d'errors en dades provinents de tècniques de NGS utilitzant tècniques de computació intensiva.
A causa de la reducció de costos i l'increment en les prestacions dels seqüenciadors, la quantitat de dades disponibles a NGS s'ha incrementat notablement. La utilització de computadors en l'anàlisi d'aquestes mostres es fa imprescindible per poder donar resposta a l'allau d'informació generada per aquestes tècniques. L'ús de NGS transcendeix la investigació amb nombrosos exemples d'ús clínic i agronòmic, per la qual cosa apareixen noves necessitats quant al temps de procés i la fiabilitat dels resultats. Per a maximitzar la seua aplicabilitat clínica, les tècniques de procés de dades de NGS han d'accelerar-se i produir dades més precises. En este context és en el que les tècniques de comptuación intensiva juguen un paper rellevant. En l'actualitat, és comú disposar de computadors amb diversos nuclis de procés i inclús utilitzar múltiples computadors per mitjà de tècniques de computació paral·lela distribuïda. Les tendències actuals cap a arquitectures amb un nombre més gran de nuclis posen de manifest que és esta una aproximació rellevant.
Aquesta tesi comença amb una anàlisi dels problemes fonamentals del procés de dades en NGS de forma general i adaptat per a la seua comprensió per una àmplia audiència, a través d'una exhaustiva revisió de l'estat de l'art en la correcció de dades de NGS. Esta revisió introduïx gradualment al lector en les tècniques de seqüenciació massiva, presentant problemes i aplicacions reals de les tècniques de NGS, destacant l'impacte d'esta tecnologia en ciència. D'este estudi es conclouen dos idees principals: La necessitat d'analitzar de forma adequada les característiques de les dades de NGS, atenent a l'enorme varietat intrínseca que tenen les diferents tècniques de NGS; i la necessitat de disposar d'una ferramenta versàtil, eficient i precisa per a la correcció d'errors.
En el context de l'anàlisi de dades, la tesi presenta MuffinInfo. La ferramenta MuffinInfo és una aplicació programari implementada per mitjà de HTML5. MuffinInfo obté informació rellevant de dades crues de NGS per a afavorir l'enteniment de les seues característiques i l'aplicació de tècniques de correcció d'errors, suportant a més l'extensió per mitjà de funcions que implementen estadístics definits per l'usuari. MuffinInfo emmagatzema els resultats del procés en fitxers JSON. A l'usar HTML5, MuffinInfo pot funcionar en gairebé qualsevol entorn maquinari i programari. La ferramenta està implementada aprofitant múltiples fils d'execució per la gestió de l'interfície.
La segona conclusió de l'anàlisi de l'estat de l'art ens porta a l'oportunitat d'aplicar de forma extensiva tècniques de computació d'altes prestacions en la correcció d'errors per a desenrotllar una ferramenta que suport múltiples tecnologies (Illumina, Roche 454, Ió Torrent i experimentalment PacBio). La ferramenta proposada (MuffinEC), suporta diferents tipus d'errors (substitucions, indels i valors desconeguts). MuffinEC supera els resultats obtinguts per les ferramentes existents en este àmbit. Oferix una millor taxa de correcció, en un temps molt inferior i utilitzant menys recursos, la qual cosa facilita a més la seua aplicació en mostres més gran en computadors convencionals. MuffinEC utilitza una aproximació basada en etapes multiples. Primer agrupa totes les seqüències utilitzant la mètrica dels k-mers. En segon lloc realitza un refinament dels grups per mitjà de l'alineament amb Smith-Waterman, generant contigs. Estos contigs resulten de la correcció per columnes d'atenent a la freqüència individual de cada base.
La tesi s'estructura per capítols la base de la qual ha sigut prèviament publicada en revistes indexades en posicions destacades de l'índex del Journal of Citation Repor / Alic, AS. (2016). Improved Error Correction of NGS Data [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/67630 / Compendio
|
574 |
Management of generic and multi-platform workflows for exploiting heterogeneous environments on e-ScienceCarrión Collado, Abel Antonio 01 September 2017 (has links)
Scientific Workflows (SWFs) are widely used to model applications in e-Science. In this programming model, scientific applications are described as a set of tasks that have dependencies among them. During the last decades, the execution of scientific workflows has been successfully performed in the available computing infrastructures (supercomputers, clusters and grids) using software programs called Workflow Management Systems (WMSs), which orchestrate the workload on top of these computing infrastructures. However, because each computing infrastructure has its own architecture and each scientific applications exploits efficiently one of these infrastructures, it is necessary to organize the way in which they are executed.
WMSs need to get the most out of all the available computing and storage resources. Traditionally, scientific workflow applications have been extensively deployed in high-performance computing infrastructures (such as supercomputers and clusters) and grids. But, in the last years, the advent of cloud computing infrastructures has opened the door of using on-demand infrastructures to complement or even replace local infrastructures. However, new issues have arisen, such as the integration of hybrid resources or the compromise between infrastructure reutilization and elasticity, everything on the basis of cost-efficiency.
The main contribution of this thesis is an ad-hoc solution for managing workflows exploiting the capabilities of cloud computing orchestrators to deploy resources on demand according to the workload and to combine heterogeneous cloud providers (such as on-premise clouds and public clouds) and traditional infrastructures (supercomputers and clusters) to minimize costs and response time. The thesis does not propose yet another WMS, but demonstrates the benefits of the integration of cloud orchestration when running complex workflows. The thesis shows several configuration experiments and multiple heterogeneous backends from a realistic comparative genomics workflow called Orthosearch, to migrate memory-intensive workload to public infrastructures while keeping other blocks of the experiment running locally. The running time and cost of the experiments is computed and best practices are suggested. / Los flujos de trabajo científicos son comúnmente usados para modelar aplicaciones en e-Ciencia. En este modelo de programación, las aplicaciones científicas se describen como un conjunto de tareas que tienen dependencias entre ellas. Durante las últimas décadas, la ejecución de flujos de trabajo científicos se ha llevado a cabo con éxito en las infraestructuras de computación disponibles (supercomputadores, clústers y grids) haciendo uso de programas software llamados Gestores de Flujos de Trabajos, los cuales distribuyen la carga de trabajo en estas infraestructuras de computación. Sin embargo, debido a que cada infraestructura de computación posee su propia arquitectura y cada aplicación científica explota eficientemente una de estas infraestructuras, es necesario organizar la manera en que se ejecutan.
Los Gestores de Flujos de Trabajo necesitan aprovechar el máximo todos los recursos de computación y almacenamiento disponibles. Habitualmente, las aplicaciones científicas de flujos de trabajos han sido ejecutadas en recursos de computación de altas prestaciones (tales como supercomputadores y clústers) y grids. Sin embargo, en los últimos años, la aparición de las infraestructuras de computación en la nube ha posibilitado el uso de infraestructuras bajo demanda para complementar o incluso reemplazar infraestructuras locales. No obstante, este hecho plantea nuevas cuestiones, tales como la integración de recursos híbridos o el compromiso entre la reutilización de la infraestructura y la elasticidad, todo ello teniendo en cuenta que sea eficiente en el coste.
La principal contribución de esta tesis es una solución ad-hoc para gestionar flujos de trabajos explotando las capacidades de los orquestadores de recursos de computación en la nube para desplegar recursos bajo demando según la carga de trabajo y combinar proveedores de computación en la nube heterogéneos (privados y públicos) e infraestructuras tradicionales (supercomputadores y clústers) para minimizar el coste y el tiempo de respuesta. La tesis no propone otro gestor de flujos de trabajo más, sino que demuestra los beneficios de la integración de la orquestación de la computación en la nube cuando se ejecutan flujos de trabajo complejos. La tesis muestra experimentos con diferentes configuraciones y múltiples plataformas heterogéneas, haciendo uso de un flujo de trabajo real de genómica comparativa llamado Orthosearch, para traspasar cargas de trabajo intensivas de memoria a infraestructuras públicas mientras se mantienen otros bloques del experimento ejecutándose localmente. El tiempo de respuesta y el coste de los experimentos son calculados, además de sugerir buenas prácticas. / Els fluxos de treball científics són comunament usats per a modelar aplicacions en e-Ciència. En aquest model de programació, les aplicacions científiques es descriuen com un conjunt de tasques que tenen dependències entre elles. Durant les últimes dècades, l'execució de fluxos de treball científics s'ha dut a terme amb èxit en les infraestructures de computació disponibles (supercomputadors, clústers i grids) fent ús de programari anomenat Gestors de Fluxos de Treballs, els quals distribueixen la càrrega de treball en aquestes infraestructures de computació. No obstant açò, a causa que cada infraestructura de computació posseeix la seua pròpia arquitectura i cada aplicació científica explota eficientment una d'aquestes infraestructures, és necessari organitzar la manera en què s'executen.
Els Gestors de Fluxos de Treball necessiten aprofitar el màxim tots els recursos de computació i emmagatzematge disponibles. Habitualment, les aplicacions científiques de fluxos de treballs han sigut executades en recursos de computació d'altes prestacions (tals com supercomputadors i clústers) i grids. No obstant açò, en els últims anys, l'aparició de les infraestructures de computació en el núvol ha possibilitat l'ús d'infraestructures sota demanda per a complementar o fins i tot reemplaçar infraestructures locals. No obstant açò, aquest fet planteja noves qüestions, tals com la integració de recursos híbrids o el compromís entre la reutilització de la infraestructura i l'elasticitat, tot açò tenint en compte que siga eficient en el cost. La principal contribució d'aquesta tesi és una solució ad-hoc per a gestionar fluxos de treballs explotant les capacitats dels orquestadors de recursos de computació en el núvol per a desplegar recursos baix demande segons la càrrega de treball i combinar proveïdors de computació en el núvol heterogenis (privats i públics) i infraestructures tradicionals (supercomputadors i clústers) per a minimitzar el cost i el temps de resposta. La tesi no proposa un gestor de fluxos de treball més, sinó que demostra els beneficis de la integració de l'orquestració de la computació en el núvol quan s'executen fluxos de treball complexos. La tesi mostra experiments amb diferents configuracions i múltiples plataformes heterogènies, fent ús d'un flux de treball real de genòmica comparativa anomenat Orthosearch, per a traspassar càrregues de treball intensives de memòria a infraestructures públiques mentre es mantenen altres blocs de l'experiment executant-se localment. El temps de resposta i el cost
dels experiments són calculats, a més de suggerir bones pràctiques. / Carrión Collado, AA. (2017). Management of generic and multi-platform workflows for exploiting heterogeneous environments on e-Science [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/86179
|
575 |
Imaginarios Artificiales: IA Generativa, Exploración Creativa y la Reconfiguración de ParadigmasBresolin, Elettra 28 August 2024 (has links)
Esta investigación explora las relaciones entre la inteligencia artificial (IA), el arte y los
imaginarios sobre la crisis ambiental en el Perú, cuestionando las posibilidades brindadas por
las IA generativas para imaginar alternativas al sistema capitalista, colonialista y extractivista
que sostiene su funcionamiento. Desde una postura posthumanista y colaborativa, la
metodología se centró en un taller de creación experimental con dos artistas contemporáneas.
Concebido como dispositivo de campo, este taller y las imágenes generadas constituyeron el
núcleo metodológico y el producto visual de la investigación, complementados con
experiencias formativas, conversaciones informales y entrevistas. La investigación
problematiza la IA generativa como parte de la destrucción ambiental y las amenazas a la
justicia social, los derechos creativos y laborales, y el mundo del arte, a la vez que muestra las
condiciones para un optimismo cauteloso respecto a su potencial creativo positivo. Aboga por
un cambio de paradigma, superando la perspectiva antropocéntrica que sustenta nuestro temor
a las IA y nuestra destructiva separación del mundo no-humano. Sin embargo, insiste en no
perder de vista las verdaderas causas de los efectos perjudiciales de las IA y los centros de
poder que se benefician de ellas. Promoviendo la información y la visibilización de voces
diversas y de resistencia, argumenta que la responsabilidad última reside en los seres humanos.
Debemos reconocer nuestra responsabilidad para cambiar las IA y sus potenciales
imaginativos, integrándolas en un movimiento de contrapoder y contrahegemonía a partir de
una transformación estructural radical. / This research explores the relationships between artificial intelligence (AI), art, and
imaginaries about the environmental crisis in Peru, questioning the possibilities offered by
generative AIs to imagine alternatives to the capitalist, colonialist, and extractivist system that
sustains their operation. From a posthumanist and collaborative standpoint, the methodology
focused on an experimental creation workshop with two contemporary artists. Conceived as a
field device, this workshop and the generated images constituted the methodological core and
visual product of the research, complemented by formative experiences, informal
conversations, and interviews. The research problematizes generative AI as part of
environmental destruction and the threats to social justice, creative and labor rights, and the art
world, while also highlighting the conditions for cautious optimism regarding its positive
creative potential. It advocates for a paradigm shift, overcoming the anthropocentric
perspective that underpins our fear of AIs and our destructive separation from the non-human
world. However, it emphasizes not losing sight of the true causes of the harmful effects of AIs
and the power centers that benefit from them. Promoting information and the visibilization of
diverse and resistant voices, it argues that the ultimate responsibility lies with humans. We
must acknowledge our responsibility to change AIs and their imaginative potentials, integrating
them into a counterpower and counter-hegemonic movement through radical structural
transformation.
|
576 |
Modelo ProLab: aplicación de tecnología educativa de enseñanza basada en inteligencia artificial: “Aprendo en un Click”Alva Ramírez, Mayra Sadith, Pinedo Abanto, Luis Ever, Saavedra Lau, Fabio Alexis, Vera Ordinola, Jorge Luis 09 July 2024 (has links)
La presente investigación se enmarca en el contexto del programa de Maestría en
Administración Estratégica de Empresas de la Pontificia Universidad Católica del Perú, donde
se ha desarrollado un enfoque centrado en la creación de un modelo innovador de aplicación de
tecnología educativa respaldado por inteligencia artificial, denominado "Aprendo en un Click".
La motivación detrás de este proyecto surge como respuesta a la preocupante
disminución de los niveles educativos en estudiantes mayores de 15 años, una problemática que
se ha acentuado a raíz de la pandemia y que ha quedado patente en los resultados de la prueba
PISA 2022. Para abordar este desafío, se exploraron también las disparidades educativas entre
zonas urbanas y rurales en Perú, así como el impacto transformador de la pandemia en la
educación convencional, subrayando el crecimiento significativo de la modalidad virtual.
En el análisis detallado de la situación, se identificó una oportunidad estratégica en la
industria educativa para proporcionar un sistema de aprendizaje personalizado a estudiantes de
secundaria y preuniversitarios, con un enfoque específico en la preparación para exámenes de
admisión universitaria. Este proyecto se erige como una respuesta innovadora y adaptable a las
necesidades cambiantes del entorno educativo.
Para respaldar la viabilidad y la efectividad del modelo propuesto, se llevó a cabo un
exhaustivo análisis de mercado, que incluyó la identificación de competidores y la investigación
del perfil de los usuarios potenciales. La metodología empleada incluyó un proceso de
prototipado ágil, que facilitó el desarrollo iterativo del producto, así como la participación de
padres de familia.
Además, se llevó a cabo un análisis minucioso del modelo de negocio, evaluando su
sostenibilidad y viabilidad a largo plazo. Ensayos específicos se llevaron a cabo para poner a prueba las hipótesis planteadas en el diseño del modelo, obteniendo los siguientes resultados. En
la primera hipótesis se muestra que el 90% de los padres que utilizan la plataforma Aprendo en
un click, pueden ayudar a sus hijos a mejorar su aprendizaje y sus habilidades blandas. En la
segunda hipótesis el 100% de los jóvenes alumnos se adaptan de manera rápida al uso de las
plataformas educativas virtuales. Finalmente, en la tercera hipótesis se evidenció que más del 85%
de padres están dispuestos a pagar una suscripción en una plataforma educativa.
En conclusión, esta investigación no solo se enfoca en la creación de un modelo
educativo con inteligencia artificial, sino que abarca un análisis integral de la situación
educativa actual en Perú, proponiendo una solución innovadora y prometedora para elevar los
niveles educativos en un contexto post-pandémico, teniendo en consideración que los índices
de relevancia social tanto para el ODS N°4 es de 40% y para el ODS N°8 es de33.3%, además,
se está proyectando tener costos sociales de entre $2.1 a $4.5 millones de dólares y un beneficio social entre $2.6 a $5.3 millones de dólares, y un VAN social de $2.5 millones de dólares en los primeros 5 años del proyecto. En conclusión, el proyecto proyecta un VANF de
$204,415.36 y un TIR de 20.59% / The present research is framed within the context of the master’s program in strategic
business administration at the Pontifical Catholic University of Peru. The focus of this work is
on the development of an innovative model for the application of educational technology
supported by artificial intelligence, known as "Aprendo en un Click."
The motivation behind this project arises in response to the concerning decline in
educational levels among students over the age of 15, a challenge that has been exacerbated by
the pandemic and is evident in the results of the 2022 PISA test. To address this issue, the study
also explores educational disparities between urban and rural areas in Peru, as well as the
transformative impact of the pandemic on conventional education, emphasizing the significant
growth of virtual modalities.
Through a detailed analysis of the situation, an strategic opportunity was identified in the
educational industry to provide a personalized learning system for high school and pre-
university students, with a specific focus on university admission exam preparation. This project
stands as an innovative and adaptable response to the changing needs of the educational
environment.
To support the viability and effectiveness of the proposed model, a thorough market
analysis was conducted, including the identification of competitors and research on the profiles
of potential users. The methodology employed included an agile prototyping process, facilitating
iterative product development, and active participation of parents in forums designed to validate
the proposal and gather valuable feedback.
Furthermore, a detailed analysis of the business model was carried out, evaluating its
sustainability and long-term viability. Specific experiments were conducted to test the hypotheses outlined in the model's design, obtaining the following results. The first hypothesis shows that
90% of parents who use the “Aprendo en un click” platform can help their children improve their
learning and soft skills. In the second scenario, 100% of young students adapt quickly to the use
of virtual educational platforms. Finally, in the third hypothesis it was evidenced that more than
85% of parents are willing to pay for a subscription on an educational platform.
and the results reflected a positive disposition from users towards the platform, as well as
clear investment potential.
In conclusion, this research not only focuses on the creation of an AI-driven educational
model but also encompasses a comprehensive analysis of the current educational situation in
Peru, proposing an innovative and promising solution to elevate educational levels in a post-
pandemic context, taking into consideration that the social relevance indices for both SDG No.
4 is 40% and SDG No. 8 is 33.3%, in addition, it is projected to have social costs of between
$2.1 to $4.5 million dollars and a social benefit between $2.6 to $5.3 million dollars, and a
social NPV of $2.5 million dollars in the first 5 years of the project. In conclusion, the project
projects an NPV of $204,415.36 and an IRR of 20.59%.
|
577 |
Diseño de una arquitectura de aprendizaje automático que brinde soporte para la detección de mentiras mediante el análisis de videoSalas Guillén, Diego Andrés 30 July 2019 (has links)
La justicia y la búsqueda de la verdad en la investigación criminal requiere del uso de una
herramienta fundamental para su éxito, el interrogatorio. En un interrogatorio, un experto
hace uso de su experiencia y su juicio para, mediante el cuestionamiento del acusado,
obtener una verdad explícita o implícita de parte de este sobre el hecho a investigar.
El presente proyecto de investigación apunta a diseñar un modelo de aprendizaje automático que brinde soporte para la detección de mentiras en interrogatorios mediante
el análisis de video. Es una contribución a los trabajos de investigación realizados por
el grupo IA-PUCP (Grupo de Investigación en Inteligencia Artificial) de la Pontificia Universidad
Católica del Perú. Se utilizó un conjunto de datos puesto a disponibilidad por
Rada Mihalcea del grupo “Language and Information Technologies” de la Universidad de
Michigan.
La propuesta de arquitectura para el modelo consiste en una capa de preprocesamiento
de datos que utiliza un algoritmo de reconocimiento facial para extraer los rostros del
video, limitando el espacio de características. Luego, se utiliza una red convolucional preentrenada
para realizar la extracción de características. Finalmente, se utiliza una red
recurrente LSTM para procesar las características y luego una red neuronal para clasificar
los videos.
Se experimentó con cinco redes convolucionales (Resnet, InceptionV3, Xception, VGG16
y VGG19), el mejor fue InceptionV3. Este obtuvo una exactitud de 78.6 %, valor que supera
varios de los resultados obtenidos por los modelos, presentados en la publicación
“A Multi-View Learning Approach to Deception Detection” de N. Carissimi, que no aplicaron entrenamiento en la extracción convolucional. Esto, utilizando menos información y
automatizando la extracción de la misma. / Tesis
|
578 |
Detección de ciberbullying en español para el dominio de corpus de texto teatrales aplicado a redes sociales usando transferencia de aprendizaje y validación adversarialMarquez Zavaleta, Esli Samuel 20 November 2024 (has links)
El aprendizaje de los modelos de detección de ciberbullying en redes sociales
depende significativamente del conjunto de datos en cual fue entrenado lo que puede
limitar su capacidad de generalización a otros conjuntos de datos. Este estudio propone
un enfoque innovador utilizando transferencia de aprendizaje. Se desarrolló un modelo
robusto de detección de ciberbullying basado en guiones teatrales, que ofrecen contextos
ricos y variados. Para ello, se creó un corpus en español a partir de estos guiones, el cual
fue meticulosamente etiquetado por expertos. Posteriormente, el modelo fue entrenado
con este corpus para establecer una base de conocimiento que se aplicó luego a otros
corpus de redes sociales. Los resultados mostraron una exactitud del 83% en las pruebas
realizadas. Complementamos dicho modelo con una validación utilizando ejemplos
adversarios, a partir de técnicas de data aumentada generamos más oraciones para
fortalecer su capacidad de generalización, mejorando su desempeño tanto en su corpus
como en distintos dominios de ciberbullying. / The learning of cyberbullying detection models in social networks depends
significantly on the data set on which it was trained, which can limit its generalization
capacity to other data sets. This study proposes an innovative approach using transfer
learning. A robust cyberbullying detection model was developed based on theatrical
scripts, which offer rich and varied contexts. To do this, a Spanish corpus was created
from these scripts, which experts meticulously labeled. The model was then trained with
this corpus to establish a knowledge base that was then applied to other social media
corpora. The results showed an accuracy of 83% in the tests carried out. We complement
this model with a validation using adversarial examples, using augmented data techniques
we generate more sentences to strengthen its generalization capacity, improving its
performance both in its corpus and in different cyberbullying domains.
|
579 |
Towards automatic detection of lexical borrowings in wordlists - with application to Latin American languagesMiller, John Edward 18 November 2024 (has links)
Knowing what words of a language are inherited from the ancestor language,
which are borrowed from contact languages, which are recently created, and
the timing of critical events in the culture, enables modeling of language history
including language phylogeny, language contact, and other novel influences on
the culture. However, determining which words or forms are borrowed and
from whom is a difficult, time consuming, and often fascinating task, usually
performed by historical linguists, which is limited by the time and expertise
available. While there are semi-automated methods available to identify borrowed words and their word donors, there is still substantial opportunity for
improvement.
We construct a new language model based monolingual method, competing
cross-entropies, based on word source groupings within monolingual wordlists;
improve existing multilingual sequence comparison methods, closest match on
language pairs and cognate-based on multiple languages; and construct a classifier based meta-method, combining closest match and cross-entropy functions.
We also define an alternative goal of borrowing detection for dominant donor
languages, which allows determination of both borrowing and source. We apply
monolingual methods to a global dataset of 41 languages, and multilingual and
meta methods to a newly constituted dataset of seven Latin American languages.
We also initiate work on a dataset of 21 Pano-Tacanan and regional languages
with added Spanish, Portuguese, and Quechua donor languages for subsequent
application of borrowing detection methods.
The competing cross-entropies method establishes a benchmark for automatic
borrowing detection for the world online loan database, the dominant donor
multiple sequence comparison method improves over the competing cross-entropies
method, and the classifier meta-method with sequence comparison and crossentropy functions performs substantially better overall. / Conocer qué palabras de una lengua son heredadas, cuáles son prestadas, cuáles
son de reciente creación y el momento de los eventos culturales críticos permite modelar la historia de la lengua, incluyendo su filogenia, el contacto entre
lenguas y otras influencias culturales novedosas. Sin embargo, determinar qué
palabras o formas son prestadas y de qué lengua provienen es una tarea compleja y laboriosa, realizada generalmente por lingüistas históricos, que se ven
limitados por el tiempo y la experiencia disponibles. Aunque existen métodos
semiautomáticos para identificar préstamos y sus lenguas de origen, aún hay
margen de mejora.
Construimos un nuevo modelo de lenguaje basado en un método monolingüe,
entropías cruzadas competitivas, basado en agrupaciones de fuentes de palabras dentro de listas de palabras monolingües; mejoramos los métodos existentes de comparación de secuencias multilingües, la coincidencia más cercana
en pares de idiomas y afines basados en múltiples idiomas; y construimos un
meta-método basado en clasificadores, combinando funciones de coincidencia
más cercana y de entropía cruzada. También definimos un objetivo alternativo
de detección de préstamos para idiomas donantes dominantes, que permite determinar tanto el préstamo como la fuente. Aplicamos métodos monolingües a
un conjunto de datos global de 41 idiomas (WOLD), y métodos multilingües y
meta-métodos a un conjunto de datos recién constituido de siete idiomas latinoamericanos. También iniciamos el trabajo en un conjunto de datos de 21 idiomas pano-tacana y regionales con idiomas donantes agregados de español,
portugués y quechua para la posterior aplicación de métodos de detección de
préstamos.
El método de entropías cruzadas competitivas establece un punto de referencia para la detección automática de préstamos en la base de datos mundial de
préstamos en línea (WOLD). El método de comparación de secuencias múltiples
del donante dominante mejora los resultados del método de entropías cruzadas
competitivas. Finalmente, el meta-método clasificador, que combina la comparación de secuencias y las funciones de entropía cruzada, ofrece el mejor
rendimiento general.
|
580 |
Análisis y diagnóstico del estado de paneles fotovoltaicos por el método de electroluminiscenciaPrado López, Joseph Aldair 03 December 2024 (has links)
El uso de paneles fotovoltaico ha permitido obtener energía renovable y amigable con el medio
ambiente, pues tiene un impacto positivo en la reducción de gases de efecto invernadero. Su
rápida popularidad y su acelerado desarrollo tecnológico ha permitido la comercialización de
paneles en distintos ámbitos. Sin embargo, estos paneles pueden presentar defectos en sus
celdas que en algunos casos no pueden visualizarse e influyen en su performance y como
consecuencia en su tiempo de vida; por eso, existen las técnicas de trazador de curvas I-V, la
termografía y la electroluminiscencia que permiten obtener la información del estado del panel
fotovoltaico. En este trabajo de investigación, se ahonda en la técnica de electroluminiscencia
que permite obtener imágenes de alta resolución para analizar los defectos presentes en un
panel. Utilizando el sistema de electroluminiscencia “LumiSolarOutDoor”, esta técnica se
aplicó a los paneles fotovoltaicos de sistemas conectados a la red en la facultad de Física de la
Pontificia Universidad Católica del Perú con el objetivo de constituir una base de datos que
servirá para el entrenamiento de la red neuronal pre entrenada “ResNet-50” que realizará la
clasificación de su tecnología y del estado de degradación de cada celda que constituye el panel.
El algoritmo planteado realiza un preprocesamiento, filtrado, segmentación, extracción de
características y clasificación a las nuevas imágenes que se les desea analizar. Además, permite
la relación de un modelo eléctrico que traza la curva I-V en base los datos de la placa del panel
y los resultados de la clasificación por celda.
|
Page generated in 0.1229 seconds