131 |
Evaluación Parcial Offline Dirigida por Narrowing: Técnicas de Optimización y AplicacionesArroyo Delgado, Gustavo 30 October 2012 (has links)
La evaluación parcial (EP) de programas es una técnica formal para
la especialización y optimización de programas. Un evaluador parcial
toma un programa y sólo una parte de sus datos de entrada (los llamados
datos estáticos) e intenta llevar a cabo todas las computaciones
que sean posibles a partir de tales datos. El evaluador parcial devuelve
un programa nuevo, denominado programa residual el cual se ejecuta
generalmente de manera más e ciente que el programa original, ya que
las computaciones que dependen de los datos estáticos se han realizado
en la fase de evaluación parcial de una vez y para siempre [JGS93]. La
evaluación parcial es una técnica de optimización de programas basada
en semántica la cual ha sido investigada dentro de diferentes paradigmas
de programación y aplicada a una amplia variedad de lenguajes. También es conocida como una técnica de transformación de programas
fuente-a-fuente para especializar programas con respecto a una parte de
sus datos de entrada (por ello también es conocida como especialización
de programas). La evaluación parcial ha sido intensamente aplicada en
el área de la programación funcional [CD93, JGS93, Tur86] y en programaci
ón lógica [Gal93, Kom82b, LS91, PP94], donde ésta es normalmente
conocida como deducción parcial. También en lenguajes imperativos
como C en [TBC+98], o aplicada a un subconjunto importante de C
en [And92] donde reportan la primera implementación autoaplicable de
evaluación parcial para un lenguaje imperativo. Y en lenguajes formales
como Scheme en [Jør92a, Jør92b] donde generan compiladores a partir
de intérpretes.
Cuando tenemos un programa sólo con algunos de sus datos de entrada
conocidos no podemos ejecutar el programa, sin embargo podemos
optimizar el programa computando respuestas tanto como sea posible.
La evaluación parcial es una técnica que permite la ejecución parcial de
un programa [MS97]. / Arroyo Delgado, G. (2012). Evaluación Parcial Offline Dirigida por Narrowing: Técnicas de Optimización y Aplicaciones [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/17655
|
132 |
Aportaciones al modelado conexionista de lenguaje y su aplicación al reconocimiento de secuencias y traducción automáticaZamora Martínez, Francisco Julián 07 December 2012 (has links)
El procesamiento del lenguaje natural es un área de aplicación de la inteligencia artificial, en
particular, del reconocimiento de formas que estudia, entre otras cosas, incorporar información
sintáctica (modelo de lenguaje) sobre cómo deben juntarse las palabras de una determinada lengua,
para así permitir a los sistemas de reconocimiento/traducción decidir cual es la mejor hipótesis �con
sentido común�. Es un área muy amplia, y este trabajo se centra únicamente en la parte relacionada
con el modelado de lenguaje y su aplicación a diversas tareas: reconocimiento de secuencias
mediante modelos ocultos de Markov y traducción automática estadística.
Concretamente, esta tesis tiene su foco central en los denominados modelos conexionistas de
lenguaje, esto es, modelos de lenguaje basados en redes neuronales. Los buenos resultados de estos
modelos en diversas áreas del procesamiento del lenguaje natural han motivado el desarrollo de este
estudio.
Debido a determinados problemas computacionales que adolecen los modelos conexionistas de
lenguaje, los sistemas que aparecen en la literatura se construyen en dos etapas totalmente
desacopladas. En la primera fase se encuentra, a través de un modelo de lenguaje estándar, un
conjunto de hipótesis factibles, asumiendo que dicho conjunto es representativo del espacio de
búsqueda en el cual se encuentra la mejor hipótesis. En segundo lugar, sobre dicho conjunto, se
aplica el modelo conexionista de lenguaje y se extrae la hipótesis con mejor puntuación. A este
procedimiento se le denomina �rescoring�.
Este escenario motiva los objetivos principales de esta tesis:
� Proponer alguna técnica que pueda reducir drásticamente dicho coste computacional
degradando lo mínimo posible la calidad de la solución encontrada.
� Estudiar el efecto que tiene la integración de los modelos conexionistas de lenguaje en el
proceso de búsqueda de las tareas propuestas.
� Proponer algunas modificaciones del modelo original que permitan mejorar su calidad / Zamora Martínez, FJ. (2012). Aportaciones al modelado conexionista de lenguaje y su aplicación al reconocimiento de secuencias y traducción automática [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/18066
|
133 |
Complex negotiations in multi-agent systemsSánchez Anguix, Víctor 15 February 2013 (has links)
Los sistemas multi-agente (SMA) son sistemas distribuidos donde entidades autónomas llamadas
agentes, ya sean humanos o software, persiguen sus propios objetivos. El paradigma de SMA ha
sido propuesto como la aproximación de modelo apropiada para aplicaciones como el comercio
electrónico, los sistemas multi-robot, aplicaciones de seguridad, etc. En la comunidad de SMA, la
visión de sistemas multi-agente abiertos, donde agentes heterogéneos pueden entrar y salir del
sistema dinámicamente, ha cobrado fuerza como paradigma de modelado debido a su relación
conceptual con tecnologías como la Web, la computación grid, y las organizaciones virtuales.
Debido a la heterogeneidad de los agentes, y al hecho de dirigirse por sus propios objetivos, el
conflicto es un fenómeno candidato a aparecer en los sistemas multi-agente.
En los últimos años, el término tecnologías del acuerdo ha sido usado para referirse a todos aquellos
mecanismos que, directa o indirectamente, promueven la resolución de conflictos en sistemas
computacionales como los sistemas multi-agente. Entre las tecnologías del acuerdo, la negociación
automática ha sido propuesta como uno de los mecanismos clave en la resolución de conflictos
debido a su uso análogo en la resolución de conflictos entre humanos. La negociación automática
consiste en el intercambio automático de propuestas llevado a cabo por agentes software en nombre
de sus usuarios. El objetivo final es conseguir un acuerdo con todas las partes involucradas.
Pese a haber sido estudiada por la Inteligencia Artificial durante años, distintos problemas todavía
no han sido resueltos por la comunidad científica todavía. El principal objetivo de esta tesis es
proponer modelos de negociación para escenarios complejos donde la complejidad deriva de (1) las
limitaciones computacionales o (ii) la necesidad de representar las preferencias de múltiples
individuos. En la primera parte de esta tesis proponemos un modelo de negociación bilateral para el
problema de / Sánchez Anguix, V. (2013). Complex negotiations in multi-agent systems [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/21570
|
134 |
Adapting Interaction Obtrusiveness: Making Ubiquitous Interactions Less Obnoxious. A Model Driven Engineering approachGil Pascual, Miriam 02 September 2013 (has links)
La Computaci'on Ubicua plantea proveer de inteligencia a nuestros entornos ofreciendo servicios a los usuarios que permitan ayudarlos en su
vida cotidiana. Con la inclusi'on de dispositivos ubicuos en nuestra vida
(por ejemplo los dispositivos m'oviles), los usuarios hemos pasado a estar siempre conectados al entorno, pudiendo interactuar con el. Sin embargo, a diferencia de las interacciones de escritorio tradicionales donde
los usuarios eran quienes ped'¿an informaci'on o introduc'¿an datos, las
interacciones ubicuas tienen que lidiar con un entorno de los usuarios
variable, demandando uno de los recursos mas valiosos para los usuarios: la atenci'on humana. De esta forma, un reto en el paradigma de
computaci'on ubicua es regular las peticiones de atenci'on del usuario.
Esto implica que las interacciones de los servicios deber'¿an comportarse
de una manera ¿considerada¿ teniendo en cuenta el grado en que cada
servicio se inmiscuye en la mente del usuario (el nivel de molestia).
Partiendo de las bases de la Ingenier'¿a Dirigida por Modelos (MDE)
y de los principios de la Computaci'on Considerada, esta tesis se orienta a dise¿nar y desarrollar servicios que sean capaces de adaptar sus
interacciones de acuerdo a la atenci'on del usuario en cada momento. El
principal objetivo de esta tesis es introducir capacidades de adaptaci'on
considerada en los servicios ubicuos para proporcionar interacciones que
no perturben al usuario. Esto lo conseguimos mediante un proceso de desarrollo que cubre desde el dise¿no de los servicios hasta su implementaci'on, centr'andose en los requisitos de adaptaci'on de la interacci'on
particulares para cada usuario.
Para el dise¿no del comportamiento de la interacci'on en base al nivel
de molestia se han de¿nido unos modelos de intromisi'on e interacci'on
independientes de la tecnolog'¿a. Estos modelos son los que posteriormente conducen la adaptaci'on de la interacci'on din'amicamente, por
medio de una infraestructura aut'onoma que los usa en tiempo de ejecuci'on. Esta infraestructura es capaz de detectar cambios en la situaci'on
del usuario (por ejemplo cambios en su localizaci'on, su actividad, etc.)
y planear y ejecutar modi¿caciones en la interacci'on de los servicios.
Cuando se detecta un cambio del contexto del usuario, los servicios se
auto-adaptan para usar los componentes de interacci'on m'as apropiados
de acuerdo a la nueva situaci'on y no molestar al usuario.
Adem'as, como las necesidades y preferencias de los usuarios pueden
cambiar con el tiempo, nuestra aproximaci'on utiliza la estrategia del
aprendizaje por refuerzo para ajustar los modelos de dise¿no iniciales de
forma que maximicemos la experiencia del usuario. El dise¿no inicial
de la interacci'on basado en el nivel de molestia nos asegura un comportamiento inicial consistente con las necesidades de los usuarios en
ese momento. Luego, este dise¿no se va re¿nando de acuerdo al comportamiento y preferencias de cada usuario por medio de su retroalimentaci'on a trav'es de la experiencia de uso. Adem'as, tambi'en proporcionamos una interfaz m'ovil que permite a los usuarios ¿nales personalizarse de forma manual los modelos en base a sus propias preferencias.
El trabajo presentado en esta tesis se ha llevado a la pr'actica para su
evaluaci'on desde el punto de vista de los dise¿nadores y de los usuarios
¿nales. Por una parte, el m'etodo de dise¿no se ha validado para comprobar que ayuda a los dise¿nadores a especi¿car este tipo de servicios. Pese
a que el proceso de desarrollo no ofrece una automatizaci'on completa,
las gu'¿as ofrecidas y la formalizaci'on de los conceptos implicados ha demostrado ser 'util a la hora de desarrollar servicios cuya interacci'on es
no molesta. Por otra parte, la adaptaci'on de la interacci'on en base al
nivel de molestia se ha puesto en pr'actica con usuarios para evaluar su
satisfacci'on con el sistema y su experiencia de usuario. Esta validaci'on ha desvelado la importancia de considerar los aspectos de molestia en
el proceso de adaptaci'on de la interacci'on para ayudar a mejorar la
experiencia de usuario. / In Ubiquitous Computing environments, people are surrounded by a lot
of embedded services. Since ubiquitous devices, such as mobile phones,
have become a key part of our everyday life, they enable users to be
always connected to the environment and interact with it. However,
unlike traditional desktop interactions where users are used to request
for information or input data, ubiquitous interactions have to face with
variable user¿s environment, making demands on one of the most valuable
resources of users: human attention. A challenge in the Ubiquitous
Computing paradigm is regulating the request for user¿s attention. That
is, service interactions should behave in a considerate manner by taking
into account the degree in which each service intrudes the user¿s mind
(i.e., the obtrusiveness degree).
In order to prevent service behavior from becoming overwhelming,
this work, based on Model Driven Engineering foundations and the Considerate
Computing principles, is devoted to design and develop services
that adapt their interactions according to user¿s attention. The main
goal of the present thesis is to introduce considerate adaptation capabilities
in ubiquitous services to provide non-disturbing interactions. We
achieve this by means of a systematic method that covers from the services¿
design to their implementation and later adaptation of interaction
at runtime / Gil Pascual, M. (2013). Adapting Interaction Obtrusiveness: Making Ubiquitous Interactions Less Obnoxious.
A Model Driven Engineering approach [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/31660
|
135 |
Logic-based techniques for program analysis and specification synthesisFeliú Gabaldón, Marco Antonio 19 November 2013 (has links)
La Tesis investiga técnicas ágiles dentro del paradigma declarativo para dar solución a dos problemas: el análisis de programas y la inferencia de especificaciones a partir de programas escritos en lenguajes multiparadigma y en lenguajes imperativos con tipos, objetos, estructuras y punteros. Respecto al estado actual de la tesis, la parte de análisis de programas ya está consolidada, mientras que la parte de inferencia de especificaciones sigue en fase de desarrollo activo.
La primera parte da soluciones para la ejecución de análisis de punteros especificados en Datalog. En esta parte se han desarrollado dos técnicas de ejecución de especificaciones en dicho lenguaje Datalog: una de ellas utiliza resolutores de sistemas de ecuaciones booleanas, y la otra utiliza la lógica de reescritura implementada eficientemente en el lenguaje Maude.
La segunda parte desarrolla técnicas de inferencia de especificaciones a partir de programas. En esta parte se han desarrollado dos métodos de inferencia de especificaciones. El primer método se desarrolló para el lenguaje lógico-funcional Curry y permite inferir especificaciones ecuacionales mediante interpretación abstracta de los programas. El segundo método está siendo desarrollado para lenguajes imperativos realistas, y se ha aplicado a un subconjunto del lenguaje de programación C. Este método permite inferir especificaciones en forma de reglas que representan las distintas relaciones entre las propiedades que el estado de un programa satisface antes y después de su ejecución. Además, estas propiedades son expresables en términos de las abstracciones funcionales del propio programa, resultando en una especificación de muy alto nivel y, por lo tanto, de más fácil comprensión. / Feliú Gabaldón, MA. (2013). Logic-based techniques for program analysis and specification synthesis [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/33747
|
136 |
Interactive Transcription of Old Text DocumentsSerrano Martínez-Santos, Nicolás 09 June 2014 (has links)
Nowadays, there are huge collections of handwritten text documents in libraries
all over the world. The high demand for these resources has led to the creation
of digital libraries in order to facilitate the preservation and provide electronic
access to these documents. However text transcription of these documents im-
ages are not always available to allow users to quickly search information, or
computers to process the information, search patterns or draw out statistics.
The problem is that manual transcription of these documents is an expensive
task from both economical and time viewpoints. This thesis presents a novel ap-
proach for e cient Computer Assisted Transcription (CAT) of handwritten text
documents using state-of-the-art Handwriting Text Recognition (HTR) systems.
The objective of CAT approaches is to e ciently complete a transcription
task through human-machine collaboration, as the e ort required to generate a
manual transcription is high, and automatically generated transcriptions from
state-of-the-art systems still do not reach the accuracy required. This thesis
is centered on a special application of CAT, that is, the transcription of old
text document when the quantity of user e ort available is limited, and thus,
the entire document cannot be revised. In this approach, the objective is to
generate the best possible transcription by means of the user e ort available.
This thesis provides a comprehensive view of the CAT process from feature
extraction to user interaction.
First, a statistical approach to generalise interactive transcription is pro-
posed. As its direct application is unfeasible, some assumptions are made to
apply it to two di erent tasks. First, on the interactive transcription of hand-
written text documents, and next, on the interactive detection of the document
layout.
Next, the digitisation and annotation process of two real old text documents
is described. This process was carried out because of the scarcity of similar
resources and the need of annotated data to thoroughly test all the developed
tools and techniques in this thesis. These two documents were carefully selected
to represent the general di culties that are encountered when dealing with
HTR. Baseline results are presented on these two documents to settle down a
benchmark with a standard HTR system. Finally, these annotated documents
were made freely available to the community. It must be noted that, all the
techniques and methods developed in this thesis have been assessed on these
two real old text documents.
Then, a CAT approach for HTR when user e ort is limited is studied and
extensively tested. The ultimate goal of applying CAT is achieved by putting
together three processes. Given a recognised transcription from an HTR system.
The rst process consists in locating (possibly) incorrect words and employs the
user e ort available to supervise them (if necessary). As most words are not
expected to be supervised due to the limited user e ort available, only a few are
selected to be revised. The system presents to the user a small subset of these
words according to an estimation of their correctness, or to be more precise,
according to their con dence level. Next, the second process starts once these low con dence words have been supervised. This process updates the recogni-
tion of the document taking user corrections into consideration, which improves
the quality of those words that were not revised by the user. Finally, the last
process adapts the system from the partially revised (and possibly not perfect)
transcription obtained so far. In this adaptation, the system intelligently selects
the correct words of the transcription. As results, the adapted system will bet-
ter recognise future transcriptions. Transcription experiments using this CAT
approach show that this approach is mostly e ective when user e ort is low.
The last contribution of this thesis is a method for balancing the nal tran-
scription quality and the supervision e ort applied using our previously de-
scribed CAT approach. In other words, this method allows the user to control
the amount of errors in the transcriptions obtained from a CAT approach. The
motivation of this method is to let users decide on the nal quality of the desired
documents, as partially erroneous transcriptions can be su cient to convey the
meaning, and the user e ort required to transcribe them might be signi cantly
lower when compared to obtaining a totally manual transcription. Consequently,
the system estimates the minimum user e ort required to reach the amount of
error de ned by the user. Error estimation is performed by computing sepa-
rately the error produced by each recognised word, and thus, asking the user to
only revise the ones in which most errors occur.
Additionally, an interactive prototype is presented, which integrates most
of the interactive techniques presented in this thesis. This prototype has been
developed to be used by palaeographic expert, who do not have any background
in HTR technologies. After a slight ne tuning by a HTR expert, the prototype
lets the transcribers to manually annotate the document or employ the CAT ap-
proach presented. All automatic operations, such as recognition, are performed
in background, detaching the transcriber from the details of the system. The
prototype was assessed by an expert transcriber and showed to be adequate and
e cient for its purpose. The prototype is freely available under a GNU Public
Licence (GPL). / Serrano Martínez-Santos, N. (2014). Interactive Transcription of Old Text Documents [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/37979
|
137 |
Advances in Document Layout AnalysisBosch Campos, Vicente 05 March 2020 (has links)
[EN] Handwritten Text Segmentation (HTS) is a task within the Document Layout Analysis field that aims to detect and extract the different page regions of interest found in handwritten documents. HTS remains an active topic, that has gained importance with the years, due to the increasing demand to provide textual access to the myriads of handwritten document collections held by archives and libraries.
This thesis considers HTS as a task that must be tackled in two specialized phases: detection and extraction. We see the detection phase fundamentally as a recognition problem that yields the vertical positions of each region of interest as a by-product. The extraction phase consists in calculating the best contour coordinates of the region using the position information provided by the detection phase.
Our proposed detection approach allows us to attack both higher level regions: paragraphs, diagrams, etc., and lower level regions like text lines. In the case of text line detection we model the problem to ensure that the system's yielded vertical position approximates the fictitious line that connects the lower part of the grapheme bodies in a text line, commonly known as the
baseline.
One of the main contributions of this thesis, is that the proposed modelling approach allows us to include prior information regarding the layout of the documents being processed. This is performed via a Vertical Layout Model (VLM).
We develop a Hidden Markov Model (HMM) based framework to tackle both region detection and classification as an integrated task and study the performance and ease of use of the proposed approach in many corpora. We review the modelling simplicity of our approach to process regions at different levels of information: text lines, paragraphs, titles, etc. We study the impact of adding deterministic and/or probabilistic prior information and restrictions via the VLM that our approach provides.
Having a separate phase that accurately yields the detection position (base- lines in the case of text lines) of each region greatly simplifies the problem that must be tackled during the extraction phase. In this thesis we propose to use a distance map that takes into consideration the grey-scale information in the image. This allows us to yield extraction frontiers which are equidistant to the adjacent text regions. We study how our approach escalates its accuracy proportionally to the quality of the provided detection vertical position. Our extraction approach gives near perfect results when human reviewed baselines are provided. / [ES] La Segmentación de Texto Manuscrito (STM) es una tarea dentro del campo de investigación de Análisis de Estructura de Documentos (AED) que tiene como objetivo detectar y extraer las diferentes regiones de interés de las páginas que se encuentran en documentos manuscritos. La STM es un tema de investigación activo que ha ganado importancia con los años debido a la creciente demanda de proporcionar acceso textual a las miles de colecciones de documentos manuscritos que se conservan en archivos y bibliotecas.
Esta tesis entiende la STM como una tarea que debe ser abordada en dos fases especializadas: detección y extracción. Consideramos que la fase de detección es, fundamentalmente, un problema de clasificación cuyo subproducto son las posiciones verticales de cada región de interés. Por su parte, la fase de extracción consiste en calcular las mejores coordenadas de contorno de la región utilizando la información de posición proporcionada por la fase de detección.
Nuestro enfoque de detección nos permite atacar tanto regiones de alto nivel (párrafos, diagramas¿) como regiones de nivel bajo (líneas de texto principalmente). En el caso de la detección de líneas de texto, modelamos el problema para asegurar que la posición vertical estimada por el sistema se aproxime a la línea ficticia que conecta la parte inferior de los cuerpos de los grafemas en una línea de texto, comúnmente conocida como línea base. Una de las principales aportaciones de esta tesis es que el enfoque de modelización propuesto nos permite incluir información conocida a priori sobre la disposición de los documentos que se están procesando. Esto se realiza mediante un Modelo de Estructura Vertical (MEV).
Desarrollamos un marco de trabajo basado en los Modelos Ocultos de Markov (MOM) para abordar tanto la detección de regiones como su clasificación de forma integrada, así como para estudiar el rendimiento y la facilidad de uso del enfoque propuesto en numerosos corpus. Así mismo, revisamos la simplicidad del modelado de nuestro enfoque para procesar regiones en diferentes niveles de información: líneas de texto, párrafos, títulos, etc. Finalmente, estudiamos el impacto de añadir información y restricciones previas deterministas o probabilistas a través de el MEV propuesto que nuestro enfoque proporciona.
Disponer de un método independiente que obtiene con precisión la posición de cada región detectada (líneas base en el caso de las líneas de texto) simplifica enormemente el problema que debe abordarse durante la fase de extracción. En esta tesis proponemos utilizar un mapa de distancias que tiene en cuenta la información de escala de grises de la imagen. Esto nos permite obtener fronteras de extracción que son equidistantes a las regiones de texto adyacentes. Estudiamos como nuestro enfoque aumenta su precisión de manera proporcional a la calidad de la detección y descubrimos que da resultados casi perfectos cuando se le proporcionan líneas de base revisadas por
humanos. / [CA] La Segmentació de Text Manuscrit (STM) és una tasca dins del camp d'investigació d'Anàlisi d'Estructura de Documents (AED) que té com a objectiu detectar I extraure les diferents regions d'interès de les pàgines que es troben en documents manuscrits. La STM és un tema d'investigació actiu que ha guanyat importància amb els anys a causa de la creixent demanda per proporcionar accés textual als milers de col·leccions de documents manuscrits que es conserven en arxius i biblioteques.
Aquesta tesi entén la STM com una tasca que ha de ser abordada en dues fases especialitzades: detecció i extracció. Considerem que la fase de detecció és, fonamentalment, un problema de classificació el subproducte de la qual són les posicions verticals de cada regió d'interès. Per la seva part, la fase d'extracció consisteix a calcular les millors coordenades de contorn de la regió utilitzant la informació de posició proporcionada per la fase de detecció.
El nostre enfocament de detecció ens permet atacar tant regions d'alt nivell (paràgrafs, diagrames ...) com regions de nivell baix (línies de text principalment). En el cas de la detecció de línies de text, modelem el problema per a assegurar que la posició vertical estimada pel sistema s'aproximi a la línia fictícia que connecta la part inferior dels cossos dels grafemes en una línia de
text, comunament coneguda com a línia base.
Una de les principals aportacions d'aquesta tesi és que l'enfocament de modelització proposat ens permet incloure informació coneguda a priori sobre la disposició dels documents que s'estan processant. Això es realitza mitjançant un Model d'Estructura Vertical (MEV).
Desenvolupem un marc de treball basat en els Models Ocults de Markov (MOM) per a abordar tant la detecció de regions com la seva classificació de forma integrada, així com per a estudiar el rendiment i la facilitat d'ús de l'enfocament proposat en nombrosos corpus. Així mateix, revisem la simplicitat del modelatge del nostre enfocament per a processar regions en diferents nivells d'informació: línies de text, paràgrafs, títols, etc. Finalment, estudiem l'impacte d'afegir informació i restriccions prèvies deterministes o probabilistes a través del MEV que el nostre mètode proporciona.
Disposar d'un mètode independent que obté amb precisió la posició de cada regió detectada (línies base en el cas de les línies de text) simplifica enormement el problema que ha d'abordar-se durant la fase d'extracció. En aquesta tesi proposem utilitzar un mapa de distàncies que té en compte la informació d'escala de grisos de la imatge. Això ens permet obtenir fronteres d'extracció que són equidistants de les regions de text adjacents. Estudiem com el nostre enfocament augmenta la seva precisió de manera proporcional a la qualitat de la detecció i descobrim que dona resultats quasi perfectes quan se li proporcionen línies de base revisades per humans. / Bosch Campos, V. (2020). Advances in Document Layout Analysis [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/138397
|
138 |
Formal Methods for Constraint-Based Testing and Reversible Debugging in ErlangPalacios Corella, Adrián 20 March 2020 (has links)
Tesis por compendio / [ES] Erlang es un lenguaje de programación funcional con concurrencia mediante paso de mensajes basado en el modelo de actores. Éstas y otras características lo hacen especialmente adecuado para aplicaciones distribuidas en tiempo real acrítico. En los últimos años, la popularidad de Erlang ha aumentado debido a la demanda de servicios concurrentes.
No obstante, desarrollar sistemas Erlang libres de errores es un reto considerable. A pesar de que Erlang evita muchos problemas por diseño (por ejemplo, puntos muertos), algunos otros problemas pueden aparecer. En este contexto, las técnicas de testing y depuración basadas en métodos formales pueden ser útiles para detectar, localizar y arreglar errores de programación en Erlang.
En esta tesis proponemos varios métodos para testing y depuración en Erlang. En particular, estos métodos están basados en modelos semánticos para concolic testing, pruebas basadas en propiedades, depuración reversible con consistencia causal y repetición reversible con consistencia causal de programas Erlang. Además, probamos formalmente las principales propiedades de nuestras propuestas y diseñamos herramientas de código abierto que implementan estos métodos. / [CA] Erlang és un llenguatge de programació funcional amb concurrència mitjançant pas de missatges basat en el model d'actors. Estes i altres característiques el fan especialment adequat per a aplicacions distribuïdes en temps real acrític. En els últims anys, la popularitat d'Erlang ha augmentat degut a la demanda de servicis concurrents.
No obstant, desenvolupar sistemes Erlang lliures d'errors és un repte considerable. Encara que Erlang evita molts problemes per disseny (per exemple, punts morts), alguns altres problemes poden aparéixer. En este context, les tècniques de testing y depuració basades en mètodes formals poden ser útils per a detectar, localitzar y arreglar errors de programació en Erlang.
En esta tesis proposem diversos mètodes per a testing i depuració en Erlang. En particular, estos mètodes estan basats en models semàntics per a concolic testing, testing basat en propietats, depuració reversible amb consistència causal i repetició reversible amb consistència causal de programes Erlang. A més, provem formalment les principals propietats de les nostres propostes i dissenyem ferramentes de codi obert que implementen estos mètodes. / [EN] Erlang is a message-passing concurrent, functional programming language based on the actor model. These and other features make it especially appropriate for distributed, soft real-time applications. In the recent years, Erlang's popularity has increased due to the demand for concurrent services.
However, developing error-free systems in Erlang is quite a challenge. Although Erlang avoids many problems by design (e.g., deadlocks), some other problems may appear. Here, testing and debugging techniques based on formal methods may be helpful to detect, locate and fix programming errors in Erlang.
In this thesis we propose several methods for testing and debugging in Erlang. In particular, these methods are based on semantics models for concolic testing, property-based testing, causal-consistent reversible debugging and causal-consistent replay debugging of Erlang programs. We formally prove the main properties of our proposals and design open-source tools that implement these methods. / Palacios Corella, A. (2020). Formal Methods for Constraint-Based Testing and Reversible Debugging in Erlang [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/139076 / Compendio
|
139 |
Design of a Machine Learning-based Approach for Fragment Retrieval on ModelsMarcén Terraza, Ana Cristina 10 January 2021 (has links)
[ES] El aprendizaje automático (ML por sus siglas en inglés) es conocido como la rama de la inteligencia artificial que reúne algoritmos estadísticos, probabilísticos y de optimización, que aprenden empíricamente. ML puede aprovechar el conocimiento y la experiencia que se han generado durante años en las empresas para realizar automáticamente diferentes procesos. Por lo tanto, ML se ha aplicado a diversas áreas de investigación, que estudian desde la medicina hasta la ingeniería del software.
De hecho, en el campo de la ingeniería del software, el mantenimiento y la evolución de un sistema abarca hasta un 80% de la vida útil del sistema. Las empresas, que se han dedicado al desarrollo de sistemas software durante muchos años, han acumulado grandes cantidades de conocimiento y experiencia. Por lo tanto, ML resulta una solución atractiva para reducir sus costos de mantenimiento aprovechando los recursos acumulados. Específicamente, la Recuperación de Enlaces de Trazabilidad, la Localización de Errores y la Ubicación de Características se encuentran entre las tareas más comunes y relevantes para realizar el mantenimiento de productos software. Para abordar estas tareas, los investigadores han propuesto diferentes enfoques. Sin embargo, la mayoría de las investigaciones se centran en métodos tradicionales, como la indexación semántica latente, que no explota los recursos recopilados. Además, la mayoría de las investigaciones se enfocan en el código, descuidando otros artefactos de software como son los modelos.
En esta tesis, presentamos un enfoque basado en ML para la recuperación de fragmentos en modelos (FRAME). El objetivo de este enfoque es recuperar el fragmento del modelo que realiza mejor una consulta específica. Esto permite a los ingenieros recuperar el fragmento que necesita ser trazado, reparado o ubicado para el mantenimiento del software. Específicamente, FRAME combina la computación evolutiva y las técnicas ML.
En FRAME, un algoritmo evolutivo es guiado por ML para extraer de manera eficaz distintos fragmentos de un modelo. Estos fragmentos son posteriormente evaluados mediante técnicas ML. Para aprender a evaluarlos, las técnicas ML aprovechan el conocimiento (fragmentos recuperados de modelos) y la experiencia que las empresas han generado durante años. Basándose en lo aprendido, las técnicas ML determinan qué fragmento del modelo realiza mejor una consulta. Sin embargo, la mayoría de las técnicas ML no pueden entender los fragmentos de los modelos. Por lo tanto, antes de aplicar las técnicas ML, el enfoque propuesto codifica los fragmentos a través de una codificación ontológica y evolutiva. En resumen, FRAME está diseñado para extraer fragmentos de un modelo, codificarlos y evaluar cuál realiza mejor una consulta específica.
El enfoque ha sido evaluado a partir de un caso real proporcionado por nuestro socio industrial (CAF, un proveedor internacional de soluciones ferroviarias). Además, sus resultados han sido comparados con los resultados de los enfoques más comunes y recientes. Los resultados muestran que FRAME obtuvo los mejores resultados para la mayoría de los indicadores de rendimiento, proporcionando un valor medio de precisión igual a 59.91%, un valor medio de exhaustividad igual a 78.95%, una valor-F medio igual a 62.50% y un MCC (Coeficiente de Correlación Matthews) medio igual a 0.64. Aprovechando los fragmentos recuperados de los modelos, FRAME es menos sensible al conocimiento tácito y al desajuste de vocabulario que los enfoques basados en información semántica. Sin embargo, FRAME está limitado por la disponibilidad de fragmentos recuperados para llevar a cabo el aprendizaje automático. Esta tesis presenta una discusión más amplia de estos aspectos así como el análisis estadístico de los resultados, que evalúa la magnitud de la mejora en comparación con los otros enfoques. / [CAT] L'aprenentatge automàtic (ML per les seues sigles en anglés) és conegut com la branca de la intel·ligència artificial que reuneix algorismes estadístics, probabilístics i d'optimització, que aprenen empíricament. ML pot aprofitar el coneixement i l'experiència que s'han generat durant anys en les empreses per a realitzar automàticament diferents processos. Per tant, ML s'ha aplicat a diverses àrees d'investigació, que estudien des de la medicina fins a l'enginyeria del programari.
De fet, en el camp de l'enginyeria del programari, el manteniment i l'evolució d'un sistema abasta fins a un 80% de la vida útil del sistema. Les empreses, que s'han dedicat al desenvolupament de sistemes programari durant molts anys, han acumulat grans quantitats de coneixement i experiència. Per tant, ML resulta una solució atractiva per a reduir els seus costos de manteniment aprofitant els recursos acumulats. Específicament, la Recuperació d'Enllaços de Traçabilitat, la Localització d'Errors i la Ubicació de Característiques es troben entre les tasques més comunes i rellevants per a realitzar el manteniment de productes programari. Per a abordar aquestes tasques, els investigadors han proposat diferents enfocaments. No obstant això, la majoria de les investigacions se centren en mètodes tradicionals, com la indexació semàntica latent, que no explota els recursos recopilats. A més, la majoria de les investigacions s'enfoquen en el codi, descurant altres artefactes de programari com són els models.
En aquesta tesi, presentem un enfocament basat en ML per a la recuperació de fragments en models (FRAME). L'objectiu d'aquest enfocament és recuperar el fragment del model que realitza millor una consulta específica. Això permet als enginyers recuperar el fragment que necessita ser traçat, reparat o situat per al manteniment del programari. Específicament, FRAME combina la computació evolutiva i les tècniques ML.
En FRAME, un algorisme evolutiu és guiat per ML per a extraure de manera eficaç diferents fragments d'un model. Aquests fragments són posteriorment avaluats mitjançant tècniques ML. Per a aprendre a avaluar-los, les tècniques ML aprofiten el coneixement (fragments recuperats de models) i l'experiència que les empreses han generat durant anys. Basant-se en l'aprés, les tècniques ML determinen quin fragment del model realitza millor una consulta. No obstant això, la majoria de les tècniques ML no poden entendre els fragments dels models. Per tant, abans d'aplicar les tècniques ML, l'enfocament proposat codifica els fragments a través d'una codificació ontològica i evolutiva. En resum, FRAME està dissenyat per a extraure fragments d'un model, codificar-los i avaluar quin realitza millor una consulta específica.
L'enfocament ha sigut avaluat a partir d'un cas real proporcionat pel nostre soci industrial (CAF, un proveïdor internacional de solucions ferroviàries). A més, els seus resultats han sigut comparats amb els resultats dels enfocaments més comuns i recents. Els resultats mostren que FRAME va obtindre els millors resultats per a la majoria dels indicadors de rendiment, proporcionant un valor mitjà de precisió igual a 59.91%, un valor mitjà d'exhaustivitat igual a 78.95%, una valor-F mig igual a 62.50% i un MCC (Coeficient de Correlació Matthews) mig igual a 0.64. Aprofitant els fragments recuperats dels models, FRAME és menys sensible al coneixement tàcit i al desajustament de vocabulari que els enfocaments basats en informació semàntica. No obstant això, FRAME està limitat per la disponibilitat de fragments recuperats per a dur a terme l'aprenentatge automàtic. Aquesta tesi presenta una discussió més àmplia d'aquests aspectes així com l'anàlisi estadística dels resultats, que avalua la magnitud de la millora en comparació amb els altres enfocaments. / [EN] Machine Learning (ML) is known as the branch of artificial intelligence that gathers statistical, probabilistic, and optimization algorithms, which learn empirically. ML can exploit the knowledge and the experience that have been generated for years to automatically perform different processes. Therefore, ML has been applied to a wide range of research areas, from medicine to software engineering.
In fact, in software engineering field, up to an 80% of a system's lifetime is spent on the maintenance and evolution of the system. The companies, that have been developing these software systems for a long time, have gathered a huge amount of knowledge and experience. Therefore, ML is an attractive solution to reduce their maintenance costs exploiting the gathered resources. Specifically, Traceability Link Recovery, Bug Localization, and Feature Location are amongst the most common and relevant tasks when maintaining software products. To tackle these tasks, researchers have proposed a number of approaches. However, most research focus on traditional methods, such as Latent Semantic Indexing, which does not exploit the gathered resources. Moreover, most research targets code, neglecting other software artifacts such as models.
In this dissertation, we present an ML-based approach for fragment retrieval on models (FRAME). The goal of this approach is to retrieve the model fragment which better realizes a specific query in a model. This allows engineers to retrieve the model fragment, which must be traced, fixed, or located for software maintenance. Specifically, the FRAME approach combines evolutionary computation and ML techniques.
In the FRAME approach, an evolutionary algorithm is guided by ML to effectively extract model fragments from a model. These model fragments are then assessed through ML techniques. To learn how to assess them, ML techniques takes advantage of the companies' knowledge (retrieved model fragments) and experience. Then, based on what was learned, ML techniques determine which model fragment better realizes a query. However, model fragments are not understandable for most ML techniques. Therefore, the proposed approach encodes the model fragments through an ontological evolutionary encoding. In short, the FRAME approach is designed to extract model fragments, encode them, and assess which one better realizes a specific query.
The approach has been evaluated in our industrial partner (CAF, an international provider of railway solutions) and compared to the most common and recent approaches. The results show that the FRAME approach achieved the best results for most performance indicators, providing a mean precision value of 59.91%, a recall value of 78.95%, a combined F-measure of 62.50%, and a MCC (Matthews correlation coefficient) value of 0.64. Leveraging retrieved model fragments, the FRAME approach is less sensitive to tacit knowledge and vocabulary mismatch than the approaches based on semantic information. However, the approach is limited by the availability of the retrieved model fragments to perform the learning. These aspects are further discussed, after the statistical analysis of the results, which assesses the magnitude of the improvement in comparison to the other approaches. / Marcén Terraza, AC. (2020). Design of a Machine Learning-based Approach for Fragment Retrieval on Models [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/158617
|
140 |
Clasificación Jerárquica MulticlaseSilva Palacios, Daniel Andrés 28 May 2021 (has links)
[ES] La sociedad moderna se ha visto afectada por los acelerados avances de la tecnología. La aplicación de la inteligencia artificial se puede encontrar en todas partes, desde la televisión inteligente hasta los coches autónomos. Una tarea esencial del aprendizaje automático es la clasificación. A pesar de la cantidad de técnicas y algoritmos de clasificación que existen, es un campo que sigue siendo relevante por todas sus aplicaciones. Así, frente a la clasificación tradicional multiclase en la que a cada instancia se le asigna una única etiqueta de clase, se han propuesto otros métodos como la clasificación jerárquica y la clasificación multietiqueta. Esta tesis tiene como objetivo resolver la clasificación multiclase mediante una descomposición jerárquica. Asimismo, se exploran diferentes métodos de extender la aproximación definida para su aplicación en contextos cambiantes.
La clasificación jerárquica es una tarea de aprendizaje automático en la que el problema de clasificación original se divide en pequeños subproblemas. Esta división se realiza teniendo en cuenta una estructura jerárquica que representa las relaciones entre las clases objetivo. Como resultado el clasificador jerárquico es a su vez una estructura (un árbol o un grafo) compuesta por clasificadores de base.
Hasta ahora, en la literatura, la clasificación jerárquica se ha aplicado a dominios jerárquicos, independientemente que la estructura jerárquica sea proporcionada explícitamente o se asume implícita (en cuyo caso se hace necesario inferir primero dicha estructura jerárquica). La clasificación jerárquica ha demostrado un mejor rendimiento en dominios jerárquicos en comparación con la clasificación plana (que no tiene en cuenta la estructura jerárquica del dominio). En esta tesis, proponemos resolver los problemas de clasificación multiclase descomponiéndolo jerárquicamente de acuerdo a una jerarquía de clases inferida por un clasificador plano. Planteamos dos escenarios dependiendo del tipo de clasificador usado en la jerarquía de clasificadores: clasificadores duros (crisp) y clasificadores suaves (soft).
Por otra parte, un problema de clasificación puede sufrir cambios una vez los modelos han sido entrenados. Un cambio frecuente es la aparición de una nueva clase objetivo. Dado que los clasificadores no han sido entrenados con datos pertenecientes a la nueva clase, no podrán encontrar predicciones correctas para las nuevas instancias, lo que afectará negativamente en el rendimiento de los clasificadores. Este problema se puede resolver mediante dos alternativas: el reentrenamiento de todo el modelo o la adaptación del modelo para responder a esta nueva situación. Como parte del estudio de los algoritmos de clasificación jerárquica se presentan varios métodos para adaptar el modelo a los cambios en las clases objetivo.
Los métodos y aproximaciones definidas en la tesis se han evaluado experimentalmente
con una amplia colección de conjuntos de datos que presentan diferentes características, usando diferentes técnicas de aprendizaje para generar los clasificadores de base.
En general, los resultados muestran que los métodos propuestos pueden ser una alternativa a métodos tradicionales y otras técnicas presentadas en la literatura para abordar las situaciones específicas planteadas. / [CA] La societat moderna s'ha vist afectada pels accelerats avenços de la tecnologia. L'aplicació de la intel·ligència artificial es pot trobar a tot arreu, des de la televisió intel·ligent fins als cotxes autònoms. Una tasca essencial de l'aprenentatge automàtic és la classificació. Tot i la quantitat de tècniques i algoritmes de classificació que existeixen, és un camp que segueix sent rellevant per totes les seves aplicacions. Així, enfront de la classificació tradicional multiclase en la qual a cada instància se li assigna una única etiqueta de classe, s'han proposat altres mètodes com la classificació jeràrquica i la classificació multietiqueta. Aquesta tesi té com a objectiu resoldre la classificació multiclase mitjançant una descomposició jeràrquica. Així mateix, s'exploren diferents mètodes d'estendre l'aproximació definida per a la seva aplicació en contextos canviants.
La classificació jeràrquica és una tasca d'aprenentatge automàtic en la qual el problema de classificació original es divideix en petits subproblemes. Aquesta divisió es realitza tenint en compte una estructura jeràrquica que representa les relacions entre les classes objectiu. Com a resultat el classificador jeràrquic és al seu torn una estructura (un arbre o un graf) composta per classificadors de base.
Fins ara, en la literatura, la classificació jeràrquica s'ha aplicat a dominis jeràrquics, independentment que l'estructura jeràrquica sigui proporcionada explícitament o s'assumeix implícita (en aquest cas es fa necessari inferir primer aquesta estructura jeràrquica). La classificació jeràrquica ha demostrat un millor rendiment en dominis jeràrquics en comparació amb la classificació plana (que no té en compte l'estructura jeràrquica de l'domini). En aquesta tesi, proposem resoldre els problemes de classificació multiclasse descomponent jeràrquicament d'acord a una jerarquia de classes inferida per un classificador pla. Plantegem dos escenaris depenent de el tipus de classificador usat en la jerarquia de classificadors: classificadors durs (crisp) i classificadors suaus (soft).
D'altra banda, un problema de classificació pot patir canvis una vegada els models han estat entrenats. Un canvi freqüent és l'aparició d'una nova classe objectiu. Atès que els classificadors no han estat entrenats amb dades pertanyents a la nova classe, no podran trobar prediccions correctes per a les noves instàncies, el que afectarà negativament en el rendiment dels classificadors. Aquest problema es pot resoldre mitjançant dues alternatives: el reentrenament de tot el model o l'adaptació de el model per respondre a aquesta nova situació. Com a part de l'estudi dels algoritmes de classificació jeràrquica es presenten diversos mètodes per adaptar el model als canvis en les classes objectiu.
Els mètodes i aproximacions definides en la tesi s'han avaluat experimentalment
amb una àmplia col·lecció de conjunts de dades que presenten diferents característiques, usant diferents tècniques d'aprenentatge per generar els classificadors de base.
En general, els resultats mostren que els mètodes proposats poden ser una alternativa a mètodes tradicionals i altres tècniques presentades en la literatura per abordar les situacions específiques plantejades. / [EN] The modern society has been affected by rapid advances in technology. The application of artificial intelligence can be found everywhere, from intelligent television to autonomous cars. An essential task of machine learning is classification. Despite the number of classification techniques and algorithms that exist, it is a field that remains relevant for all its applications. Thus, as opposed to the traditional multiclass classification in which each instance is assigned a single class label, other methods such as hierarchical classification and multi-label classification have been proposed. This thesis aims to solve multiclass classification by means of a hierarchical decomposition. Also, different methods of extending the defined approach are explored for application in changing contexts.
Hierarchical classification is an automatic learning task in which the original classification problem is divided into small sub-problems. This division is made taking into account a hierarchical structure that represents the relationships between the target classes. As a result the hierarchical classifier is itself a structure (a tree or a graph) composed of base classifiers.
Up to now, in the literature, hierarchical classification has been applied to hierarchical domains, regardless of whether the hierarchical structure is explicitly provided or assumed to be implicit (in which case it becomes necessary to first infer the hierarchical structure). Hierarchical classification has demonstrated better performance in hierarchical domains compared to flat classification (which does not take into account the hierarchical structure of the domain). In this thesis, we propose to solve the problems of multiclass classification by breaking it down hierarchically according to a class hierarchy inferred by a plane classifier. We propose two scenarios depending on the type of classifier used in the classifier hierarchy: hard classifiers (crisp) and soft classifiers (soft).
On the other hand, a classification problem may change once the models have been trained. A frequent change is the appearance of a new target class. Since the existing classifiers have not been trained with data belonging to the new class, they will not be able to find correct predictions for the new instances, which will negatively affect the performance of the classifiers. This problem can be solved by two alternatives: retraining the entire model or adapting the model to respond to this new situation. As part of the study of hierarchical classification algorithms, several methods are presented to adapt the model to changes in target classes.
The methods and approaches defined in the thesis have been evaluated experimentally with a large collection of data sets that have different characteristics, using different learning techniques to generate the base classifiers.
In general, the results show that the proposed methods can be an alternative to traditional methods and other techniques presented in the literature to address the specific situations raised. / Silva Palacios, DA. (2021). Clasificación Jerárquica Multiclase [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/167015
|
Page generated in 0.0524 seconds