Spelling suggestions: "subject:"informática"" "subject:"informatica""
271 |
Syntax-directed translations, tree transformations and bimorphismsTirnauca, Catalin Ionut 01 February 2016 (has links)
La traducció basada en la sintaxi va sorgir en l'àmbit de la traducció automàtica dels llenguatges naturals. Els sistemes han de modelar les transformacions d'arbres, reordenar parts d'oracions, ser simètrics i posseir propietats com la componibilitat o simetria. Existeixen diverses maneres de definir transformacions d'arbres: gramàtiques síncrones, transductors d'arbres i bimorfismes d'arbres. Les gramàtiques síncrones fan tot tipus de rotacions, però les propietats matemàtiques són més difícils de provar. Els transductors d'arbres són operacionals i fàcils d'implementar, però les classes principals no són tancades sota la composició. Els bimorfismes d'arbres són difícils d'implementar, però proporcionen una eina natural per provar componibilitat o simetria. Per millorar el procés de traducció, les gramàtiques síncrones es relacionen amb els bimorfismes d'arbres i amb els transductors d'arbres. En aquesta tesi es duu a terme un ampli estudi de la teoria i les propietats dels sistemes de traducció dirigides per la sintaxi, des d'aquestes tres perspectives molt diferents que es complementen perfectament entre si: com a dispositius generatius (gramàtiques síncrones), com a màquines acceptadores (transductors) i com a estructures algebraiques (bimorfismes). S'investiguen i comparen al nivell de la transformació d'arbres i com a dispositius que defineixen translacions. L'estudi es centra en bimorfismes, amb especial èmfasi en les seves aplicacions per al processament del llenguatge natural. També es proposa una completa i actualitzada visió general sobre les classes de transformacions d'arbres definits per bimorfismes, vinculant-los amb els tipus coneguts de gramàtiques síncrones i transductors d'arbres. Provem o recordem totes les propietats interessants que les esmentades classes posseeixen, millorant així els coneixements matemàtics previs. A més, s'exposen les relacions d'inclusió entre les principals classes de bimorfismes mitjançant un diagrama Hasse, com a dispositius de traducció i com a mecanismes de transformació d'arbres. / La traducción basada en la sintaxis surgió en el ámbito de la traducción automática de los lenguajes naturales. Los sistemas deben modelar las transformaciones de árboles, reordenar partes de oraciones, ser simétricos y poseer propiedades como la composición o simetría. Existen varias maneras de definir transformaciones de árboles: gramáticas síncronas, transductores de árboles y bimorfismos de árboles. Las gramáticas síncronas hacen todo tipo de rotaciones, pero las propiedades matemáticas son más difíciles de probar. Los transductores de árboles son operacionales y fáciles de implementar pero las clases principales no son cerradas bajo la composición. Los bimorfismos de árboles son difíciles de implementar, pero proporcionan una herramienta natural para probar composición o simetría. Para mejorar el proceso de traducción, las gramáticas síncronas se relacionan con los bimorfismos de árboles y con los transductores de árboles. En esta tesis se lleva a cabo un amplio estudio de la teoría y las propiedades de los sistemas de traducción dirigidas por la sintaxis, desde estas tres perspectivas muy diferentes que se complementan perfectamente entre sí: como dispositivos generativos (gramáticas síncronas), como máquinas aceptadores (transductores) y como estructuras algebraicas (bimorfismos). Se investigan y comparan al nivel de la transformación de árboles y como dispositivos que definen translaciones. El estudio se centra en bimorfismos, con especial énfasis en sus aplicaciones para el procesamiento del lenguaje natural. También se propone una completa y actualizada visión general sobre las clases de transformaciones de árboles definidos por bimorfismos, vinculándolos con los tipos conocidos de gramáticas síncronas y transductores de árboles. Probamos o recordamos todas las propiedades interesantes que tales clases poseen, mejorando así los previos conocimientos matemáticos. Además, se exponen las relaciones de inclusión entre las principales clases de bimorfismos a través de un diagrama Hasse, como dispositivos de traducción y como mecanismos de transformación de árboles. / Syntax-based machine translation was established by the demanding need of systems used in practical translations between natural languages. Such systems should, among others, model tree transformations, re-order parts of sentences, be symmetric and possess composability or forward and backward application. There are several formal ways to define tree transformations: synchronous grammars, tree transducers and tree bimorphisms. The synchronous grammars do all kind of rotations, but mathematical properties are harder to prove. The tree transducers are operational and easy to implement, but closure under composition does not hold for the main types. The tree bimorphisms are difficult to implement, but they provide a natural tool for proving composability or symmetry. To improve the translation process, synchronous grammars were related to tree bimorphisms and tree transducers. Following this lead, we give a comprehensive study of the theory and properties of syntax-directed translation systems seen from these three very different perspectives that perfectly complement each other: as generating devices (synchronous grammars), as acceptors (transducer machines) and as algebraic structures (bimorphisms). They are investigated and compared both as tree transformation and translation defining devices. The focus is on bimorphisms as they only recently got again into the spotlight especially given their applications to natural language processing. Moreover, we propose a complete and up-to-date overview on tree transformations classes defined by bimorphisms, linking them with well-known types of synchronous grammars and tree transducers. We prove or recall all the interesting properties such classes possess improving thus the mathematical knowledge on synchronous grammars and/or tree transducers. Also, inclusion relations between the main classes of bimorphisms both as translation devices and as tree transformation mechanisms are given for the first time through a Hasse diagram. Directions for future work are suggested by exhibiting how to extend previous results to more general classes of bimorphisms and synchronous grammars.
|
272 |
Exploring functional connectivity dynamics in brain disorders: a whole-brain computational framework for resting state fMRI signalsDemirtaş, Murat 15 December 2015 (has links)
Brain activity, on every scale, spontaneously fluctuates, thereby exhibiting complex, dynamic interactions that manifest rich synchronization patterns. The past ten years have been dominated by studies intended to further our understanding of the mecha-nisms behind the dynamic interactions within the brain through the basis of its structural and functional connectivity structures. Moreover, there is a tremendous effort to unveil the role that these interactions play in psychiatric disorders. This thesis addresses these questions from novel perspectives. The first pillar of this thesis is the time-varying na-ture of the dynamic interactions between brain regions. The second pillar is the role that FC dynamics play in clinical populations. The third pillar uncovers the connectivity structure that links the observed anatomical and functional connectivity patterns through computational modeling. The final pillar of the thesis proposes a mechanistic explana-tion for brain disorders. / L'activitat del cervell fluctua espontàniament a diferents escales i per tant exhibeix in-teraccions dinàmiques i complexes que manifesten patrons de sincronització rics. Du-rant els darrers deu anys han abundat els estudis orientats a comprendre els mecanismes que hi ha darrere les interaccions cerebrals basant-se en les seves estructures funcionals i estructurals. A més, existeix un esforç ingent per desvetllar el paper que aquestes in-teraccions juguen en els trastorns psiquiàtrics. Aquesta tesi aborda les qüestions esmen-tades des de noves perspectives. El primer pilar d'aquesta tesi és la naturalesa variable en el temps de la interacció dinàmica entre diferents regions del cervell. El segon pilar és el paper que aquesta dinàmica de connectivitat funcional juga en diferents poblacions clíniques. El tercer pilar es centra en l'ús de models computacionals per determinar l'es-tructura de connectivitat que relaciona els patrons de connectivitat funcional i anatòmics observats. El quart pilar de la tesi proposa una explicació del mecanisme dels trastorns cerebrals.
|
273 |
Pattern-based automatic induction of domain adapted resources for social media analysisVázquez Suárez, Silvia 22 January 2016 (has links)
In this dissertation, we analyze different aspects of the language used in texts published along different social media, and we propose a set of methods for the automatic extraction of polar adjectives as well as for the automatic classification of these texts.
First of all, we propose a new classification of polar adjectives according to their lexical features, based on a case study.
Secondly, we implement a new domain adaptable system for the automatic extraction of polar adjectives (along with their polarity values), reducing the use of external language resources.
Finally, we propose two automatic classifiers (one rule-based and one based on Decision Trees) to identify documents belonging to different stages of the purchase process and texts that analyze different aspects of the product. / En esta tesis, analizamos diferentes aspectos del lenguaje utilizado en los textos publicados en diferentes medios sociales y proponemos una serie de métodos para la extracción automática de adjetivos de opinión, así como para la clasificación automática de dichos textos.
En primer lugar, proponemos una nueva clasificación de los adjetivos de opinión de acuerdo con sus características léxicas, basada en un estudio de caso. En segundo lugar, implementamos un nuevo sistema de extracción automática de adjetivos de opinión (junto con sus valores de polaridad), adaptable al dominio y que reduce el uso de recursos lingüísticos externos. Finalmente, proponemos dos clasificadores automáticos (uno basado en reglas y otros basados en ´arboles de decisión) para identificar textos pertenecientes a distintas fases del proceso de compra y textos que analizan diferentes aspectos del producto. / En aquesta tesi, analitzem diferents aspectes del llenguatge utilitzat en els textos publicats en diferents mitjans socials i proposem una sèrie de mètodes per a l’extracció automàtica d’adjectius d’opinió així com per a la classificació automàtica d’aquests textos.
En primer lloc, proposem una nova classificació dels adjectius d’opinió, basada en un estudi de cas, més d’acord amb les seves característiques lèxiques. En segon lloc, vam implementar un nou sistema d’extracció automàtica d’adjectius d’opinió (juntament amb els seus valors de polaritat), adaptable al domini i que redueix l’´us de recursos lingüístics externs. Finalment, proposem dos classificadors automàtics (un basat en regles i un altre basats en arbres de decisió) per identificar textos que pertanyen a diferents fases del procés de compra i textos que analitzen diferents aspectes del producte.
|
274 |
Encodings and Benchmarks for MaxSAT SolvingCabiscol i Teixidó, Alba 22 June 2012 (has links)
No description available.
|
275 |
The pairwise problem with High Performance Computing Systems, contextualized as a key part to solve the Multiple Sequence Alignment problemMontañola Lacort, Alberto 02 February 2016 (has links)
L'alineació múltiple de seqüencies (MSA), com a repte dins de la bioinformàtica, es un element
clau per entendre el funcionament del genoma. Aquest consisteix en alinear en un temps òptim
aquestes seqüencies garantint un nivell de qualitat. Aquest problema esdevé un repte de
computació de altes prestacions degut als requeriments de recursos de memòria i còmput.
S'han estudiat diferents implementacions, les quals es comparen i es presenten en aquesta
investigació. Hem contribuït en la millora dels primers passos del problema MSA de diverses
maneres.
Amb l'objectiu de reduir el temps de càlcul i l'ús de memòria, adaptem T-Coffee per treballar en
paral·lel amb ús de fils lleugers.
Seguidament, hem desenvolupat un mètode de alineació de parells paral·lel, amb una assignació
eficient de seqüències a nodes. Finalment es presenta un mètode per determinar la quantitat
mínima de recursos del sistema, necessaris per resoldre un problema d'una mida determinada, per
tal de configurar el sistema per un ús eficient. / El alineamiento múltiple de secuencias (MSA), como reto dentro de la bioinformática, es un
elemento clave para entender el funcionamiento del genoma. Este consiste en alinear en un
tiempo óptimo esta secuencias garantizando un nivel de calidad. Este problema es un reto de
computo de altas prestaciones debido a los altos requerimientos de memoria y computo.
Se han estudiado diferentes implementaciones, las cuales se comparan y se presentan en esta
investigación. Hemos contribuido en la mejora de los primeros pasos del problema MSA de
diversas formas.
Con el objetivo de reducir el tiempo de cálculo y el uso de memoria, adaptamos T-Coffee para
trabajar en paralelo con el uso de hilos ligeros.
Seguidamente, hemos desarrollado un método de alineación de pares en paralelo, con una
asignación eficiente de secuencias a nodos. Finalmente se presenta un método para determinar la
cantidad mínima de recursos del sistema, necesarios para resolver el problema de un tamaño
determinado, para poder configurar el sistema para un uso eficiente. / The multiple sequence alignment (MSA), as a challenge in bioinformatics, becomes a key
element for understanding the inner working of the genome. This consists on aligning these
sequences in an optimal time, with a good level of quality. This problem is a challenge for the
high performance computing, because of the high memory and processing requirements.
Different implementations were studied, which are being compared and presented on this thesis.
We have contributed in the improvement of the first steps of the MSA problem in different ways.
With the goal of reducing the computing time and the memory usage, we adapted T-Coffee for
working in parallel with the usage of threads.
Furthermore, we have developed a pair-wise sequence alignment method, with an efficient
mapping of sequences to nodes. Finally, we are presenting the method for determining the
minimal amount of resources, required for solving the problem of a determined size, in order to
configure the system for an efficient use.
|
276 |
Extensión y profundidad de la brecha digital educativa : el caso de Universidad del Valle de TolucaRuiz Ramírez, Hector 14 January 2016 (has links)
Technology has played a role of primary importance in humanity, therefore observing its effects in the field of higher education results very important. This research firstly aims to identify the differences over the digital gap observed through the technological equipment and the efficient use of Internet along with its academic applications among students of the undergraduate programs in Business Administration and Marketing and Law degree at the Universidad del Valle de Toluca; secondly, to build a typology of digital students; and finally, identify those factors explaining the digital divide. Referring to the education field, the three technological revolutions are addressed considering their expressions and effects. These technological revolutions and paradigms are analized: ICT related to the education as well as the information society and the knowledge society. The first hypothesis refers that the socioeconomic characteristics, such as sex, age, and family income level and employment explain the digital divide, expressed in the diversity of types of digital students in the mentioned undergraduate programs. The second hypothesis states that the characteristics associated with the student¿s undergraduate program (Degree, level and morning or afternoon shift) explain the digital divide, expressed in the diversity of types of digital students in the mentioned undergraduate programs. The third hypothesis refers to the degree of development and control that professors have of technology, according to the perception of the students, and it explains the digital divide, as expressed in the diversity of types of digital students in the undergraduate programs subject to study. The state of the art of the digital divide and the digital natives and immigrants were also studied through a bibliometric analysis. A typology of students of both undergraduate programs under analysis was statistically built: a) Young digital students, prone to entertainment and leisure activities; b) Young digital students prone to study;
c) Young digital students prone to technological equipment. To summarize, those variables with the greatest capacity to explain the probability of being a student prone to leisure and entertainment activities and to study come from the first hypothesis of the research. This means that explaning these types of digital students, sex and age are positively involved, and conversely the employment situation. Although we must take into account that the third research hypothesis, observed through the degree of development and control of technology by teachers, contributes to at least one variable to explain students who are more prone to leisure and entertainment activities and to study. The frequency with which students communicate with teachers via Internet to consult assignments doubts, and/or academic affairs was the variable that reached the highest level of explanation; this clearly shows that virtual information exchange between teachers and students contributes partially to the configuration of the different types of students. One element which is noteworthy is that the variables associated with the second research hypothesis, such as adscription to some undergraduate program, the level or shift, do not explain totally or partially the probability of belonging to any of digital student type. / La tecnología ha jugado un papel de primera importancia en la humanidad, por lo tanto, observar sus efectos en el campo de resultados de educación superior muy importantes. Esta investigación, en primer lugar tiene como objetivo identificar las diferencias sobre la brecha digital observada a través del equipamiento tecnológico y el uso eficiente de Internet junto con sus aplicaciones académicas entre los estudiantes de los programas de pregrado en Administración de Empresas y Marketing y Licenciado en Derecho por la Universidad del Valle de Toluca; en segundo lugar, para construir una tipología de los estudiantes digitales; y, finalmente, identificar los factores que explican la brecha digital. Al referirse al campo de la educación, las tres revoluciones tecnológicas se tratan considerando sus expresiones y efectos. Estas revoluciones tecnológicas y paradigmas se analizan: relacionado con la educación, así como la sociedad de la información y la sociedad del conocimiento de las TIC. La primera hipótesis se refiere que las características socioeconómicas, como el sexo, la edad y el nivel de ingresos de la familia y el empleo explican la brecha digital, expresada en la diversidad de tipos de estudiantes digitales en los programas de pregrado mencionados. La segunda hipótesis establece que las características asociadas con el programa del estudiante de pregrado (Licenciatura, nivel y mañana o turno de tarde) explican la brecha digital, expresada en la diversidad de tipos de estudiantes digitales en los programas de pregrado mencionados. La tercera hipótesis se refiere al grado de desarrollo y control que los profesores tienen de la tecnología, de acuerdo con la percepción de los estudiantes, y explica la brecha digital, como se expresa en la diversidad de tipos de estudiantes digitales en los programas de pregrado sujetas a estudiar. Se estudió también el estado del arte de la brecha digital y los nativos digitales y los inmigrantes a través de un análisis bibliométrico. Una tipología de los estudiantes de ambos programas de pregrado bajo análisis fue estadísticamente construcción: a) los estudiantes digitales jóvenes, propensa a las actividades de entretenimiento y ocio; b) los estudiantes digitales jóvenes propensos a estudiar; c) los estudiantes digitales jóvenes propensos a equipamiento tecnológico. En resumen, las variables con mayor capacidad para explicar la probabilidad de ser un estudiante propenso a las actividades de ocio y entretenimiento y estudio provienen de la primera hipótesis de la investigación. Esto significa que explaning este tipo de estudiantes digital, el sexo y la edad están involucrados de manera positiva, y por el contrario la situación del empleo. Aunque hay que tener en cuenta que la tercera hipótesis de investigación, observada a través del grado de desarrollo y control de la tecnología por parte de los profesores, contribuye a al menos una variable para explicar a los estudiantes que son más propensos a las actividades de ocio y tiempo libre y para estudiar. La frecuencia con la que los estudiantes se comunican con los maestros a través de Internet para consultar las asignaciones de dudas y / o asuntos académicos fue la variable que alcanzó el nivel más alto de la explicación; esto demuestra claramente que el intercambio de información virtual entre los profesores y los estudiantes contribuye parcialmente a la configuración de los diferentes tipos de estudiantes. Un elemento que hay que destacar es que las variables asociadas con la segunda hipótesis de investigación, como la adscripción a algún programa de pregrado, el nivel o cambio, no explican en su totalidad o en parte la probabilidad de pertenecer a cualquier tipo de estudiante digital
|
277 |
Radiated transient interferences in digital communication systemsPous Solà, Marc 24 April 2015 (has links)
In the Electromagnetic Compatibility research area, an unsolved interference problem is the measurement and evaluation of the distortion produced by radiated transient disturbances on digital communication systems. This impulsive noise, which is generated by switching devices or by sparks, is a broadband interference that covers the spectrum from DC to several hundreds of megahertz or some gigahertz. Additionally, this man-made noise is characterized by its short and random burst parameters, which make really challenging to measure it correctly. During the thesis, we have explained that impulsive noise is not properly measured and evaluated to prevent interference scenarios, when the EMC standard methodologies are applied. Detectors, such as the quasi-peak, frequency sweep measurements or signal-to-noise limiting evaluation described in the harmonized standards of the electromagnetic compatibility do not enable to determine beforehand the influence of transient interferences.
Our strategy to overcome the non-profit measurement has been to perform novel measurement and evaluation techniques beyond EMC standards. The measurement technique developed joins the capabilities of EMI receivers and oscilloscope instrumentations to capture accurately the radiated transient interference. To carry out the measurement, the input stage of the EMI receiver is used for filtering and pre-amplifying purposes, conducting the IF output towards the oscilloscope, which is used for triggering and storage. Furthermore, a final post-processing stage is needed to obtain in time-domain the in-phase and quadrature components of the transient interference.
Once the radiated transient interference has been measured properly, an accurate evaluation of the distortion produced to a digital communication system can be estimated. To evaluate the impact of the transient interference, a combination of the time-domain measurement with base-band simulation has been proposed to fulfil the thesis goal. The IQ time-domain measurement enables us to characterize the impulsive-noise present at the communication channel and determine the distortion produced to the digital communication system by means of base-band simulation. The procedure to determine the BER using the base-band simulation has been validated with experimental results, comparing the results reached with the developed methodology with the ones obtained when a communication system device is placed under radiated transient. Excellent results have been obtained employing the developed methodology, considering the interference produced by radiated transient to RFID or GSM communication systems
Additionally, a new measurement methodology to obtain the amplitude probability diagram (APD) has been developed, offering the possibility to determine the bit-error-rate including limit lines at the APD diagram. This measurement method, based on captures obtained from a general purpose oscilloscope, makes it possible to obtain the APD measurement at any frequency band with the same accuracy provided by an EMI receiver. Furthermore, the post-processing tools using mathematical software produce the APD results rapidly at any bandwidth, and this makes it more powerful than employing an EMI receiver.
The successful APD measurement system created is able to obtain the full-spectrum statistical measurement, employing several time-domain captures which can be acquired in practice immediately. In the final chapter of this thesis, the GSM system is interfered by radiated transients produced by sparks. The results provided by the APD diagram including the limit dots have been especially useful due to its fast capacity to interpret and quantify the degradation produced to the GSM system. / En el camp de recerca de la compatibilitat electromagnètica, una de les problemàtiques no resoltes és la mesura i avaluació de les interferències produïdes per transitoris radiats sobre els equips de comunicació digitals. Aquest tipus de soroll impulsiu, que es genera per la commutació d' equips electrònics o guspires, és una interferència de banda ampla que ocupa l' espectre radioelèctric fins a diversos centenars de megahertz o algun gigahertz. A més, aquest soroll es caracteritza per la seva curta durada i l'aleatorietat dels seus paràmetres, i això fa que sigui molt complicat mesurar correctament la interferència. Al llarg de la tesi, hem explicat que el soroll impulsiu no es mesura ni s'avalua adequadament per evitar escenaris d'interferències si s'utilitzen les metodologies definides als estàndards d' EMC. Els detectors, com el de quasi-pic, l'escombratge en freqüència o l'avaluació basada en els límits relacionats amb la relació senyal a soroll no són vàlids per anticipar la influència de les interferències transitòries. La nostra estratègia per solucionar els problemes de les mesures normatives ha estat desenvolupar noves tècniques de mesura i avaluació fora dels estàndards d'EMC. La tècnica de mesura desenvolupada combina les capacitats dels receptors EMI i els oscil·loscopis per capturar la interferència transitòria radiada. Per realitzar les mesures, l'etapa d'entrada del receptor EMI s¿utilitza amb la finalitat de filtrar i preamplificar, enviant la sortida IF cap a l'oscil·loscopi, que es fa servir per detectar i emmagatzemar els transitoris. Per últim, en l'etapa de postprocessament, s'obtenen en el domini del temps els components en fase i en quadratura de la interferència transitòria. Una vegada s'ha mesurat adequadament la interferència radiada, es pot estimar correctament la distorsió produïda sobre els sistemes de comunicació digitals. Per avaluar l'impacte de la interferència transitòria i així complir amb l'objectiu de la tesi, s'ha proposat combinar les mesures en el domini del temps amb la simulació en banda base. La mesura IQ en el domini del temps ens permet caracteritzar el soroll impulsiu present al canal de comunicació i així determinar la distorsió produïda al sistema de comunicació digital mitjançant la simulació en banda base. El procediment per determinar el BER fent servir la simulació en banda base ha estat validat amb resultats experimentals, i s'han comparat els resultats obtinguts utilitzant la metodologia desenvolupada amb els resultats proporcionats directament col·locant un dispositiu sota la influència de transitoris radiats. Els excel¿lents resultats obtinguts considerant interferències produïdes sobre sistemes RFID i GSM han estat publicats. D'altra banda, també s'ha desenvolupat un nou mètode de mesura per adquirir el diagrama de probabilitat d¿amplitud (APD), oferint la possibilitat de determinar la probabilitat d'error en el bit incloent límits en el diagrama APD. Aquest mètode de mesura, basat en captures obtingudes mitjançant un oscil·loscopi de propòsit general, fa possible obtenir la mesura APD en qualsevol banda freqüencial amb la mateixa exactitud que proporciona un receptor EMI. A més, amb les eines de postprocessament desenvolupades és possible produir els resultats APD ràpidament i amb qualsevol amplada de banda, i això fa que sigui un mètode de mesura més potent que no pas utilitzar un receptor EMI. L'exitós sistema de mesura creat per obtenir l'APD és capaç d'obtenir la mesura estadística en tot l'espectre radiolèctric utilitzant poques captures en el domini del temps, les quals a la pràctica soón adquirides de forma inmediata. Al capítol final de la tesi, el sistema GMS és interferit per transistors radiats produïts per guspires. El resultat proporcionat pel diagrama APD, incloent-hi els límits, és especialment útil gràcies a la seva rapidesa per interpretar i quantificar la degradació produïda sobre el sistema GSM.
|
278 |
Machine learning in multiscale modeling and simulations of molecular systemsHashemian, Behrooz 08 May 2015 (has links)
Collective variables (CVs) are low-dimensional representations of the state of a complex system, which help us rationalize molecular conformations and sample free energy landscapes with molecular dynamics simulations. However, identifying a representative set of CVs for a given system is far from obvious, and most often relies on physical intuition or partial knowledge about the systems. An inappropriate choice of CVs is misleading and can lead to inefficient sampling. Thus, there is a need for systematic approaches to effectively identify CVs.
In recent years, machine learning techniques, especially nonlinear dimensionality reduction (NLDR), have shown their ability to automatically identify the most important collective behavior of molecular systems. These methods have been widely used to visualize molecular trajectories. However, in general they do not provide a differentiable mapping from high-dimensional configuration space to their low-dimensional representation, as required in enhanced sampling methods, and they cannot deal with systems with inherently nontrivial conformational manifolds.
In the fist part of this dissertation, we introduce a methodology that, starting from an ensemble representative of molecular flexibility, builds smooth and nonlinear data-driven collective variables (SandCV) from the output of nonlinear manifold learning algorithms. We demonstrate the method with a standard benchmark molecule and show how it can be non-intrusively combined with off-the-shelf enhanced sampling methods, here the adaptive biasing force method. SandCV identifies the system's conformational manifold, handles out-of-manifold conformations by a closest point projection, and exactly computes the Jacobian of the resulting CVs. We also illustrate how enhanced sampling simulations with SandCV can explore regions that were poorly sampled in the original molecular ensemble.
We then demonstrate that NLDR methods face serious obstacles when the underlying CVs present periodicities, e.g.~arising from proper dihedral angles. As a result, NLDR methods collapse very distant configurations, thus leading to misinterpretations and inefficiencies in enhanced sampling. Here, we identify this largely overlooked problem, and discuss possible approaches to overcome it. Additionally, we characterize flexibility of alanine dipeptide molecule and show that it evolves around a flat torus in four-dimensional space.
In the final part of this thesis, we propose a novel method, atlas of collective variables, that systematically overcomes topological obstacles, ameliorates the geometrical distortions and thus allows NLDR techniques to perform optimally in molecular simulations. This method automatically partitions the configuration space and treats each partition separately. Then, it connects these partitions from the statistical mechanics standpoint. / Las variables colectivas (CVs, acrónimo inglés de collective variables) son representaciones de baja dimensionalidad del estado de un sistema complejo, que nos ayudan a racionalizar conformaciones moleculares y muestrear paisajes de energía libre con simulaciones de dinámica molecular. Sin embargo, identificar unas CVs representativas para un sistema dado dista de ser evidente, por lo que a menudo se confía en la intuición física o en el conocimiento parcial de los sistemas bajo estudio. Una elección inadecuada de las CVs puede dar a interpretaciones engañosas y conducir a un muestreo ineficiente. Por lo tanto, hay una necesidad de desarrollar enfoques sistemáticos para identificar CVs de manera efectiva. En los últimos años, las técnicas de aprendizaje de máquina, especialmente las técnicas de reducción de dimensionalidad no lineal (NLDR, acrónimo inglés de nonlinear dimensionality reduction), han demostrado su capacidad para identificar automáticamente el comportamiento colectivo de sistemas moleculares. Estos métodos han sido ampliamente utilizados para visualizar las trayectorias moleculares. No obstante, en general las técnicas de NLDR no proporcionan una aplicación diferenciable de las configuraciones de alta dimensión a su representación de baja dimensión, condición que es requerida en los métodos mejorados de muestreo, por lo que no pueden hacer frente a sistemas con variedades conformacionales inherentemente no triviales. En la primer parte de esta tesis doctoral, introducimos una metodología que, a partir de un conjunto de conformaciones representativo de la flexibilidad del sistema molecular, construye variables colectivas suaves y no lineales basadas en datos (SandCV, acrónimo en inglés de smooth and nonlinear data-driven collective variables) obtenidos utilizando algoritmos de aprendizaje de variedades no lineales. Demostramos el método con una molécula de referencia estándar y mostramos cómo puede ser combinado de forma no intrusiva con métodos mejorados de muestreo ya existentes, aquí el método de la fuerza de sesgo adaptativa. SandCV identifica la variedad conformacional del sistema, maneja conformaciones fuera de la variedad por una proyección al punto más cercano de la variedad, y calcula exactamente el Jacobiano de las CVs resultantes. También ilustramos cómo simulaciones de muestreo mejoradas pueden, mediante SandCV, explorar regiones que fueron mal muestreadas en el conjunto molecular inicial. A continuación, demostramos que los métodos NLDR se enfrentan a serios obstáculos cuando las CVs subyacentes presentan periodicidad, por ejemplo, derivados de ángulos diedrales. Como consecuencia, los métodos NLDR colapsan configuraciones muy distantes, lo que conduce a interpretaciones erróneas y a ineficiencias en el muestreo mejorado. Aquí, identificamos este problema en gran medida pasado por alto, y discutimos los posibles enfoques para superarlo. Además, caracterizamos la flexibilidad de la molécula de dipéptido alanina y demostramos que evoluciona en torno a un toro plano en cuatro dimensiones. En la parte final de esta tesis, proponemos una metodología novedosa, atlas de variables colectivas, que supera sistemáticamente obstáculos topológicos, aminora las distorsiones geométricas y por lo tanto permite que las técnicas NLDR trabajen de manera óptima en simulaciones moleculares. Este método divide de forma automática el espacio configuracional y trata a cada partición por separado. Después, conecta estas particiones del punto de vista de mecánica estadística.
|
279 |
An ontology-based approach toward the configuration of heterogeneous network devicesMartínez, Anny 25 May 2015 (has links)
Despite the numerous efforts of standardization, semantic issues remain in effect in many subfields of networking. The inability to exchange data unambiguously between information systems and human resources is an issue that hinders technology implementation, semantic interoperability, service deployment, network management, technology migration, among many others. In this thesis, we will approach the semantic issues in two critical subfields of networking, namely, network configuration management and network addressing architectures. The fact that makes the study in these areas rather appealing is that in both scenarios semantic issues have been around from the very early days of networking. However, as networks continue to grow in size and complexity current practices are becoming neither scalable nor practical.
One of the most complex and essential tasks in network management is the configuration of network devices. The lack of comprehensive and standard means for modifying and controlling the configuration of network elements has led to the continuous and extended use of proprietary Command Line Interfaces (CLIs). Unfortunately, CLIs are generally both, device and vendor-specific. In the context of heterogeneous network infrastructures---i.e., networks typically composed of multiple devices from different vendors---the use of several CLIs raises serious Operation, Administration and Management (OAM) issues. Accordingly, network administrators are forced to gain specialized expertise and to continuously keep knowledge and skills up to date as new features, system upgrades or technologies appear. Overall, the utilization of proprietary mechanisms allows neither sharing knowledge consistently between vendors' domains nor reusing configurations to achieve full automation of network configuration tasks---which are typically required in autonomic management. Due to this heterogeneity, CLIs typically provide a help feature which is in turn an useful source of knowledge to enable semantic interpretation of a vendor's configuration space. The large amount of information a network administrator must learn and manage makes Information Extraction (IE) and other forms of natural language analysis of the Artificial Intelligence (AI) field key enablers for the network device configuration space. This thesis presents the design and implementation specification of the first Ontology-Based Information Extraction (OBIE) System from the CLI of network devices for the automation and abstraction of device configurations. Moreover, the so-called semantic overload of IP addresses---wherein addresses are both identifiers and locators of a node at the same time---is one of the main constraints over mobility of network hosts, multi-homing and scalability of the routing system. In light of this, numerous approaches have emerged in an effort to decouple the semantics of the network addressing scheme. In this thesis, we approach this issue from two perspectives, namely, a non-disruptive (i.e., evolutionary) solution to the current Internet and a clean-slate approach for Future Internet. In the first scenario, we analyze the Locator/Identifier Separation Protocol (LISP) as it is currently one of the strongest solutions to the semantic overload issue. However, its adoption is hindered by existing problems in the proposed mapping systems. Herein, we propose the LISP Redundancy Protocol (LRP) aimed to complement the LISP framework and strengthen feasibility of deployment, while at the same time, minimize mapping table size, latency time and maximize reachability in the network. In the second scenario, we explore TARIFA a Next Generation Internet architecture and introduce a novel service-centric addressing scheme which aims to overcome the issues related to routing and semantic overload of IP addresses. / A pesar de los numerosos esfuerzos de estandarización, los problemas de semántica continúan en efecto en muchas subáreas de networking. La inabilidad de intercambiar data sin ambiguedad entre sistemas es un problema que limita la interoperabilidad semántica. En esta tesis, abordamos los problemas de semántica en dos áreas: (i) la gestión de configuración y (ii) arquitecturas de direccionamiento. El hecho que hace el estudio en estas áreas de interés, es que los problemas de semántica datan desde los inicios del Internet. Sin embargo, mientras las redes continúan creciendo en tamaño y complejidad, los mecanismos desplegados dejan de ser escalabales y prácticos. Una de las tareas más complejas y esenciales en la gestión de redes es la configuración de equipos. La falta de mecanismos estándar para la modificación y control de la configuración de equipos ha llevado al uso continuado y extendido de interfaces por líneas de comando (CLI). Desafortunadamente, las CLIs son generalmente, específicos por fabricante y dispositivo. En el contexto de redes heterogéneas--es decir, redes típicamente compuestas por múltiples dispositivos de distintos fabricantes--el uso de varias CLIs trae consigo serios problemas de operación, administración y gestión. En consecuencia, los administradores de red se ven forzados a adquirir experiencia en el manejo específico de múltiples tecnologías y además, a mantenerse continuamente actualizados en la medida en que nuevas funcionalidades o tecnologías emergen, o bien con actualizaciones de sistemas operativos. En general, la utilización de mecanismos propietarios no permite compartir conocimientos de forma consistente a lo largo de plataformas heterogéneas, ni reutilizar configuraciones con el objetivo de alcanzar la completa automatización de tareas de configuración--que son típicamente requeridas en el área de gestión autonómica. Debido a esta heterogeneidad, las CLIs suelen proporcionar una función de ayuda que fundamentalmente aporta información para la interpretación semántica del entorno de configuración de un fabricante. La gran cantidad de información que un administrador debe aprender y manejar, hace de la extracción de información y otras formas de análisis de lenguaje natural del campo de Inteligencia Artificial, potenciales herramientas para la configuración de equipos en entornos heterogéneos. Esta tesis presenta el diseño y especificaciones de implementación del primer sistema de extracción de información basada en ontologías desde el CLI de dispositivos de red, para la automatización y abstracción de configuraciones. Por otra parte, la denominada sobrecarga semántica de direcciones IP--en donde, las direcciones son identificadores y localizadores al mismo tiempo--es una de las principales limitaciones sobre mobilidad, multi-homing y escalabilidad del sistema de enrutamiento. Por esta razón, numerosas propuestas han emergido en un esfuerzo por desacoplar la semántica del esquema de direccionamiento de las redes actuales. En esta tesis, abordamos este problema desde dos perspectivas, la primera de ellas una aproximación no-disruptiva (es decir, evolucionaria) al problema del Internet actual y la segunda, una nueva propuesta en torno a futuras arquitecturas del Internet. En el primer escenario, analizamos el protocolo LISP (del inglés, Locator/Identifier Separation Protocol) ya que es en efecto, una de las soluciones con mayor potencial para la resolucion del problema de semántica. Sin embargo, su adopción está limitada por problemas en los sistemas de mapeo propuestos. En esta tesis, proponemos LRP (del inglés, LISP Redundancy Protocol) un protocolo destinado a complementar LISP e incrementar la factibilidad de despliegue, a la vez que, reduce el tamaño de las tablas de mapeo, tiempo de latencia y maximiza accesibilidad. En el segundo escenario, exploramos TARIFA una arquitectura de red de nueva generación e introducimos un novedoso esquema de direccionamiento orientado a servicios.
|
280 |
Simulación concurrente y elección dinámica de estrategias para la mejora de la entrada/salida de discoGonzález Férez, María Pilar 14 June 2012 (has links)
Principales contribuciones de esta tesis:
Un «proyecto de caché de disco mejorada mediante RAM» (REDCAP, RAM Enhanced Disk Cache Project), que añade: una nueva caché de disco en RAM, una técnica de prefetching y un mecanismo para controlar su rendimiento. El tiempo de E/S de lectura se llega a reducir en más de un 80%.
Un «simulador de disco dentro del núcleo», que es capaz de simular tanto discos duros como de estado sólido. Esta propuesta nos permite simultáneamente comparar varios mecanismos de E/S y, dinámicamente, activarlos/desactivarlos dependiendo del rendimiento. Ha sido probada satisfactoriamente en REDCAP y en DADS.
Un «marco de planificación de disco automático y dinámico» (DADS, Dynamic and Automatic Disk Scheduling framework), que compara dos planificadores de E/S de Linux y selecciona automáticamente el planificador de E/S que proporciona el mayor rendimiento en cada momento. El rendimiento alcanzado está siempre cercano al del mejor planificador. / Main contributions of this thesis:
The RAM Enhanced Disk Cache Project, REDCAP, that introduces: a new disk cache in the main memory, a prefetching technique, and a mechanism to control the performance achieved. We have been able to reduce the read I/O time by more than 80% in workloads with spatial locality, without downgrading performance in other.
An in--kernel disk simulator that is able to simulate both hard disk and solid state drives. This proposal allows us to compare, simultaneously, the behavior of different I/O system mechanisms, and to dynamically activate/deactivate them, depending on the performance. It has been successfully used in REDCAP and in our third contribution.
A Dynamic and Automatic Disk Scheduling framework (DADS), that compares two Linux I/O schedulers and selects the one providing, for the current workload, the highest throughput. Performance achieved is always close to that obtained by the best scheduler.
|
Page generated in 0.0488 seconds