• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 16
  • 8
  • 6
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 30
  • 8
  • 7
  • 5
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Estudio exploratorio descriptivo acerca de los dominios de co-existencia en que se ubican las conflictivas psicológicas de personas que viven con VIH/SIDA.

Berríos Guzmán, Constanza, Yerkovic Bahamonde, Alejandra January 2004 (has links)
No description available.
22

[en] SUPERVISED LEARNING INCREMENTAL FEATURE INDUCTION AND SELECTION / [pt] INDUÇÃO E SELEÇÃO INCREMENTAIS DE ATRIBUTOS NO APRENDIZADO SUPERVISIONADO

EDUARDO NEVES MOTTA 13 January 2017 (has links)
[pt] A indução de atributos não lineares a partir de atributos básicos é um modo de obter modelos preditivos mais precisos para problemas de classificação. Entretanto, a indução pode causar o rápido crescimento do número de atributos, resultando usualmente em overfitting e em modelos com baixo poder de generalização. Para evitar esta consequência indesejada, técnicas de regularização são aplicadas, para criar um compromisso entre um reduzido conjunto de atributos representativo do domínio e a capacidade de generalização Neste trabalho, descrevemos uma abordagem de aprendizado de máquina supervisionado com indução e seleção incrementais de atributos. Esta abordagem integra árvores de decisão, support vector machines e seleção de atributos utilizando perceptrons esparsos em um framework de aprendizado que chamamos IFIS – Incremental Feature Induction and Selection. Usando o IFIS, somos capazes de criar modelos regularizados não lineares de alto desempenho utilizando um algoritmo com modelo linear. Avaliamos o nosso sistema em duas tarefas de processamento de linguagem natural em dois idiomas. Na primeira tarefa, anotação morfossintática, usamos dois corpora, o corpus WSJ em língua inglesa e o Mac-Morpho em Português. Em ambos, alcançamos resultados competitivos com o estado da arte reportado na literatura, alcançando as acurácias de 97,14 por cento e 97,13 por cento, respectivamente. Na segunda tarefa, análise de dependência, utilizamos o corpus da CoNLL 2006 Shared Task em português, ultrapassando os resultados reportados durante aquela competição e alcançando resultados competitivos com o estado da arte para esta tarefa, com a métrica UAS igual a 92,01 por cento. Com a regularização usando um perceptron esparso, geramos modelos SVM que são até 10 vezes menores, preservando sua acurácia. A redução dos modelos é obtida através da regularização dos domínios dos atributos, que atinge percentuais de até 99 por cento. Com a regularização dos modelos, alcançamos uma redução de até 82 por cento no tamanho físico dos modelos. O tempo de predição do modelo compacto é reduzido em até 84 por cento. A redução dos domínios e modelos permite também melhorar a engenharia de atributos, através da análise dos domínios compactos e da introdução incremental de novos atributos. / [en] Non linear feature induction from basic features is a method of generating predictive models with higher precision for classification problems. However, feature induction may rapidly lead to a huge number of features, causing overfitting and models with low predictive power. To prevent this side effect, regularization techniques are employed to obtain a trade-off between a reduced feature set representative of the domain and generalization power. In this work, we describe a supervised machine learning approach that incrementally inducts and selects feature conjunctions derived from base features. This approach integrates decision trees, support vector machines and feature selection using sparse perceptrons in a machine learning framework named IFIS – Incremental Feature Induction and Selection. Using IFIS, we generate regularized non-linear models with high performance using a linear algorithm. We evaluate our system in two natural language processing tasks in two different languages. For the first task, POS tagging, we use two corpora, WSJ corpus for English, and Mac-Morpho for Portuguese. Our results are competitive with the state-of-the-art performance in both, achieving accuracies of 97.14 per cent and 97.13 per cent, respectively. In the second task, Dependency Parsing, we use the CoNLL 2006 Shared Task Portuguese corpus, achieving better results than those reported during that competition and competitive with the state-of-the-art for this task, with UAS score of 92.01 per cent. Applying model regularization using a sparse perceptron, we obtain SVM models 10 times smaller, while maintaining their accuracies. We achieve model reduction by regularization of feature domains, which can reach 99 per cent. Using the regularized model we achieve model physical size shrinking of up to 82 per cent. The prediction time is cut by up to 84 per cent. Domains and models downsizing also allows enhancing feature engineering, through compact domain analysis and incremental inclusion of new features.
23

El trasvase interlingüístico de las metáforas en La casa de Bernarda Alba : Un estudio comparativo del español al sueco / The interlinguistic transfer of the metaphors in La casa de Bernarda Alba : A comparative study from spanish to swedish

Höljö, Nikolina January 2016 (has links)
En esta tesina se analiza las diferencias entre las metáforas en La casa de Bernarda Alba y sus equivalentes en una traducción sueca. Nuestros análisis se basan en la teoría sobre las metáforas conceptuales de Lakoff y Johnson (1980) con su enfoque cognitivista, además de la teoría de Gottlob Frege y sus ideas sobre sentido y significado, en el momento de compararlas. Las metáforas traducidas presentan una variedad de maneras en la traducción de la metáfora: traducir la metáfora literalmente, sustituirla por otra metáfora en la lengua meta, traducirla como metáfora que no lo era en el original y sustituir la metáfora de la lengua origen por un símil en la lengua meta. Sin embargo, el trasvase interlingüístico de la metáfora, en muchos casos, no logra mantener las connotaciones de la lengua original, algo que muestra la influencia cultural pero que significa una pérdida de las connotaciones originales. El efecto positivo, por otra parte, es una mayor accesibilidad de las metáforas para los lectores suecos.
24

Structural analysis of protein interaction networks

Campagna, Anne 17 February 2012 (has links)
Interactions between proteins give rise to many functions in cells. In the lastdecade, highthroughput experiments have identified thousands of protein interactions, which are often represented together as large protein interaction networks. However, the classical way of representing interaction networks, as nodes and edges, is too limited to take dynamic properties such as compatible and mutually exclusive interactions into account. In this work, we study protein interaction networks using structural information. More specifically, the analysis of protein interfaces in threedimensional protein structures enables us to identify which interfaces are compatible and which are not. Based on this principle, we have implemented a method, which aims at the analysis of protein interaction networks from a structural point of view by (1) predicting possible binary interactions for proteins that have been found in complex experimentally and (2) identifying possible mutually exclusive and compatible complexes. We validated our method by using positive and negative reference sets from literature and set up an assay to benchmark the identification of compatible and mutually exclusive structural interactions. In addition, we reconstructed the protein interaction network associated with the G proteincoupled receptor Rhodopsin and defined related functional submodules by combining interaction data with structural analysis of the network. Besides its established role in vision, our results suggest that Rhodopsin triggers two additional signaling pathways towards (1) cytoskeleton dynamics and (2) vesicular trafficking. / Las funciones de las proteínas resultan de la manera con la que interaccionan entre ellas. Los experimentos de alto rendimiento han permitido identificar miles de interacciones de proteínas que forman parte de redes grandes y complejas. En esta tesis, utilizamos la información de estructuras de proteínas para estudiar las redes de interacciones de proteínas. Con esta información, se puede entender como las proteínas interaccionan al nivel molecular y con este conocimiento se puede identificar las interacciones que pueden ocurrir al mismo tiempo de las que están incompatibles. En base a este principio, hemos desarrollado un método que permite estudiar las redes de interacciones de proteínas con un punto de vista mas dinámico de lo que ofrecen clásicamente. Además, al combinar este método con minería de la literatura y Los datos de la proteomica hemos construido la red de interacciones de proteínas asociada con la Rodopsina, un receptor acoplado a proteínas G y hemos identificado sus sub--‐módulos funcionales. Estos análisis surgieron una novel vıa de señalización hacia la regulación del citoesqueleto y el trafico vesicular por Rodopsina, además de su papel establecido en la visión.
25

Characterization of cytotoxic ribonucleases: from the internalization pathway to the importance of dimeric structures

Rodríguez Maynou, Montserrat 15 December 2006 (has links)
En aquesta tesi s'ha caracteritzat la ruta d'internalització de l'onconasa, una RNasa citotòxica. Els resultats indiquen que l'onconasa entra a les cèl·lules per la via dependent de clatrina i del complex AP-2. Seguidament es dirigeix als endosomes de reciclatge i es a través d'aquesta ruta que la proteïna exerceix la citotoxicitat. Per altra banda, els resultats d'aquest treball demostren que PE5, una variant citotòxica de la ribonucleasa pancreàtica humana (HP-RNasa), interacciona amb la importina  mitjançant diferents residus que tot i que no són seqüencials, es troben propers en l'estructura tridimensional d'aquesta proteïna. PM8 és una HP-RNasa amb estructura cristal·logràfica dimèrica constituïda per intercanvi de dominis N-terminals. En aquesta tesi s'han establert les condicions per estabilitzar aquest dimer en solució i també es proposa un mecanisme per la dimerització. / In this thesis it has been characterized the internalization pathway of onconase, which is a cytotoxic ribonuclease. The results show that onconase enters cells using AP-2/clathrin mediated pathway and then is routed to the recycling endosomes. In addition, the results show that this is the route used by onconase to perform its cytotoxicity. On the other hand, the results indicate that PE5, a cytotoxic human pancreatic ribonuclease (HP-RNase), interacts with importin α using different residues that although they are scattered along the sequence, they are close in the three-dimensional structure of the protein. PM8 constitutes a crystallographic dimer by the exchange of the N-terminal domains. In this thesis it has been investigated the solution conditions that favour the dimeric form and it is proposed a dimerization process of this variant. Finally, the pattern of substrate cleavage is studied by HP-RNase.
26

[en] EFFICIENT FLUID SIMULATION IN THE PARAMETRIC SPACE OF THREE-DIMENSIONAL STRUCTURED GRIDS / [pt] SIMULAÇÃO EFICIENTE DE FLUIDOS NO ESPAÇO PARAMÉTRICO DE MALHAS ESTRUTURADAS TRIDIMENSIONAIS

VITOR BARATA RIBEIRO BLANCO BARROSO 13 January 2017 (has links)
[pt] Fluidos são extremamente comuns em nosso mundo e têm papel central em muitos fenômenos naturais. A compreensão de seu comportamento tem importância fundamental em uma vasta gama de aplicações e diversas áreas de pesquisa, da análise de fluxo sanguíneo até o transporte de petróleo, da exploração do fluxo de um rio até a previsão de maremotos, tempestades e furacões. Na simulação de fluidos, a abordagem conhecida como Euleriana é capaz de gerar resultados bastante corretos e precisos, mas as computações envolvidas podem se tornar excessivamente custosas quando há a necessidade de tratar fronteiras curvas e obstáculos com formas complexas. Este trabalho aborda esse problema e apresenta uma técnica Euleriana rápida e direta para simular o escoamento de fluidos em grades estruturadas parametrizadas tridimensionais. O principal objetivo do método é tratar de forma correta e eficiente as interações de fluidos com fronteiras curvas, incluindo paredes externas e obstáculos internos. Para isso, são utilizadas matrizes Jacobianas por célula para relacionar as derivadas de campos escalares e vetoriais nos espaços do mundo e paramétrico, o que permite a resolução das equações de Navier-Stokes diretamente no segundo, onde a discretização do domínio torna-se simplesmente uma grade uniforme. O trabalho parte de um simulador baseado em grades regulares e descreve como adaptá-lo com a aplicação das matrizes Jacobianas em cada passo, incluindo a resolução de equações de Poisson e dos sistemas lineares esparsos associados, utilizando tanto iterações de Jacobi quanto o método do Gradiente Biconjugado Estabilizado. A técnica é implementada na linguagem de programação CUDA e procura explorar ao máximo a arquitetura massivamente paralela das placas gráficas atuais. / [en] Fluids are extremely common in our world and play a central role in many natural phenomena. Understanding their behavior is of great importance to a broad range of applications and several areas of research, from blood flow analysis to oil transportation, from the exploitation of river flows to the prediction of tidal waves, storms and hurricanes. When simulating fluids, the so-called Eulerian approach can generate quite correct and precise results, but the computations involved can become excessively expensive when curved boundaries and obstacles with complex shapes need to be taken into account. This work addresses this problem and presents a fast and straightforward Eulerian technique to simulate fluid flows in three-dimensional parameterized structured grids. The method s primary design goal is the correct and efficient handling of fluid interactions with curved boundary walls and internal obstacles. This is accomplished by the use of per-cell Jacobian matrices to relate field derivatives in the world and parameter spaces, which allows the Navier-Stokes equations to be solved directly in the latter, where the domain discretization becomes a simple uniform grid. The work builds on a regular-grid-based simulator and describes how to apply Jacobian matrices to each step, including the solution of Poisson equations and the related sparse linear systems using both Jacobi iterations and a Biconjugate Gradient Stabilized solver. The technique is implemented efficiently in the CUDA programming language and strives to take full advantage of the massively parallel architecture of today s graphics cards.
27

Integration Policies and Real Integration : A study of Moroccan immigrants in the Valencian Community in Spain

Yusseff-Vanegas, Nahyma January 2020 (has links)
The research on the integration of immigrants has become important during the last decades and the ways of measuring the integration of immigrants became more specific and specialized. In this study, the integration of Moroccan immigrants in the Valencian Autonomous Community of Spain was selected, considering that it is one of the most numerous foreign conglomerates and the one that contribute most to the economy of the Valencian Community.   The study aims to investigate whether Moroccan immigrants are integrated into the Valencian Community and what is the role of government integration plans to achieve this integration. This study was divided into two stages, first, an analysis of the plans to know the rights and guarantees of Moroccan immigrants in the Valencian Community and second, a field study where Moroccan immigrants were interviewed to know their level of interaction with the host society.   The study takes the Spencer and Charsley Domain Model, to analyze the integration processes of Moroccan immigrants through different domains, such as social, structural, cultural, civic, or in relation to identity. During fieldwork, interviews were conducted using specific measurement indicators, such as the level of participation in the labor market, access to training and education, the level of social interaction with the community, the change of values or in their lifestyle and the sense of belonging to the host country, among others. Also, the gender and age of the immigrants were considered.   The study concludes that the integration plans have an important role in the integration process by providing an equal opportunity base for immigrants. However, Moroccan immigrants, have weak ties at a cultural and social level with Spain, despite expressing their willingness to stay in Spain. / La investigación sobre la integración de los inmigrantes ha cobrado importancia durante las últimas décadas. A su vez las formas de medir la integración de los inmigrantes se han vuelto más específicas y especializadas. En este estudio se seleccionó la integración de inmigrantes marroquíes en la Comunidad Valenciana de España, considerando que es uno de los conglomerados extranjeros más numerosos y el que mas aporta a la economía de dicha comunidad.Este estudio tiene como objetivo investigar si los inmigrantes marroquíes están integrados en la Comunidad Valenciana y cuál es el rol de los planes de integración gubernamentales en esa integración. La investigación se dividió en dos etapas, en primer lugar, un análisis de los planes para conocer los derechos y garantías de los inmigrantes marroquíes en la Comunidad Valenciana, y en segundo lugar, un estudio de campo donde se entrevistó a los inmigrantes marroquíes para conocer su nivel de interacción con la sociedad de acogida.El estudio toma el Modelo de Dominio de Spencer y Charsley, para analizar los procesos de integración de los inmigrantes marroquíes a través de diferentes dominios como el social, estructural, cultural, el cívico y en lo concerniente a su identidad. Durante el trabajo de campo se realizaron entrevistas utilizando indicadores de medición específicos, tales como el nivel de participación en el mercado laboral, el acceso a la formación y educación, el nivel de interacción social con la comunidad, el cambio en sus valores o en su estilo de vida y el sentido de pertenencia con el país anfitrión. Además, se consideró el género y la edad de los inmigrantes entre otros factores.El estudio concluye que los planes de integración tienen un papel importante en el proceso de integración al brindar una base de igualdad de oportunidades para los inmigrantes. Sin embargo, los inmigrantes marroquíes, tienen lazos débiles a nivel cultural y social con España a pesar de manifestar su voluntad de permanecer en el país.
28

Role of the regulation of cell lipid composition and membrane structure in the antitumor effect of 2-hydroxyoleic acid

Laura Martin, Maria 26 October 2011 (has links)
El ácido 2-hidroxioleico (2OHOA) es un fármaco antitumoral diseñado para regular la estructura y composición de los lípidos de membrana y la función de importantes proteínas de membrana. El objetivo principal de este trabajo fue estudiar cómo el 2OHOA modula la composición lipídica y la estructura de membrana en las células tumorales. Se observó que el 2OHOA indujo profundas alteraciones en el contenido de fosfolípidos, aumentando el contenido de esfingomielina y disminuyendo el contenido de fosfatidiletanolamina y fosfatidilcolina. Este efecto fue específico contra las células cancerosas, ya que el tratamiento no afectó la composición lipídica de las células no tumorales MRC-5 de fibroblastos humanos. El aumento de SM se debió a una activación rápida y específica de las SM sintasas. Como consecuencia de la activación sostenida de la SMS, todo el metabolismo de los esfingolípidos se vio afectado. Finalmente, se evaluó el impacto de todos estos cambios sobre las propiedades biofísicas de membrana mediante espectroscopia de fluorescencia / 2-Hydroxyoleic acid (2OHOA) is a potent antitumor drug that was designed to regulate membrane lipid composition and structure and the function of important membrane proteins. The main goal of this work was to study how 2OHOA modulates the membrane lipid composition and structure of tumor cells. 2OHOA induced dramatic alterations in phospholipid content, increasing sphingomyelin mass, and decreasing phosphatidyl-ethanolamine and phosphatidylcholine. This effect was specific against cancer cells as it did not affect non-tumor MRC-5 cells. The increased SM mass was due to a rapid and highly specific activation of SM synthases. As a consequence of the sustained activation of SMS, the whole sphingolipid metabolism was affected. Then, the impact of all these changes on membrane biophysical properties was evaluated by fluorescence spectroscopy
29

On Clustering and Evaluation of Narrow Domain Short-Test Corpora

Pinto Avendaño, David Eduardo 23 July 2008 (has links)
En este trabajo de tesis doctoral se investiga el problema del agrupamiento de conjuntos especiales de documentos llamados textos cortos de dominios restringidos. Para llevar a cabo esta tarea, se han analizados diversos corpora y métodos de agrupamiento. Mas aún, se han introducido algunas medidas de evaluación de corpus, técnicas de selección de términos y medidas para la validez de agrupamiento con la finalidad de estudiar los siguientes problemas: -Determinar la relativa dificultad de un corpus para ser agrupado y estudiar algunas de sus características como longitud de los textos, amplitud del dominio, estilometría, desequilibrio de clases y estructura. -Contribuir en el estado del arte sobre el agrupamiento de corpora compuesto de textos cortos de dominios restringidos El trabajo de investigación que se ha llevado a cabo se encuentra parcialmente enfocado en el "agrupamiento de textos cortos". Este tema se considera relevante dado el modo actual y futuro en que las personas tienden a usar un "lenguaje reducido" constituidos por textos cortos (por ejemplo, blogs, snippets, noticias y generación de mensajes de textos como el correo electrónico y el chat). Adicionalmente, se estudia la amplitud del dominio de corpora. En este sentido, un corpus puede ser considerado como restringido o amplio si el grado de traslape de vocabulario es alto o bajo, respectivamente. En la tarea de categorización, es bastante complejo lidiar con corpora de dominio restringido tales como artículos científicos, reportes técnicos, patentes, etc. El objetivo principal de este trabajo consiste en estudiar las posibles estrategias para tratar con los siguientes dos problemas: a) las bajas frecuencias de los términos del vocabulario en textos cortos, y b) el alto traslape de vocabulario asociado a dominios restringidos. Si bien, cada uno de los problemas anteriores es un reto suficientemente alto, cuando se trata con textos cortos de dominios restringidos, la complejidad del problema se incr / Pinto Avendaño, DE. (2008). On Clustering and Evaluation of Narrow Domain Short-Test Corpora [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/2641 / Palancia
30

Advanced techniques for domain adaptation in Statistical Machine Translation

Chinea Ríos, Mara 04 March 2019 (has links)
[ES] La Traducción Automática Estadística es un sup-campo de la lingüística computacional que investiga como emplear los ordenadores en el proceso de traducción de un texto de un lenguaje humano a otro. La traducción automática estadística es el enfoque más popular que se emplea para construir estos sistemas de traducción automáticos. La calidad de dichos sistemas depende en gran medida de los ejemplos de traducción que se emplean durante los procesos de entrenamiento y adaptación de los modelos. Los conjuntos de datos empleados son obtenidos a partir de una gran variedad de fuentes y en muchos casos puede que no tengamos a mano los datos más adecuados para un dominio específico. Dado este problema de carencia de datos, la idea principal para solucionarlo es encontrar aquellos conjuntos de datos más adecuados para entrenar o adaptar un sistema de traducción. En este sentido, esta tesis propone un conjunto de técnicas de selección de datos que identifican los datos bilingües más relevantes para una tarea extraídos de un gran conjunto de datos. Como primer paso en esta tesis, las técnicas de selección de datos son aplicadas para mejorar la calidad de la traducción de los sistemas de traducción bajo el paradigma basado en frases. Estas técnicas se basan en el concepto de representación continua de las palabras o las oraciones en un espacio vectorial. Los resultados experimentales demuestran que las técnicas utilizadas son efectivas para diferentes lenguajes y dominios. El paradigma de Traducción Automática Neuronal también fue aplicado en esta tesis. Dentro de este paradigma, investigamos la aplicación que pueden tener las técnicas de selección de datos anteriormente validadas en el paradigma basado en frases. El trabajo realizado se centró en la utilización de dos tareas diferentes de adaptación del sistema. Por un lado, investigamos cómo aumentar la calidad de traducción del sistema, aumentando el tamaño del conjunto de entrenamiento. Por otro lado, el método de selección de datos se empleó para crear un conjunto de datos sintéticos. Los experimentos se realizaron para diferentes dominios y los resultados de traducción obtenidos son convincentes para ambas tareas. Finalmente, cabe señalar que las técnicas desarrolladas y presentadas a lo largo de esta tesis pueden implementarse fácilmente dentro de un escenario de traducción real. / [CAT] La Traducció Automàtica Estadística és un sup-camp de la lingüística computacional que investiga com emprar els ordinadors en el procés de traducció d'un text d'un llenguatge humà a un altre. La traducció automàtica estadística és l'enfocament més popular que s'empra per a construir aquests sistemes de traducció automàtics. La qualitat d'aquests sistemes depèn en gran mesura dels exemples de traducció que s'empren durant els processos d'entrenament i adaptació dels models. Els conjunts de dades emprades són obtinguts a partir d'una gran varietat de fonts i en molts casos pot ser que no tinguem a mà les dades més adequades per a un domini específic. Donat aquest problema de manca de dades, la idea principal per a solucionar-ho és trobar aquells conjunts de dades més adequades per a entrenar o adaptar un sistema de traducció. En aquest sentit, aquesta tesi proposa un conjunt de tècniques de selecció de dades que identifiquen les dades bilingües més rellevants per a una tasca extrets d'un gran conjunt de dades. Com a primer pas en aquesta tesi, les tècniques de selecció de dades són aplicades per a millorar la qualitat de la traducció dels sistemes de traducció sota el paradigma basat en frases. Aquestes tècniques es basen en el concepte de representació contínua de les paraules o les oracions en un espai vectorial. Els resultats experimentals demostren que les tècniques utilitzades són efectives per a diferents llenguatges i dominis. El paradigma de Traducció Automàtica Neuronal també va ser aplicat en aquesta tesi. Dins d'aquest paradigma, investiguem l'aplicació que poden tenir les tècniques de selecció de dades anteriorment validades en el paradigma basat en frases. El treball realitzat es va centrar en la utilització de dues tasques diferents. D'una banda, investiguem com augmentar la qualitat de traducció del sistema, augmentant la grandària del conjunt d'entrenament. D'altra banda, el mètode de selecció de dades es va emprar per a crear un conjunt de dades sintètiques. Els experiments es van realitzar per a diferents dominis i els resultats de traducció obtinguts són convincents per a ambdues tasques. Finalment, cal assenyalar que les tècniques desenvolupades i presentades al llarg d'aquesta tesi poden implementar-se fàcilment dins d'un escenari de traducció real. / [EN] La Traducció Automàtica Estadística és un sup-camp de la lingüística computacional que investiga com emprar els ordinadors en el procés de traducció d'un text d'un llenguatge humà a un altre. La traducció automàtica estadística és l'enfocament més popular que s'empra per a construir aquests sistemes de traducció automàtics. La qualitat d'aquests sistemes depèn en gran mesura dels exemples de traducció que s'empren durant els processos d'entrenament i adaptació dels models. Els conjunts de dades emprades són obtinguts a partir d'una gran varietat de fonts i en molts casos pot ser que no tinguem a mà les dades més adequades per a un domini específic. Donat aquest problema de manca de dades, la idea principal per a solucionar-ho és trobar aquells conjunts de dades més adequades per a entrenar o adaptar un sistema de traducció. En aquest sentit, aquesta tesi proposa un conjunt de tècniques de selecció de dades que identifiquen les dades bilingües més rellevants per a una tasca extrets d'un gran conjunt de dades. Com a primer pas en aquesta tesi, les tècniques de selecció de dades són aplicades per a millorar la qualitat de la traducció dels sistemes de traducció sota el paradigma basat en frases. Aquestes tècniques es basen en el concepte de representació contínua de les paraules o les oracions en un espai vectorial. Els resultats experimentals demostren que les tècniques utilitzades són efectives per a diferents llenguatges i dominis. El paradigma de Traducció Automàtica Neuronal també va ser aplicat en aquesta tesi. Dins d'aquest paradigma, investiguem l'aplicació que poden tenir les tècniques de selecció de dades anteriorment validades en el paradigma basat en frases. El treball realitzat es va centrar en la utilització de dues tasques diferents d'adaptació del sistema. D'una banda, investiguem com augmentar la qualitat de traducció del sistema, augmentant la grandària del conjunt d'entrenament. D'altra banda, el mètode de selecció de dades es va emprar per a crear un conjunt de dades sintètiques. Els experiments es van realitzar per a diferents dominis i els resultats de traducció obtinguts són convincents per a ambdues tasques. Finalment, cal assenyalar que les tècniques desenvolupades i presentades al llarg d'aquesta tesi poden implementar-se fàcilment dins d'un escenari de traducció real. / Chinea Ríos, M. (2019). Advanced techniques for domain adaptation in Statistical Machine Translation [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/117611 / TESIS

Page generated in 0.0547 seconds