Global ETD Search

11	Lexique-grammaire et Unitex : quels apports pour une description terminologique bilingue de qualité ? : analyse sur deux corpus comparables de médecine thermale / Lexicon-grammar and Unitex : are they suitable for a bilingual terminological description? : analysis on two comparable corpora of thermal medecine Cetro, Rosa 05 April 2013 (has links) La terminologie est une science qui étudie les termes, ces unités lexicales véhiculant un sens spécialisé dans un discours scientifique ou technique. Constituée en science dans la première moitié du XXe siècle, la terminologie est un terrain interdisciplinaire qui se nourrit des apports de la linguistique, de la logique et de l'informatique. C'est surtout grâce à cette dernière qu'elle a pu se développer considérablement. Le lexique-grammaire est une méthode de description linguistique strictement empirique d'inspiration harrissienne qui a vu le jour en France à la fin des années 1960. La description linguistique a été menée en parallèle avec la réalisation d'outils informatiques nécessaires à la formalisation et à l'exploitation de ces données, parmi lesquels il y a aussi le logiciel Unitex (Paumier, 2002). Tant le lexique-grammaire que le logiciel Unitex présentent un potentiel intéressant, largement inexploité, pour la terminologie. Dans ce travail, nous nous proposons d'évaluer les apports des méthodes liées au lexique-grammaire et au logiciel Unitex à une description terminologique bilingue de qualité. Après avoir défini des critères de qualité d'une description terminologique, nous menons cette évaluation sur deux corpus comparables ayant trait à la médecine thermale, en français et en italien / Terminology is the science concerned with the study of the terms, those lexical units thatpossess a specialized meaning within a scientific or technical context. Established as ascience in the first half of 20th century, terminology is an interdisciplinary field takingadvantage of contributions from linguistics, logics, and informatics. This latter in particularhas allowed significant developments in terminology. Lexicon-grammar is an empirical method of linguistic description inspired by the works of Zellig S. Harris, which has been founded by the French linguist Maurice Gross at the end of the 1960s. Linguistic description has been carried out in parallel with the development of informatics tools able to formalise and exploit linguistic data, including the software Unitex (Paumier, 2002). Both lexicon-grammar and Unitex have an interesting, largely unexploited potential for further developments in terminology. In this work, we assess the contributions brought by lexicon-grammar and Unitex to a high-profile bilingual terminological description. After defining quality criteria for such terminological description, we carry out our evaluation on two comparable corpora specific of thermal medicine, both in French and in Italian Unitex Lexique-Grammiare Terminologie Corpus comparables Médecine thermale Unitex Lexicon-Grammar Terminology Comparable corpora Thermalism
12	On the application of focused crawling for statistical machine translation domain adaptation Laranjeira, Bruno Rezende January 2015 (has links) O treinamento de sistemas de Tradução de Máquina baseada em Estatística (TME) é bastante dependente da disponibilidade de corpora paralelos. Entretanto, este tipo de recurso costuma ser difícil de ser encontrado, especialmente quando lida com idiomas com poucos recursos ou com tópicos muito específicos, como, por exemplo, dermatologia. Para contornar esta situação, uma possibilidade é utilizar corpora comparáveis, que são recursos muito mais abundantes. Um modo de adquirir corpora comparáveis é a aplicação de algoritmos de Coleta Focada (CF). Neste trabalho, são propostas novas abordagens para CF, algumas baseadas em n-gramas e outras no poder expressivo das expressões multipalavra. Também são avaliadas a viabilidade do uso de CF para realização de adaptação de domínio para sistemas genéricos de TME e se há alguma correlação entre a qualidade dos algoritmos de CF e dos sistemas de TME que podem ser construídos a partir dos respectivos dados coletados. Os resultados indicam que algoritmos de CF podem ser bons meios para adquirir corpora comparáveis para realizar adaptação de domínio para TME e que há uma correlação entre a qualidade dos dois processos. / Statistical Machine Translation (SMT) is highly dependent on the availability of parallel corpora for training. However, these kinds of resource may be hard to be found, especially when dealing with under-resourced languages or very specific domains, like the dermatology. For working this situation around, one possibility is the use of comparable corpora, which are much more abundant resources. One way of acquiring comparable corpora is to apply Focused Crawling (FC) algorithms. In this work we propose novel approach for FC algorithms, some based on n-grams and other on the expressive power of multiword expressions. We also assess the viability of using FC for performing domain adaptations for generic SMT systems and whether there is a correlation between the quality of the FC algorithms and of the SMT systems that can be built with its collected data. Results indicate that the use of FCs is, indeed, a good way for acquiring comparable corpora for SMT domain adaptation and that there is a correlation between the qualities of both processes. Linguística computacional Estatística aplicada Focused crawling Statistical machine translation Domain adaptation Comparable corpora
13	Integración del factor de homologación del método de mercado empleado en la valuación de la vivienda unifamiliar en Mazatlán, Sinaloa, México Méndez Álvarez, Jose Luis Maria 07 June 2010 (has links) El objetivo de esta tesis, consiste en la búsqueda de un Sistema Valuatorio, que permita ser utilizado de forma eficiente y de fácil manejo en el Método Comparativo ó de Mercado, para ser utilizado en la valoración de la Vivienda Unifamiliar en la ciudad de Mazatlán, Sinaloa, México.Actualmente en México, a la Valuación ciertos sectores económicos no la consideran una ciencia, esto debido al desconocimiento que se tiene del trabajo valuatorio, así como a los dictámenes de valor, que necesitan ser revisados y autorizados por una Sociedad Hipotecaria, para que adquieran valor probatorio ante las instituciones bancarias. Por lo que es necesario señalar lo siguiente; que la valuación cuenta con elementos ordenados sistemáticamente, Ya que tiene: "Objeto definido: inmuebles, muebles, usufructos y derechos; Terminología propia. Conceptos definidos; Metodología básica y niveles de precisión, preconizados en Normas; Y Criterios y directrices para la elaboración de trabajos, preconizados en Normas."Cabe señalar, que el estudio de la valuación ha ocupado durante años, el trabajo de estudiosos e Instituciones de prestigio, quienes han realizado innumerables estudios y trabajos, con toda la rigidez metodológica de una ciencia. Sin olvidar la influencia que tiene la teoría del valor en la valuación de bienes raíces, ya que el Método de Coste está adoptando de la Escuela Clásica, dándose más énfasis sobre el costo de reposición que sobre el de reproducción. El Método de Ingreso que se aplica actualmente es el que toma a la utilidad como medida de valor (Escuela Austriaca, Von Bohm- Bawerk). Y el Método de Mercado es el que presta atención preferencial a las fuerzas del mercado que actúan a corto plazo sobre la oferta y la demanda (Menger, Escuela Austriaca).EL MÉTODO DE MERCADO es quizás el más utilizado en la valuación inmobiliaria, independientemente del sistema que utilice, ya sea; Método de Comparación de Campbell, Sistema de Factores de Homogenización, Regresión Múltiple, Análisis de Varianza, o Sistema de Homologación entre otros. Este último sistema de fácil manejo, es él menos utilizado y difundido hoy en día, ya que el empleo de sus "factores", no han sido considerados en forma correcta, por los valuadores que lo emplean, ya que son ellos quienes determinan, que factores utilizar y sus valores.Y es en base a estas inconsistencias, que motivaron la realización del siguiente estudio, cuyo objetivo será la búsqueda de un factor integrador, que considere las características más significativas (Superficie de terreno, superficie construida, edad, Estado de Conservación, Calidad de Proyecto, calidad de Construcción, Zona de Ubicación, Equipamiento Urbano, Calidad de Vialidad), que permitan llegar a un valor de la vivienda, más justo y fundamentado, a través de un proceso matemático auxiliado por la estadística y la ingeniería de costos. Encontrando en el Sistema de Homologación la representación, de esa herramienta tan anhelada que consiste; En el proceso en base al cual se pretende hacer comparables dos o más bienes inmuebles que por sus características son parecidos pero no idénticos, para que con base en los datos de mercado, y sus características obtenidas de cada uno de ellos (comparables), se pueda llegar una conclusión respecto al valor del bien analizado (sujeto).Al lograr poner en práctica el Sistema de Homologación, para ser utilizada en el Método de Mercado, se estará cumpliendo con el objetivo de contar con un Método Valuatorio que permite conocer de forma rápida y menos subjetiva, el valor de la vivienda unifamiliar. Ya que al utilizar de forma clara y puntual los elementos más significativos que dan valor a un bien inmueble, se estará ofreciendo confianza y seguridad a quién contrate los servicios de un valuador profesional. Este Sistema también es ideal para la valuación masiva, pudiéndose emplear de forma óptima, por los Catastros. tasación tasador valor de mercado método de comparación con el mercado 72
14	Extração multilíngue de termos multipalavra em corpora comparáveis Prestes, Kassius Vargas January 2015 (has links) Este trabalho investiga técnicas de extração de termos multipalavra a partir de corpora comparáveis, que são conjuntos de textos em duas (ou mais) línguas sobre o mesmo domínio. A extração de termos, especialmente termos multipalavra é muito importante para auxiliar a criação de terminologias, ontologias e o aperfeiçoamento de tradutores automáticos. Neste trabalho utilizamos um corpus comparável português/inglês e queremos encontrar termos e seus equivalentes em ambas as línguas. Para isso começamos com a extração dos termos separadamente em cada língua, utilizando padrões morfossintáticos para identificar os n-gramas (sequências de n palavras) mais prováveis de serem termos importantes para o domínio. A partir dos termos de cada língua, utilizamos o contexto, isto é, as palavras que ocorrem no entorno dos termos para comparar os termos das diferentes línguas e encontrar os equivalentes bilíngues. Tínhamos como objetivos principais neste trabalho fazer a identificação monolíngue de termos, aplicar as técnicas de alinhamento para o português e avaliar os diferentes parâmetros de tamanho e tipo (PoS utilizados) de janela para a extração de contexto. Esse é o primeiro trabalho a aplicar essa metodologia para o Português e apesar da falta de alguns recursos léxicos e computacionais (como dicionários bilíngues e parsers) para essa língua, conseguimos alcançar resultados comparáveis com o estado da arte para trabalhos em Francês/Inglês. / This work investigates techniques for multiword term extraction from comparable corpora, which are sets of texts in two (or more) languages about the same topic. Term extraction, specially multiword terms is very important to help the creation of terminologies, ontologies and the improvement of machine translation. In this work we use a comparable corpora Portuguese/ English and want to find terms and their equivalents in both languages. To do this we start with separate term extraction for each language. Using morphossintatic patterns to identify n-grams (sequences of n words) most likely to be important terms of the domain. From the terms of each language, we use their context, i. e., the words that occurr around the term to compare the terms of different languages and to find the bilingual equivalents. We had as main goals in this work identificate monolingual terms, apply alignment techniques for Portuguese and evaluate the different parameters of size and type (used PoS) of window to the context extraction. This is the first work to apply this methodology to Portuguese and in spite of the lack of lexical and computational resources (like bilingual dictionaries and parsers) for this language, we achieved results comparable to state of the art in French/English. Processamento : Linguagem natural Língua portuguesa Natural language processing Term extraction Multilingual alignment Comparable corpora alignment Corpus
15	On the application of focused crawling for statistical machine translation domain adaptation Laranjeira, Bruno Rezende January 2015 (has links) O treinamento de sistemas de Tradução de Máquina baseada em Estatística (TME) é bastante dependente da disponibilidade de corpora paralelos. Entretanto, este tipo de recurso costuma ser difícil de ser encontrado, especialmente quando lida com idiomas com poucos recursos ou com tópicos muito específicos, como, por exemplo, dermatologia. Para contornar esta situação, uma possibilidade é utilizar corpora comparáveis, que são recursos muito mais abundantes. Um modo de adquirir corpora comparáveis é a aplicação de algoritmos de Coleta Focada (CF). Neste trabalho, são propostas novas abordagens para CF, algumas baseadas em n-gramas e outras no poder expressivo das expressões multipalavra. Também são avaliadas a viabilidade do uso de CF para realização de adaptação de domínio para sistemas genéricos de TME e se há alguma correlação entre a qualidade dos algoritmos de CF e dos sistemas de TME que podem ser construídos a partir dos respectivos dados coletados. Os resultados indicam que algoritmos de CF podem ser bons meios para adquirir corpora comparáveis para realizar adaptação de domínio para TME e que há uma correlação entre a qualidade dos dois processos. / Statistical Machine Translation (SMT) is highly dependent on the availability of parallel corpora for training. However, these kinds of resource may be hard to be found, especially when dealing with under-resourced languages or very specific domains, like the dermatology. For working this situation around, one possibility is the use of comparable corpora, which are much more abundant resources. One way of acquiring comparable corpora is to apply Focused Crawling (FC) algorithms. In this work we propose novel approach for FC algorithms, some based on n-grams and other on the expressive power of multiword expressions. We also assess the viability of using FC for performing domain adaptations for generic SMT systems and whether there is a correlation between the quality of the FC algorithms and of the SMT systems that can be built with its collected data. Results indicate that the use of FCs is, indeed, a good way for acquiring comparable corpora for SMT domain adaptation and that there is a correlation between the qualities of both processes. Linguística computacional Estatística aplicada Focused crawling Statistical machine translation Domain adaptation Comparable corpora
16	On the application of focused crawling for statistical machine translation domain adaptation Laranjeira, Bruno Rezende January 2015 (has links) O treinamento de sistemas de Tradução de Máquina baseada em Estatística (TME) é bastante dependente da disponibilidade de corpora paralelos. Entretanto, este tipo de recurso costuma ser difícil de ser encontrado, especialmente quando lida com idiomas com poucos recursos ou com tópicos muito específicos, como, por exemplo, dermatologia. Para contornar esta situação, uma possibilidade é utilizar corpora comparáveis, que são recursos muito mais abundantes. Um modo de adquirir corpora comparáveis é a aplicação de algoritmos de Coleta Focada (CF). Neste trabalho, são propostas novas abordagens para CF, algumas baseadas em n-gramas e outras no poder expressivo das expressões multipalavra. Também são avaliadas a viabilidade do uso de CF para realização de adaptação de domínio para sistemas genéricos de TME e se há alguma correlação entre a qualidade dos algoritmos de CF e dos sistemas de TME que podem ser construídos a partir dos respectivos dados coletados. Os resultados indicam que algoritmos de CF podem ser bons meios para adquirir corpora comparáveis para realizar adaptação de domínio para TME e que há uma correlação entre a qualidade dos dois processos. / Statistical Machine Translation (SMT) is highly dependent on the availability of parallel corpora for training. However, these kinds of resource may be hard to be found, especially when dealing with under-resourced languages or very specific domains, like the dermatology. For working this situation around, one possibility is the use of comparable corpora, which are much more abundant resources. One way of acquiring comparable corpora is to apply Focused Crawling (FC) algorithms. In this work we propose novel approach for FC algorithms, some based on n-grams and other on the expressive power of multiword expressions. We also assess the viability of using FC for performing domain adaptations for generic SMT systems and whether there is a correlation between the quality of the FC algorithms and of the SMT systems that can be built with its collected data. Results indicate that the use of FCs is, indeed, a good way for acquiring comparable corpora for SMT domain adaptation and that there is a correlation between the qualities of both processes. Linguística computacional Estatística aplicada Focused crawling Statistical machine translation Domain adaptation Comparable corpora
17	Extração multilíngue de termos multipalavra em corpora comparáveis Prestes, Kassius Vargas January 2015 (has links) Este trabalho investiga técnicas de extração de termos multipalavra a partir de corpora comparáveis, que são conjuntos de textos em duas (ou mais) línguas sobre o mesmo domínio. A extração de termos, especialmente termos multipalavra é muito importante para auxiliar a criação de terminologias, ontologias e o aperfeiçoamento de tradutores automáticos. Neste trabalho utilizamos um corpus comparável português/inglês e queremos encontrar termos e seus equivalentes em ambas as línguas. Para isso começamos com a extração dos termos separadamente em cada língua, utilizando padrões morfossintáticos para identificar os n-gramas (sequências de n palavras) mais prováveis de serem termos importantes para o domínio. A partir dos termos de cada língua, utilizamos o contexto, isto é, as palavras que ocorrem no entorno dos termos para comparar os termos das diferentes línguas e encontrar os equivalentes bilíngues. Tínhamos como objetivos principais neste trabalho fazer a identificação monolíngue de termos, aplicar as técnicas de alinhamento para o português e avaliar os diferentes parâmetros de tamanho e tipo (PoS utilizados) de janela para a extração de contexto. Esse é o primeiro trabalho a aplicar essa metodologia para o Português e apesar da falta de alguns recursos léxicos e computacionais (como dicionários bilíngues e parsers) para essa língua, conseguimos alcançar resultados comparáveis com o estado da arte para trabalhos em Francês/Inglês. / This work investigates techniques for multiword term extraction from comparable corpora, which are sets of texts in two (or more) languages about the same topic. Term extraction, specially multiword terms is very important to help the creation of terminologies, ontologies and the improvement of machine translation. In this work we use a comparable corpora Portuguese/ English and want to find terms and their equivalents in both languages. To do this we start with separate term extraction for each language. Using morphossintatic patterns to identify n-grams (sequences of n words) most likely to be important terms of the domain. From the terms of each language, we use their context, i. e., the words that occurr around the term to compare the terms of different languages and to find the bilingual equivalents. We had as main goals in this work identificate monolingual terms, apply alignment techniques for Portuguese and evaluate the different parameters of size and type (used PoS) of window to the context extraction. This is the first work to apply this methodology to Portuguese and in spite of the lack of lexical and computational resources (like bilingual dictionaries and parsers) for this language, we achieved results comparable to state of the art in French/English. Processamento : Linguagem natural Língua portuguesa Natural language processing Term extraction Multilingual alignment Comparable corpora alignment Corpus
18	Extração multilíngue de termos multipalavra em corpora comparáveis Prestes, Kassius Vargas January 2015 (has links) Este trabalho investiga técnicas de extração de termos multipalavra a partir de corpora comparáveis, que são conjuntos de textos em duas (ou mais) línguas sobre o mesmo domínio. A extração de termos, especialmente termos multipalavra é muito importante para auxiliar a criação de terminologias, ontologias e o aperfeiçoamento de tradutores automáticos. Neste trabalho utilizamos um corpus comparável português/inglês e queremos encontrar termos e seus equivalentes em ambas as línguas. Para isso começamos com a extração dos termos separadamente em cada língua, utilizando padrões morfossintáticos para identificar os n-gramas (sequências de n palavras) mais prováveis de serem termos importantes para o domínio. A partir dos termos de cada língua, utilizamos o contexto, isto é, as palavras que ocorrem no entorno dos termos para comparar os termos das diferentes línguas e encontrar os equivalentes bilíngues. Tínhamos como objetivos principais neste trabalho fazer a identificação monolíngue de termos, aplicar as técnicas de alinhamento para o português e avaliar os diferentes parâmetros de tamanho e tipo (PoS utilizados) de janela para a extração de contexto. Esse é o primeiro trabalho a aplicar essa metodologia para o Português e apesar da falta de alguns recursos léxicos e computacionais (como dicionários bilíngues e parsers) para essa língua, conseguimos alcançar resultados comparáveis com o estado da arte para trabalhos em Francês/Inglês. / This work investigates techniques for multiword term extraction from comparable corpora, which are sets of texts in two (or more) languages about the same topic. Term extraction, specially multiword terms is very important to help the creation of terminologies, ontologies and the improvement of machine translation. In this work we use a comparable corpora Portuguese/ English and want to find terms and their equivalents in both languages. To do this we start with separate term extraction for each language. Using morphossintatic patterns to identify n-grams (sequences of n words) most likely to be important terms of the domain. From the terms of each language, we use their context, i. e., the words that occurr around the term to compare the terms of different languages and to find the bilingual equivalents. We had as main goals in this work identificate monolingual terms, apply alignment techniques for Portuguese and evaluate the different parameters of size and type (used PoS) of window to the context extraction. This is the first work to apply this methodology to Portuguese and in spite of the lack of lexical and computational resources (like bilingual dictionaries and parsers) for this language, we achieved results comparable to state of the art in French/English. Processamento : Linguagem natural Língua portuguesa Natural language processing Term extraction Multilingual alignment Comparable corpora alignment Corpus
19	Metody pro stanovení převodních cen v praxi / Methods of the transfer pricing identification in practise Plešingerová, Jana January 2008 (has links) This work focuses on methods of the transfer pricing identification, in connection with the possibility to find comparable independent data on the market. In the first part, the author describes the basic ideas and the main legislation resources both in the Czech Republic and internationally. It also describes the main methods of the transfer pricing identification mentioned in the Transfer Pricing Guideline. Second part examines the method's application, which depends mainly on the type of the controlled transaction as well as on the comparable data availibility. Third part relates to the model case, which shows in detail the complete process of the transfer pricing identification. Each process includes the functional analysis of related parties, choosing the best possible method and the comparable analysis, which focuses on the searching out the independent comparable companies.
20	Integrated Parallel Data Extraction from Comparable Corpora for Statistical Machine Translation / 統計的機械翻訳におけるコンパラブルコーパスからの対訳データの統合的抽出 Chu, Chenhui 23 March 2015 (has links) 京都大学 / 0048 / 新制・課程博士 / 博士(情報学) / 甲第19107号 / 情博第553号 / 新制\|\|情\|\|98(附属図書館) / 32058 / 京都大学大学院情報学研究科知能情報学専攻 / (主査)教授黒橋禎夫, 教授石田亨, 教授河原達也 / 学位規則第4条第1項該当 / Doctor of Informatics / Kyoto University / DFAM Statistical Machine Translation Comparable Corpora Bilingual Lexicon Extraction Parallel Sentence Extraction Parallel Fragment Extraction 007

Search results