Global ETD Search

21	Fouille de documents et d'opinions multilingue / Mining Documents and Sentiments in Cross-lingual Context Saad, Motaz 20 January 2015 (has links) L’objectif de cette thèse est d’étudier les sentiments dans les documents comparables. Premièrement, nous avons recueillis des corpus comparables en anglais, français et arabe de Wikipédia et d’Euronews, et nous avons aligné ces corpus au niveau document. Nous avons en plus collecté des documents d’informations des agences de presse locales et étrangères dans les langues anglaise et arabe. Les documents en anglais ont été recueillis du site de la BBC, ceux en arabe du site d’Al-Jazzera. Deuxièmement, nous avons présenté une mesure de similarité cross-linguistique des documents dans le but de récupérer et aligner automatiquement les documents comparables. Ensuite, nous avons proposé une méthode d’annotation cross-linguistique en termes de sentiments, afin d’étiqueter les documents source et cible avec des sentiments. Enfin, nous avons utilisé des mesures statistiques pour comparer l’accord des sentiments entre les documents comparables source et cible. Les méthodes présentées dans cette thèse ne dépendent pas d’une paire de langue bien déterminée, elles peuvent être appliquées sur toute autre couple de langue / The aim of this thesis is to study sentiments in comparable documents. First, we collect English, French and Arabic comparable corpora from Wikipedia and Euronews, and we align each corpus at the document level. We further gather English-Arabic news documents from local and foreign news agencies. The English documents are collected from BBC website and the Arabic documents are collected from Al-jazeera website. Second, we present a cross-lingual document similarity measure to automatically retrieve and align comparable documents. Then, we propose a cross-lingual sentiment annotation method to label source and target documents with sentiments. Finally, we use statistical measures to compare the agreement of sentiments in the source and the target pair of the comparable documents. The methods presented in this thesis are language independent and they can be applied on any language pair Fouille de textes Corpus comparable Recherche d’information inter-Langues Projection inter-Langues Analyse des sentiments Text mining Natural language processing Comparable corpus Cross-Lingual information retrieval Cross-Lingual projection Sentiment analysis 006.312
22	Extraction de corpus parallèle pour la traduction automatique depuis et vers une langue peu dotée / Extraction a parallel corpus for machine translation from and to under-resourced languages Do, Thi Ngoc Diep 20 December 2011 (has links) Les systèmes de traduction automatique obtiennent aujourd'hui de bons résultats sur certains couples de langues comme anglais – français, anglais – chinois, anglais – espagnol, etc. Les approches de traduction empiriques, particulièrement l'approche de traduction automatique probabiliste, nous permettent de construire rapidement un système de traduction si des corpus de données adéquats sont disponibles. En effet, la traduction automatique probabiliste est fondée sur l'apprentissage de modèles à partir de grands corpus parallèles bilingues pour les langues source et cible. Toutefois, la recherche sur la traduction automatique pour des paires de langues dites «peu dotés» doit faire face au défi du manque de données. Nous avons ainsi abordé le problème d'acquisition d'un grand corpus de textes bilingues parallèles pour construire le système de traduction automatique probabiliste. L'originalité de notre travail réside dans le fait que nous nous concentrons sur les langues peu dotées, où des corpus de textes bilingues parallèles sont inexistants dans la plupart des cas. Ce manuscrit présente notre méthodologie d'extraction d'un corpus d'apprentissage parallèle à partir d'un corpus comparable, une ressource de données plus riche et diversifiée sur l'Internet. Nous proposons trois méthodes d'extraction. La première méthode suit l'approche de recherche classique qui utilise des caractéristiques générales des documents ainsi que des informations lexicales du document pour extraire à la fois les documents comparables et les phrases parallèles. Cependant, cette méthode requiert des données supplémentaires sur la paire de langues. La deuxième méthode est une méthode entièrement non supervisée qui ne requiert aucune donnée supplémentaire à l'entrée, et peut être appliquée pour n'importe quelle paires de langues, même des paires de langues peu dotées. La dernière méthode est une extension de la deuxième méthode qui utilise une troisième langue, pour améliorer les processus d'extraction de deux paires de langues. Les méthodes proposées sont validées par des expériences appliquées sur la langue peu dotée vietnamienne et les langues française et anglaise. / Nowadays, machine translation has reached good results when applied to several language pairs such as English – French, English – Chinese, English – Spanish, etc. Empirical translation, particularly statistical machine translation allows us to build quickly a translation system if adequate data is available because statistical machine translation is based on models trained from large parallel bilingual corpora in source and target languages. However, research on machine translation for under-resourced language pairs always faces to the lack of training data. Thus, we have addressed the problem of retrieving a large parallel bilingual text corpus to build a statistical machine translation system. The originality of our work lies in the fact that we focus on under-resourced languages for which parallel bilingual corpora do not exist in most cases. This manuscript presents our methodology for extracting a parallel corpus from a comparable corpus, a richer and more diverse data resource over the Web. We propose three methods of extraction. The first method follows the classical approach using general characteristics of documents as well as lexical information of the document to retrieve both parallel documents and parallel sentence pairs. However, this method requires additional data of the language pair. The second method is a completely unsupervised method that does not require additional data and it can be applied to any language pairs, even under resourced language pairs. The last method deals with the extension of the second method using a third language to improve the extraction process (triangulation). The proposed methods are validated by a number of experiments applied on the under resourced Vietnamese language and the English and French languages. Langues peu dotées Traduction automatique probabiliste Extraction de données parallèles Corpus comparable Méthode non supervisée Triangulation Under resourced languages Statistical machine translation Mining parallel data Comparable corpus Unsupervised method Triangulation 004
23	Induction de lexiques bilingues à partir de corpus comparables et parallèles Jakubina, Laurent 07 1900 (has links) No description available. corpus parallèle corpus comparable alignement embedding représentation de mots reclassement supervisé induction lexique bilingue Parallel corpus Comparable corpus Alignment Bilingual lexicons induction Word representation Supervised reclassification
24	Převodní ceny a jejich implementace v rámci stávající legislativy v podniku v ČR / Implementation of the transfer pricing regulation of the Czech republic Kolář, Michal January 2009 (has links) This thesis was elaborated in the form of transfer pricing study and is focused on finding arm's length price for a particular Czech production company. According to the detailed description of companies under examination, analysis of their functional and risk profiles, comparable independent companies were found. The most appropriate method and indicator were chosen for calculation the transfer price. This thesis should help company under review to set up its transfer pricing system and it also should be taken into account by a tax authority in case of tax audit.
25	A identificação de termos de Maçonaria simbólica usando corpora comparáveis Veiga, Alexandre Trigo 16 September 2014 (has links) Made available in DSpace on 2016-04-28T18:22:55Z (GMT). No. of bitstreams: 1 Alexandre Trigo Veiga.pdf: 1466775 bytes, checksum: 8e4e9f53a00dd032cb2884acc23dcdcf (MD5) Previous issue date: 2014-09-16 / The present research was developed in order to present an alternative methodology for gathering and identifying terms from a specific area of studies in comparable corpora in Portuguese and English using computer tools designed for linguistic analysis. The selected specific area is Symbolic Freemasonry and the compiled corpora for this study are manuals and rituals used by freemasons during their works that are available in the Internet. The computer tools used for this research are the WordSmith Tools 6.0, the zExtractor and the SketchEngine. The terms identified as a result of this research will provide relevant data for developing a bilingual glossary of Symbolic Freemasonry to aid translators and proof-readers who specialize in masonic works / Esta pesquisa foi desenvolvida com o objetivo de apresentar uma metodologia alternativa para reunir e identificar termos de uma área específica em corpora comparáveis em português e inglês usando ferramentas computacionais de análise linguística. A área escolhida é a de Maçonaria Simbólica e os corpora compilados para este estudo são manuais e rituais utilizados pelos maçons em seus trabalhos disponíveis na Internet. As ferramentas computacionais usadas nesta pesquisa são o WordSmith Tools 6.0, o zExtractor e o SketchEngine. Os termos identificados como resultado desta pesquisa fornecerão dados relevantes para a elaboração de um glossário bilíngue para auxiliar tradutores e revisores que se especializam em obras maçônicas Linguística de corpus Terminologia Corpora comparáveis Maçonaria Corpus linguistics Terminology Comparable corpora Freemasonry
26	Evolução da produtividade da pecuária bovina leiteira em alguns Estados brasileiros: distribuição espacial e análise de convergência para o período de 1974 a 2016 / Evolution of dairy cattle productivity in some Brazilian states: spatial distribution and convergence analysis between 1974 and 2016 Cruz, Alice Aloísia da 04 July 2018 (has links) Nas últimas décadas, o setor de pecuária bovina leiteira vem passando por diversas modificações influenciadas por redução de número de produtores, mudanças de políticas macroeconômicas e agrícolas e abertura econômica do Brasil. A produção de leite aumentou significativamente ao longo dos anos. Entretanto, mesmo o Brasil sendo um dos maiores produtores do mundo de leite bovino, sua produtividade (medida em litros de leite por vaca) está bem abaixo da dos principais países que operam no mercado. A produtividade da atividade ganha destaque para viabilizar o aumento da produção, suprir a demanda interna e dar maior competitividade ao setor no mercado externo. Diante disso, objetiva-se, através dessa tese, analisar a evolução diferenciada, interestadual e intraestadual, da produtividade da pecuária bovina leiteira nos Estados de Goiás, Minas Gerais, Paraná, Rio Grande do Sul, Santa Catarina e São Paulo, no período de 1974 a 2016, com base em áreas mínimas comparáveis (AMC). Esses Estados representaram 77,5% da produção de leite no Brasil em 2016. Através da análise exploratória de dados espaciais foi identificada a existência de autocorrelação espacial, sendo que a produtividade da pecuária bovina leiteira de uma AMC sofre influência da produtividade das AMC vizinhas. Foram identificados clusters espaciais de produtividade dos tipos Alto-Alto, Baixo-Baixo, Alto-Baixo e Baixo-Alto em todos os Estados considerados ao longo do período em análise. A configuração e localização geográficas desses clusters sofreram alterações nos Estados, refletindo os deslocamentos da produção ocorridos. Posteriomente, passou-se para a análise de convergência no intuito de identificar se está ocorrendo redução na diferença entre as produtividades da pecuária bovina leiteira entre as AMC e se os efeitos espaciais contribuem para as convergências absoluta e condicional. Para tanto, fez-se uso da econometria espacial. Para a análise de convergência condicional foram incorporadas variáveis de primeira e segunda natureza, propostas na Nova Geografia Econômica. Tanto a análise da convergência absoluta quanto a da convergência condicional confirmam a hipótese de existência de convergência e demonstram o efeito de transbordamento, ou seja, os choques ocorridos em uma AMC refletem nas AMC vizinhas. Entretanto, a velocidade de convergência foi baixa nas duas situações, indicando que a redução das diferenças de produtividade está ocorrendo de forma muito lenta. A análise de convergência condicional mostrou que as características iniciais das AMC influenciam para qual ponto estacionário a produtividade da pecuária bovina leiteira irá convergir, sendo que as variáveis distância da capital, pluviosidade, população, Produto Interno Bruto, crédito rural de investimento para pecuária e área com culturas tiveram influência diferenciada nos Estados no processo de convergência da produtividade tanto no período analisado como um todo como nos subperíodos considerados na tese. / In recent decades, the dairy cattle sector has undergone changes influenced by decline in the number of producers, changes in government macroeconomic and agricultural policies, and the country\'s economic opening. Milk production has increased significantly over the years. Brazil is one of the world\'s largest producers of bovine milk; however, its productivity (measured in liters of milk per cow) is still lower than that found in other major milk producing countries. The productivity of the activity is important to enable the increase of production, supplying domestic demand and giving greater competitiveness in the external market. The objective of this thesis is to analyze the differentiated interstate and intrastate evolution of dairy cattle productivity in the Brazilian states of Goiás, Minas Gerais, Paraná, Rio Grande do Sul, Santa Catarina and São Paulo from 1974 through 2016 based on minimum comparable areas (MCA). These states accounted for 77.5% of Brazil\'s milk production in 2016. Exploratory spatial data analysis confirmed the existence of spatial autocorrelation indicting that dairy cattle productivity in an MCA is influenced by the productivity in neighboring MCA. Over the analyzed period, High-Low, Low-Low, High-Low, and Low-High productivity spatial clusters were identified in all studied states. The configuration and geographic location of these clusters underwent changes during the study period, reflecting production displacement. Convergence analysis using spatial econometrics was carried out to determine if the differences in dairy cattle productiveness among MCA were reduced over the period and if spatial effects contributed to any absolute or conditional convergence. First and second nature variables were employed for the analysis of conditional convergence, as proposed by the New Economic Geography. Both convergence analyses, absolute and conditional, confirmed the convergence hypothesis and demonstrated the overflow effect, in that shocks occurring in one MCA were reflected in neighboring MCA. However, the speed of convergence was low in both situations, indicating that productivity differences among the MCA were being reduced very slowly. The analysis of conditional convergence showed that the productivity of dairy farming in different MCA will tend to converge at the same stationary point if the MCA show similar initial values for selected variables. The selected variables are average yearly rainfall, population size, gross domestic product, and investment credit for livestock and rangeland acquisitions and are intended to represent conditions in each MCA and state at a specific time. Each variable had a differentiated influence on the process of productivity convergence over the period and subperiods considered in this thesis. Áreas mínimas comparáveis Convergência Econometria espacial Efeito transbordamento Minimum comparable areas New economic geography Overflow effect Spatial econometrics
27	Constitution de ressources linguistiques multilingues à partir de corpus de textes parallèles et comparables Bouamor, Dhouha 21 February 2014 (has links) (PDF) Les lexiques bilingues sont des ressources particulièrement utiles pour la Traduction Automatique et la Recherche d'Information Translingue. Leur construction manuelle nécessite une expertise forte dans les deux langues concernées et est un processus coûteux. Plusieurs méthodes automatiques ont été proposées comme une alternative, mais elles qui ne sont disponibles que dans un nombre limité de langues et leurs performances sont encore loin derrière la qualité des traductions manuelles.Notre travail porte sur l'extraction de ces lexiques bilingues à partir de corpus de textes parallèles et comparables, c'est à dire la reconnaissance et l'alignement d'un vocabulaire commun multilingue présent dans ces corpus. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Extraction de lexique bilingue Corpus parallèle Corpus comparable Alignement Traduction automatique statistique
28	Mesurer et améliorer la qualité des corpus comparables / Measuring and Improving Comparable Corpus Quality Li, Bo 26 June 2012 (has links) Les corpus bilingues sont des ressources essentielles pour s'affranchir de la barrière de la langue en traitement automatique des langues (TAL) dans un contexte multilingue. La plupart des travaux actuels utilisent des corpus parallèles qui sont surtout disponibles pour des langues majeurs et pour des domaines spécifiques. Les corpus comparables, qui rassemblent des textes comportant des informations corrélées, sont cependant moins coûteux à obtenir en grande quantité. Plusieurs travaux antérieurs ont montré que l'utilisation des corpus comparables est bénéfique à différentes taches en TAL. En parallèle à ces travaux, nous proposons dans cette thèse d'améliorer la qualité des corpus comparables dans le but d'améliorer les performances des applications qui les exploitent. L'idée est avantageuse puisqu'elle peut être utilisée avec n'importe quelle méthode existante reposant sur des corpus comparables. Nous discuterons en premier la notion de comparabilité inspirée des expériences d'utilisation des corpus bilingues. Cette notion motive plusieurs implémentations de la mesure de comparabilité dans un cadre probabiliste, ainsi qu'une méthodologie pour évaluer la capacité des mesures de comparabilité à capturer un haut niveau de comparabilité. Les mesures de comparabilité sont aussi examinées en termes de robustesse aux changements des entrées du dictionnaire. Les expériences montrent qu'une mesure symétrique s'appuyant sur l'entrelacement du vocabulaire peut être corrélée avec un haut niveau de comparabilité et est robuste aux changements des entrées du dictionnaire. En s'appuyant sur cette mesure de comparabilité, deux méthodes nommées: greedy approach et clustering approach, sont alors développées afin d'améliorer la qualité d'un corpus comparable donnée. L'idée générale de ces deux méthodes est de choisir une sous partie du corpus original qui soit de haute qualité, et d'enrichir la sous-partie de qualité moindre avec des ressources externes. Les expériences montrent que l'on peut améliorer avec ces deux méthodes la qualité en termes de score de comparabilité d'un corpus comparable donnée, avec la méthode clustering approach qui est plus efficace que la method greedy approach. Le corpus comparable ainsi obtenu, permet d'augmenter la qualité des lexiques bilingues en utilisant l'algorithme d'extraction standard. Enfin, nous nous penchons sur la tâche d'extraction d'information interlingue (Cross-Language Information Retrieval, CLIR) et l'application des corpus comparables à cette tâche. Nous développons de nouveaux modèles CLIR en étendant les récents modèles proposés en recherche d'information monolingue. Le modèle CLIR montre de meilleurs performances globales. Les lexiques bilingues extraits à partir des corpus comparables sont alors combinés avec le dictionnaire bilingue existant, est utilisé dans les expériences CLIR, ce qui induit une amélioration significative des systèmes CLIR. / Bilingual corpora are an essential resource used to cross the language barrier in multilingual Natural Language Processing (NLP) tasks. Most of the current work makes use of parallel corpora that are mainly available for major languages and constrained areas. Comparable corpora, text collections comprised of documents covering overlapping information, are however less expensive to obtain in high volume. Previous work has shown that using comparable corpora is beneficent for several NLP tasks. Apart from those studies, we will try in this thesis to improve the quality of comparable corpora so as to improve the performance of applications exploiting them. The idea is advantageous since it can work with any existing method making use of comparable corpora. We first discuss in the thesis the notion of comparability inspired from the usage experience of bilingual corpora. The notion motivates several implementations of the comparability measure under the probabilistic framework, as well as a methodology to evaluate the ability of comparability measures to capture gold-standard comparability levels. The comparability measures are also examined in terms of robustness to dictionary changes. The experiments show that a symmetric measure relying on vocabulary overlapping can correlate very well with gold-standard comparability levels and is robust to dictionary changes. Based on the comparability measure, two methods, namely the greedy approach and the clustering approach, are then developed to improve the quality of any given comparable corpus. The general idea of these two methods is to choose the highquality subpart from the original corpus and to enrich the low-quality subpart with external resources. The experiments show that one can improve the quality, in terms of comparability scores, of the given comparable corpus by these two methods, with the clustering approach being more efficient than the greedy approach. The enhanced comparable corpus further results in better bilingual lexicons extracted with the standard extraction algorithm. Lastly, we investigate the task of Cross-Language Information Retrieval (CLIR) and the application of comparable corpora in CLIR. We develop novel CLIR models extending the recently proposed information-based models in monolingual IR. The information-based CLIR model is shown to give the best performance overall. Bilingual lexicons extracted from comparable corpora are then combined with the existing bilingual dictionary and used in CLIR experiments, which results in significant improvement of the CLIR system. Corpus comparables Comparabilité Lexiques bilingues Recherche d’information interlingue Comparable corpora Comparability Bilingual lexicons Cross-language information retrieval
29	Ocenění sázkové kanceláře SAZKA a.s. / Business Valuation of the Company SAZKA a.s. Síleš, Radek January 2015 (has links) The aim of the master thesis is to assess market value of equity of SAZKA a.s. company as at January 1, 2015. There are used three various methods for the valuation because each of them stresses different aspects of valuation theory. There is used DCF equity method, comparable company analysis and liquidation value method. The thesis is divided into six parts. The first two parts summarize general information about valuation concept and company SAZKA a.s. Then follows a strategic analysis, a financial analysis, a prognosis of main economic measures and a financial plan. In the last chapter is carried out the valuation of equity of SAZKA a.s. company.
30	Ocenenie spoločnosti Pegas Nonwovens SA / Valuation of the company Pegas Nonwovens SA Šperňák, Filip January 2015 (has links) The aim of this thesis is the valuation of the company Pegas Nonwovens SA and estimates a fair market value of the share price. The thesis was split into two parts. The theoretical part describes all methods and fundamentals used in the practical part. The practical part starts with a strategic and a financial analysis that evaluate the current situation of the company and identifies main drivers of the equity value. Introduction of key value drivers provides a baseline for the financial plan and the CF projection and it is followed by the final valuation with discounted cash flow model using FCFF. In addition, comparable companies multiples are used as a supplementary valuation method and in the end the thesis also provides an investment recommendation.

Search results