Spelling suggestions: "subject:"comparable.""
1 |
Looking for heterogeneous firms : sources and implications for financial statement usersColas, Baptiste 02 February 2024 (has links)
Cette thèse s’intéresse à la sélection de comparables dans le contexte de la comptabilité financière. Dans ce contexte, l’analyse de firmes se fait de façon relative, en comparaison avec d’autres firmes semblables — les « comparables ». Ainsi, il est nécessaire de former des groupes homogènes de firmes à ces fins. L’utilisation des classifications d’industries est la méthode privilégiée, car elle permet de grouper les firmes sur des critères objectifs et en lien avec le cœur de l’activité des firmes. Elles présentent l’avantage d’être très largement disponible, et très simples à utiliser. Dans cette thèse l’objectif principal est d’identifier des sources d’hétérogénéité intra-industrie, et d’examiner leurs conséquences à plusieurs niveaux. J’utilise trois approches différentes pour atteindre cet objectif. Dans un premier temps, l’objectif est de proposer une utilisation plus complète des classifications d’industries. Ainsi, j’utilise exclusivement les classifications d’industries pour identifier une source d’hétérogénéité : les industry classification misfits. La littérature précédente a pour habitude d’utiliser les différentes classifications comme des substituts l’une de l’autre, considérant qu’elles groupent les firmes sur la même dimension d’homogénéité. Ici, je prends une approche différente et considère ces classifications comme des compléments l’une de l’autre, en argumentant qu’elles possèdent le même objectif (former des groupes homogènes de firmes), mais qu’elles le font sur des dimensions différentes de l’homogénéité. Ainsi, en étudiant leur convergence j’identifie les industry classification misfits par opposition à celles appartenant au cœur de l’industrie (industry core firms). Ultimement, je montre les biais qu’engendre l’inclusion des industry classification misfits dans les groupes de comparables pour l’estimation des modèles d’accruals et la prédiction des misstatements. Dans un second temps, l’objectif est d’intégrer l’utilisation des ratios comptables et financiers pour identifier les firmes hétérogènes. Je pars de la classification qui offre la plus grande homogénéité pour développer une mesure continue d’homogénéité intra-industrie. J’utilise les ratios comptables et financiers qui sont régulièrement utilisés pour mesurer l’homogénéité d’un groupe de firmes. Contrairement aux études précédentes qui utilisent individuellement ces ratios, je propose une approche multidimensionnelle à l’homogénéité. Dans une première étape, je définis les ratios pertinents pour définir chacune des industries, puis j’utilise simultanément ces ratios pour construire ma mesure continue de distance intra-industrie entre chacune des firmes. Ainsi, je présente les firmes étant les plus éloignées du cœur de l’industrie comme des firmes différenciées (differentiated firms). Ensuite, j’étudie les conséquences sur les marchés financiers pour ces firmes. Je montre que les nouvelles d’industries sont incorporées dans les prix des firmes différenciées avec un retard. Aussi, je montre que les analystes couvrent moins ces firmes et commettent plus d’erreurs dans la prédiction des bénéfices de ces firmes. Enfin, je montre que les firmes différenciées souffrent d’une asymétrie de l’information plus importante sur les marchés, ce qui se matérialise par un plus grand écart bid-ask et une action moins liquide. Enfin, dans un troisième temps, l’objectif est d’utiliser les liens entre les industries pour mieux caractériser les firmes multisegments. Je m’intéresse à une source naturelle d’hétérogénéité intra-industrie — les conglomérats. Par définition, ces firmes opèrent dans plusieurs industries différentes, mais la construction des classifications d’industries restreint leur classification à une industrie. Ceci crée donc naturellement de l’hétérogénéité au sein des industries ce qui amène à les considérer comme complexes, notamment pour les analystes qui se spécialisent par industries. Habituellement, les études précédentes ont considéré que plus une compagnie possède de segments d’affaires différents, plus elle sera complexe. Dans ce chapitre, j’apporte une nuance sur leur complexité en prenant en compte le lien entre les différentes industries dans lesquelles opèrent les conglomérats. Je développe une mesure de distance entre les industries basée sur les ratios financiers. Ainsi, je considère les segments d’affaires comme complexes uniquement ceux qui sont éloignés du cœur d’activité de la firme. Par conséquent, deux conglomérats possédant le même nombre de segments d’affaires peuvent être complexes ou non, dépendamment si leurs activités secondaires sont dans une industrie proche de leur activité première. Ultimement, je montre les conséquences de ces firmes pour les analystes. Mes résultats dévoilent que les analystes ont plus de mal à prédire les bénéfices des conglomérats complexe. / This thesis focuses on the selection of peer firms in the context of financial accounting. In this context, the analysis of firms is done cross-sectionally, in comparison with other similar firms – peer firms. Thus, it is necessary to form homogeneous groups of firms for these purposes. Industry classifications represent the most used method because it proposes an objective way to group firms based on their business activities. In addition, they present the advantage of being publicly available and easy to implement. In this thesis, the main objective is to identify sources of intra-industry heterogeneity, and to examine their consequences for several stakeholders. I provide three ways to fulfill this objective. First, I aim to provide a more complete exploitation of the information provided by industry classifications. Thus, I exclusively use them to identify a source of heterogeneity: industry classification misfits. Previous literature tends to consider industry classifications as substitutes for each other, assuming that they group firms on the same dimension of homogeneity. Here, I take a different approach and consider these classifications as complements arguing that they have the same objective (to form homogeneous groups of firms), but that they do it on different dimension of homogeneity. Thus, by studying their convergence I identify firms that are not systematically classified into the same peer group by industry classifications. I refer to them as industry classification misfits as opposed to those belonging to the heart of industry (industry core firms). Ultimately, I show the consequences of the inclusion of industry classification misfits in peer groups for the estimation of accrual models and the prediction of misstatements. Then, the main objective is to build on fundamental ratios to identify heterogeneous firms. I start from the classification which offers the greatest homogeneity (GICS) to develop a continuous measure of intra-industry homogeneity. I use accounting and financial ratios which are regularly utilized to measure the homogeneity of peer groups. Unlike previous studies which bring these ratios individually, I propose a multidimensional approach to homogeneity. In a first step, I select the relevant ratios that define each industry. These ratios are then used simultaneously to build my continuous measure of intra-industry distance between each firm belonging to the same industry. Ultimately, I present the firms that are furthest from the industry core as differentiated firms. Then, I study the consequences on financial markets for these firms. I show that industry news is incorporated into differentiated firms stock prices with a delay. Also, I show that analysts are less willing to cover these firms and make more mistakes in forecasting differentiated firms’ earnings. Finally, I show that differentiated firms suffer from asymmetric information on the stock market, which occurs as a larger bid-ask spreads and less liquid stocks. Finally, I aim to account for the industry relatedness to better characterize multi-segment firms. I focus on a natural source of intra-industry heterogeneity - conglomerates. These firms operate in several different industries through secondary business segments, but the construction of industry classifications restricts their classification to solely one industry. Therefore, it naturally creates heterogeneity within industries which leads to consider them as complex, especially for analysts who specialize in industries. Usually, previous studies have considered that the more business segments a company has, the more complex it will be. In this chapter, I add a nuance to this proxy for complexity by considering the relatedness between the industry membership of the secondary business segments in which conglomerates operate. I develop an inter-industry distance based on financial ratios to consider the relationship between industries. Thus, I regard business segments as complex only those that are unrelated to the conglomerate primary business segment. Therefore, two conglomerates sharing the same number of business segments are not systematically equally complex as it depends on whether their secondary activities are in an industry close to their primary activity. Ultimately, I show the consequences of complex business segments for financial analysts. My results show that conglomerates with complex business segments have harder earnings to predict.
|
2 |
Mesures de comparabilité pour la construction assistée de corpus comparables bilingues thématiquesKe, Guiyao 26 February 2014 (has links) (PDF)
Les corpus comparables thématiques regroupent des textes issus d¡¯un même thème et rédigés dans plusieurs langues, fortement similaires mais ne comprenant pas de traductions mutuelles. Par rapport aux corpus parallèles qui regroupent des paires de traductions, les corpus comparables présentent trois avantages: premièrement, ce sont des ressources riches et larges : en volume et en période couverte; deuxièmement, les corpus comparables fournissent des ressources linguistiques originales et thématiques. Enfin, ils sont moins coûteux à développer que les corpus parallèles. Avec le développement considérable du WEB, une matière première très abondante est exploitable pour la construction de corpus comparables. En contre-partie, la qualité des corpus comparables est essentielle pour leur utilisation dans différents domaines tels que la traduction automatique ou assistée, l¡¯extraction de terminologies bilingues, la recherche d¡¯information multilingue, etc. L¡¯objectif de ce travail de thèse est de développer une approche méthodologique et un outillage informatique pour fournir une assistance à la construction des corpus comparables bilingues et thématiques de ? bonne qualité ?, à partir du WEB et à la demande. Nous présentons tout d¡¯abord la notion de mesure de comparabilité qui associe deux espaces linguistiques et, à partir d¡¯une mesure quantitative de comparabilité de référence, nous proposons deux variantes, qualifiées de comparabilité thématique, que nous évaluons suivant un protocole basé sur la dégradation progressive d¡¯un corpus parallèle. Nous proposons ensuite une nouvelle méthode pour améliorer le co-clustering et la co-classification de documents bilingues, ainsi que l¡¯alignement des clusters comparables. Celle-ci fusionne des similarités natives définies dans chacun des espaces linguistiques avec des similarités induites par la mesure de comparabilité utilisée. Enfin, nous proposons une démarche intégrée basée sur les contributions précédemment évoquées afin d¡¯assister la construction, à partir du WEB, de corpus comparables bilingues thématiques de qualité. Cette démarche comprend une étape de validation manuelle pour garantir la qualité de l¡¯alignement des clusters comparables. En jouant sur le seuil de comparabilité d¡¯alignement, différents corpus comparables associés à des niveaux de comparabilité variables peuvent être fournis en fonction des besoins spécifiés. Les expérimentations que nous avons menées sur des Flux RSS issus de grands quotidiens internationaux apparaissent pertinentes et prometteuses.
|
3 |
Lexique-grammaire et Unitex : quels apports pour une description terminologique bilingue de qualité ? : analyse sur deux corpus comparables de médecine thermale / Lexicon-grammar and Unitex : are they suitable for a bilingual terminological description? : analysis on two comparable corpora of thermal medecineCetro, Rosa 05 April 2013 (has links)
La terminologie est une science qui étudie les termes, ces unités lexicales véhiculant un sens spécialisé dans un discours scientifique ou technique. Constituée en science dans la première moitié du XXe siècle, la terminologie est un terrain interdisciplinaire qui se nourrit des apports de la linguistique, de la logique et de l'informatique. C'est surtout grâce à cette dernière qu'elle a pu se développer considérablement. Le lexique-grammaire est une méthode de description linguistique strictement empirique d'inspiration harrissienne qui a vu le jour en France à la fin des années 1960. La description linguistique a été menée en parallèle avec la réalisation d'outils informatiques nécessaires à la formalisation et à l'exploitation de ces données, parmi lesquels il y a aussi le logiciel Unitex (Paumier, 2002). Tant le lexique-grammaire que le logiciel Unitex présentent un potentiel intéressant, largement inexploité, pour la terminologie. Dans ce travail, nous nous proposons d'évaluer les apports des méthodes liées au lexique-grammaire et au logiciel Unitex à une description terminologique bilingue de qualité. Après avoir défini des critères de qualité d'une description terminologique, nous menons cette évaluation sur deux corpus comparables ayant trait à la médecine thermale, en français et en italien / Terminology is the science concerned with the study of the terms, those lexical units thatpossess a specialized meaning within a scientific or technical context. Established as ascience in the first half of 20th century, terminology is an interdisciplinary field takingadvantage of contributions from linguistics, logics, and informatics. This latter in particularhas allowed significant developments in terminology. Lexicon-grammar is an empirical method of linguistic description inspired by the works of Zellig S. Harris, which has been founded by the French linguist Maurice Gross at the end of the 1960s. Linguistic description has been carried out in parallel with the development of informatics tools able to formalise and exploit linguistic data, including the software Unitex (Paumier, 2002). Both lexicon-grammar and Unitex have an interesting, largely unexploited potential for further developments in terminology. In this work, we assess the contributions brought by lexicon-grammar and Unitex to a high-profile bilingual terminological description. After defining quality criteria for such terminological description, we carry out our evaluation on two comparable corpora specific of thermal medicine, both in French and in Italian
|
4 |
Alignement multilingue en corpus comparables spécialisésProchasson, Emmanuel 17 December 2009 (has links) (PDF)
Les corpus comparables rassemblent des documents multilingues n'étant pas en relation de traduction mais partageant des traits communs. Notre travail porte sur l'extraction de lexique bilingue à partir de ces corpus, c'est-à-dire la reconnaissance et l'alignement d'un vocabulaire commun multilingue disponible dans le corpus. Nous nous concentrons sur les corpus comparables spécialisés, c'est-à-dire des corpus constitués de documents révélateurs de la terminologie utilisée dans les langues de spécialité. Nous travaillons sur des corpus médicaux, l'un deux couvre la thématique du diabète et de l'alimentation, en français, anglais et japonais; l'autre couvre la thématique du cancer du sein, en anglais et en français. Nous proposons et évaluons différentes améliorations du processus d'alignement, en particulier dans le cas délicat de la langue japonaise. Nous prolongeons ce manuscrit par une réflexion sur la nature des corpus comparables et la notion de comparabilité.
|
5 |
Lexique-grammaire et Unitex : quels apports pour une description terminologique bilingue de qualité ? Analyse sur deux corpus comparables de médecine thermale.Cetro, Rosa 05 April 2013 (has links) (PDF)
La terminologie est une science qui étudie les termes, ces unités lexicales véhiculant un sens spécialisé dans un discours scientifique ou technique. Constituée en science dans la première moitié du XXe siècle, la terminologie est un terrain interdisciplinaire qui se nourrit des apports de la linguistique, de la logique et de l'informatique. C'est surtout grâce à cette dernière qu'elle a pu se développer considérablement. Le lexique-grammaire est une méthode de description linguistique strictement empirique d'inspiration harrissienne qui a vu le jour en France à la fin des années 1960. La description linguistique a été menée en parallèle avec la réalisation d'outils informatiques nécessaires à la formalisation et à l'exploitation de ces données, parmi lesquels il y a aussi le logiciel Unitex (Paumier, 2002). Tant le lexique-grammaire que le logiciel Unitex présentent un potentiel intéressant, largement inexploité, pour la terminologie. Dans ce travail, nous nous proposons d'évaluer les apports des méthodes liées au lexique-grammaire et au logiciel Unitex à une description terminologique bilingue de qualité. Après avoir défini des critères de qualité d'une description terminologique, nous menons cette évaluation sur deux corpus comparables ayant trait à la médecine thermale, en français et en italien.
|
6 |
Découverte et caractérisation des corpus comparables spécialisésGoeuriot, Lorraine 30 January 2009 (has links) (PDF)
Les corpus comparables rassemblent des textes dans plusieurs langues qui ne sont pas des traductions mais partagent certaines caractéristiques. Ces corpus présentent l'avantage d'être représentatifs des particularités culturelles et linguistiques de chaque langue. Le Web peut théoriquement être considéré comme un réservoir à corpus comparables mais la qualité des corpus et des ressources qui en sont extraites réside dans la définition préalable des objectifs du corpus et du soin mis à sa composition (les caractéristiques communes aux textes dans le cas des corpus comparables). Notre travail porte sur la constitution de corpus comparables spécialisés en français et japonais dont les documents sont extraits du Web. Nous en proposons une définition et des caractéristiques communes : un domaine de spécialité, un thème et un type de discours (scientifique ou vulgarisé). Notre objectif est de créer un système d'aide à la construction de corpus comparables. Nous présentons d'abord la reconnaissance automatique des caractéristiques communes du corpus. Le thème peut être détecté grâce aux mots-clés utilisés lors de la recherche. Pour le type de discours nous utilisons les méthodes d'apprentissage automatique. Une analyse stylistique sur un corpus d'apprentissage nous permet de créer une typologie bilingue composée de trois niveaux d'analyse : structurel, modal et lexical. Nous l'utilisons ensuite afin d'apprendre un modèle de classification avec les systèmes SVMlight et C4.5. Ces modèles sont ensuite évalués sur un corpus d'évaluation et permettent de classer correctement plus de 70 % des documents dans les deux langues. Nous intégrons ensuite le classifieur au sein d'une chaîne logicielle d'aide à la construction de corpus comparables implémentée sur la plateforme UIMA.
|
7 |
Extraction de lexiques bilingues à partir de corpus comparablesHazem, Amir 11 October 2013 (has links) (PDF)
La plupart des travaux en acquisition de lexiques bilingues à partir de corpus comparables reposent sur l'hypothèse distributionnelle qui a été étendue au scénario bilingue. Deux mots ont de fortes chances d'être en relation de traduction s'ils apparaissent dans les mêmes contextes lexicaux. Ce postulat suppose donc une définition claire et rigoureuse du contexte et une connaissance parfaite des indices contextuels. Or, la complexité et les spécificités de chaque langue font qu'il n'est pas aisé d'énoncer une telle définition qui garantisse une extraction de couples de traductions, efficace dans tous les cas de figure. Toute la difficulté réside dans la manière de définir, d'extraire et de comparer ces contextes dans le but de construire des lexiques bilingues fiables. Nous nous efforcerons tout au long des différents chapitres de cette thèse à essayer de mieux comprendre cette notion de contexte, pour ensuite l'étendre et l'adapter afin d'améliorer la qualité des lexiques bilingues. Une première partie des contributions vise à améliorer l'approche directe qui fait office de référence dans la communauté. Nous proposerons plusieurs manières d'aborder le contexte des mots pour mieux les caractériser. Dans la deuxième partie des contributions, nous commencerons par présenter une approche qui vise à améliorer l'approche par similarité inter-langue. Ensuite, une méthode nommée Q-Align, directement inspirée des systèmes de question/réponse sera présentée. Enfin, nous présenterons plusieurs transformations mathématiques et donc plusieurs représentations vectorielles, pour nous concentrer essentiellement sur celles que nous aurons choisi pour développer une nouvelle méthode d'alignement.
|
8 |
Mesurer et améliorer la qualité des corpus comparablesBo, Li 26 June 2012 (has links) (PDF)
Les corpus bilingues sont des ressources essentielles pour s'affranchir de la barrière de la langue en traitement automatique des langues (TAL) dans un contexte multilingue. La plupart des travaux actuels utilisent des corpus parallèles qui sont surtout disponibles pour des langues majeurs et pour des domaines spécifiques. Les corpus comparables, qui rassemblent des textes comportant des informations corrélées, sont cependant moins coûteux à obtenir en grande quantité. Plusieurs travaux antérieurs ont montré que l'utilisation des corpus comparables est bénéfique à différentes taches en TAL. En parallèle à ces travaux, nous proposons dans cette thèse d'améliorer la qualité des corpus comparables dans le but d'améliorer les performances des applications qui les exploitent. L'idée est avantageuse puisqu'elle peut être utilisée avec n'importe quelle méthode existante reposant sur des corpus comparables. Nous discuterons en premier la notion de comparabilité inspirée des expériences d'utilisation des corpus bilingues. Cette notion motive plusieurs implémentations de la mesure de comparabilité dans un cadre probabiliste, ainsi qu'une méthodologie pour évaluer la capacité des mesures de comparabilité à capturer un haut niveau de comparabilité. Les mesures de comparabilité sont aussi examinées en termes de robustesse aux changements des entrées du dictionnaire. Les expériences montrent qu'une mesure symétrique s'appuyant sur l'entrelacement du vocabulaire peut être corrélée avec un haut niveau de comparabilité et est robuste aux changements des entrées du dictionnaire. En s'appuyant sur cette mesure de comparabilité, deux méthodes nommées: greedy approach et clustering approach, sont alors développées afin d'améliorer la qualité d'un corpus comparable donnée. L'idée générale de ces deux méthodes est de choisir une sous partie du corpus original qui soit de haute qualité, et d'enrichir la sous-partie de qualité moindre avec des ressources externes. Les expériences montrent que l'on peut améliorer avec ces deux méthodes la qualité en termes de score de comparabilité d'un corpus comparable donnée, avec la méthode clustering approach qui est plus efficace que la method greedy approach. Le corpus comparable ainsi obtenu, permet d'augmenter la qualité des lexiques bilingues en utilisant l'algorithme d'extraction standard. Enfin, nous nous penchons sur la tâche d'extraction d'information interlingue (Cross-Language Information Retrieval, CLIR) et l'application des corpus comparables à cette tâche. Nous développons de nouveaux modèles CLIR en étendant les récents modèles proposés en recherche d'information monolingue. Le modèle CLIR montre de meilleurs performances globales. Les lexiques bilingues extraits à partir des corpus comparables sont alors combinés avec le dictionnaire bilingue existant, est utilisé dans les expériences CLIR, ce qui induit une amélioration significative des systèmes CLIR.
|
9 |
Mesurer et améliorer la qualité des corpus comparables / Measuring and Improving Comparable Corpus QualityLi, Bo 26 June 2012 (has links)
Les corpus bilingues sont des ressources essentielles pour s'affranchir de la barrière de la langue en traitement automatique des langues (TAL) dans un contexte multilingue. La plupart des travaux actuels utilisent des corpus parallèles qui sont surtout disponibles pour des langues majeurs et pour des domaines spécifiques. Les corpus comparables, qui rassemblent des textes comportant des informations corrélées, sont cependant moins coûteux à obtenir en grande quantité. Plusieurs travaux antérieurs ont montré que l'utilisation des corpus comparables est bénéfique à différentes taches en TAL. En parallèle à ces travaux, nous proposons dans cette thèse d'améliorer la qualité des corpus comparables dans le but d'améliorer les performances des applications qui les exploitent. L'idée est avantageuse puisqu'elle peut être utilisée avec n'importe quelle méthode existante reposant sur des corpus comparables. Nous discuterons en premier la notion de comparabilité inspirée des expériences d'utilisation des corpus bilingues. Cette notion motive plusieurs implémentations de la mesure de comparabilité dans un cadre probabiliste, ainsi qu'une méthodologie pour évaluer la capacité des mesures de comparabilité à capturer un haut niveau de comparabilité. Les mesures de comparabilité sont aussi examinées en termes de robustesse aux changements des entrées du dictionnaire. Les expériences montrent qu'une mesure symétrique s'appuyant sur l'entrelacement du vocabulaire peut être corrélée avec un haut niveau de comparabilité et est robuste aux changements des entrées du dictionnaire. En s'appuyant sur cette mesure de comparabilité, deux méthodes nommées: greedy approach et clustering approach, sont alors développées afin d'améliorer la qualité d'un corpus comparable donnée. L'idée générale de ces deux méthodes est de choisir une sous partie du corpus original qui soit de haute qualité, et d'enrichir la sous-partie de qualité moindre avec des ressources externes. Les expériences montrent que l'on peut améliorer avec ces deux méthodes la qualité en termes de score de comparabilité d'un corpus comparable donnée, avec la méthode clustering approach qui est plus efficace que la method greedy approach. Le corpus comparable ainsi obtenu, permet d'augmenter la qualité des lexiques bilingues en utilisant l'algorithme d'extraction standard. Enfin, nous nous penchons sur la tâche d'extraction d'information interlingue (Cross-Language Information Retrieval, CLIR) et l'application des corpus comparables à cette tâche. Nous développons de nouveaux modèles CLIR en étendant les récents modèles proposés en recherche d'information monolingue. Le modèle CLIR montre de meilleurs performances globales. Les lexiques bilingues extraits à partir des corpus comparables sont alors combinés avec le dictionnaire bilingue existant, est utilisé dans les expériences CLIR, ce qui induit une amélioration significative des systèmes CLIR. / Bilingual corpora are an essential resource used to cross the language barrier in multilingual Natural Language Processing (NLP) tasks. Most of the current work makes use of parallel corpora that are mainly available for major languages and constrained areas. Comparable corpora, text collections comprised of documents covering overlapping information, are however less expensive to obtain in high volume. Previous work has shown that using comparable corpora is beneficent for several NLP tasks. Apart from those studies, we will try in this thesis to improve the quality of comparable corpora so as to improve the performance of applications exploiting them. The idea is advantageous since it can work with any existing method making use of comparable corpora. We first discuss in the thesis the notion of comparability inspired from the usage experience of bilingual corpora. The notion motivates several implementations of the comparability measure under the probabilistic framework, as well as a methodology to evaluate the ability of comparability measures to capture gold-standard comparability levels. The comparability measures are also examined in terms of robustness to dictionary changes. The experiments show that a symmetric measure relying on vocabulary overlapping can correlate very well with gold-standard comparability levels and is robust to dictionary changes. Based on the comparability measure, two methods, namely the greedy approach and the clustering approach, are then developed to improve the quality of any given comparable corpus. The general idea of these two methods is to choose the highquality subpart from the original corpus and to enrich the low-quality subpart with external resources. The experiments show that one can improve the quality, in terms of comparability scores, of the given comparable corpus by these two methods, with the clustering approach being more efficient than the greedy approach. The enhanced comparable corpus further results in better bilingual lexicons extracted with the standard extraction algorithm. Lastly, we investigate the task of Cross-Language Information Retrieval (CLIR) and the application of comparable corpora in CLIR. We develop novel CLIR models extending the recently proposed information-based models in monolingual IR. The information-based CLIR model is shown to give the best performance overall. Bilingual lexicons extracted from comparable corpora are then combined with the existing bilingual dictionary and used in CLIR experiments, which results in significant improvement of the CLIR system.
|
10 |
Alignement lexical en corpus comparables : le cas des composés savants et des adjectifs relationnelsHarastani, Rima 10 February 2014 (has links) (PDF)
Notre travail concerne l'extraction automatique d'une liste de termes alignés avec leurs traductions (c'est-à-dire un lexique bilingue spécialisé) à partir d'un corpus comparable dans un domaine de spécialité. Un corpus comparable comprend des textes écrits dans deux langues différentes sans aucune relation de traduction entre eux mais dont les textes appartiennent à un même domaine. Les contributions de cette thèse portent sur l'amélioration de la qualité d'un lexique bilingue spécialisé extrait à partir d'un corpus comparable. Nous proposons des méthodes consacrées à la traduction de deux types de termes, qui ont des caractéristiques en commun entre plusieurs langues ou qui posent par leur nature des problèmes pour la traduction : les composés savants (termes contenant au moins une racine gréco-latine) et les termes composés d'un nom et un adjectif relationnel. Nous développons également une méthode, qui exploite des contextes riches en termes spécifiques au domaine du corpus, pour réordonner dans un lexique bilingue spécialisé des traductions candidates fournies pour un terme. Les expériences sont réalisées en utilisant deux corpus comparables spécialisés (dans les domaines du cancer du sein et des énergies renouvelables), sur les langues français, anglais, allemand et espagnol.
|
Page generated in 0.0934 seconds