Spelling suggestions: "subject:"multilingual information retrieval"" "subject:"multilinguals information retrieval""
1 |
Cross-Language Information Retrieval : En studie av lingvistiska problem och utvecklade översättningsmetoder för lösningar angående informationsåtervinning över språkliga gränser.Boström, Anna January 2004 (has links)
<p>Syftet med denna uppsats är att undersöka problem samt lösningar i relation till informationsåtervinning över språkliga gränser. Metoden som har använts i uppsatsen är studier av forskningsmaterial inom lingvistik samt främst den relativt nya forskningsdisciplinen Cross-Language Information Retrieval (CLIR). I uppsatsen hävdas att världens alla olikartade språk i dagsläget måste betraktas som ett angeläget problem för informationsvetenskapen, ty språkliga skillnader utgör ännu ett stort hinder för den internationella informationsåtervinning som tekniska framsteg, uppkomsten av Internet, digitala bibliotek, globalisering, samt stora politiska förändringar i ett flertal länder runtom i världen under de senaste åren tekniskt och teoretiskt sett har möjliggjort. I uppsatsens första del redogörs för några universellt erkända lingvistiska skillnader mellan olika språk – i detta fall främst med exempel från europeiska språk – och vanliga problem som dessa kan bidra till angående översättningar från ett språk till ett annat. I uppsatsen hävdas att dessa skillnader och problem även måste anses som relevanta när det gäller informationsåtervinning över språkliga gränser. Uppsatsen fortskrider med att ta upp ämnet Cross-Language Information Retrieval (CLIR), inom vilken lösningar på flerspråkighet och språkskillnader inom informationsåtervinning försöker utvecklas och förbättras. Målet med CLIR är att en informationssökare så småningom skall kunna söka information på sitt modersmål men ändå hitta relevant information på flera andra språk. Ett ytterligare mål är att den återfunna informationen i sin helhet även skall kunna översättas till ett för sökaren önskat språk. Fyra olika översättningsmetoder som i dagsläget finns utvecklade inom CLIR för att automatiskt kunna översätta sökfrågor, ämnesord, eller, i vissa fall, hela dokument åt en informationssökare med lite eller ingen alls kunskap om det språk som han eller hon söker information på behandlas därefter. De fyra metoderna – identifierade som maskinöversättning, tesaurus- och ordboksöversättning, korpusbaserad översättning, samt ingen översättning – diskuteras även i relation till de lingvistiska problem och skillnader som har tagits upp i uppsatsens första del. Resultatet visar att språk är någonting mycket komplext och att de olika metoderna som hittills finns utvecklade ofta kan lösa något eller några av de uppmärksammade lingvistiska översättningssvårigheterna. Dock finns det inte någon utvecklad metod som i dagsläget kan lösa samtliga problem. Uppsatsen uppmärksammar emellertid även att CLIR-forskarna i hög grad är medvetna om de nuvarande metodernas uppenbara begränsningar och att man prövar att lösa detta genom att försöka kombinera flera olika översättningsmetoder i ett CLIR-system. Avslutningsvis redogörs även för CLIR-forskarnas förväntningar och förhoppningar inför framtiden.</p> / <p>This essay deals with information retrieval across languages by examining different types of literature in the research areas of linguistics and multilingual information retrieval. The essay argues that the many different languages that co-exist around the globe must be recognised as an essential obstacle for information science. The language barrier today remains a major impediment for the expansion of international information retrieval otherwise made technically and theoretically possible over the last few years by new technical developments, the Internet, digital libraries, globalisation, and moreover many political changes in several countries around the world. The first part of the essay explores linguistic differences and difficulties related to general translations from one language to another, using examples from mainly European languages. It is suggested that these problems and differences also must be acknowledged and regarded as highly important when it comes to information retrieval across languages. The essay continues by reporting on Cross-Language Information Retrieval (CLIR), a relatively new research area where methods for multilingual information retrieval are studied and developed. The object of CLIR is that people in the future shall be able to search for information in their native tongue, but still find relevant information in more than one language. Another goal for the future is the possibility to translate complete documents into a person’s language of preference. The essay reports on four different CLIR-methods currently established for automatically translating queries, subject headings, or, in some cases, complete documents, and thus aid people with little or no knowledge of the language in which he or she is looking for information. The four methods – identified as machine translation, translations using a multilingual thesaurus or a manually produced machine readable dictionary, corpus-based translation, and no translation – are discussed in relation to the linguistic translation difficulties mentioned in the paper’s initial part. The conclusion drawn is that language is exceedingly complex and that while the different CLIR-methods currently developed often can solve one or two of the acknowledged linguistic difficulties, none is able to overcome all. The essay also show, however, that CLIR-scientists are highly aware of the limitations of the different translation methods and that many are trying to get to terms with this by incorporating several sources of translation in one single CLIR-system. The essay finally concludes by looking at CLIR-scientists’ expectations and hopes for the future.</p>
|
2 |
Cross-language information retrieval : en studie av lingvistiska problem och utvecklade översättningsmetoder för lösningar angående informationsåtervinning över språkliga gränserBoström, Anna January 2004 (has links)
Syftet med denna uppsats är att undersöka problem samt lösningar i relation till informationsåtervinning över språkliga gränser. Metoden som har använts i uppsatsen är studier av forskningsmaterial inom lingvistik samt främst den relativt nya forskningsdisciplinen Cross-Language Information Retrieval (CLIR). I uppsatsen hävdas att världens alla olikartade språk i dagsläget måste betraktas som ett angeläget problem för informationsvetenskapen, ty språkliga skillnader utgör ännu ett stort hinder för den internationella informationsåtervinning som tekniska framsteg, uppkomsten av Internet, digitala bibliotek, globalisering, samt stora politiska förändringar i ett flertal länder runtom i världen under de senaste åren tekniskt och teoretiskt sett har möjliggjort. I uppsatsens första del redogörs för några universellt erkända lingvistiska skillnader mellan olika språk – i detta fall främst med exempel från europeiska språk – och vanliga problem som dessa kan bidra till angående översättningar från ett språk till ett annat. I uppsatsen hävdas att dessa skillnader och problem även måste anses som relevanta när det gäller informationsåtervinning över språkliga gränser. Uppsatsen fortskrider med att ta upp ämnet Cross-Language Information Retrieval (CLIR), inom vilken lösningar på flerspråkighet och språkskillnader inom informationsåtervinning försöker utvecklas och förbättras. Målet med CLIR är att en informationssökare så småningom skall kunna söka information på sitt modersmål men ändå hitta relevant information på flera andra språk. Ett ytterligare mål är att den återfunna informationen i sin helhet även skall kunna översättas till ett för sökaren önskat språk. Fyra olika översättningsmetoder som i dagsläget finns utvecklade inom CLIR för att automatiskt kunna översätta sökfrågor, ämnesord, eller, i vissa fall, hela dokument åt en informationssökare med lite eller ingen alls kunskap om det språk som han eller hon söker information på behandlas därefter. De fyra metoderna – identifierade som maskinöversättning, tesaurus- och ordboksöversättning, korpusbaserad översättning, samt ingen översättning – diskuteras även i relation till de lingvistiska problem och skillnader som har tagits upp i uppsatsens första del. Resultatet visar att språk är någonting mycket komplext och att de olika metoderna som hittills finns utvecklade ofta kan lösa något eller några av de uppmärksammade lingvistiska översättningssvårigheterna. Dock finns det inte någon utvecklad metod som i dagsläget kan lösa samtliga problem. Uppsatsen uppmärksammar emellertid även att CLIR-forskarna i hög grad är medvetna om de nuvarande metodernas uppenbara begränsningar och att man prövar att lösa detta genom att försöka kombinera flera olika översättningsmetoder i ett CLIR-system. Avslutningsvis redogörs även för CLIR-forskarnas förväntningar och förhoppningar inför framtiden. / This essay deals with information retrieval across languages by examining different types of literature in the research areas of linguistics and multilingual information retrieval. The essay argues that the many different languages that co-exist around the globe must be recognised as an essential obstacle for information science. The language barrier today remains a major impediment for the expansion of international information retrieval otherwise made technically and theoretically possible over the last few years by new technical developments, the Internet, digital libraries, globalisation, and moreover many political changes in several countries around the world. The first part of the essay explores linguistic differences and difficulties related to general translations from one language to another, using examples from mainly European languages. It is suggested that these problems and differences also must be acknowledged and regarded as highly important when it comes to information retrieval across languages. The essay continues by reporting on Cross-Language Information Retrieval (CLIR), a relatively new research area where methods for multilingual information retrieval are studied and developed. The object of CLIR is that people in the future shall be able to search for information in their native tongue, but still find relevant information in more than one language. Another goal for the future is the possibility to translate complete documents into a person’s language of preference. The essay reports on four different CLIR-methods currently established for automatically translating queries, subject headings, or, in some cases, complete documents, and thus aid people with little or no knowledge of the language in which he or she is looking for information. The four methods – identified as machine translation, translations using a multilingual thesaurus or a manually produced machine readable dictionary, corpus-based translation, and no translation – are discussed in relation to the linguistic translation difficulties mentioned in the paper’s initial part. The conclusion drawn is that language is exceedingly complex and that while the different CLIR-methods currently developed often can solve one or two of the acknowledged linguistic difficulties, none is able to overcome all. The essay also show, however, that CLIR-scientists are highly aware of the limitations of the different translation methods and that many are trying to get to terms with this by incorporating several sources of translation in one single CLIR-system. The essay finally concludes by looking at CLIR-scientists’ expectations and hopes for the future.
|
3 |
Vícejazyčný systém pro odpovídání na otázky nad otevřenou doménou / Multilingual Open-Domain Question AnsweringSlávka, Michal January 2021 (has links)
Táto práca sa zaoberá automatickým viacjazyčným zodpovedaním na otázky v otvorenej doméne. V tejto práci sú navrhnuté prístupy k tejto málo prebádanej doméne. Konkrétne skúma, či: (i) použitie prekladu z angličtiny je dostačujúce, (ii) multilinguálne systémy vedia využiť preklad otázky do iných jazykov (iii) alebo je výhodnejšie nepoužívať žiaden preklad. Porovnávam použitie anglického systému založeného na modeli T5, ktorý využíva strojový preklad s natívne viacjazyčnými systémami založenými na viacjazyčnom modeli MT5. Anglický systém so strojovým prekladom mierne prekonáva svoje jednojazyčné náprotivky vo viacerých úlohách. Napriek tomu, že tento model bol natrénovaný na väčšom množstve dát zlepšenie nie je dostatočne signifikantné. To ukazuje, že použitie natívne viacjazyčných systémov je sľubným prístupom pre budúci výskum. Tiež prezentujem metódu získavania dokumentov v rôznych jazykoch pomocou algoritmu BM25 a porovnávam ju s anglickým retrievalom. Používanie viacjazyčných dôkazov sa javí ako prospešné a zlepšuje výkonnosť systému systémov.
|
4 |
Multilingual Information Processing On Relaltional Database ArchitecturesKumaran, A 12 1900 (has links) (PDF)
No description available.
|
5 |
Méthodologies pour la création de connaissances relatives au marché chinois dans une démarche d'Intelligence Économique : application dans le domaine des biotechnologies agricoles / Methodologies for building knowledge about the Chinese market in a business intelligence approach : application in the field of agricultural biotechnologiesGuénec, Nadège 02 July 2009 (has links)
Le décloisonnement des économies et l’accélération mondiale des échanges commerciaux ont, en une décennie à peine, transformés l’environnement concurrentiel des entreprises. La zone d’activités s’est élargie en ouvrant des nouveaux marchés à potentiels très attrayants. Ainsi en est-il des BRIC (Brésil, Russie, Inde et Chine). De ces quatre pays, impressionnants par la superficie, la population et le potentiel économique qu’ils représentent, la Chine est le moins accessible et le plus hermétique à notre compréhension de par un système linguistique distinct des langues indo-européennes d’une part et du fait d’une culture et d’un système de pensée aux antipodes de ceux de l’occident d’autre part. Pourtant, pour une entreprise de taille internationale, qui souhaite étendre son influence ou simplement conserver sa position sur son propre marché, il est aujourd’hui absolument indispensable d’être présent sur le marché chinois. Comment une entreprise occidentale aborde-t-elle un marché qui de par son altérité, apparaît tout d’abord comme complexe et foncièrement énigmatique ? Six années d’observation en Chine, nous ont permis de constater les écueils dans l’accès à l’information concernant le marché chinois. Comme sur de nombreux marchés extérieurs, nos entreprises sont soumises à des déstabilisations parfois inimaginables. L’incapacité à « lire » la Chine et à comprendre les enjeux qui s’y déroulent malgré des effets soutenus, les erreurs tactiques qui découlent d’une mauvaise appréciation du marché ou d’une compréhension biaisée des jeux d’acteurs nous ont incités à réfléchir à une méthodologie de décryptage plus fine de l’environnement d’affaire qui puisse offrir aux entreprises françaises une approche de la Chine en tant que marché. Les méthodes de l’Intelligence Economique (IE) se sont alors imposées comme étant les plus propices pour plusieurs raisons : le but de l’IE est de trouver l’action juste à mener, la spécificité du contexte dans lequel évolue l’organisation est prise en compte et l’analyse se fait en temps réel. Si une approche culturelle est faite d’interactions humaines et de subtilités, une approche « marché » est dorénavant possible par le traitement automatique de l’information et de la modélisation qui s’en suit. En effet, dans toute démarche d’Intelligence Economique accompagnant l’implantation d’une activité à l’étranger, une grande part de l’information à portée stratégique vient de l’analyse du jeu des acteurs opérants dans le même secteur d’activité. Une telle automatisation de la création de connaissance constitue, en sus de l’approche humaine « sur le terrain », une réelle valeur ajoutée pour la compréhension des interactions entre les acteurs car elle apporte un ensemble de connaissances qui, prenant en compte des entités plus larges, revêtent un caractère global, insaisissable par ailleurs. La Chine ayant fortement développé les technologies liées à l’économie de la connaissance, il est dorénavant possible d’explorer les sources d’information scientifiques et techniques chinoises. Nous sommes en outre convaincus que l’information chinoise prendra au fil du temps une importance de plus en plus cruciale. Il devient donc urgent pour les organisations de se doter de dispositifs permettant non seulement d’accéder à cette information mais également d’être en mesure de traiter les masses d’informations issues de ces sources. Notre travail consiste principalement à adapter les outils et méthodes issues de la recherche française à l’analyse de l’information chinoise en vue de la création de connaissances élaborées. L’outil MATHEO, apportera par des traitements bibliométriques une vision mondiale de la stratégie chinoise. TETRALOGIE, outil dédié au data-mining, sera adapté à l’environnement linguistique et structurel des bases de données scientifiques chinoises. En outre, nous participons au développement d’un outil d’information retreival (MEVA) qui intègre les données récentes des sciences cognitives et oeuvrons à son application dans la recherche de l’information chinoise, pertinente et adéquate. Cette thèse étant réalisée dans le cadre d’un contrat CIFRE avec le Groupe Limagrain, une application contextualisée de notre démarche sera mise en œuvre dans le domaine des biotechnologies agricoles et plus particulièrement autour des enjeux actuels de la recherche sur les techniques d’hybridation du blé. L’analyse de ce secteur de pointe, qui est à la fois une domaine de recherche fondamentale, expérimentale et appliquée donne actuellement lieu à des prises de brevets et à la mise sur le marché de produits commerciaux et représente donc une thématique très actuelle. La Chine est-elle réellement, comme nous le supposons, un nouveau territoire mondial de la recherche scientifique du 21e siècle ? Les méthodes de l’IE peuvent-elles s’adapter au marché chinois ? Après avoir fourni les éléments de réponses à ces questions dans es deux premières parties de notre étude, nous poserons en troisième partie, le contexte des biotechnologies agricoles et les enjeux mondiaux en terme de puissance économico-financière mais également géopolitique de la recherche sur l’hybridation du blé. Puis nous verrons en dernière partie comment mettre en œuvre une recherche d’information sur le marché chinois ainsi que l’intérêt majeur en terme de valeur ajoutée que représente l’analyse de l’information chinoise / The rise of globalization, including technological innovations and the dismantling of trade barriers, has spurred the steady acceleration of global trade and, in barely a decade, has transformed the competitive environment of enterprises. The area of activity has been expanded by the emergence of new markets with very attractive potential. So are the BRIC (Brazil, Russia, India and China). Among the four of them, all impressive by their size, population and economic potential they represent, China is the least accessible and the more closed to our understanding because of a linguistic system radically different from the Indo-European languages on the one hand and of the fact of a culture and a thought system at odds with those of Western countries. Yet for a company of international size, which wants to extend its influence or simply to maintain its market position, including its own market, it is now essential to be present on the Chinese market. How does a western company operate on a market that appears at first as inherently complex and enigmatic because of its otherness? During six years of observation in China, we have found out the pitfalls in access to information about the Chinese market. As on many markets, our companies are subject to some unimaginable destabilization. The inability to “read” China and understand the issues that take place in spite of sustained efforts, the tactical errors that arise from a misjudgement of the market or a biased understanding of the game players led us to consider a methodology that could provide French companies an approach to China as a market. The methodologies of Business Intelligence (BI) came out to be the most suitable for several reasons: the goal of BI is to find out the right action to realise, the specificity of the context in which the organization is evolving is taken into consideration and the analysis is done just in time. If a cultural approach is made of human interactions and subtleties, a market approach is now possible by the automatic processing of information and its modelling. In any process of economic intelligence accompanying the establishment of a foreign operation, a large part of the strategic information comes from analysis of the game players operating in the same sector of activity. Such an automation of knowledge creation is, in addition to the human approach on the field, a real high value added to help the understanding of the interactions between the players. It provides a set of knowledge, which taking into account more large entities, are more comprehensive. They are more elusive anywhere else. Because has highly developed technologies linked to the knowledge economy, it is now possible to explore the scientific and technological sources of information science in China. We are also convinced that Chinese sources of information will take a more and more crucial importance in any global watch. It is therefore an urgent need for organizations to get solutions that not only allow the access to this information but also are able to handle the masses of information from these sources. The aim of this thesis is mainly to adapt the tools and the methods invented by French university research to the analysis of Chinese information in order to create useful knowledge. Matheo software will provide some bibliometrical treatments that will give a global vision of the Chinese strategy. Tetralogy software, a tool dedicated to data-mining, will be tailored to the linguistic environment and to the structure of the Chinese scientific databases. In addition, we participate in the development of a method for the information retrieval (MEVA) which integrates the data of recent discoveries in cognitive science. We develop this method to the research of the relevant and appropriate information among the Chinese datas. As this thesis is conduced under a contract university /enterprise with Limagrain, an application of our approach will be implemented in the field of agricultural biotechnology and in particular around issues of research on techniques for hybridization of wheat. The analysis of this sector, which is an area of fundamental research, experimental and applied is a very current topic as it gives rise to the acquisition of patents and to the marketing of commercial products. Is China really, as we suppose to, a new territory Global Scientific Research of the 21st century? Can the methods of BI be adapted to the Chinese market? After providing some answers to these questions in the first two parts of our study, the third part will describe the global context of agricultural biotechnologies and its issues in terms of economic and financial power but also geopolitical. Then we will focus on the problematic of research on hybridization wheat. Then we will see in the fourth and last part how to implement a search for information on the Chinese market and the major interest in terms of added value of information analysis in China
|
Page generated in 0.1685 seconds