271 |
工資調整指數、最適貨幣政策與績效契約談判 / Wage Indexation, Optimal Monetary Policy and Performance Contract Bargainging鄭惠如 Unknown Date (has links)
本文是以Candel-Sánchez and Campoy-Miñarro (2004)的績效契約制訂為基礎
,開放單獨由政府制訂契約的假設,賦予央行與政府部門雙方皆具有談判力,並利用Nash談判解(Nash bargaining solution)做出最適績效契約。此外,我們也討論政府央行的談判力、對薪資的偏好和央行官員保守度在不同工資調整指數下與最適績效契約之間的關係,並分析能影響產出及通貨膨脹穩定性的因素。
經本文的研究分析,我們可以發現:政府的談判力愈大績效誘因基數愈大,此時能有效抑制通膨產生,但是同時也會使產出下降。當工資調整指數趨於零時,政府的談判力將不會對產出造成影響只會降低通貨膨脹率。
央行官員若是愈保守愈重視通貨膨脹帶來的效用損失,會使績效誘因基數下降。其中,本文的分析與Rogoff (1985)的有相同的結果,增加央行官員的保守性雖有利抑制通膨且增加通膨穩定性,另一方面卻打擊產出水準同時會使產出易受外來衝擊的影響。當工資調整指數愈低時,央行官員的保守性也會對績效誘因基數的變動愈大。
央行官員愈關心薪資收入多寡,績效誘因基數就愈低,但是對通貨膨脹與產出的影響則須視談判央行對薪資的偏好程度與最適誘因基數大小而定。政府愈在意營運成本,談判出的最適績效誘因基數會愈低,而且會同時造成通貨膨脹率與產出的上升。
在討論經濟穩定性時,我們發現僅有央行官員保守程度、工資調整指數與隨機干擾衝擊的變異數會對產出及通貨膨脹率的穩定性造成影響;但納入談判協商得到的績效誘因基數,並不會造成經濟體系的波動。我們也發現本文與Rogoff (1985)的結論相同之處在於央行官員極度保守時會完全消除通貨膨脹率,但是會使產出完全反映隨機干擾項的衝擊。
|
272 |
Indexation des émotions dans les documents audiovisuels à partir de la modalité auditiveLê, Xuân Hùng 01 July 2009 (has links) (PDF)
Cette thèse concerne la détection des émotions dans les énoncés audio multi-lingues. Une des applications envisagées est l'indexation des états émotionnels dans les documents audio-visuels en vue de leur recherche par le contenu. Notre travail commence par l'étude de l'émotion et des modèles de représentation de celle-ci : modèles discrets, continus et hybride. Dans la suite des travaux, seul le modèle discret sera utilisé pour des raisons pratiques d'évaluation mais aussi parce qu'il est plus facilement utilisable dans les applications visées. Un état de l'art sur les différentes approches utilisées pour la reconnaissance des émotions est ensuite présenté. Le problème de la production de corpus annoté pour l'entraînement et l'évaluation des systèmes de reconnaissance de l'état émotionnel est également abordé et un panorama des corpus disponibles est effectué. Une des difficultés sur ce point est d'obtenir des corpus réalistes pour les applications envisagées. Afin d'obtenir des données plus spontanées et dans des langues plus variées, deux corpus ont été créés à partir de films cinématographiques, l'un en Anglais, l'autre en Vietnamien. La suite des travaux se décompose en quatre parties : études et recherche des meilleurs paramètres pour représenter le signal acoustique pour la reconnaissance des émotions dans celui-ci, étude et recherche des meilleurs modèles et systèmes de classification pour ce même problème, expérimentation sur la reconnaissance des émotions inter-langues, et enfin production d'un corpus annoté en vietnamien et évaluation de la reconnaissance des émotions dans cette langue qui a la particularité d'être tonale. Dans les deux premières études, les cas mono-locuteur, multi-locuteur et indépendant du locuteur ont été considérés. La recherche des meilleurs paramètres a été effectuée sur un ensemble large de paramètres locaux et globaux classiquement utilisés en traitement automatique de la parole ainsi que sur des dérivations de ceux-ci. Une approche basée sur la sélection séquentielle forcée avant a été utilisée pour le choix optimal des combinaisons de paramètres acoustiques. La même approche peut être utilisée sur des types de données différents bien que le résultat final dépende du type considéré. Parmi, les MFCC, LFCC, LPC, la fréquence fondamentale, l'intensité, le débit phonétique et d'autres coefficients extraits du domaine temporel, les paramètres de type MFCC ont donné les meilleurs résultats dans les cas considérés. Une approche de normalisation symbolique a permis d'améliorer les performances dans le cas indépendant du locuteur. Pour la recherche du meilleur modèle et système de classification associé, une approche d'élimination successive selon des cas de complexité croissante (mono-locuteur, multi-locuteur et indépendant du locuteur) a été utilisée. Les modèle GMM, HMM, SVM et VQ (quantification vectorielle) on été étudiés. Le modèle GMM est celui qui donne les meilleurs résultats sur les données considérées. Les expérimentations inter-langue (Allemand et Danois) ont montré que les méthodes développées fonctionnent bien d'une langue à une autre mais qu'une optimisation des paramètres spécifique pour chaque langue ou chaque type de données est nécessaire pour obtenir les meilleurs résultats. Ces langues sont toutefois des langues non tonales. Des essais avec le corpus créé en Vietnamien ont montré une beaucoup moins bonne généralisation dans ce cas. Cela peut être du au fait que le Vietnamien est une langue tonale mais cela peut aussi être dû à la différence entre les conditions de création des corpus : acté dans les premiers cas et plus spontané pour le Vietnamien.
|
273 |
Méthodologies pour la création de connaissances relatives au marché chinois dans une démarche d'Intelligence Économique : application dans le domaine des biotechnologies agricolesGuénec, Nadège 02 July 2009 (has links) (PDF)
Le décloisonnement des économies et l'accélération mondiale des échanges commerciaux ont, en une décennie à peine, transformés l'environnement concurrentiel des entreprises. La zone d'activités s'est élargie en ouvrant des nouveaux marchés à potentiels très attrayants. Ainsi en est-il des BRIC (Brésil, Russie, Inde et Chine). De ces quatre pays, impressionnants par la superficie, la population et le potentiel économique qu'ils représentent, la Chine est le moins accessible et le plus hermétique à notre compréhension de par un système linguistique distinct des langues indo-européennes d'une part et du fait d'une culture et d'un système de pensée aux antipodes de ceux de l'occident d'autre part. Pourtant, pour une entreprise de taille internationale, qui souhaite étendre son influence ou simplement conserver sa position sur son propre marché, il est aujourd'hui absolument indispensable d'être présent sur le marché chinois. Comment une entreprise occidentale aborde-t-elle un marché qui de par son altérité, apparaît tout d'abord comme complexe et foncièrement énigmatique ? Six années d'observation en Chine, nous ont permis de constater les écueils dans l'accès à l'information concernant le marché chinois. Comme sur de nombreux marchés extérieurs, nos entreprises sont soumises à des déstabilisations parfois inimaginables. L'incapacité à " lire " la Chine et à comprendre les enjeux qui s'y déroulent malgré des effets soutenus, les erreurs tactiques qui découlent d'une mauvaise appréciation du marché ou d'une compréhension biaisée des jeux d'acteurs nous ont incités à réfléchir à une méthodologie de décryptage plus fine de l'environnement d'affaire qui puisse offrir aux entreprises françaises une approche de la Chine en tant que marché. Les méthodes de l'Intelligence Economique (IE) se sont alors imposées comme étant les plus propices pour plusieurs raisons : le but de l'IE est de trouver l'action juste à mener, la spécificité du contexte dans lequel évolue l'organisation est prise en compte et l'analyse se fait en temps réel. Si une approche culturelle est faite d'interactions humaines et de subtilités, une approche " marché " est dorénavant possible par le traitement automatique de l'information et de la modélisation qui s'en suit. En effet, dans toute démarche d'Intelligence Economique accompagnant l'implantation d'une activité à l'étranger, une grande part de l'information à portée stratégique vient de l'analyse du jeu des acteurs opérants dans le même secteur d'activité. Une telle automatisation de la création de connaissance constitue, en sus de l'approche humaine " sur le terrain ", une réelle valeur ajoutée pour la compréhension des interactions entre les acteurs car elle apporte un ensemble de connaissances qui, prenant en compte des entités plus larges, revêtent un caractère global, insaisissable par ailleurs. La Chine ayant fortement développé les technologies liées à l'économie de la connaissance, il est dorénavant possible d'explorer les sources d'information scientifiques et techniques chinoises. Nous sommes en outre convaincus que l'information chinoise prendra au fil du temps une importance de plus en plus cruciale. Il devient donc urgent pour les organisations de se doter de dispositifs permettant non seulement d'accéder à cette information mais également d'être en mesure de traiter les masses d'informations issues de ces sources. Notre travail consiste principalement à adapter les outils et méthodes issues de la recherche française à l'analyse de l'information chinoise en vue de la création de connaissances élaborées. L'outil MATHEO, apportera par des traitements bibliométriques une vision mondiale de la stratégie chinoise. TETRALOGIE, outil dédié au data-mining, sera adapté à l'environnement linguistique et structurel des bases de données scientifiques chinoises. En outre, nous participons au développement d'un outil d'information retreival (MEVA) qui intègre les données récentes des sciences cognitives et oeuvrons à son application dans la recherche de l'information chinoise, pertinente et adéquate. Cette thèse étant réalisée dans le cadre d'un contrat CIFRE avec le Groupe Limagrain, une application contextualisée de notre démarche sera mise en œuvre dans le domaine des biotechnologies agricoles et plus particulièrement autour des enjeux actuels de la recherche sur les techniques d'hybridation du blé. L'analyse de ce secteur de pointe, qui est à la fois une domaine de recherche fondamentale, expérimentale et appliquée donne actuellement lieu à des prises de brevets et à la mise sur le marché de produits commerciaux et représente donc une thématique très actuelle. La Chine est-elle réellement, comme nous le supposons, un nouveau territoire mondial de la recherche scientifique du 21e siècle ? Les méthodes de l'IE peuvent-elles s'adapter au marché chinois ? Après avoir fourni les éléments de réponses à ces questions dans es deux premières parties de notre étude, nous poserons en troisième partie, le contexte des biotechnologies agricoles et les enjeux mondiaux en terme de puissance économico-financière mais également géopolitique de la recherche sur l'hybridation du blé. Puis nous verrons en dernière partie comment mettre en œuvre une recherche d'information sur le marché chinois ainsi que l'intérêt majeur en terme de valeur ajoutée que représente l'analyse de l'information chinoise
|
274 |
最佳風險分散投資組合在台灣股票市場之應用—以元大台灣卓越50基金為例 / Application of most diversified portfolio in Taiwan stock market- Yuanta/P-shares Taiwan Top 50 ETF陳慶安, Chen, Ching An Unknown Date (has links)
本研究利用元大台灣50 ETF作為樣本資料,檢測2006年至2016年實證期間風險基礎指數和市值加權指數所分別建構的投資組合,其績效表現、風險表現、分散性表現的優劣性;其中Choueifaty, Froidure, and Reynier (2011) 所建構的最佳風險分散投資組合 (most diversified portfolio) 為近年來新起的風險基礎指數投資組合,我們將證實在獲得良好的投資組合分散性同時,如同其他的風險基礎指數投資組合的目標,同時也能獲得超越以追蹤市值加權指數為標的的投資組合績效。
本研究以夏普比率、信息比率、阿爾法作為衡量績效的指標;以標準差、貝他作為風險衡量的指摽;另以Choueifaty and Coignard (2008) 提出的分散性比率作為分散性衡量的指標。實證結果顯示,在整體實證期間,最佳風險分散投資組合在績效、風險、分散性的指標上皆有超越市值加權指數投資組合的能力,再以年為單位的個別期間,其績效衡量上大致優於市值加權指數投資組合,風險和分散性衡量上則優於市值加權指數投資組合的表現,但論以其整體表現,並非為本研究所提出的風險基礎指數投資組合中最佳者,因此投資人在選擇該類投資組合策略時,建議從該投資組合過去表現中判斷,選擇符合自己投資習慣者為之。 / This article examines the performance, risks and diversification of different types of portfolio strategies such as risk-based indexes and cap-weighted index during 2006- 2016. We introduce the recent most diversified portfolio (MDP), which was proposed by Choueifaty, Froidure, and Reynier (2011) and find the result that like the goal of other risk-based portfolios, which is to improve the risk-return profile of cap-weighted portfolio, MDP surpasses overall performance, risks and diversification compared to cap-weighted portfolio while achieving diversification.
We use Sharpe ratio, information ratio and alpha as the performance indicators, use standard deviation, beta as the risk indicators, and adopt diversification ratio (DR), which was proposed by Choueifaty and Coignard (2008), as the diversification indicator in our analysis. The results of this study show that MDP surpasses overall performance, risks and diversification compared to cap-weighted portfolio in the full empirical period. In addition, MDP is generally superior to cap-weighted portfolios in terms of performance in many single years of the whole period, and completely beat cap-weighted portfolios in terms of risks and diversification in every single year of the whole period. Although the ability of exceeding cap-weighted portfolio, MDP do not win first place of mentioned risk-based portfolios in our research. As a result, we suggest investors choose their portfolio strategies refer to its past performance, risks and diversification, and select the best according to their investment preference.
|
275 |
Indexation bio-inspirée pour la recherche d'images par similarité / Bio-inspired Indexing for Content-Based Image RetrievalMichaud, Dorian 16 October 2018 (has links)
La recherche d'images basée sur le contenu visuel est un domaine très actif de la vision par ordinateur, car le nombre de bases d'images disponibles ne cesse d'augmenter.L’objectif de ce type d’approche est de retourner les images les plus proches d'une requête donnée en terme de contenu visuel.Notre travail s'inscrit dans un contexte applicatif spécifique qui consiste à indexer des petites bases d'images expertes sur lesquelles nous n'avons aucune connaissance a priori.L’une de nos contributions pour palier ce problème consiste à choisir un ensemble de descripteurs visuels et de les placer en compétition directe. Nous utilisons deux stratégies pour combiner ces caractéristiques : la première, est pyschovisuelle, et la seconde, est statistique.Dans ce contexte, nous proposons une approche adaptative non supervisée, basée sur les sacs de mots et phrases visuels, dont le principe est de sélectionner les caractéristiques pertinentes pour chaque point d'intérêt dans le but de renforcer la représentation de l'image.Les tests effectués montrent l'intérêt d'utiliser ce type de méthodes malgré la domination des méthodes basées réseaux de neurones convolutifs dans la littérature.Nous proposons également une étude, ainsi que les résultats de nos premiers tests concernant le renforcement de la recherche en utilisant des méthodes semi-interactives basées sur l’expertise de l'utilisateur. / Image Retrieval is still a very active field of image processing as the number of available image datasets continuously increases.One of the principal objectives of Content-Based Image Retrieval (CBIR) is to return the most similar images to a given query with respect to their visual content.Our work fits in a very specific application context: indexing small expert image datasets, with no prior knowledge on the images. Because of the image complexity, one of our contributions is the choice of effective descriptors from literature placed in direct competition.Two strategies are used to combine features: a psycho-visual one and a statistical one.In this context, we propose an unsupervised and adaptive framework based on the well-known bags of visual words and phrases models that select relevant visual descriptors for each keypoint to construct a more discriminative image representation.Experiments show the interest of using this this type of methodologies during a time when convolutional neural networks are ubiquitous.We also propose a study about semi interactive retrieval to improve the accuracy of CBIR systems by using the knowledge of the expert users.
|
276 |
Utilisation des schématisations de termes en déduction automatique / Using term schematisations in automated deductionBensaid, Hicham 17 June 2011 (has links)
Les schématisations de termes permettent de représenter des ensembles infinis de termes ayant une structure similaire de manière finie et compacte. Dans ce travail, nous étudions certains aspects liés à l'utilisation des schématisations de termes en déduction automatique, plus particulièrement dans les méthodes de démonstration de théorèmes du premier ordre par saturation. Après une brève étude comparée des formalismes de schématisation existants, nous nous concentrons plus particulièrement sur les termes avec exposants entiers (ou I-termes). Dans un premier temps, nous proposons une nouvelle approche permettant de détecter automatiquement des régularités dans les espaces de recherche. Cette détection des régularités peut avoir plusieurs applications, notamment la découverte de lemmes nécessaires à la terminaison dans certaines preuves inductives. Nous présentons DS3, un outil qui implémente ces idées. Nous comparons notre approche avec d'autres techniques de généralisation de termes. Notre approche diffère complètement des techniques existantes car d'une part, elle est complètement indépendante de la procédure de preuve utilisée et d'autre part, elle utilise des techniques de généralisation inductive et non déductives. Nous discutons également les avantages et les inconvénients liés à l'utilisation de notre méthode et donnons des éléments informels de comparaison avec les approches existantes. Nous nous intéressons ensuite aux aspects théoriques de l'utilisation des I-termes en démonstration automatique. Nous démontrons que l'extension aux I-termes du calcul de résolution ordonnée est réfutationnellement complète, que l'extension du calcul de superposition n'est pas réfutationnellement complète et nous proposons une nouvelle règle d'inférence pour restaurer la complétude réfutationnelle. Nous proposons ensuite un algorithme d'indexation (pour une sous-classe) des I-termes, utile pour le traitement des règles de simplification et d'élimination de la redondance. Finalement nous présentons DEI, un démonstrateur automatique de théorèmes capable de gérer directement des formules contenant des I-termes. Nous évaluons les performances de ce logiciel sur un ensemble de benchmarks. / Term schematisations allow one to represent infinite sets of terms having a similar structure by a finite and compact form. In this work we study some issues related to the use of term schematisation in automated deduction, in particular in saturation-based first-order theorem proving. After a brief comparative study of existing schematisation formalisms, we focus on terms with integer exponents (or I-terms). We first propose a new approach allowing to automatically detect regularities (obviously not always) on search spaces. This is motivated by our aim at extending current theorem provers with qualitative improvements. For instance, detecting regularities permits to discover lemmata which is mandatory for terminating in some kinds of inductive proofs. We present DS3, a tool which implements these ideas. Our approach departs from existing techniques since on one hand it is completely independent of the proof procedure used and on the other hand it uses inductive generalization techniques instead of deductive ones. We discuss advantages and disadvantages of our method and we give some informal elements of comparison with similar approaches. Next we tackle some theoretical aspects of the use of I-terms in automated deduction. We prove that the direct extension of the ordered resolution calculus is refutationally complete. We provide an example showing that a direct extension of the superposition calculus is not refutationally complete and we propose a new inference rule to restore refutational completeness. We then propose an indexing algorithm for (a subclass of) I-terms. This algorithm is an extension of the perfect discrimination trees that are are employed by many efficient theorem provers to implement redundancy elimination rules. Finally we present DEI, a theorem prover with built-in capabilities to handle formulae containing I-terms. This theorem-prover is an extension of the E-prover developed by S. Schulz. We evaluate the performances of this software on a set of benchmarks.
|
277 |
Information spotting in huge repositories of scanned document images / Localisation d'information dans des très grands corpus de documents numérisésDang, Quoc Bao 06 April 2018 (has links)
Ce travail vise à développer un cadre générique qui est capable de produire des applications de localisation d'informations à partir d’une caméra (webcam, smartphone) dans des très grands dépôts d'images de documents numérisés et hétérogènes via des descripteurs locaux. Ainsi, dans cette thèse, nous proposons d'abord un ensemble de descripteurs qui puissent être appliqués sur des contenus aux caractéristiques génériques (composés de textes et d’images) dédié aux systèmes de recherche et de localisation d'images de documents. Nos descripteurs proposés comprennent SRIF, PSRIF, DELTRIF et SSKSRIF qui sont construits à partir de l’organisation spatiale des points d’intérêts les plus proches autour d'un point-clé pivot. Tous ces points sont extraits à partir des centres de gravité des composantes connexes de l‘image. A partir de ces points d’intérêts, des caractéristiques géométriques invariantes aux dégradations sont considérées pour construire nos descripteurs. SRIF et PSRIF sont calculés à partir d'un ensemble local des m points d’intérêts les plus proches autour d'un point d’intérêt pivot. Quant aux descripteurs DELTRIF et SSKSRIF, cette organisation spatiale est calculée via une triangulation de Delaunay formée à partir d'un ensemble de points d’intérêts extraits dans les images. Cette seconde version des descripteurs permet d’obtenir une description de forme locale sans paramètres. En outre, nous avons également étendu notre travail afin de le rendre compatible avec les descripteurs classiques de la littérature qui reposent sur l’utilisation de points d’intérêts dédiés de sorte qu'ils puissent traiter la recherche et la localisation d'images de documents à contenu hétérogène. La seconde contribution de cette thèse porte sur un système d'indexation de très grands volumes de données à partir d’un descripteur volumineux. Ces deux contraintes viennent peser lourd sur la mémoire du système d’indexation. En outre, la très grande dimensionnalité des descripteurs peut amener à une réduction de la précision de l'indexation, réduction liée au problème de dimensionnalité. Nous proposons donc trois techniques d'indexation robustes, qui peuvent toutes être employées sans avoir besoin de stocker les descripteurs locaux dans la mémoire du système. Cela permet, in fine, d’économiser la mémoire et d’accélérer le temps de recherche de l’information, tout en s’abstrayant d’une validation de type distance. Pour cela, nous avons proposé trois méthodes s’appuyant sur des arbres de décisions : « randomized clustering tree indexing” qui hérite des propriétés des kd-tree, « kmean-tree » et les « random forest » afin de sélectionner de manière aléatoire les K dimensions qui permettent de combiner la plus grande variance expliquée pour chaque nœud de l’arbre. Nous avons également proposé une fonction de hachage étendue pour l'indexation de contenus hétérogènes provenant de plusieurs couches de l'image. Comme troisième contribution de cette thèse, nous avons proposé une méthode simple et robuste pour calculer l'orientation des régions obtenues par le détecteur MSER, afin que celui-ci puisse être combiné avec des descripteurs dédiés. Comme la plupart de ces descripteurs visent à capturer des informations de voisinage autour d’une région donnée, nous avons proposé un moyen d'étendre les régions MSER en augmentant le rayon de chaque région. Cette stratégie peut également être appliquée à d'autres régions détectées afin de rendre les descripteurs plus distinctifs. Enfin, afin d'évaluer les performances de nos contributions, et en nous fondant sur l'absence d'ensemble de données publiquement disponibles pour la localisation d’information hétérogène dans des images capturées par une caméra, nous avons construit trois jeux de données qui sont disponibles pour la communauté scientifique. / This work aims at developing a generic framework which is able to produce camera-based applications of information spotting in huge repositories of heterogeneous content document images via local descriptors. The targeted systems may take as input a portion of an image acquired as a query and the system is capable of returning focused portion of database image that match the query best. We firstly propose a set of generic feature descriptors for camera-based document images retrieval and spotting systems. Our proposed descriptors comprise SRIF, PSRIF, DELTRIF and SSKSRIF that are built from spatial space information of nearest keypoints around a keypoints which are extracted from centroids of connected components. From these keypoints, the invariant geometrical features are considered to be taken into account for the descriptor. SRIF and PSRIF are computed from a local set of m nearest keypoints around a keypoint. While DELTRIF and SSKSRIF can fix the way to combine local shape description without using parameter via Delaunay triangulation formed from a set of keypoints extracted from a document image. Furthermore, we propose a framework to compute the descriptors based on spatial space of dedicated keypoints e.g SURF or SIFT or ORB so that they can deal with heterogeneous-content camera-based document image retrieval and spotting. In practice, a large-scale indexing system with an enormous of descriptors put the burdens for memory when they are stored. In addition, high dimension of descriptors can make the accuracy of indexing reduce. We propose three robust indexing frameworks that can be employed without storing local descriptors in the memory for saving memory and speeding up retrieval time by discarding distance validating. The randomized clustering tree indexing inherits kd-tree, kmean-tree and random forest from the way to select K dimensions randomly combined with the highest variance dimension from each node of the tree. We also proposed the weighted Euclidean distance between two data points that is computed and oriented the highest variance dimension. The secondly proposed hashing relies on an indexing system that employs one simple hash table for indexing and retrieving without storing database descriptors. Besides, we propose an extended hashing based method for indexing multi-kinds of features coming from multi-layer of the image. Along with proposed descriptors as well indexing frameworks, we proposed a simple robust way to compute shape orientation of MSER regions so that they can combine with dedicated descriptors (e.g SIFT, SURF, ORB and etc.) rotation invariantly. In the case that descriptors are able to capture neighborhood information around MSER regions, we propose a way to extend MSER regions by increasing the radius of each region. This strategy can be also applied for other detected regions in order to make descriptors be more distinctive. Moreover, we employed the extended hashing based method for indexing multi-kinds of features from multi-layer of images. This system are not only applied for uniform feature type but also multiple feature types from multi-layers separated. Finally, in order to assess the performances of our contributions, and based on the assessment that no public dataset exists for camera-based document image retrieval and spotting systems, we built a new dataset which has been made freely and publicly available for the scientific community. This dataset contains portions of document images acquired via a camera as a query. It is composed of three kinds of information: textual content, graphical content and heterogeneous content.
|
278 |
Désambiguïsation de l’arabe écrit et interprétation sémantique / Word sense disambiguation of written arabic and semantic interpretationGzawi, Mahmoud 17 January 2019 (has links)
Cette thèse se situe à l’intersection des domaines de la recherche en linguistique et du traitement automatique de la langue. Ces deux domaines se croisent pour la construction d’outils de traitement de texte, et des applications industrielles intégrant des solutions de désambiguïsation et d’interprétation de la langue.Une tâche difficile et très peu abordée et appliqué est arrivée sur les travaux de l’entreprise Techlimed, celle de l’analyse automatique des textes écrits en arabe. De nouvelles ressources sont apparues comme les lexiques de langues et les réseaux sémantiques permettant à la création de grammaires formelles d’accomplir cette tâche.Une métadonnée importante pour l’analyse de texte est de savoir « qu’est-ce qui est dit, et que signifie-t-il ? ». Le domaine de linguistique computationnelle propose des méthodes très diverses et souvent partielle pour permettre à l’ordinateur de répondre à de telles questions.L’introduction et l’application des règles de grammaire descriptives de langues dans les langages formels spécifiques au traitement de langues par ordinateur est l’objet principal de cette thèse.Au-delà de la réalisation d’un système de traitement et d’interprétation de textes en langue arabe, basé aussi sur la modélisation informatique, notre intérêt s’est porté sur l’évaluation des phénomènes linguistiques relevés par la littérature et les méthodes de leur formalisation en informatique.Dans tous les cas, nos travaux de recherche ont été testés et validés dans un cadre expérimental rigoureux autour de plusieurs formalismes et outils informatiques.Nos expérimentations concernant l'apport de la grammaire syntaxico-sémantique, a priori, ont montré une réduction importante de l’ambiguïté linguistique dans le cas de l'utilisation d’une grammaire à état fini écrite en Java et une grammaire générativetransformationnelle écrite en Prolog, intégrant des composants morphologiques, syntaxiques et sémantiques.La mise en place de notre étude a requis la construction d’outils de traitement de texte et d’outils de recherche d’information. Ces outils ont été construits par nos soins et sont disponible en Open-source.La réussite de l’application de nos travaux à grande échelle s’est conclue par la condition d’avoir de ressources sémantiques riches et exhaustives. Nous travaux ont été redirigés vers une démarche de production de telles ressources, en termes de recherche d’informations et d’extraction de connaissances. Les tests menés pour cette nouvelle perspective ont étéfavorables à d’avantage de recherche et d’expérimentation. / This thesis lies at the frontier of the fields of linguistic research and the automatic processing of language. These two fields intersect for the construction of natural language processing tools, and industrial applications integrating solutions for disambiguation and interpretation of texts.A challenging task, briefly approached and applied, has come to the work of the Techlimed company, that of the automatic analysis of texts written in Arabic. Novel resources have emerged as language lexicons and semantic networks allowing the creation of formal grammars to accomplish this task.An important meta-data for text analysis is "what is being said, and what does it mean". The field of computational linguistics offers very diverse and, mostly, partial methods to allow the computer to answer such questions.The main purpose of this thesis is to introduce and apply the rules of descriptive language grammar in formal languages specific to computer language processing.Beyond the realization of a system of processing and interpretation of texts in Arabic language based on computer modeling, our interest has been devoted to the evaluation of the linguistic phenomena described by the literature and the methods of their formalization in computer science.In all cases, our research was tested and validated in a rigorous experimental framework around several formalisms and computer tools.The experiments concerning the contribution of syntaxico-semantic grammar, a priori, have demonstrated a significant reduction of linguistic ambiguity in the case of the use of a finite-state grammar written in Java and a transformational generative grammarwritten in Prolog, integrating morphological, syntactic and semantic components.The implementation of our study required the construction of tools for word processing, information retrieval tools. These tools were built by us and are available in Open-source.The success of the application of our work in large scale was concluded by the requirement of having rich and comprehensive semantic resources. Our work has been redirected towards a process of production of such resources, in terms of informationretrieval and knowledge extraction. The tests for this new perspective were favorable to further research and experimentation.
|
279 |
Systèmes de Recherche de Documents Musicaux par ChantonnementCarré, Matthieu 06 June 2002 (has links) (PDF)
Avec l'explosion des données numériques disponibles (notamment via Internet), la question de l'accès aux documents reçoit depuis quelques années une attention accrue. En effet, l'indexation des documents, traditionnellement fondée sur la description textuelle, atteint rapidement ses limites en particulier lorsque le contenu concerné est musical. <br /><br />Cette thèse focalise sur la recherche de documents musicaux par chantonnement. Nous présentons un système qui permet de retrouver une musique à partir d'un extrait chanté par l'utilisateur. Sa réalisation a nécessité deux études préalables qui ont comblé quelques lacunes d'un domaine de recherche encore jeune. Nous nous sommes intéressés, d'une part, à la "justesse" des mélodies chantonnées (par l'étude de 500 requêtes), et d'autre part, à certains aspects de la similarité mélodique (par la réalisation de tests subjectifs).<br /><br />Grâce à ces études, nous proposons un système de recherche original et performant. Refusant une description tempérée de la requête (i.e. comportant une quantification des notes au demi-ton), le système proposé retrouve plus de 90% des documents musicaux attendus, pour une taille de requête moyenne (13 notes). La base de données consultée est constituée de 20.000 fichiers MIDI (40 millions de notes indexées). Le temps d'attente est acceptable puisqu'il ne faut que quelques secondes au système pour fournir sa réponse (i.e. la liste des documents les plus similaires à la requête, ceux-ci étant classés par ordre de similarité).<br /><br />Cette thèse apporte également une aide dans le processus d'évaluation de la qualité de tels systèmes. En effet, nous proposons une modélisation de l'imprécision des mélodies chantonnées. Celle-ci permet la génération de requêtes artificielles qui peuvent être substituées aux requêtes réelles lors du test de systèmes. Cette alternative permet d'alléger le processus de test tout en conservant une stimulation réaliste.
|
280 |
Plate-forme d'analyse morpho-syntaxique pour l'indexation automatique et la recherche d'information : de l'écrit vers la gestion des connaissancesSidhom, Sahbi 11 March 2002 (has links) (PDF)
La contribution de ce travail de thèse s'inscrit au sein d'un domaine multidisciplinaire regroupant le traitement automatique du langage naturel, l'indexation dans un système d'information documentaire et l'organisation des connaissances autour de l'information écrite. Sa particularité consiste en la mise à disposition d'outils pour le traitement automatique de l'information.<br />L'objectif est de construire une Plate-forme d'analyse morpho-syntaxique pour l'indexation automatique et la recherche d'information. Elle est composée d'un noyau d'indexation automatique (processus d'indexation) qui utilise le modèle des syntagmes nominaux comme descripteurs de l'information textuelle. Ces syntagmes sont organisés selon une approche Logique Intensionnelle/Extensionnelle (processus de classification des connaissances) qui permet d'ordonner les objets d'une classe et de distinguer les classes de connaissances. A la base de cette dernière propriété, nous construisons notre approche pour la recherche d'information (processus de recherche d'information). <br />Cette Plate-forme d'analyse dans sa logique de fonctionnement sera un outil d'investigation orienté vers l'organisation et la gestion des connaissances écrites.<br />Dans notre recherche, cet aspect sur l'organisation des connaissances a été conduit dans le but de faire émerger les propriétés linguistiques et le traitement du langage dans une pratique expérimentale sur l'indexation automatique documentaire. Nous avons montré la nécessité de coordonner d'autres sources et stratégies dans l'exploration de ces propriétés. Il s'agit du mode de raisonnement et de la technique d'exploitation des objets du discours spécifiques à la gestion des connaissances (comme étape préalable à la recherche d'information).<br />Ces deux derniers aspects (mode et technique) intégrés dans le processus de la présentation et de l'organisation du syntagme nominal offrent des scénarii pertinents pour la recherche d'informations.
|
Page generated in 0.0879 seconds