Global ETD Search

11	Désambiguisation de sens par modèles de contextes et son application à la Recherche d’Information Brosseau-Villeneuve, Bernard 12 1900 (has links) Il est connu que les problèmes d'ambiguïté de la langue ont un effet néfaste sur les résultats des systèmes de Recherche d'Information (RI). Toutefois, les efforts de recherche visant à intégrer des techniques de Désambiguisation de Sens (DS) à la RI n'ont pas porté fruit. La plupart des études sur le sujet obtiennent effectivement des résultats négatifs ou peu convaincants. De plus, des investigations basées sur l'ajout d'ambiguïté artificielle concluent qu'il faudrait une très haute précision de désambiguation pour arriver à un effet positif. Ce mémoire vise à développer de nouvelles approches plus performantes et efficaces, se concentrant sur l'utilisation de statistiques de cooccurrence afin de construire des modèles de contexte. Ces modèles pourront ensuite servir à effectuer une discrimination de sens entre une requête et les documents d'une collection. Dans ce mémoire à deux parties, nous ferons tout d'abord une investigation de la force de la relation entre un mot et les mots présents dans son contexte, proposant une méthode d'apprentissage du poids d'un mot de contexte en fonction de sa distance du mot modélisé dans le document. Cette méthode repose sur l'idée que des modèles de contextes faits à partir d'échantillons aléatoires de mots en contexte devraient être similaires. Des expériences en anglais et en japonais montrent que la force de relation en fonction de la distance suit généralement une loi de puissance négative. Les poids résultant des expériences sont ensuite utilisés dans la construction de systèmes de DS Bayes Naïfs. Des évaluations de ces systèmes sur les données de l'atelier Semeval en anglais pour la tâche Semeval-2007 English Lexical Sample, puis en japonais pour la tâche Semeval-2010 Japanese WSD, montrent que les systèmes ont des résultats comparables à l'état de l'art, bien qu'ils soient bien plus légers, et ne dépendent pas d'outils ou de ressources linguistiques. La deuxième partie de ce mémoire vise à adapter les méthodes développées à des applications de Recherche d'Information. Ces applications ont la difficulté additionnelle de ne pas pouvoir dépendre de données créées manuellement. Nous proposons donc des modèles de contextes à variables latentes basés sur l'Allocation Dirichlet Latente (LDA). Ceux-ci seront combinés à la méthodes de vraisemblance de requête par modèles de langue. En évaluant le système résultant sur trois collections de la conférence TREC (Text REtrieval Conference), nous observons une amélioration proportionnelle moyenne de 12% du MAP et 23% du GMAP. Les gains se font surtout sur les requêtes difficiles, augmentant la stabilité des résultats. Ces expériences seraient la première application positive de techniques de DS sur des tâches de RI standard. / It is known that the ambiguity present in natural language has a negative effect on Information Retrieval (IR) systems effectiveness. However, up to now, the efforts made to integrate Word Sense Disambiguation (WSD) techniques in IR systems have not been successful. Past studies end up with either poor or unconvincing results. Furthermore, investigations based on the addition of artificial ambiguity shows that a very high disambiguation accuracy would be needed in order to observe gains. This thesis has for objective to develop efficient and effective approaches for WSD, using co-occurrence statistics in order to build context models. Such models could then be used in order to do a word sense discrimination between a query and documents of a collection. In this two-part thesis, we will start by investigating the principle of strength of relation between a word and the words present in its context, proposing an approach to learn a function mapping word distance to count weights. This method is based on the idea that context models made from random samples of word in context should be similar. Experiments in English and Japanese shows that the strength of relation roughly follows a negative power law. The weights resulting from the experiments are then used in the construction of Naïve Bayes WSD systems. Evaluations of these systems in English with the Semeval-2007 English Lexical Sample (ELS), and then in Japanese with the Semeval-2010 Japanese WSD (JWSD) tasks shows that the systems have state-of-the-art accuracy even though they are much lighter and don't rely on linguistic tools or resources. The second part of this thesis aims to adapt the new methods to IR applications. Such applications put heavy constraints on performance and available resources. We thus propose the use of corpus-based latent context models based on Latent Dirichlet Allocation (LDA). The models are combined with the query likelihood Language Model (LM) approach for IR. Evaluating the systems on three collections from the Text REtrieval Conference (TREC), we observe average proportional improvement in the range of 12% in MAP and 23% in GMAP. We then observe that the gains are mostly made on hard queries, augmenting the robustness of the results. To our knowledge, these experiments are the first positive application of WSD techniques on standard IR tasks. Informatique Computer Science Traitement des langues naturelles Natural Language Processing Recherche d'Information Information Retrieval Modèles de contexte Context models Désambiguisation de sens Word Sense Disambiguation Contexte de mots Word context TAL NLP RI IR DS WSD
12	Étude et développement d'un dispositif routier d'anticollision basé sur un radar ultra large bande pour la détection et l'identification notamment des usagers vulnérables / Study and development of a road collision avoidance system based on ultra wide-band radar for obstacles detection and identification dedicated to vulnerable road users Sadli, Rahmad 12 March 2019 (has links) Dans ce travail de thèse, nous présentons nos travaux qui portent sur l’identification des cibles en général par un radar Ultra-Large Bande (ULB) et en particulier l’identification des cibles dont la surface équivalente radar est faible telles que les piétons et les cyclistes. Ce travail se décompose en deux parties principales, la détection et la reconnaissance. Dans la première approche du processus de détection, nous avons proposé et étudié un détecteur de radar ULB robuste qui fonctionne avec des données radar 1-D (A-scan) à une dimension. Il exploite la combinaison des statistiques d’ordres supérieurs et du détecteur de seuil automatique connu sous le nom de CA-CFAR pour Cell-Averaging Constant False Alarm Rate. Cette combinaison est effectuée en appliquant d’abord le HOS sur le signal reçu afin de supprimer une grande partie du bruit. Puis, après avoir éliminé le bruit du signal radar reçu, nous implémentons le détecteur de seuil automatique CA-CFAR. Ainsi, cette combinaison permet de disposer d’un détecteur de radar ULB à seuil automatique robuste. Afin d’améliorer le taux de détection et aller plus loin dans le traitement, nous avons évalué l’approche des données radar 2-D (B-Scan) à deux dimensions. Dans un premier temps, nous avons proposé une nouvelle méthode de suppression du bruit, qui fonctionne sur des données B-Scan. Il s’agit d’une combinaison de WSD et de HOS. Pour évaluer les performances de cette méthode, nous avons fait une étude comparative avec d’autres techniques de suppression du bruit telles que l’analyse en composantes principales, la décomposition en valeurs singulières, la WSD, et la HOS. Les rapports signal à bruit -SNR- des résultats finaux montrent que les performances de la combinaison WSD et HOS sont meilleures que celles des autres méthodes rencontrées dans la littérature. A la phase de reconnaissance, nous avons exploité les données des deux approches à 1-D et à 2-D obtenues à partir du procédé de détection. Dans la première approche à 1-D, les techniques SVM et le DBN sont utilisées et évaluées pour identifier la cible en se basant sur la signature radar. Les résultats obtenus montrent que la technique SVM donne de bonnes performances pour le système proposé où le taux de reconnaissance global moyen atteint 96,24%, soit respectivement 96,23%, 95,25% et 97,23% pour le cycliste, le piéton et la voiture. Dans la seconde approche à 1-D, les performances de différents types d’architectures DBN composées de différentes couches ont été évaluées et comparées. Nous avons constaté que l’architecture du réseau DBN avec quatre couches cachées est meilleure et la précision totale moyenne peut atteindre 97,80%. Ce résultat montre que les performances obtenues avec le DBN sont meilleures que celles obtenues avec le SVM (96,24%) pour ce système de reconnaissance de cible utilisant un radar ULB. Dans l’approche bidimensionnelle, le réseau de neurones convolutifs a été utilisé et évalué. Nous avons proposé trois architectures de CNN. La première est le modèle modifié d’Alexnet, la seconde est une architecture avec les couches de convolution arborescentes et une couche entièrement connectée, et la troisième est une architecture avec les cinq couches de convolution et deux couches entièrement connectées. Après comparaison et évaluation des performances de ces trois architectures proposées nous avons constaté que la troisième architecture offre de bonnes performances par rapport aux autres propositions avec une précision totale moyenne qui peut atteindre 99,59%. Enfin, nous avons effectué une étude comparative des performances obtenues avec le CNN, DBN et SVM. Les résultats montrent que CNN a les meilleures performances en termes de précision par rapport à DBN et SVM. Cela signifie que l’utilisation de CNN dans les données radar bidimensionnels permet de classer correctement les cibles radar ULB notamment pour les cibles à faible SER et SNR telles que les cyclistes ou les piétons. / In this thesis work, we focused on the study and development of a system identification using UWB-Ultra-Wide-Band short range radar to detect the objects and particularly the vulnerable road users (VRUs) that have low RCS-Radar Cross Section- such as cyclist and pedestrian. This work is composed of two stages i.e. detection and recognition. In the first approach of detection stage, we have proposed and studied a robust UWB radar detector that works on one dimension 1-D radar data ( A-scan). It relies on a combination of Higher Order Statistics (HOS) and the well-known CA-CFAR (Cell-Averaging Constant False Alarm Rate) detector. This combination is performed by firstly applying the HOS to the received radar signal in order to suppress the noise. After eliminating the noise of the received radar signal, we apply the CA-CFAR detector. By doing this combination, we finally have an UWB radar detector which is robust against the noise and works with the adaptive threshold. In order to enhance the detection performance, we have evaluated the approach of using two dimensions 2-D (B-Scan) radar data. In this 2-D radar approach, we proposed a new method of noise suppression, which works on this B-Scan data. The proposed method is a combination of WSD (Wavelet Shrinkage Denoising) and HOS. To evaluate the performance of this method, we performed a comparative study with the other noise removal methods in literature including Principal Component Analysis (PCA), Singular Value Decomposition (SVD), WSD and HOS. The Signal-to-Noise Ratio (SNR) of the final result has been computed to compare the effectiveness of individual noise removal techniques. It is observed that a combination of WSD and HOS has better capability to remove the noise compared to that of the other applied techniques in the literature; especially it is found that it allows to distinguish efficiency the pedestrian and cyclist over the noise and clutters whereas other techniques are not showing significant result. In the recognition phase, we have exploited the data from the two approaches 1-D and 2-D, obtained from the detection method. In the first 1-D approach, Support Vector Machines (SVM) and Deep Belief Networks (DBN) have been used and evaluated to identify the target based on the radar signature. The results show that the SVM gives good performances for the proposed system where the total recognition accuracy rate could achieve up to 96,24%. In the second approach of this 1-D radar data, the performance of several DBN architectures compose of different layers have been evaluated and compared. We realised that the DBN architecture with four hidden layers performs better than those of with two or three hidden layers. The results show also that this architecture achieves up to 97.80% of accuracy. This result also proves that the performance of DBN is better than that of SVM (96.24%) in the case of UWB radar target recognition system using 1-D radar signature. In the 2-D approach, the Convolutional Neural Network (CNN) has been exploited and evaluated. In this work, we have proposed and investigated three CNN architectures. The first architecture is the modified of Alexnet model, the second is an architecture with three convolutional layers and one fully connected layer, and the third is an architecture with five convolutional layers and two fully connected layers. The performance of these proposed architectures have been evaluated and compared. We found that the third architecture has a good performance where it achieves up to 99.59% of accuracy. Finally, we compared the performances obtained using CNN, DBN and SVM. The results show that CNN gives a better result in terms of accuracy compared to that of DBN and SVM. It allows to classify correctly the UWB radar targets like cyclist and pedestrian. Ca-Cfar Cnn Détection des cyclistes et piétons Dbn Hos Identification des cyclistes et piétons Radar ultra-Large bande Radar ULB Réseau de neurones convolutifs Statistiques d’ordres supérieurs Svm Usagers vulnérables Wsd Convolutional neural networks Cyclists and pedestrians detection Cyclists and pedestrians identification Higher order statistics Ultra-Wide Band radar UWB radar Vulnerable users Wavelet Shrinkage Denoising Deep belief networks Support vector machines
13	Désambiguisation de sens par modèles de contextes et son application à la Recherche d’Information Brosseau-Villeneuve, Bernard 12 1900 (has links) Il est connu que les problèmes d'ambiguïté de la langue ont un effet néfaste sur les résultats des systèmes de Recherche d'Information (RI). Toutefois, les efforts de recherche visant à intégrer des techniques de Désambiguisation de Sens (DS) à la RI n'ont pas porté fruit. La plupart des études sur le sujet obtiennent effectivement des résultats négatifs ou peu convaincants. De plus, des investigations basées sur l'ajout d'ambiguïté artificielle concluent qu'il faudrait une très haute précision de désambiguation pour arriver à un effet positif. Ce mémoire vise à développer de nouvelles approches plus performantes et efficaces, se concentrant sur l'utilisation de statistiques de cooccurrence afin de construire des modèles de contexte. Ces modèles pourront ensuite servir à effectuer une discrimination de sens entre une requête et les documents d'une collection. Dans ce mémoire à deux parties, nous ferons tout d'abord une investigation de la force de la relation entre un mot et les mots présents dans son contexte, proposant une méthode d'apprentissage du poids d'un mot de contexte en fonction de sa distance du mot modélisé dans le document. Cette méthode repose sur l'idée que des modèles de contextes faits à partir d'échantillons aléatoires de mots en contexte devraient être similaires. Des expériences en anglais et en japonais montrent que la force de relation en fonction de la distance suit généralement une loi de puissance négative. Les poids résultant des expériences sont ensuite utilisés dans la construction de systèmes de DS Bayes Naïfs. Des évaluations de ces systèmes sur les données de l'atelier Semeval en anglais pour la tâche Semeval-2007 English Lexical Sample, puis en japonais pour la tâche Semeval-2010 Japanese WSD, montrent que les systèmes ont des résultats comparables à l'état de l'art, bien qu'ils soient bien plus légers, et ne dépendent pas d'outils ou de ressources linguistiques. La deuxième partie de ce mémoire vise à adapter les méthodes développées à des applications de Recherche d'Information. Ces applications ont la difficulté additionnelle de ne pas pouvoir dépendre de données créées manuellement. Nous proposons donc des modèles de contextes à variables latentes basés sur l'Allocation Dirichlet Latente (LDA). Ceux-ci seront combinés à la méthodes de vraisemblance de requête par modèles de langue. En évaluant le système résultant sur trois collections de la conférence TREC (Text REtrieval Conference), nous observons une amélioration proportionnelle moyenne de 12% du MAP et 23% du GMAP. Les gains se font surtout sur les requêtes difficiles, augmentant la stabilité des résultats. Ces expériences seraient la première application positive de techniques de DS sur des tâches de RI standard. / It is known that the ambiguity present in natural language has a negative effect on Information Retrieval (IR) systems effectiveness. However, up to now, the efforts made to integrate Word Sense Disambiguation (WSD) techniques in IR systems have not been successful. Past studies end up with either poor or unconvincing results. Furthermore, investigations based on the addition of artificial ambiguity shows that a very high disambiguation accuracy would be needed in order to observe gains. This thesis has for objective to develop efficient and effective approaches for WSD, using co-occurrence statistics in order to build context models. Such models could then be used in order to do a word sense discrimination between a query and documents of a collection. In this two-part thesis, we will start by investigating the principle of strength of relation between a word and the words present in its context, proposing an approach to learn a function mapping word distance to count weights. This method is based on the idea that context models made from random samples of word in context should be similar. Experiments in English and Japanese shows that the strength of relation roughly follows a negative power law. The weights resulting from the experiments are then used in the construction of Naïve Bayes WSD systems. Evaluations of these systems in English with the Semeval-2007 English Lexical Sample (ELS), and then in Japanese with the Semeval-2010 Japanese WSD (JWSD) tasks shows that the systems have state-of-the-art accuracy even though they are much lighter and don't rely on linguistic tools or resources. The second part of this thesis aims to adapt the new methods to IR applications. Such applications put heavy constraints on performance and available resources. We thus propose the use of corpus-based latent context models based on Latent Dirichlet Allocation (LDA). The models are combined with the query likelihood Language Model (LM) approach for IR. Evaluating the systems on three collections from the Text REtrieval Conference (TREC), we observe average proportional improvement in the range of 12% in MAP and 23% in GMAP. We then observe that the gains are mostly made on hard queries, augmenting the robustness of the results. To our knowledge, these experiments are the first positive application of WSD techniques on standard IR tasks. Informatique Computer Science Traitement des langues naturelles Natural Language Processing Recherche d'Information Information Retrieval Modèles de contexte Context models Désambiguisation de sens Word Sense Disambiguation Contexte de mots Word context TAL NLP RI IR DS WSD

Search results

Désambiguisation de sens par modèles de contextes et son application à la Recherche d’Information

Désambiguisation de sens par modèles de contextes et son application à la Recherche d’Information