341 |
Vizuální detekce elektronických součástek / Visual detection of electronic devicesJuhas, Miroslav January 2010 (has links)
This thesis describes application of image processing for precise distance measurement in self acting production of a tip for AFM microscopes. The main goal is to measure distances between assembly parts during fabrication process. The purpose is to acquire a data for self acting assembly line which have to substitute inaccurate and nonrecurring manual assembly process. The assembly process consists of three technological steps. In first two steps the tungsten wire is glued to the cantilever. Distance measurement is necessary in all axes for proper alignment of parts. In third step the sharp tip is etched by KOH solution. The right distance between liquid level and the cantilever must be kept. A camera with high resolution and macro objective is used to acquire an image. Camera image is then calibrated to suppress distortions and scene position with respect to camera position. Length conversion coefficient is also computed. Object recognition and distance measurement is based on standard computer vision methods, mainly: adaptive thresholding, moments, image statistics, canny edge detector, Hough transform… Proposed algorithms have been implemented in C++ using Intel OpenCV library. The final achieved distance resolution is about 10µm per pixel. Algorithm output was successfully used to assembly few test tips.
|
342 |
La reconnaissance visuelle à travers le temps : attentes, échantillonnage et traitementCaplette, Laurent 08 1900 (has links)
La reconnaissance visuelle est un processus temporel : d’abord, l’information visuelle est reçue sur notre rétine de manière continue à travers le temps; ensuite, le traitement de l’information visuelle par notre cerveau prend un certain temps à s’effectuer; finalement, notre perception est toujours fonction autant des expériences acquises dans le passé que de l’input sensoriel présent. Les interactions entre ces aspects temporels de la reconnaissance sont rarement abordées dans la littérature. Dans cette thèse, nous évaluons l’échantillonnage de l’information visuelle à travers le temps pendant une tâche de reconnaissance, comment il se traduit dans le cerveau et comment il est modulé par des attentes spécifiques.
Plusieurs études indiquent que nos attentes modulent notre perception. Comment l’attente d’un objet spécifique influence nos représentations internes demeure cependant largement inconnu. Dans le premier article de cette thèse, nous utilisons une variante de la technique Bubbles pour retrouver avec précision le décours temporel de l’utilisation d’information visuelle pendant la reconnaissance d’objets, lorsque les observateurs s’attendent à voir un objet spécifique ou non. Nous observons que les attentes affectent la représentation de différents attributs différemment et qu’elles ont un effet distinct à différents moments pendant la réception d’information visuelle. Dans le deuxième article, nous utilisons une technique similaire en conjonction avec l’électroencéphalographie (EEG) afin de révéler pour la première fois le traitement, à travers le temps, de l’information reçue à un moment spécifique pendant une fixation oculaire. Nous démontrons que l’information visuelle n’est pas traitée de la même manière selon le moment auquel elle est reçue sur la rétine, que ces différences ne sont pas explicables par l’adaptation ou l’amorçage, qu’elles sont d’origine au moins partiellement descendante et qu’elles corrèlent avec le comportement. Finalement, dans le troisième article, nous approfondissons cette investigation en utilisant la magnétoencéphalographie (MEG) et en examinant l’activité dans différentes régions cérébrales. Nous démontrons que l’échantillonnage de l’information visuelle est hautement variable selon le moment d’arrivée de l’information sur la rétine dans de larges parties des lobes occipitaux et pariétaux. De plus, nous démontrons que cet échantillonnage est rythmique, oscillant à diverses fréquences entre 7 et 30 Hz, et que ces oscillations varient en fréquences selon l’attribut échantillonné. / Visual recognition is a temporal process: first, visual information is continuously received through time on our retina; second, the processing of visual information by our brain takes time; third, our perception is function of both the present sensory input and our past experiences. Interactions between these temporal aspects have rarely been discussed in the literature. In this thesis, we assess the sampling of visual information through time during recognition tasks, how it is translated in the brain, and how it is modulated by expectations of specific objects.
Several studies report that expectations modulate perception. However, how the expectation of a specific object modulates our internal representations remains largely unknown. In the first article of this thesis, we use a variant of the Bubbles technique to uncover the precise time course of visual information use during object recognition when specific objects are expected or not. We show that expectations modulate the representations of different features differently, and that they have distinct effects at distinct moments throughout the reception of visual information. In the second article, we use a similar method in conjunction with electroencephalography (EEG) to reveal for the first time the processing, through time, of information received at a specific moment during an eye fixation. We show that visual information is not processed in the same way depending on the moment at which it is received on the retina, that these differences cannot be explained by simple adaptation or repetition priming, that they are of at least partly top- down origin, and that they correlate with behavior. Finally, in a third article, we push this investigation further by using magnetoencephalography (MEG) and examining brain activity in different brain regions. We show that the sampling of visual information is highly variable depending on the moment at which information arrives on the retina in large parts of the occipital and parietal lobes. Furthermore, we show that this sampling is rhythmic, oscillating at multiple frequencies between 7 and 30 Hz, and that these oscillations vary according to the sampled feature.
|
343 |
Utveckling av intelligens för en robotplattform AIDA / Developing intelligence for a robot platform AIDATran, Danny, Norgren, Bo Valdemar, Winbladh, Hugo, Tsai, Emily, Magnusson, Jim, Kallström, Ebba, Tegnell, Fredrik January 2022 (has links)
Rapporten beskriver utvecklingsarbetet och resultatet från utvecklingen av en robotplattform vid namn AIDA (AI Design Assistant), som utvecklades åt Institutionen för datavetenskap vid Linköpings universitet. Plattformen består av en robotarm som utgörs av sex stycken servomotorer, som är anslutna till en enkortsdator. En Android-surfplatta sitter integrerad på robotarmen och har en applikation installerad som utgör användargränssnittet. Tre huvudsakliga funktioner för plattformen utvecklades. Dessa funktioner är objektigenkänning, objektspårning och taligenkänning. Objektigenkänningen kan klassificera fyra olika fruktsorter, objektspårningen kan spåra objekt och följa dem med robotarmen genom inverskinematik, och taligenkänningen kan transkribera tal till text och svara på kommandon. Utifrån resultatet och diskussionen härleds slutsatser över fyra frågeställningar relaterade till utvecklingsarbetet. Projektet utfördes som en del av kursen TDDD96 Kandidatprojekt i programvaruutveckling, och varje projektmedlem har även skrivit ett individuellt bidrag till rapporten som behandlar områden kopplade till projektarbetet. / This report describes the development process and the resulting product from the development of a robot platform named AIDA (AI Design Assistant), that was developed on a request from the Department of Computer and Information Science at Linköping University. The platform consists of a robot arm that is made up by six servo motors connected to a single-board computer. An Android tablet is attached to the robot arm and has an application installed which constitutes the user interface. Three main functions were developed for the platform. These functions constitute object recognition, object tracking, and speech recognition. The object recognition module can classify four different types of fruit, the object tracking module can track objects and follow them by moving the robot arm using inverse kinematics, and the speech recognition module can transcribe speech to text and respond to audible commands. Conclusions over four questions related to the development of the product are derived from the results and discussion chapters of the report. The project was conducted as a part of the course TDDD96 Software Engineering – Bachelor Project, and each project member has produced an individual contribution to the report which covers subjects related to the project.
|
344 |
Modèles descriptifs de relations spatiales pour l'aide au diagnostic d'images biomédicales / Descriptive models based on spatial relations for biomedical image diagnosisGarnier, Mickaël 24 November 2014 (has links)
La pathologie numérique s’est développée ces dernières années grâce à l’avancée récente des algorithmes d’analyse d’images et de la puissance de calcul. Notamment, elle se base de plus en plus sur les images histologiques. Ce format de données a la particularité de révéler les objets biologiques recherchés par les experts en utilisant des marqueurs spécifiques tout en conservant la plus intacte possible l’architecture du tissu. De nombreuses méthodes d’aide au diagnostic à partir de ces images se sont récemment développées afin de guider les pathologistes avec des mesures quantitatives dans l’établissement d’un diagnostic. Les travaux présentés dans cette thèse visent à adresser les défis liés à l’analyse d’images histologiques, et à développer un modèle d’aide au diagnostic se basant principalement sur les relations spatiales, une information que les méthodes existantes n’exploitent que rarement. Une technique d’analyse de la texture à plusieurs échelles est tout d’abord proposée afin de détecter la présence de tissu malades dans les images. Un descripteur d’objets, baptisé Force Histogram Decomposition (FHD), est ensuite introduit dans le but d’extraire les formes et l’organisation spatiale des régions définissant un objet. Finalement, les images histologiques sont décrites par les FHD mesurées à partir de leurs différents types de tissus et des objets biologiques marqués qu’ils contiennent. Les expérimentations intermédiaires ont montré que les FHD parviennent à correctement reconnaitre des objets sur fonds uniformes y compris dans les cas où les relations spatiales ne contiennent à priori pas d’informations pertinentes. De même, la méthode d’analyse de la texture s’avère satisfaisante dans deux types d’applications médicales différents, les images histologiques et celles de fond d’œil, et ses performances sont mises en évidence au travers d’une comparaison avec les méthodes similaires classiquement utilisées pour l’aide au diagnostic. Enfin, la méthode dans son ensemble a été appliquée à l’aide au diagnostic pour établir la sévérité d’un cancer via deux ensembles d’images histologiques, un de foies métastasés de souris dans le contexte du projet ANR SPIRIT, et l’autre de seins humains dans le cadre du challenge CPR 2014 : Nuclear Atypia. L’analyse des relations spatiales et des formes à deux échelles parvient à correctement reconnaitre les grades du cancer métastasé dans 87, 0 % des cas et fourni des indications quant au degré d’atypie nucléaire. Ce qui prouve de fait l’efficacité de la méthode et l’intérêt d’encoder l’organisation spatiale dans ce type d’images particulier. / During the last decade, digital pathology has been improved thanks to the advance of image analysis algorithms and calculus power. Particularly, it is more and more based on histology images. This modality of images presents the advantage of showing only the biological objects targeted by the pathologists using specific stains while preserving as unharmed as possible the tissue structure. Numerous computer-aided diagnosis methods using these images have been developed this past few years in order to assist the medical experts with quantitative measurements. The studies presented in this thesis aim at adressing the challenges related to histology image analysis, as well as at developing an assisted diagnosis model mainly based on spatial relations, an information that currently used methods rarely use. A multiscale texture analysis is first proposed and applied to detect the presence of diseased tissue. A descriptor named Force Histogram Decomposition (FHD) is then introduced in order to extract the shapes and spatial organisation of regions within an object. Finally, histology images are described by the FHD measured on their different types of tissue and also on the stained biological objects inside every types of tissue. Preliminary studies showed that the FHD are able to accurately recognise objects on uniform backgrounds, including when spatial relations are supposed to hold no relevant information. Besides, the texture analysis method proved to be satisfactory in two different medical applications, namely histology images and fundus photographies. The performance of these methods are highlighted by a comparison with the usual approaches in their respectives fields. Finally, the complete method has been applied to assess the severity of cancers on two sets of histology images. The first one is given as part of the ANR project SPIRIT and presents metastatic mice livers. The other one comes from the challenge ICPR 2014 : Nuclear Atypia and contains human breast tissues. The analysis of spatial relations and shapes at two different scales achieves a correct recognition of metastatic cancer grades of 87.0 % and gives insight about the nuclear atypia grade. This proves the efficiency of the method as well as the relevance of measuring the spatial organisation in this particular type of images.
|
345 |
Dynamic Mixed Reality AssemblyGuidance Using Optical Recognition MethodsGuðjónsdóttir, Harpa Hlíf, Ólafsson, Gestur Andrei January 2022 (has links)
Mixed Reality (MR) is an emerging paradigm in industry. While MR equipment and software have taken great technological strides in past years, standardized methods and workflows for developing MR systems for industry have not been widely adopted for many tasks. This thesis proposes a dynamic MR system for an assembly process. Optical recognition methods are explored to drive the application logic. The systemis developed using the Unity platform for the HoloLens 2. The software tools Vuforia Engine and Mixed Reality Toolkit (MRTK) are utilized. The project work concludes with an application capable of guiding users using graphics and audio. Successful methods are realized for calibrating the application logic for dynamic object positions,as well as for validating user actions. Experiments are conducted to validate the system. Subjects complete a different assembly process using paper instructions as guidance before using the MR application. Qualitative results regarding the MR experience are obtained through a questionnaire subjects answer, where the experience using paper instructions serves as a benchmark. Data obtained from an experienced user completing the assembly process is used as a quantitative benchmark for system performance measures. All subjects were able to complete the assembly tasks correctly using the MR application. Results show significantly better system performance for the experienced user compared to subjects unfamiliar with the MR system. Vuforia Engine recognition tools successfully tracked individual components that meet a specific criterion. Methods for validating user actions using Vuforia Engine software tools and the HoloLens’s internal hand tracking capabilities resulted in a high validation success rate. The thesis concludes effective training methods for the specific assembly scenario, although not robust for general implementation. / Mixed Reality (MR) är ett framväxande paradigm inom industrin. Medan tillbehör och programvara för MR har gjort enorma framsteg under det senaste decenniet, har standardiserade metoder och arbetsflöden för utveckling av MR applikationer i industriella kontexter inte använts i lika stor utsträckning. Det här examensarbetet utvecklar och proponerar en dynamisk MR applikation för en monteringsprocess. Optiska valideringsmetoder utforskas för att använda applikationen. Applikationen är utvecklad med hjälp av Unity game engine för HoloLens 2. Programvaran Vuforia Engine och MRTK är utnyttjad. Projektarbetet resulterade i en applikation som kan vägleda användare med hjälp av ljud och grafik. Framgångsrika metoder implementerades för att kalibrera applikationslogiken av dynamisk objektspositionering, samt för att validera användarens rörelser. Ett experiment utfördes för att validera MR applikationen där deltagare genomförde en monteringsprocess med hjälp av pappersinstruktioner, vilket används som ett kvalitativt riktmärke. Mätningar av en erfaren applikationsanvändare har använts som ett kvantitativt riktmärke för mätning av systemmässigt utförande. Alla deltagare kunde utföra monteringsuppgifterna korrekt med hjälp av MR applikationen. Resultaten visar betydligt bättre utförande för den erfarna användaren jämfört med personer som inte är bekanta med MR systemet. Spårning av enskilda objekt med hjälp av Vuforia Engine igenkänningsverktyg var framgångsrikt för komponenter som uppfyller ett specifikt kriterium. Metoder för att validera användarens rörelser med programvaran Vuforia Engine samt HoloLens interna handspårningsfunktion gav mycket framgångsrika resultat vid validering. Sammanfattningsvis kom studien fram till effektiva upplärningsmetoder för det här monteringsscenariot, även om de inte var robusta nog för generell implementering.
|
346 |
Mixed reality for assembly processes, programming and guidingPeirotén López de Arbina, Borja, Romero Luque, Elisabeth María January 2023 (has links)
Assembly processes are an integral part of many industries, including manufacturing and production. These processes typically involve the use of robots and automated equipment to perform tasks such as picking, placing, and joining components. One solution is Mixed Reality (MR), which combines virtual and real-world elements to create an immersive environment for the operator. MR technology can be used to guide operators through the assembly process, providing real-time feedback and instructions, as well as allowing them to program the assembly process and adjust as needed. The project was focused on developing a user interface for the Hololens 2 glasses that would allow operators to select different tools and robots and configure targets and processes for an assembly station. The team also developed a system to send information about targets, paths, and joint values to the virtual and real robot, which allowed operators to easily program the robot to perform the assembly process. It was possible to develop and test the MR system in a real-world assembly setting, evaluating its effectiveness in improving the efficiency and accuracy of the process. This project wants to demonstrate the potential of MR technology for improving assembly processes and to provide a proof-of-concept for future development in this field. / <p>Utbytesstudenter</p>
|
347 |
Hierarchical Slow Feature Analysis on visual stimuli and top-down reconstructionWilbert, Niko 24 May 2012 (has links)
In dieser Dissertation wird ein Modell des visuellen Systems untersucht, basierend auf dem Prinzip des unüberwachten Langsamkeitslernens und des SFA-Algorithmus (Slow Feature Analysis). Dieses Modell wird hier für die invariante Objekterkennung und verwandte Probleme eingesetzt. Das Modell kann dabei sowohl die zu Grunde liegenden diskreten Variablen der Stimuli extrahieren (z.B. die Identität des gezeigten Objektes) als auch kontinuierliche Variablen (z.B. Position und Rotationswinkel). Dabei ist es in der Lage, mit komplizierten Transformationen umzugehen, wie beispielsweise Tiefenrotation. Die Leistungsfähigkeit des Modells wird zunächst mit Hilfe von überwachten Methoden zur Datenanalyse untersucht. Anschließend wird gezeigt, dass auch die biologisch fundierte Methode des Verstärkenden Lernens (reinforcement learning) die Ausgabedaten unseres Modells erfolgreich verwenden kann. Dies erlaubt die Anwendung des Verstärkenden Lernens auf hochdimensionale visuelle Stimuli. Im zweiten Teil der Arbeit wird versucht, das hierarchische Modell mit Top-down Prozessen zu erweitern, speziell für die Rekonstruktion von visuellen Stimuli. Dabei setzen wir die Methode der Vektorquantisierung ein und verbinden diese mit einem Verfahren zum Gradientenabstieg. Die wesentlichen Komponenten der für unsere Simulationen entwickelten Software wurden in eine quelloffene Programmbibliothek integriert, in das ``Modular toolkit for Data Processing'''' (MDP). Diese Programmkomponenten werden im letzten Teil der Dissertation vorgestellt. / This thesis examines a model of the visual system, which is based on the principle of unsupervised slowness learning and using Slow Feature Analysis (SFA). We apply this model to the task of invariant object recognition and several related problems. The model not only learns to extract the underlying discrete variables of the stimuli (e.g., identity of the shown object) but also to extract continuous variables (e.g., position and rotational angles). It is shown to be capable of dealing with complex transformations like in-depth rotation. The performance of the model is first measured with the help of supervised post-processing methods. We then show that biologically motivated methods like reinforcement learning are also capable of processing the high-level output from the model. This enables reinforcement learning to deal with high-dimensional visual stimuli. In the second part of this thesis we try to extend the model with top-down processes, centered around the task of reconstructing visual stimuli. We utilize the method of vector quantization and combine it with gradient descent. The key components of our simulation software have been integrated into an open-source software library, the Modular toolkit for Data Processing (MDP). These components are presented in the last part of the thesis.
|
348 |
物體輪廓診斷性對形式內促發與跨形式促發之影響 / The effect of object contour diagnosticity on within-modal and cross-modal priming王林宇, Linyu Lennel Wang Unknown Date (has links)
每個人遇到曾經看過的物體時,辨識該物體速度會增加(或辨識的正確率增加),這個現象稱為促發(priming)效果(簡稱P-P促發),同樣地,閱讀某物體的名稱(亦即文字)後,隔幾分鐘後再看該物體的圖形,這樣也會產生一種促發量(簡稱W-P促發)。許多研究都指出W-P促發是一種內隱(implicit)記憶,亦即,個體不需要刻意想起曾經看過的物件,促發效果仍會產生,而且P-P促發量都高於W-P促發量。然而,一些研究卻發現W-P促發量等於P-P促發量,顯然地,內隱記憶理論無法對於這種反直覺現象提出合理的解釋。
根據Paivio的雙重收錄理論(dual coding theory)(Paivio, 1986, 1991),辨識具體(concrete)名詞(例如,物體的名稱)會同時觸及(access)或激發兩種知識表徵,一種是涉及左腦的口語(verbal)表徵,另一種是涉及左腦與右腦的影像(image)表徵,而許多神經語言學研究皆指出,涉及處理具體名詞的神經機制不只包含左腦,同時也包含右腦,是以,閱讀具體名詞可能會觸及或激發物體的內在表徵,如果物體輪廓相當獨特或明顯,那麼閱讀此類型物體之名稱可能會觸及或激發此類物體的完整或重要表徵,致使W-P促發量等於P-P促發量現象。因此本研究試圖操弄物體輪廓診斷性來解釋W-P促發量等於P-P促發量之現象。
實驗一與實驗二分別以「圖形唸名」以及「圖形知覺辨識作業」來檢驗「物體輪廓診斷性」對促發的影響,結果顯示,「整體診斷性不高」物體(globally non-diagnostic object,簡稱GN類物體)的P-P促發量高於W-P促發量,和先前許多研究結果一致,然而,「整體診斷性高」物體(globally diagnostic object,簡稱GD類物體)的W-P促發量等於P-P促發量,顯示「物體輪廓診斷性」會影響促發的表現,同時也顯示閱讀GD類物體名稱可以觸及或激發GD類物體的整體或必要的知識表徵。
實驗三以分視野(divided visual field)呈現方式檢驗GD類物體的W-P促發之腦側化現象。本研究發現,顯著的W-P促發只出現在右腦,顯示W-P促發主要經由右腦來處理,根據Paivio的雙重收錄理論來推論,W-P促發之本質可能主要涉及以影像為基礎的(image-based)的知識表徵。
本研究同時操弄外顯記憶以檢驗外顯記憶是否污染W-P促發而導致W-P促發量等於P-P促發量,結果顯示,不管哪一種物體,P-P情境的再認記憶表現都顯著比W-P情境好,顯示GD類物體的促發表現與外顯記憶表現之間有單一分離(single dissociation)的關係,換言之,GD類物體之W-P促發並不受外顯記憶影響或污染。此外,實驗四顯示刻意的心像策略並不涉及W-P促發,顯示閱讀GD類物體名稱觸及GD類物體概念表徵是一種自動化而且相當快速的歷程。 / Implicit memory is usually assessed by showing repetition priming effects, when better performance in accuracy or response time for stimuli that have been previously encountered in comparison with performance with new stimuli. Picture-naming priming has been examined in studies that compared priming in participants who named pictures in the study phase and named those same pictures in the test phase (P-P condition) versus participants who read words that were the names of pictures in the study phase and named pictures cor-responding to those words in the test phase (W-P condition). Many studies demonstrated W-P priming is less than P-P priming in the picture-naming task and other similar object recognition tasks. However, in sharp contrast to the above studies, some studies reported equivalent magnitudes of P-P and W-P naming priming. Theories of implicit memory cannot account for the counter-intuitive phenomenon.
According to Paivio’s dual-coding theory, the processing of abstract nouns (e.g., justice) relies on verbal code representations of the left cerebral hemisphere only, whereas concrete nouns (e.g., airplane) additionally access a second image-based processing system in the right cerebral hemisphere (Paivio, 1986, 1991). Paivio’s theory is supported by many researches on neurolinguistics. If the contour of an object is very distinctive or diagnostic, there should be the possible result that reading the name of the distinctive objects could access the whole or essential representation of the object. Following the idea, I manipulated global diagnosticity of object contour to examine whether P-P priming is always larger than W-P priming.
I found P-P priming was equivalent to W-P priming on “globally diagnostic” (GD) objects, but the P-P priming was still larger than W-P priming on “glob-ally non-diagnostic” (GN) objects. This phenomenon appeared on both pic-ture-naming (Experiment 1) and picture perceptual-identification (Experiment 2) tasks. Experiment 3 showed that significant W-P priming appeared only when GD objects in the test phase were presented to the right cerebral hemi-sphere (in the left visual field). Based on the Paivio’s dual coding theory (Paivio, 1986, 1991) and research on neurolinguistics, the nature of W-P priming for GD objects was inferred to be image-based processing.
Better explicit (conscious) memory performance (recognition memory) in P-P condition than that in W-P condition showed that equivalent priming across P-P and W-P conditions on GD objects was dissociated from the influence of conscious recognition memory. Experiment 4 showed that the intentional strategy of generating mental imagery was not necessarily involved in the W-P priming.
These results suggested that reading names of globally diagnostic objects can access, automatically and unconsciously, the representation or essential features of globally diagnostic objects, and right cerebral hemisphere might be responsible for the processing.
|
349 |
Données multimodales pour l'analyse d'imageGuillaumin, Matthieu 27 September 2010 (has links) (PDF)
La présente thèse s'intéresse à l'utilisation de méta-données textuelles pour l'analyse d'image. Nous cherchons à utiliser ces informations additionelles comme supervision faible pour l'apprentissage de modèles de reconnaissance visuelle. Nous avons observé un récent et grandissant intérêt pour les méthodes capables d'exploiter ce type de données car celles-ci peuvent potentiellement supprimer le besoin d'annotations manuelles, qui sont coûteuses en temps et en ressources. Nous concentrons nos efforts sur deux types de données visuelles associées à des informations textuelles. Tout d'abord, nous utilisons des images de dépêches qui sont accompagnées de légendes descriptives pour s'attaquer à plusieurs problèmes liés à la reconnaissance de visages. Parmi ces problèmes, la vérification de visages est la tâche consistant à décider si deux images représentent la même personne, et le nommage de visages cherche à associer les visages d'une base de données à leur noms corrects. Ensuite, nous explorons des modèles pour prédire automatiquement les labels pertinents pour des images, un problème connu sous le nom d'annotation automatique d'image. Ces modèles peuvent aussi être utilisés pour effectuer des recherches d'images à partir de mots-clés. Nous étudions enfin un scénario d'apprentissage multimodal semi-supervisé pour la catégorisation d'image. Dans ce cadre de travail, les labels sont supposés présents pour les données d'apprentissage, qu'elles soient manuellement annotées ou non, et absentes des données de test. Nos travaux se basent sur l'observation que la plupart de ces problèmes peuvent être résolus si des mesures de similarité parfaitement adaptées sont utilisées. Nous proposons donc de nouvelles approches qui combinent apprentissage de distance, modèles par plus proches voisins et méthodes par graphes pour apprendre, à partir de données visuelles et textuelles, des similarités visuelles spécifiques à chaque problème. Dans le cas des visages, nos similarités se concentrent sur l'identité des individus tandis que, pour les images, elles concernent des concepts sémantiques plus généraux. Expérimentalement, nos approches obtiennent des performances à l'état de l'art sur plusieurs bases de données complexes. Pour les deux types de données considérés, nous montrons clairement que l'apprentissage bénéficie de l'information textuelle supplémentaire résultant en l'amélioration de la performance des systèmes de reconnaissance visuelle.
|
350 |
Étude intracrânienne sur les mécanismes cérébraux permettant la reconnaissance d’objetsBertrand, Josie-Anne 06 1900 (has links)
La reconnaissance d’objets est une tâche complexe au cours de laquelle le cerveau doit assembler de manière cohérente tous les éléments d’un objet accessible à l’œil afin de le reconnaître. La construction d’une représentation corticale de l’objet se fait selon un processus appelé « bottom-up », impliquant notamment les régions occipitales et temporales. Un mécanisme « top-down » au niveau des régions pariétales et frontales, facilite la reconnaissance en suggérant des identités potentielles de l’objet à reconnaître. Cependant, le mode de fonctionnement de ces mécanismes est peu connu.
Plusieurs études ont démontré une activité gamma induite au moment de la perception cohérente de stimuli, lui conférant ainsi un rôle important dans la reconnaissance d’objets. Cependant, ces études ont utilisé des techniques d’enregistrement peu précises ainsi que des stimuli répétitifs. La première étude de cette thèse vise à décrire la dynamique spatio-temporelle de l’activité gamma induite à l’aide de l’électroencéphalographie intracrânienne, une technique qui possède des résolutions spatiales et temporelles des plus précises. Une tâche d’images fragmentées a été conçue dans le but de décrire l’activité gamma induite selon différents niveaux de reconnaissance, tout en évitant la répétition de stimuli déjà reconnus. Afin de mieux circonscrire les mécanismes « top-down », la tâche a été répétée après un délai de 24 heures. Les résultats démontrent une puissante activité gamma induite au moment de la reconnaissance dans les régions « bottom-up ». Quant aux mécanismes « top-down », l’activité était plus importante aux régions occipitopariétales. Après 24 heures, l’activité était davantage puissante aux régions frontales, suggérant une adaptation des procédés « top-down » selon les demandes de la tâche.
Très peu d’études se sont intéressées au rythme alpha dans la reconnaissance d’objets, malgré qu’il soit bien reconnu pour son rôle dans l’attention, la mémoire et la communication des régions neuronales distantes. La seconde étude de cette thèse vise donc à décrire plus précisément l’implication du rythme alpha dans la reconnaissance d’objets en utilisant les techniques et tâches identiques à la première étude. Les analyses révèlent une puissante activité alpha se propageant des régions postérieures aux régions antérieures, non spécifique à la reconnaissance. Une synchronisation de la phase de l’alpha était, quant à elle, observable qu’au moment de la reconnaissance. Après 24 heures, un patron similaire était observable, mais l’amplitude de l’activité augmentait au niveau frontal et les synchronies de la phase étaient davantage distribuées. Le rythme alpha semble donc refléter des processus attentionnels et communicationnels dans la reconnaissance d’objets.
En conclusion, cette thèse a permis de décrire avec précision la dynamique spatio-temporelle de l’activité gamma induite et du rythme alpha ainsi que d’en apprendre davantage sur les rôles potentiels que ces deux rythmes occupent dans la reconnaissance d’objets. / Recognizing objects is a complex task requiring the brain to assemble visual information in such a way that coherent perception can happen. Building a visual cerebral representation is done through a bottom-up process, involving mainly occipital and temporal areas. A top-down mechanism from parietal and frontal areas, is thought to facilitate recognition by taking into account expectations and generating possible candidates. However, the precise mechanisms by which all these processes are done are still unclear.
Studies investigating induced gamma response were able to link this activity to coherent perception of objects, suggesting a significant role of this activity in object recognition. However, these studies used imprecise recording techniques and stimuli repetition. The first study of this thesis aimed at describing with more precision the induced gamma activity using intracranial encephalography and a fragmented images paradigm in which only new stimuli are presented. Moreover, the task was presented again 24 hours later to circumscribe top-down mechanisms. Results show that the induced gamma activity is highest at recognition in regions involved in bottom-up processes. Top-down mechanism involved occipito-parietal areas when images were presented for the first time. When images were presented again 24 hours later, frontal areas mediated top-down facilitation, suggesting that top-down mechanisms vary according to task demand.
Alpha rhythm has been less clearly related to visual perception, but is nevertheless well known to be involved in attention, memory and long-distance brain communication. The second study of this thesis investigated the role of alpha rhythm in object recognition, using the same technique and task as in the first study. Time-frequency analysis revealed a strong alpha activity unspecific to recognition, which was propagating from posterior to anterior regions. Phase coherence analysis, however, showed significant phase synchronisation specific to recognition. A similar pattern of alpha activity was found 24 hours later. However, the activity was stronger in frontal regions and the phase synchronisation was more distributed. Alpha rhythm is thus thought to be involved in attentional and communicational mechanisms of object recognition.
In conclusion, this thesis was able to describe the precise spatio-temporal dynamics of induced gamma and alpha activity and suggest potential roles of these rhythms in response to object recognition.
|
Page generated in 0.1033 seconds