• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 332
  • 31
  • 18
  • 11
  • 8
  • 8
  • 4
  • 3
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 476
  • 242
  • 198
  • 186
  • 160
  • 136
  • 127
  • 112
  • 104
  • 102
  • 86
  • 85
  • 84
  • 81
  • 72
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
91

Handwritten Recognition for Ethiopic (Ge’ez) Ancient Manuscript Documents / Handskrivet erkännande för etiopiska (Ge’ez) Forntida manuskriptdokument

Terefe, Adisu Wagaw January 2020 (has links)
The handwritten recognition system is a process of learning a pattern from a given image of text. The recognition process usually combines a computer vision task with sequence learning techniques. Transcribing texts from the scanned image remains a challenging problem, especially when the documents are highly degraded, or have excessive dusty noises. Nowadays, there are several handwritten recognition systems both commercially and in free versions, especially for Latin based languages. However, there is no prior study that has been built for Ge’ez handwritten ancient manuscript documents. In contrast, the language has many mysteries of the past, in human history of science, architecture, medicine and astronomy. In this thesis, we present two separate recognition systems. (1) A character-level recognition system which combines computer vision for character segmentation from ancient books and a vanilla Convolutional Neural Network (CNN) to recognize characters. (2) An end- to- end segmentation free handwritten recognition system using CNN, Multi-Dimensional Recurrent Neural Network (MDRNN) with Connectionist Temporal Classification (CTC) for the Ethiopic (Ge’ez) manuscript documents. The proposed character label recognition model outperforms 97.78% accuracy. In contrast, the second model provides an encouraging result which indicates to further study the language properties for better recognition of all the ancient books. / Det handskrivna igenkännings systemet är en process för att lära sig ett mönster från en viss bild av text. Erkännande Processen kombinerar vanligtvis en datorvisionsuppgift med sekvens inlärningstekniker. Transkribering av texter från den skannade bilden är fortfarande ett utmanande problem, särskilt när dokumenten är mycket försämrad eller har för omåttlig dammiga buller. Nuförtiden finns det flera handskrivna igenkänningar system både kommersiellt och i gratisversionen, särskilt för latin baserade språk. Det finns dock ingen tidigare studie som har byggts för Ge’ez handskrivna gamla manuskript dokument. I motsats till detta språk har många mysterier från det förflutna, i vetenskapens mänskliga historia, arkitektur, medicin och astronomi. I denna avhandling presenterar vi två separata igenkänningssystem. (1) Ett karaktärs nivå igenkänningssystem som kombinerar bildigenkänning för karaktär segmentering från forntida böcker och ett vanilj Convolutional Neural Network (CNN) för att erkänna karaktärer. (2) Ett änd-till-slut-segmentering fritt handskrivet igenkänningssystem som använder CNN, Multi-Dimensional Recurrent Neural Network (MDRNN) med Connectionist Temporal Classification (CTC) för etiopiska (Ge’ez) manuskript dokument. Den föreslagna karaktär igenkännings modellen överträffar 97,78% noggrannhet. Däremot ger den andra modellen ett uppmuntrande resultat som indikerar att ytterligare studera språk egenskaperna för bättre igenkänning av alla antika böcker.
92

Detection and categorization of suggestive thumbnails : A step towards a safer internet / Upptäckt och kategorisering av suggestiva miniatyrer : Ett steg mot ett säkrare internet

Oliveira Franca, Matheus January 2021 (has links)
The aim of this work is to compare methods that predict whether an image has suggestive content, such as pornographic images and erotic fashion. Using binary classification, this work contributes to an internet environment where these images are not seen out of context. It is, therefore, necessary for user experience improvement purposes, such as child protection, publishers not having their campaign associated with inappropriate content, and companies improving their brand safety. For this study, a data set with more than 500k images was created to test the Convolutional Neural Networks (CNN) models: NSFW model, ResNet, EfficientNet, BiT, NudeNet and Yahoo Model. The image classification model EfficientNet-B7 and Big Transfer (BiT) presented the best results with over 91% samples correctly classified on the test set, with precision and recall around 0.7. Model prediction was further investigated using Local Interpretable Model-agnostic Explanation (LIME), a model explainability technique, and concluded that the model uses coherent regions of the thumbnail according to a human perspective such as legs, abdominal, and chest to classify images as unsafe. / Syftet med detta arbete är att jämföra metoder som förutsäger om en bild har suggestivt innehåll, såsom pornografiska bilder och erotiskt mode. Med binär klassificering bidrar detta arbete till en internetmiljö där dessa bilder inte ses ur sitt sammanhang. Det är därför nödvändigt för att förbättra användarupplevelsen, till exempel barnskydd, utgivare som inte har sina kampanjer kopplade till olämpligt innehåll och företag som förbättrar deras varumärkessäkerhet. För denna studie skapades en datamängd med mer än 500 000 bilder för att testa Convolutional Neural Networks (CNN) modeller: NSFW-modell, ResNet, EfficientNet, BiT, NudeNet och Yahoo-modell. Bild klassificerings modellen EfficientNet-B7 och Big Transfer (BiT) presenterade de bästa resultaten med över 91%prover korrekt klassificerade på testuppsättningen, med precision och återkallelse runt 0,7. Modell förutsägelse undersöktes ytterligare med hjälp av Local Interpretable Model-agnostic Explanation (LIME), en modell förklarbarhetsteknik, och drog slutsatsen att modellen använder sammanhängande regioner i miniatyren enligt ett mänskligt perspektiv såsom ben, buk och bröst för att klassificera bilder som osäkra.
93

A comparative study of the effect of different data augmentation methods on the accuracy of a CNN model to detect Pneumothorax of the lungs / En komparativ studie om påverkan av olika dataförstärkningsmetoder på noggrannheten hos en CNN-modell för att detektera Pneumothorax i lungorna

Staifo, Gabriel, Hanna, Rabi January 2024 (has links)
The use of AI in the medical field is becoming more widespread, and research on its various applications is very popular. In biomedical image analysis, Convolutional Neural Networks (CNN), which are specialized in image processing, can analyze X-rays and detect signs of different diseases. However, to achieve that, CNNs require vast amounts of X-ray images with labels specifying the disease (labeled training data), which is not always available. One method to overcome this obstacle is the use of data augmentation. Data augmentation is manipulating images through flipping, rotating, or changing the saturation or brightness, among other methods. The purpose is to increase and diversify the training data to make the CNN model more robust. Our study aims to investigate the effects of different data augmentation techniques on the performance of a CNN model in detecting Pneumothorax. After fine-tuning our CNN model’s hyper-parameters, three data augmentation methods (color, geometric, and noise) and their combinations were applied to our model. We then tested and compared the effects of each data augmentation method on the accuracy of our model. Our study concluded that color augmentation performed the best compared to the other augmentation methods, while geometric augmentation had the worst performance. However, none of the augmentation methods significantly improved the original model’s performance, which can be attributed to the model’s configuration of hyper-parameters, leaving no room for improvement. / Användningen av AI inom det medicinska området blir mer utbredd och forskning om dess olika tillämpningar är mycket populär. Inom biomedicinsk bildanalys kan Convolutional Neural Networks (CNN), som är specialiserade på bildbehandling, analysera röntgenstrålar och upptäcka tecken på olika sjukdomar. Men för att uppnå det kräver CNN stora mängder röntgenbilder med etiketter som anger sjukdomen (märkta träningsdata), vilket inte alltid är tillgängligt. En metod för att övervinna detta hinder är användningen av dataförstärkning. Dataförstärkning är att manipulera bilder genom att bläddra, rotera eller ändra mättnad eller ljusstyrka, bland andra metoder. Syftet är att öka och diversifiera träningsdata för att göra CNN-modellen mer robust. Vår studie syftar till att undersöka effekterna av olika dataförstärkningstekniker på prestandan hos en CNN-modell vid detektering av pneumothorax. Efter att ha finjusterat vår CNN-modells hyperparametrar, tillämpades tre dataförstärkningsmetoder (färg, geometrisk och brus) och deras kombinationer på vår modell. Vi testade och jämförde sedan effekterna av varje dataförstärkningsmetod på noggrannheten i vår modell. Vår studie drog slutsatsen att färgförstärkning presterade bäst jämfört med andra förstärkningsmetoder, medan geometrisk förstärkning hade sämst prestanda. Ingen av förstärkningsmetoderna förbättrade dock den ursprungliga modellens prestanda avsevärt, vilket kan tillskrivas modellens konfiguration av hyperparametrar, vilket inte lämnar något utrymme för förbättringar.
94

Deep Convolutional Neural Network for Effective Image Analysis : DESIGN AND IMPLEMENTATION OF A DEEP PIXEL-WISE SEGMENTATION ARCHITECTURE

Marti, Marco Ros January 2017 (has links)
This master thesis presents the process of designing and implementing a CNN-based architecture for image recognition included in a larger project in the field of fashion recommendation with deep learning. Concretely, the presented network aims to perform localization and segmentation tasks. Therefore, an accurate analysis of the most well-known localization and segmentation networks in the state of the art has been performed. Afterwards, a multi-task network performing RoI pixel-wise segmentation has been created. This proposal solves the detected weaknesses of the pre-existing networks in the field of application, i.e. fashion recommendation. These weaknesses are basically related with the lack of a fine-grained quality of the segmentation and problems with computational efficiency. When it comes to improve the details of the segmentation, this network proposes to work pixel- wise, i.e. performing a classification task for each of the pixels of the image. Thus, the network is more suitable to detect all the details presented in the analysed images. However, a pixel-wise task requires working in pixel resolution, which implies that the number of operations to perform is usually large. To reduce the total number of operations to perform in the network and increase the computational efficiency, this pixel-wise segmentation is only done in the meaningful regions of the image (Regions of Interest), which are also computed in the network (RoI masks). Then, after a study of the more recent deep learning libraries, the network has been successfully implemented. Finally, to prove the correct operation of the design, a set of experiments have been satisfactorily conducted. In this sense, it must be noted that the evaluation of the results obtained during testing phase with respect to the most well-known architectures is out of the scope of this thesis as the experimental conditions, especially in terms of dataset, have not been suitable for doing so. Nevertheless, the proposed network is totally prepared to perform this evaluation in the future, when the required experimental conditions are available. / Denna examensarbete presenterar processen för att designa och implementera en CNN-baserad arkitektur för bildigenkänning som ingår i ett större projekt inom moderekommendation med djup inlärning. Konkret, det presenterade nätverket syftar till att utföra lokaliseringsoch segmenteringsuppgifter. Därför har en noggrann analys av de mest kända lokaliseringsoch segmenteringsnätena utförts inom den senaste tekniken. Därefter har ett multi-task-nätverk som utför RoI pixel-wise segmentering skapats. Detta förslag löser de upptäckta svagheterna hos de befintliga näten inom tillämpningsområdet, dvs modeanbefaling. Dessa svagheter är i grund och botten relaterade till bristen på en finkornad kvalitet på segmenteringen och problem med beräkningseffektivitet. När det gäller att förbättra detaljerna i segmenteringen, föreslår detta nätverk att arbeta pixelvis, dvs att utföra en klassificeringsuppgift för var och en av bildpunkterna i bilden. Nätverket är sålunda lämpligare att detektera alla detaljer som presenteras i de analyserade bilderna. En pixelvis uppgift kräver dock att man arbetar med pixelupplösning, vilket innebär att antalet operationer som ska utföras är vanligtvis stor. För att minska det totala antalet operationer som ska utföras i nätverket och öka beräkningseffektiviteten görs denna pixelvisa segmentering endast i de meningsfulla regionerna i bilden (intressanta regioner), som också beräknas i nätverket (RoI-masker) . Sedan, efter en studie av de senaste djuplärningsbiblioteken, har nätverket framgångsrikt implementerats. Slutligen, för att bevisa korrekt funktion av konstruktionen, har en uppsättning experiment genomförts på ett tillfredsställande sätt. I detta avseende måste det noteras att utvärderingen av de resultat som uppnåtts under testfasen i förhållande till de mest kända arkitekturerna ligger utanför denna avhandling, eftersom de experimentella förhållandena, särskilt vad gäller dataset, inte har varit lämpliga För att göra det. Ändå är det föreslagna nätverket helt beredd att utföra denna utvärdering i framtiden när de nödvändiga försöksvillkoren är tillgängliga. / En aquest treball de fi de màster es presenta el disseny i la implementació d’una arquitectura pel reconeixement d’imatges fent ús de CNN. Aquesta xarxa es troba inclosa en un projecte de major envergadura en el camp de la recomanació de moda. En concret, la xarxa presentada en aquest document s’encarrega de realitzar les tasques de localització i segmentació. Després d’un estudi a consciència de les xarxes més conegudes de l’estat de l’art, s’ha dissenyat una xarxa multi-tasca encarregada de realitzar una segmentació a resolució de píxel de les regions d’interès de la imatge, les quals han sigut prèviament calculades i emmascarades. Aquesta proposta soluciona les mancances detectades en les xarxes ja existents pel que fa a la tasca de recomanació de moda. Aquestes mancances es basen en la obtenció d’una segmentació sense prou nivell de detalls i en una rellevant complexitat computacional. Pel que fa a la qualitat de la segmentació, aquesta tesi proposa treballar en resolució de píxel, classificant tots els píxels de la imatge de forma individual, per tal de poder adaptar-se a tots els detalls que puguin aparèixer a la imatge analitzada. No obstant, treballar píxel a píxel implica la realització d’una gran quantitat d’operacions. Per reduir-les, proposem fer la segmentació píxel a píxel només a les regions d’interès de la imatge. A continuació, després d’un estudi detallat de les llibreries de deep learnign més destacades, el disseny ha sigut implementat. Finalment s’han dut a terme una sèrie d’experiments per provar el correcte funcionament del disseny. En aquest sentit és important destacar que aquesta tesi no té com a objectiu avaluar el disseny respecte d’altres xarxes ja existents. La raó és que les condicions d’experimentació, sobretot pel que fa a la base de dades, no són adequades per aquesta tasca. No obstant, la xarxa està perfectament preparada per fer aquesta avaluació un cop les condicions d’experimentació així ho permetin.
95

媒體在公衆外交的貢獻 及國家新聞網對現代國際關係的影響 – 以CNN和Russia Today為例 / The role of media in public diplomacy and the impact of national news networks on contemporary international relations – the case of CNN and Russia today

徐郁苓, Inga Krupinova Unknown Date (has links)
如今,全球化進程和大規模跨界過程對全球轉變具有很大的影響,在這個情況下信息和通信技術對國外社會的影響發揮關鍵的作用。目前國際關係專家指出兩種這樣的影響。第一個影響官方結構,即外交官和政治家,第二個影響公共組織,商業結構和不同國家的人口。最後一個是稱之為 “公眾外交”,這有助於使用媒體機制公開對特定國家活動的國外意見。與印刷媒體平行,可以強調,現在的電視媒體對國外意見和國際進程的動態有很大的影響。為了提高電視媒體的獨特特徵,媒體分析家提出了“電視外交”的概念來解釋國家領導人和外交官決定把全球電視廣播當成政治平台。 目前大眾媒體討論的主要議題是國際恐怖主義、國內及國際戰爭、非法毒品和人口販運、新疾病的出現和擴散、氣候變化和其他問題。不同的國家使用自己的方法來研究這些問題,並導致一般公眾對當今發生的事情看法有所不同。這表示每個國家傳導訊息的方法有所不同,這些方法與各國家的外交政策直接相關。因此,本論文專注於國家新聞網對當代國際關係的影響,特別側重於CNN和RT及其對美國和俄羅斯聯邦發展外交政策戰略的影響。 / Nowadays there are transformations affected by the globalization processes and large-scale cross-border activities, where information and communication technologies have started to play a crucial role in terms of influencing foreign societies. Up to date international relations specialists emphasize two levels of such impact. The first one influences on the official structures, namely diplomats and politicians, while the second one has an impact on public organizations, business structures and population of different countries. The last one we are used to calling "Public Diplomacy", which help to form foreign opinions about the activities of a particular country, using media mechanisms. Drawing a parallel with printed media, one can stress that nowadays television media has a great impact on foreign opinion and the dynamics of international processes. In order to outline TV-media distinctive features, media analysts presented the concept "telediplomacy", where state leaders and diplomats have started to use the global television broadcast as a platform for the proclamation of their political decisions. The main topics mass media discusses today are all about the international terrorism, local and international wars, illegal drug and human trafficking, emergence and spread of new diseases, climate change and other issues. Different countries use their own approaches to examine these problems, which lead to completely different interpretation of general public on what is happening nowadays. It means that in each country there are different methods of supplying information materials, which are directly related to the foreign policy of any country. Therefore, this study is focused on the impact of national information networks on contemporary international relations, and particularly focused on CNN and Russia Today and their influence on the development of foreign policy strategies in the United States and the Russian Federation.
96

Segmentation sémantique d'images fortement structurées et faiblement structurées / Semantic Segmentation of Highly Structured and Weakly Structured Images

Gadde, Raghu Deep 30 June 2017 (has links)
Cette thèse pour but de développer des méthodes de segmentation pour des scènes fortement structurées (ex. bâtiments et environnements urbains) ou faiblement structurées (ex. paysages ou objets naturels). En particulier, les images de bâtiments peuvent être décrites en termes d'une grammaire de formes, et une dérivation de cette grammaire peut être inférée pour obtenir une segmentation d'une image. Cependant, il est difficile et long d'écrire de telles grammaires. Pour répondre à ce problème, nous avons développé une nouvelle méthode qui permet d'apprendre automatiquement une grammaire à partir d'un ensemble d'images et de leur segmentation associée. Des expériences montrent que des grammaires ainsi apprises permettent une inférence plus rapide et produisent de meilleures segmentations. Nous avons également étudié une méthode basée sur les auto-contextes pour segmenter des scènes fortement structurées et notamment des images de bâtiments. De manière surprenante, même sans connaissance spécifique sur le type de scène particulier observé, nous obtenons des gains significatifs en qualité de segmentation sur plusieurs jeux de données. Enfin, nous avons développé une technique basée sur les réseaux de neurones convolutifs (CNN) pour segmenter des images de scènes faiblement structurées. Un filtrage adaptatif est effectué à l'intérieur même du réseau pour permettre des dépendances entre zones d'images distantes. Des expériences sur plusieurs jeux de données à grande échelle montrent là aussi un gain important sur la qualité de segmentation / The aim of this thesis is to develop techniques for segmenting strongly-structuredscenes (e.g. building images) and weakly-structured scenes (e.g. natural images). Buildingimages can naturally be expressed in terms of grammars and inference is performed usinggrammars to obtain the optimal segmentation. However, it is difficult and time consum-ing to write such grammars. To alleviate this problem, a novel method to automaticallylearn grammars from a given training set of image and ground-truth segmentation pairs isdeveloped. Experiments suggested that such learned grammars help in better and fasterinference. Next, the effect of using grammars for strongly structured scenes is explored.To this end, a very simple technique based on Auto-Context is used to segment buildingimages. Surprisingly, even with out using any domain specific knowledge, we observedsignificant improvements in terms of performance on several benchmark datasets. Lastly,a novel technique based on convolutional neural networks is developed to segment imageswithout any high-level structure. Image-adaptive filtering is performed within a CNN ar-chitecture to facilitate long-range connections. Experiments on different large scale bench-marks show significant improvements in terms of performance
97

"This is, and will be, one of New Zealand's darkest days" : En kvalitativ gestaltningsanalys av moskéattackerna i Christchurch 2019 / "This is, and will be, one of New Zealand's darkest days" : A qualitative framing analysis of the mosque attacks in Christchurch 2019

Sabo, Emelie January 2019 (has links)
The 15th of March 2019, the city of Christchurch in New Zealand was exposed to two mosque attacks that left at least 50 people killed and many people wounded. The attacks were described as a terrorist attack performed by a 28-year-old Australian man with right-wing extremist views. The two mosque attacks were broadcast live by the perpetrator on his social media accounts. By using a qualitative text analysis, the author has studied the reports of the attacks of three news channels, CNN, RT English and al- Jazeera English, with a selection of nine articles. The study has investigated the description and the framing of the mosque attacks by each news channel. With the aid of a framing analysis, the author was able to identify which frames that has occurred in the reports by CNN, RT English and al-Jazeera English. The aim of the study was to study the framing of the mosque attacks by the news channels with different culture valuations and whether there were any similarities or differences in their descriptions of the attacks. The result of the analysis could show that there were both similarities and differences in the reports of the news channels. CNN and al-Jazeera English used the affective and attributive framework and RT English used the descriptive framework in their reports of the mosque attacks.
98

Machine visual feedback through CNN detectors : Mobile object detection for industrial application

Rexhaj, Kastriot January 2019 (has links)
This paper concerns itself with object detection as a possible solution to Valmet’s quest for a visual-feedback system that can help operators and other personnel to more easily interact with their machines and equipment. New advancements in deep learning, specifically CNN models, have been exploring neural networks with detection-capabilities. Object detection has historically been mostly inaccessible to the industry due the complex solutions involving various tricky image processing algorithms. In that regard, deep learning offers a more easily accessible way to create scalable object detection solutions. This study has therefore chosen to review recent literature detailing detection models with a selective focus on factors making them realizable on ARM hardware and in turn mobile devices like phones. An attempt was made to single out the most lightweight and hardware efficient model and implement it as a prototype in order to help Valmet in their decision process around future object detection products. The survey led to the choice of a SSD-MobileNetsV2 detection architecture due to promising characteristics making it suitable for performance-constrained smartphones. This CNN model was implemented on Valmet’s phone of choice, Samsung Galaxy S8, and it successfully achieved object detection functionality. Evaluation shows a mean average precision of 60 % in detecting objects and a 4.7 FPS performance on the chosen phone model. TensorFlow was used for developing, training and evaluating the model. The report concludes with recommending Valmet to pursue solutions built on-top of these kinds of models and further wishes to express an optimistic outlook on this type of technology for the future. Realizing performance of this magnitude on a mid-tier phone using deep learning (which historically is very computationally intensive) sets us up for great strides with this type of technology in the future; and along with better smartphones, great benefits are expected to both industry and consumers. / Den här rapporten behandlar objekt detektering som en möjlig lösning på Valmets efterfrågan av ett visuellt återkopplingssystem som kan hjälpa operatörer och annan personal att lättare interagera med maskiner och utrustning. Nya framsteg inom djupinlärning har dem senaste åren möjliggjort framtagande av neurala nätverksarkitekturer med detekteringsförmågor. Då industrisektorn svårare tar till sig högst specialiserade algoritmer och komplexa bildbehandlingsmetoder (som tidigare varit fallet med objekt detektering) så ger djupinlärningsmetoder istället upphov till att skapa självlärande system som är återanpassningsbara och närmast intuitiva i dem fall där sådan teknologi åberopas. Den här studien har därför valt att studera ett par sådana teknologier för att hitta möjliga implementeringar som kan realiseras på något så enkelt som en mobiltelefon. Urvalet har därför bestått i att hitta detekteringsmodeller som är hårdvarumässigt resurssnåla och implementera ett sådant system för att agera prototyp och underlag till Valmets vidare diskussioner kring objekt-detekteringsslösningar. Studien valde att implementera en SSD-MobileNetsV2 modellarkitektur då den uppvisade lovande egenskaper kring hårdvarukraven. Modellen implementerades och utvärderades på Valmets mest förekommande telefon Samsung Galaxy S8 och resultatet visade på en god förmåga för modellen att detektera objekt. Den valda modellen gav 60 % precision på utvärderingsbilderna och lyckades nå 4.7 FPS på den implementerade telefonen. TensorFlow användes för programmering och som stödjande mjukvaruverktyg för träning, utvärdering samt vidare implementering. Studien påpekar optimistiska förväntningar av denna typ av teknologi; kombinerat med bättre smarttelefoner i framtiden kan det leda till revolutionerande lösningar för både industri och konsumenter.
99

Forensic Source Camera Identification by Using Features in Machine Learning Approach / Identification d'appareils photos par apprentissage

Alhussainy, Amel Tuama 01 December 2016 (has links)
L'identification d'appareils photos a récemment fait l'objet d'une grande attention en raison de son apport en terme sécurité et juridique. Établir l'origine d'un médias numériques, obtenus par un appareil d'imagerie est important à chaque fois que le contenu numériques est présente et utilise comme preuve devant un tribunal.L'identification d'appareils photos consiste à déterminer la marque, le modèle, ou le dispositif qui a été utilisé pour prendre une image.Notre première contribution pour l'identification du modèle d'appareil photo numérique est basée sur l'extraction de trois ensembles de caractéristiques puis l'utilisation d'apprentissage automatique. Ces caractéristiques sont la matrice de cooccurrences,des corrélations inter-canaux mesurant la trace laissée par l'interpolation CFA, et les probabilités conditionnelles calculées dans le domaine JPEG. Ces caractéristiques donnent des statistiques d'ordre élevées qui complètent et améliorent le taux d'identification. Les expériences prouvent la force de notre proposition, car la précision obtenue est supérieure à celle des méthodes basées sur la corrélation.La deuxième contribution est basée sur l'utilisation des CNNs. Contrairement aux méthodes traditionnelles, les CNNs apprennent simultanément les caractéristiques et la classification. Nous proposons d'ajouter une couche de pré-traitement (filtre passe-haut applique à l'image d’entrée) au CNN. Le CNN obtenu donne de très bonnes performances pour une faible complexité d'apprentissage. La méthode proposée donne des résultats équivalent à ceux obtenu par une approche en deux étapes (extraction de caractéristiques + SVM). Par ailleurs nous avons également examines les CNNs : AlexNet et GoogleNet. GoogleNet donne actuellement les meilleurs taux d'identification pour une complexité d'apprentissage plus grande / Source camera identification has recently received a wide attention due to its importantrole in security and legal issue. The problem of establishing the origin ofdigital media obtained through an imaging device is important whenever digitalcontent is presented and is used as evidence in the court. Source camera identification is the process of determining which camera device or model has been used to capture an image.Our first contribution for digital camera model identification is based on the extractionof three sets of features in a machine learning scheme. These featuresare the co-occurrences matrix, some features related to CFA interpolation arrangement,and conditional probability statistics computed in the JPEG domain.These features give high order statistics which supplement and enhance the identification rate. The experiments prove the strength of our proposition since it achieves higher accuracy than the correlation-based method.The second contribution is based on using the deep convolutional neural networks(CNNs). Unlike traditional methods, CNNs can automatically and simultaneouslyextract features and learn to classify during the learning process. A layer ofpreprocessing is added to the CNN model, and consists of a high pass filter which isapplied to the input image. The obtained CNN gives very good performance for avery small learning complexity. Experimental comparison with a classical two stepsmachine learning approach shows that the proposed method can achieve significantdetection performance. The well known object recognition CNN models, AlexNetand GoogleNet, are also examined.
100

Towards visual urban scene understanding for autonomous vehicle path tracking using GPS positioning data. / Vers l'interprétation de scènes urbaines pour le suivi de trajectoires pour véhicule autonome en utilisant les positions GPS.

Gamez serna, Citlalli 29 April 2019 (has links)
Cette thèse de doctorat s’intéresse au suivi de trajectoire basé sur la perception visuelle et la localisation en milieu urbain. L'approche proposée comprend deux systèmes. Le premier concerne la perception de l'environnement. Cette tâche est effectuée en utilisant des techniques d'apprentissage profond pour extraire automatiquement les caractéristiques visuelles 2D et utiliser ces derniers pour apprendre à distinguer les différents objets dans les scénarios de conduite. Trois techniques d'apprentissage approfondi sont adoptées : la segmentation sémantique pour assigner chaque pixel d’une image à une classe, la segmentation d'instance pour identifier les instances séparées de la même classe et la classification d'image pour reconnaître davantage les étiquettes spécifiques des instances. Ici, notre système considère 15 classes d'objets et reconnaît les panneaux de signalisation. Le deuxième système fait référence au suivi de chemin numérisé. Dans un premier temps, le véhicule équipé enregistre d'abord l'itinéraire avec un système de vision stéréo et un récepteur GPS (étape d'apprentissage ou numérisation du chemin). Ensuite, le système proposé analyse hors ligne la trajectoire GPS et identifie exactement les emplacements des courbes dangereuses (brusques) et les limitation de vitesse via les données visuelles. Enfin, une fois que le véhicule est capable de se localiser lui-même durant la phase de suivi de chemin, le module de contrôle du véhicule piloté avec notre algorithme de négociation de vitesse, prend en compte les informations extraites et calcule la vitesse idéale à exécuter. Grâce aux résultats expérimentaux des deux systèmes, nous prouvons que le premier est capable de détecter et de reconnaître précisément les objets d'intérêt dans les scénarios urbains, tandis que le suivi de trajectoire réduit significativement les erreurs latérales entre le trajet appris et le trajet parcouru. Nous soutenons que la fusion des deux systèmes améliorera le suivi de chemin pour prévenir les accidents ou assurer la conduite autonome. / This PhD thesis focuses on developing a path tracking approach based on visual perception and localization in urban environments. The proposed approach comprises two systems. The first one concerns environment perception. This task is carried out using deep learning techniques to automatically extract 2D visual features and use them to learn in order to distinguish the different objects in the driving scenarios. Three deep learning techniques are adopted: semantic segmentation to assign each image pixel to a class, instance segmentation to identify separated instances of the same class and, image classification to further recognize the specific labels of the instances. Here our system segments 15 object classes and performs traffic sign recognition. The second system refers to path tracking. In order to follow a path, the equipped vehicle first travels and records the route with a stereo vision system and a GPS receiver (learning step). The proposed system analyses off-line the GPS path and identifies exactly the locations of dangerous (sharp) curves and speed limits. Later after the vehicle is able to localize itself, the vehicle control module together with our speed negotiation algorithm, takes into account the information extracted and computes the ideal speed to execute. Through experimental results of both systems, we prove that, the first one is capable to detect and recognize precisely objects of interest in urban scenarios, while the path tracking one reduces significantly the lateral errors between the learned and traveled path. We argue that the fusion of both systems will ameliorate the tracking approach for preventing accidents or implementing autonomous driving.

Page generated in 0.0907 seconds