• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2047
  • 973
  • 292
  • 8
  • 3
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 3284
  • 1472
  • 668
  • 664
  • 573
  • 552
  • 371
  • 317
  • 293
  • 275
  • 275
  • 248
  • 223
  • 214
  • 213
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
191

Méthodes parallèles pour le traitement des flux de données continus / Parallel and continuous join processing for data stream

Song, Ge 28 September 2016 (has links)
Nous vivons dans un monde où une grande quantité de données est généré en continu. Par exemple, quand on fait une recherche sur Google, quand on achète quelque chose sur Amazon, quand on clique en ‘Aimer’ sur Facebook, quand on upload une image sur Instagram, et quand un capteur est activé, etc., de nouvelles données vont être généré. Les données sont différentes d’une simple information numérique, mais viennent dans de nombreux format. Cependant, les données prisent isolément n’ont aucun sens. Mais quand ces données sont reliées ensemble on peut en extraire de nouvelles informations. De plus, les données sont sensibles au temps. La façon la plus précise et efficace de représenter les données est de les exprimer en tant que flux de données. Si les données les plus récentes ne sont pas traitées rapidement, les résultats obtenus ne sont pas aussi utiles. Ainsi, un système parallèle et distribué pour traiter de grandes quantités de flux de données en temps réel est un problème de recherche important. Il offre aussi de bonne perspective d’application. Dans cette thèse nous étudions l’opération de jointure sur des flux de données, de manière parallèle et continue. Nous séparons ce problème en deux catégories. La première est la jointure en parallèle et continue guidée par les données. La second est la jointure en parallèle et continue guidée par les requêtes. / We live in a world where a vast amount of data is being continuously generated. Data is coming in a variety of ways. For example, every time we do a search on Google, every time we purchase something on Amazon, every time we click a ‘like’ on Facebook, every time we upload an image on Instagram, every time a sensor is activated, etc., it will generate new data. Data is different than simple numerical information, it now comes in a variety of forms. However, isolated data is valueless. But when this huge amount of data is connected, it is very valuable to look for new insights. At the same time, data is time sensitive. The most accurate and effective way of describing data is to express it as a data stream. If the latest data is not promptly processed, the opportunity of having the most useful results will be missed.So a parallel and distributed system for processing large amount of data streams in real time has an important research value and a good application prospect. This thesis focuses on the study of parallel and continuous data stream Joins. We divide this problem into two categories. The first one is Data Driven Parallel and Continuous Join, and the second one is Query Driven Parallel and Continuous Join.
192

Vers une optimisation du processus d'analyse en ligne de données 3D : cas des fouilles archéologiques

Rageul, Nicolas 13 April 2018 (has links)
L'archéologie est une discipline des sciences humaines dont l'objet d'étude est l'ensemble des vestiges matériels laissés par l'Homme (objets, bâtiments, infrastructures, paysages...). Une technique précise, la fouille, est employée afin de tirer toutes les informations possibles des sols et structures fouillés en tenant compte de la localisation exacte des objets découverts, de l'étude de la succession des différentes couches de terrain déblayé afin de pouvoir procéder à une datation stratigraphique. L'analyse d'une fouille archéologique demande souvent beaucoup d'efforts pour l'archéologue car, à ce jour, aucun système informatique n'a permis de clairement les aider dans l'analyse de leurs données. Ainsi, pour exploiter des données issues d'une fouille archéologique, nous avons identifié trois critères : la rapidité et la facilité d'utilisation, la possibilité de faire évoluer les données dans le système (les interprétations de l'archéologue suivant des heuristiques qui ne peuvent pas toujours être formalisées de façon absolue) et la visualisation tridimensionnelle. L'outil d'analyse en ligne de type SOLAP est optimisé pour une analyse interactive dite multidimensionnelle où les requêtes, même celles de types agrégatives sont simples et leurs réponses sont rapides. Reste donc à l'optimiser sur les deux autres critères retenus pour exploiter les données issues d'une fouille archéologique et qui marquent les principales faiblesses de l'outil : l'évolution des données pendant la phase d'analyse et l'intégration de la 3e dimension. Ce projet de maîtrise vise à apporter des nouveaux concepts permettant à un utilisateur de réviser ces données pendant sa phase d'analyse. Par la suite, un prototype appliqué à l'archéologie a été élaboré afin de vérifier simplement si les efforts pour réviser des données pouvaient être compatibles avec les efforts d'un outil d'analyse en ligne en conservant la fluidité d'exploration interactive. D'autre part, ce projet de maîtrise a permis d'étudier la faisabilité d'un SOLAP 3D et de soulever une interrogation sur la nécessité d'introduire la 3e dimension à un outil d'analyse en ligne.
193

Applications de méthodes de classification non supervisées à la détection d'anomalies

Jabiri, Fouad 11 February 2021 (has links)
Dans ce présent mémoire, nous présenterons dans un premier temps l’algorithme d’arbres binaires de partitionnement et la forêt d’isolation. Les arbres binaires sont des classificateurs très populaires dans le domaine de l’apprentissage automatique supervisé. La forêt d’isolation appartient à la famille des méthodes non supervisées. Il s’agit d’un ensemble d’arbres binaires employés en commun pour isoler les instances qui semblent aberrantes ou anormales. Par la suite, nous présenterons l’approche que nous avons nommée "Exponential smoothig" (ou "pooling"). Cette technique consiste à encoder des séquences de variables de longueurs différentes en un seul vecteur de taille fixe. En effet, l’objectif de ce mémoire est d’appliquer l’algorithme des forêts d’isolation pour identifier les anomalies dans les réclamations et les formulaires d’assurances disponibles dans la base de données d’une grande compagnie d’assurances canadienne. Cependant, un formulaire est une séquence de réclamations. Chaque réclamation est caractérisée par un ensemble de variables. Ainsi, il serait impossible d’appliquer l’algorithme des forêts d’isolation directement sur ce genre de données. Pour cette raison, nous allons appliquer le pooling. Notre application parvient effectivement à isoler des réclamations et des formulaires anormaux. Nous constatons que ces derniers ont plus tendances à être audités parla compagnie que les formulaires normaux. / In this thesis, we will first present the binary tree partitioning algorithm and isolation forests. Binary trees are very popular classifiers in supervised machine learning. The isolation forest belongs to the family of unsupervised methods. It is an ensemble of binary trees used in common to isolate outlying instances. Subsequently, we will present the approach that we have named "Exponential smoothig" (or "pooling"). This technique consists in encoding sequences of variables of different lengths into a single vector of fixed size. Indeed, the objective of this thesis is to apply the algorithm of isolation forests to identify anomalies in insurance claim forms available in the database of a large Canadian insurance company in order to detect cases of fraud. However, a form is a sequence of claims. Each claim is characterized by a set of variables and thus it will be impossible to apply the isolation forest algorithm directly to this kind of data. It is for this reason that we are going to apply Exponential smoothing. Our application effectively isolates claims and abnormal forms, and we find that the latter tend to be audited by the company more often than regular forms.
194

Vers l'automatisation de la mise à jour des bases de données spatio-temporelles d'aide à la navigation : cas d'une base de données pour la navigation des personnes à mobilité réduite

Motaouakal, Mohamed 24 April 2018 (has links)
De nos jours, les systèmes d'aide à la navigation occupent une place de plus en plus importante dans la vie quotidienne. Toutefois, leur potentiel est mal exploité pour le déplacement des personnes à mobilité réduite (PMR). À cet égard, le projet MobiliSIG a vu le jour. Son objectif est de développer une solution d'assistance multimodale mobile selon les principes de la conception cognitive pour la navigation des PMR. Au cœur de cette solution se trouve une base de données d'accessibilité dont l'usage permettra de proposer des itinéraires adaptés aux profils des utilisateurs. Cependant, vu que l'environnement évolue et que certains obstacles ont un caractère spatio-temporel, l'outil développé doit être doté d'un système qui lui permettra de rester continuellement à jour. L'objectif global assigné à notre projet est la conception d'un système automatique de mise à jour (MÀJ) continuelle des données d'accessibilité en temps quasi-réel à partir de données multi-sources hétérogènes. Pour ce faire, tout d'abord, nous avons passé en revue la littérature inhérente aux concepts relatifs à notre problématique. Ensuite, nous avons créé et implémenté une ontologie d'obstacles/facilitateurs sur la base des facteurs environnementaux de la classification PPH afin d'identifier et de bien cibler les données spatio-temporelles d'accessibilité. Par la suite, nous avons déterminé les besoins et fonctionnalités utiles à notre système de MÀJ à travers la présentation et l'analyse des spécifications des données d'accessibilité et de différents scénarios de cas d'utilisations. Finalement, en s'inspirant des concepts fondamentaux des processus ETL et des architectures orientées services, nous avons proposé une solution composée d'une couche d'extraction automatique de multi-sources; une couche de transformation qui répond au besoin du multi-formats; une application web pour les collaborateurs; et un service web de MÀJ chargé des tâches de traitement automatique et en temps quasi-réel de l'information reçue de multi-sources en effectuant l'analyse syntaxique et sémantique, la géolocalisation, le géocodage, la projection du système de référence le cas échéant, la validation et le contrôle d'unicité avant de procéder au chargement. Les résultats des tests et validations du prototype développé ont permis de confirmer l'atteinte de l'objectif de la recherche.
195

Fouille de données : vers une nouvelle approche intégrant de façon cohérente et transparente la composante spatiale

Ouattara, Mamadou 16 April 2018 (has links)
Depuis quelques décennies, on assiste à une présence de plus en plus accrue de l’information géo-spatiale au sein des organisations. Cela a eu pour conséquence un stockage massif d’informations de ce type. Ce phénomène, combiné au potentiel d’informations que renferment ces données, on fait naître le besoin d’en apprendre davantage sur elles, de les utiliser à des fins d’extraction de connaissances qui puissent servir de support au processus de décision de l’entreprise. Pour cela, plusieurs approches ont été envisagées dont premièrement la mise à contribution des outils de fouille de données « traditionnelle ». Mais face à la particularité de l’information géo-spatiale, cette approche s’est soldée par un échec. De cela, est apparue la nécessité d’ériger le processus d’extraction de connaissances à partir de données géographiques en un domaine à part entière : le Geographic Knowlegde Discovery (GKD). La réponse à cette problématique, par le GKD, s’est traduite par la mise en œuvre d’approches qu’on peut catégoriser en deux grandes catégories: les approches dites de prétraitement et celles de traitement dynamique de l’information spatiale. Pour faire face aux limites de ces méthodes et outils nous proposons une nouvelle approche intégrée qui exploite l’existant en matière de fouille de données « traditionnelle ». Cette approche, à cheval entre les deux précédentes vise comme objectif principal, le support du type géo-spatial à toutes les étapes du processus de fouille de données. Pour cela, cette approche s’attachera à exploiter les relations usuelles que les entités géo-spatiales entretiennent entre elles. Un cadre viendra par la suite décrire comment cette approche supporte la composante spatiale en mettant à contribution des bibliothèques de traitement de la donnée géo-spatiale et les outils de fouille « traditionnelle » / In recent decades, geospatial data has been more and more present within our organization. This has resulted in massive storage of such information and this, combined with the learning potential of such information, gives birth to the need to learn from these data, to extract knowledge that can be useful in supporting decision-making process. For this purpose, several approaches have been proposed. Among this, the first has been to deal with existing data mining tools in order to extract any knowledge of such data. But due to a specificity of geospatial information, this approach failed. From this arose the need to erect the process of extracting knowledge from geospatial data in its own right; this lead to Geographic Knowledge Discovery. The answer to this problem, by GKD, is reflected in the implementation of approaches that can be categorized into two: the so-called pre-processing approaches and the dynamic treatment of spatial relationships. Given the limitations of these approaches we propose a new approach that exploits the existing data mining tools. This approach can be seen as a compromise of the two previous. It main objective is to support geospatial data type during all steps of data mining process. To do this, the proposed approach will exploit the usual relationships that geo-spatial entities share each other. A framework will then describe how this approach supports the spatial component involving geo-spatial libraries and "traditional" data mining tools
196

Intégration de données temps-réel issues de capteurs dans un entrepôt de données géo-décisionnel

Mathieu, Jean 17 April 2018 (has links)
Nous avons pu, au cours des dernières années, assister à une augmentation du nombre de capteurs utilisés pour mesurer des phénomènes de plus en plus variés. En effet, nous pouvons aujourd'hui utiliser les capteurs pour mesurer un niveau d'eau, une position (GPS), une température et même le rythme cardiaque d'un individu. La grande diversité de capteurs fait d'eux aujourd'hui des outils par excellence en matière d'acquisition de données. En parallèle à cette effervescence, les outils d'analyse ont également évolué depuis les bases de données transactionnelles et ont mené à l'apparition d'une nouvelle famille d’outils, appelés systèmes d’analyse (systèmes décisionnels), qui répond à des besoins d’analyse globale sur les données. Les entrepôts de données et outils OLAP (On-Line Analytical Processing), qui font partie de cette famille, permettent dorénavant aux décideurs d'analyser l'énorme volume de données dont ils disposent, de réaliser des comparaisons dans le temps et de construire des graphiques statistiques à l’aide de simples clics de la souris. Les nombreux types de capteurs peuvent certainement apporter de la richesse à une analyse, mais nécessitent de longs travaux d'intégration pour les amener jusqu'à un entrepôt géo-décisionnel, qui est au centre du processus de prise de décision. Les différents modèles de capteurs, types de données et moyens de transférer les données sont encore aujourd'hui des obstacles non négligeables à l'intégration de données issues de capteurs dans un entrepôt géo-décisionnel. Également, les entrepôts de données géo-décisionnels actuels ne sont pas initialement conçus pour accueillir de nouvelles données sur une base fréquente. Puisque l'utilisation de l'entrepôt par les utilisateurs est restreinte lors d'une mise à jour, les nouvelles données sont généralement ajoutées sur une base hebdomadaire, mensuelle, etc. Il existe pourtant des entrepôts de données capables d'être mis à jour plusieurs fois par jour sans que les performances lors de leur exploitation ne soient atteintes, les entrepôts de données temps-réel (EDTR). Toutefois, cette technologie est encore aujourd’hui peu courante, très coûteuse et peu développée. Ces travaux de recherche visent donc à développer une approche permettant de publier et standardiser les données temps-réel issues de capteurs et de les intégrer dans un entrepôt géo-décisionnel conventionnel. Une stratégie optimale de mise à jour de l'entrepôt a également été développée afin que les nouvelles données puissent être ajoutées aux analyses sans que la qualité de l'exploitation de l'entrepôt par les utilisateurs ne soit remise en cause. / In the last decade, the use of sensors for measuring various phenomenons has greatly increased. As such, we can now make use of sensors to measure GPS position, temperature and even the heartbeats of a person. Nowadays, the wide diversity of sensor makes them the best tools to gather data. Along with this effervescence, analysis tools have also advanced since the creation of transactional databases, leading to a new category of tools, analysis systems (Business Intelligence (BI)), which respond to the need of the global analysis of the data. Data warehouses and OLAP (On-Line Analytical Processing) tools, which belong to this category, enable users to analyze big volumes of data, execute time-based requests and build statistic graphs in a few simple mouse clicks. Although the various types of sensor can surely enrich any analysis, such data requires heavy integration processes to be driven into the data warehouse, centerpiece of any decision-making process. The different data types produced by sensors, sensor models and ways to transfer such data are even today significant obstacles to sensors data streams integration in a geo-decisional data warehouse. Also, actual geo-decisional data warehouses are not initially built to welcome new data on a high frequency. Since the performances of a data warehouse are restricted during an update, new data is usually added weekly, monthly, etc. However, some data warehouses, called Real-Time Data Warehouses (RTDW), are able to be updated several times a day without letting its performance diminish during the process. But this technology is not very common, very costly and in most of cases considered as "beta" versions. Therefore, this research aims to develop an approach allowing to publish and normalize real-time sensors data streams and to integrate it into a classic data warehouse. An optimized update strategy has also been developed so the frequent new data can be added to the analysis without affecting the data warehouse performances.
197

Arithmetic bit recycling data compression

Al-Rababa'a, Ahmad 24 April 2018 (has links)
Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2015-2016 / La compression des données est la technique informatique qui vise à réduire la taille de l'information pour minimiser l'espace de stockage nécessaire et accélérer la transmission des données dans les réseaux à bande passante limitée. Plusieurs techniques de compression telles que LZ77 et ses variantes souffrent d'un problème que nous appelons la redondance causée par la multiplicité d'encodages. La multiplicité d'encodages (ME) signifie que les données sources peuvent être encodées de différentes manières. Dans son cas le plus simple, ME se produit lorsqu'une technique de compression a la possibilité, au cours du processus d'encodage, de coder un symbole de différentes manières. La technique de compression par recyclage de bits a été introduite par D. Dubé et V. Beaudoin pour minimiser la redondance causée par ME. Des variantes de recyclage de bits ont été appliquées à LZ77 et les résultats expérimentaux obtenus conduisent à une meilleure compression (une réduction d'environ 9% de la taille des fichiers qui ont été compressés par Gzip en exploitant ME). Dubé et Beaudoin ont souligné que leur technique pourrait ne pas minimiser parfaitement la redondance causée par ME, car elle est construite sur la base du codage de Huffman qui n'a pas la capacité de traiter des mots de code (codewords) de longueurs fractionnaires, c'est-à-dire qu'elle permet de générer des mots de code de longueurs intégrales. En outre, le recyclage de bits s'appuie sur le codage de Huffman (HuBR) qui impose des contraintes supplémentaires pour éviter certaines situations qui diminuent sa performance. Contrairement aux codes de Huffman, le codage arithmétique (AC) peut manipuler des mots de code de longueurs fractionnaires. De plus, durant ces dernières décennies, les codes arithmétiques ont attiré plusieurs chercheurs vu qu'ils sont plus puissants et plus souples que les codes de Huffman. Par conséquent, ce travail vise à adapter le recyclage des bits pour les codes arithmétiques afin d'améliorer l'efficacité du codage et sa flexibilité. Nous avons abordé ce problème à travers nos quatre contributions (publiées). Ces contributions sont présentées dans cette thèse et peuvent être résumées comme suit. Premièrement, nous proposons une nouvelle technique utilisée pour adapter le recyclage de bits qui s'appuie sur les codes de Huffman (HuBR) au codage arithmétique. Cette technique est nommée recyclage de bits basé sur les codes arithmétiques (ACBR). Elle décrit le cadriciel et les principes de l'adaptation du HuBR à l'ACBR. Nous présentons aussi l'analyse théorique nécessaire pour estimer la redondance qui peut être réduite à l'aide de HuBR et ACBR pour les applications qui souffrent de ME. Cette analyse démontre que ACBR réalise un recyclage parfait dans tous les cas, tandis que HuBR ne réalise de telles performances que dans des cas très spécifiques. Deuxièmement, le problème de la technique ACBR précitée, c'est qu'elle requiert des calculs à précision arbitraire. Cela nécessite des ressources illimitées (ou infinies). Afin de bénéficier de cette dernière, nous proposons une nouvelle version à précision finie. Ladite technique devienne ainsi efficace et applicable sur les ordinateurs avec les registres classiques de taille fixe et peut être facilement interfacée avec les applications qui souffrent de ME. Troisièmement, nous proposons l'utilisation de HuBR et ACBR comme un moyen pour réduire la redondance afin d'obtenir un code binaire variable à fixe. Nous avons prouvé théoriquement et expérimentalement que les deux techniques permettent d'obtenir une amélioration significative (moins de redondance). À cet égard, ACBR surpasse HuBR et fournit une classe plus étendue des sources binaires qui pouvant bénéficier d'un dictionnaire pluriellement analysable. En outre, nous montrons qu'ACBR est plus souple que HuBR dans la pratique. Quatrièmement, nous utilisons HuBR pour réduire la redondance des codes équilibrés générés par l'algorithme de Knuth. Afin de comparer les performances de HuBR et ACBR, les résultats théoriques correspondants de HuBR et d'ACBR sont présentés. Les résultats montrent que les deux techniques réalisent presque la même réduction de redondance sur les codes équilibrés générés par l'algorithme de Knuth. / Data compression aims to reduce the size of data so that it requires less storage space and less communication channels bandwidth. Many compression techniques (such as LZ77 and its variants) suffer from a problem that we call the redundancy caused by the multiplicity of encodings. The Multiplicity of Encodings (ME) means that the source data may be encoded in more than one way. In its simplest case, it occurs when a compression technique with ME has the opportunity at certain steps, during the encoding process, to encode the same symbol in different ways. The Bit Recycling compression technique has been introduced by D. Dubé and V. Beaudoin to minimize the redundancy caused by ME. Variants of bit recycling have been applied on LZ77 and the experimental results showed that bit recycling achieved better compression (a reduction of about 9% in the size of files that have been compressed by Gzip) by exploiting ME. Dubé and Beaudoin have pointed out that their technique could not minimize the redundancy caused by ME perfectly since it is built on Huffman coding, which does not have the ability to deal with codewords of fractional lengths; i.e. it is constrained to generating codewords of integral lengths. Moreover, Huffman-based Bit Recycling (HuBR) has imposed an additional burden to avoid some situations that affect its performance negatively. Unlike Huffman coding, Arithmetic Coding (AC) can manipulate codewords of fractional lengths. Furthermore, it has attracted researchers in the last few decades since it is more powerful and flexible than Huffman coding. Accordingly, this work aims to address the problem of adapting bit recycling to arithmetic coding in order to improve the code effciency and the flexibility of HuBR. We addressed this problem through our four (published) contributions. These contributions are presented in this thesis and can be summarized as follows. Firstly, we propose a new scheme for adapting HuBR to AC. The proposed scheme, named Arithmetic-Coding-based Bit Recycling (ACBR), describes the framework and the principle of adapting HuBR to AC. We also present the necessary theoretical analysis that is required to estimate the average amount of redundancy that can be removed by HuBR and ACBR in the applications that suffer from ME, which shows that ACBR achieves perfect recycling in all cases whereas HuBR achieves perfect recycling only in very specific cases. Secondly, the problem of the aforementioned ACBR scheme is that it uses arbitrary-precision calculations, which requires unbounded (or infinite) resources. Hence, in order to benefit from ACBR in practice, we propose a new finite-precision version of the ACBR scheme, which makes it efficiently applicable on computers with conventional fixed-sized registers and can be easily interfaced with the applications that suffer from ME. Thirdly, we propose the use of both techniques (HuBR and ACBR) as the means to reduce the redundancy in plurally parsable dictionaries that are used to obtain a binary variable-to-fixed length code. We theoretically and experimentally show that both techniques achieve a significant improvement (less redundancy) in this respect, but ACBR outperforms HuBR and provides a wider class of binary sources that may benefit from a plurally parsable dictionary. Moreover, we show that ACBR is more flexible than HuBR in practice. Fourthly, we use HuBR to reduce the redundancy of the balanced codes generated by Knuth's algorithm. In order to compare the performance of HuBR and ACBR, the corresponding theoretical results and analysis of HuBR and ACBR are presented. The results show that both techniques achieved almost the same significant reduction in the redundancy of the balanced codes generated by Knuth's algorithm.
198

Développement d'une nouvelle approche d'extraction du réseau de surface à partir d'un nuage de points LiDAR massif basée sur la théorie de Morse

Dahbi, Aymane 16 January 2024 (has links)
Titre de l'écran-titre (visionné le 11 janvier 2024) / Aujourd'hui, la cartographie des réseaux hydrographiques est un sujet important pour la gestion et l'aménagement de l'espace forestier, la prévention contre les risques d'inondation, etc. Les données sources pour cartographier les cours d'eau sont des nuages de points obtenus par des lidars aéroportés. Cependant, les méthodes d'extraction des réseaux usuelles nécessitent des opérations de découpage, de rééchantillonnage et d'assemblage des résultats pour produire un réseau complet, altérant la qualité des résultats et limitant l'automatisation des traitements. Afin de limiter ces opérations, une nouvelle approche d'extraction est considérée. Cette approche propose de construire un réseau de crêtes et de talwegs à partir des points lidar, puis transforme ce réseau en réseau hydrographique. Notre recherche consiste à concevoir une méthode d'extraction robuste du réseau adaptée aux données massives. Ainsi, nous proposons d'abord une approche de calcul du réseau adaptée aux surfaces triangulées garantissant la cohérence topologique du réseau. Nous proposons ensuite une architecture s'appuyant sur des conteneurs pour paralléliser les calculs et ainsi traiter des données massives. / Nowadays, the mapping of hydrographic networks is an important subject for forestry management and planning, flood risk prevention, and so on. The source data for mapping watercourses are point clouds obtained by airborne lidars. However, conventional network extraction methods require cutting, resampling, and assembling the results to produce a complete network, thereby altering the quality of the results, and limiting the automation of processing. In order avoid these processing steps, a new computational approach is considered. This approach involves building a network of ridges and talwegs from lidar points, and then transforming this network into a hydrographic network. Our research consists in designing a robust network extraction method adapted to massive data. First, we propose a network calculation approach adapted to triangulated surfaces, guaranteeing the network's topological consistency. We then propose a container-based architecture for parallelizing computations to handle big data processing.
199

SyllabO+ : la première base de données sous-lexicale du français québécois oral

Bédard, Pascale 24 April 2018 (has links)
Les unités linguistiques sous-lexicales (p.ex., la syllabe, le phonème ou le phone) jouent un rôle crucial dans le traitement langagier. En particulier, le traitement langagier est profondément influencé par la distribution de ces unités. Par exemple, les syllabes les plus fréquentes sont articulées plus rapidement. Il est donc important d’avoir accès à des outils permettant de créer du matériel expérimental ou clinique pour l’étude du langage normal ou pathologique qui soit représentatif de l’utilisation des syllabes et des phones dans la langue orale. L’accès à ce type d’outil permet également de comparer des stimuli langagiers en fonction de leurs statistiques distributionnelles, ou encore d’étudier l’impact de ces statistiques sur le traitement langagier dans différentes populations. Pourtant, jusqu’à ce jour, aucun outil n’était disponible sur l’utilisation des unités linguistiques sous-lexicales du français oral québécois. Afin de combler cette lacune, un vaste corpus du français québécois oral spontané a été élaboré à partir d’enregistrements de 184 locuteurs québécois. Une base de données de syllabes et une base de données de phones ont ensuite été construites à partir de ce corpus, offrant une foule d’informations sur la structure des unités et sur leurs statistiques distributionnelles. Le fruit de ce projet, intitulé SyllabO +, sera rendu disponible en ligne en accès libre via le site web http://speechneurolab.ca/fr/syllabo dès la publication de l’article le décrivant. Cet outil incomparable sera d’une grande utilité dans plusieurs domaines, tels que les neurosciences cognitives, la psycholinguistique, la psychologie expérimentale, la phonétique, la phonologie, l’orthophonie et l’étude de l’acquisition des langues. / Linguistic sublexical units (e.g., syllables, phonemes or phones) have a crucial role in language processing. More specifically, language processing is greatly influenced by the distribution of these units in a language. For example, frequent syllables are produced more rapidly. It is thus important to have access to tools enabling the creation of experimental or clinical material that is representative of syllable and phoneme/phone use in language. Access to such tools also allows the comparison of language stimuli according to their distributional statistics, as well as the study of the impact of these statistics on language processing in different populations. However, to this day, there was no tool available on syllable and phone use for Quebec oral French. To circumvent this problem, a vast corpus of oral spontaneous French was elaborated from the recordings of 184 Quebec speakers. A syllable database and a phone database were then built from this corpus, offering a wealth of information on the structure and distributional statistics of syllables and phones. The project, named SyllabO +, will be made available online (open-access), via this website: http://speechneurolab.ca/en/syllabo as soon as the article describing it is published. We believe SyllabO + will prove immensely useful in many fields, such as cognitive neurosciences, psycholinguistics, experimental psychology, phonetics, phonology, speech therapy and the study of language acquisition.
200

Conception et développement d'une solution de diffusion des données géospatiales massives 3D dans un contexte de gestion de risque d'inondations

Benchaabane, Fethi 06 June 2022 (has links)
Au Québec, chaque année, les inondations printanières présentent un défi majeur pour les autorités québécoises. Ainsi, l'élaboration de nouveaux outils et de nouvelles méthodes pour diffuser et visualiser des données massives spatiotemporelles 3D dynamiques d'inondation est très important afin de mieux comprendre et gérer les risques reliés aux inondations. Cette recherche s'intéresse à la diffusion de données géospatiales massives 3D (modèles de bâtiments 3D, arbres, modèles numériques d'élévation de terrain (MNE), données LiDAR, imageries aériennes, etc.) en relation avec les inondations. Le problème est qu'il n'existe pas, à travers la littérature, des systèmes de diffusion efficaces des données massives 3D adaptées aux besoins de cette recherche. En ce sens, notre objectif général consiste à développer un outil de diffusion des données géospatiales massives 3D qui sont des bâtiments 3D et des modèles de terrains de haute résolution à l'échelle de la province du Québec. Les défis de diffusion du flux de données massives, nous ramènent à considérer la technique de tuilage 3D pour convertir les données brutes en formats et structures vectoriels plus légers et adaptés à la diffusion comme la spécification "3D Tiles" pour tuiler les bâtiments 3D, les nuages de points LiDAR et d'autres modèles géoréférencés 3D et le maillage irrégulier, notamment les TIN, pour tuiler les modèles numériques de terrain. Aussi, l'utilisation des techniques de traitement parallèle permet de gérer efficacement les flux massifs de données et d'améliorer le temps de traitement permettant ainsi la scalabilité et la flexibilité des systèmes existants. A cet effet, deux pipelines de tuilage ont été développés. Le premier pipeline concerne la création des tuiles de bâtiments 3D selon la spécification "3D Tiles". Le deuxième est pour créer des tuiles de terrain basées sur des maillages irréguliers. Ces pipelines sont ensuite intégrés dans un système de traitement distribué basé sur des conteneurs Docker afin de paralléliser les processus de traitements. Afin de tester l'efficacité et la validité du système développé, nous avons testé ce système sur un jeux de données massif d'environ 2.5 millions bâtiments 3D situés au Québec. Ces expérimentations ont permis de valider et de mesurer l'efficacité du système proposé par rapport à sa capacité de se mettre à l'échelle (Scalabilité) pour prendre en charge, efficacement, les flux massifs de données 3D. Ces expérimentations ont aussi permis de mettre en place des démarches d'optimisation permettant une meilleure performance dans la production et la diffusion des tuiles 3D. / Every year, floods present a major challenge for Quebec authorities. Thus, the development of new tools and methods to disseminate and visualize massive 3D dynamic flood data is very important to better understand and manage flood-related risks. This research focuses on the streaming of massive 3D geospatial data (3D building models, trees, digital elevation models (DEM), LiDAR data, aerial imagery, etc.) related to flooding. The problem is that there is no efficient streaming systems in the literature for massive 3D data adapted to the needs of this research. In this sense, our general objective is to develop a tool for the streaming of massive 3D geospatial data which are 3D buildings and high-resolution terrain models at the scale of the province of Quebec. The challenges of streaming massive data lead us to adopt the 3D tiling technique to convert raw data into lighter vector formats and structures suitable for streaming such as the "3D Tiles" specification to tile 3D buildings, LiDAR point clouds and other 3D georeferenced models and irregular meshes, including TIN, to tile digital terrain models. Also, the use of parallel processing techniques allows efficient management of massive data flows and improve processing time allowing the scalability and the flexibility of existing systems. For this purpose, two tiling pipelines have been developed. The first pipeline is for creating 3D building tiles according to the "3D Tiles" specification. The second is for creating terrain tiles based on irregular meshes. These pipelines are then integrated into a distributed processing system based on Docker containers in order to parallelize the treatment processes. To test the efficiency and validity of the developed system, we tested this system on a massive dataset of about 2.5 million 3D buildings located in Quebec. These experiments allowed us to validate and measure the efficiency of the proposed system to be scalable in order to efficiently handle massive 3D data flows. These experiments also allowed to set up optimization approaches allowing a better performance in the production and the streaming of 3D tiles.

Page generated in 0.0406 seconds