• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 8
  • 4
  • 1
  • Tagged with
  • 14
  • 14
  • 6
  • 5
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Distress situation identification by multimodal data fusion for home healthcare telemonitoring / Identification de situation de détresse par la fusion de données multimodales pour la télévigilance médicale à domicile

Medjahed, Hamid 19 January 2010 (has links)
Aujourd'hui, la proportion des personnes âgées devient importante par rapport à l'ensemble de la population, et les capacités d'admission dans les hôpitaux sont limitées. En conséquence, plusieurs systèmes de télévigilance médicale ont été développés, mais il existe peu de solutions commerciales. Ces systèmes se concentrent soit sur la mise en oeuvre d’une architecture générique pour l'intégration des systèmes d'information médicale, soit sur l'amélioration de la vie quotidienne des patients en utilisant divers dispositifs automatiques avec alarme, soit sur l’offre de services de soins aux patients souffrant de certaines maladies comme l'asthme, le diabète, les problèmes cardiaques ou pulmonaires, ou la maladie d'Alzheimer. Dans ce contexte, un système automatique pour la télévigilance médicale à domicile est une solution pour faire face à ces problèmes et ainsi permettre aux personnes âgées de vivre en toute sécurité et en toute indépendance à leur domicile. Dans cette thèse, qui s’inscrit dans le cadre de la télévigilance médicale, un nouveau système de télévigilance médicale à plusieurs modalités nommé EMUTEM (Environnement Multimodale pour la Télévigilance Médicale) est présenté. Il combine et synchronise plusieurs modalités ou capteurs, grâce à une technique de fusion de données multimodale basée sur la logique floue. Ce système peut assurer une surveillance continue de la santé des personnes âgées. L'originalité de ce système avec la nouvelle approche de fusion est sa flexibilité à combiner plusieurs modalités de télévigilance médicale. Il offre un grand bénéfice aux personnes âgées en surveillant en permanence leur état de santé et en détectant d’éventuelles situations de détresse. / The population age increases in all societies throughout the world. In Europe, for example, the life expectancy for men is about 71 years and for women about 79 years. For North America the life expectancy, currently is about 75 for men and 81 for women. Moreover, the elderly prefer to preserve their independence, autonomy and way of life living at home the longest time possible. The current healthcare infrastructures in these countries are widely considered to be inadequate to meet the needs of an increasingly older population. Home healthcare monitoring is a solution to deal with this problem and to ensure that elderly people can live safely and independently in their own homes for as long as possible. Automatic in-home healthcare monitoring is a technological approach which helps people age in place by continuously telemonitoring. In this thesis, we explore automatic in-home healthcare monitoring by conducting a study of professionals who currently perform in-home healthcare monitoring, by combining and synchronizing various telemonitoring modalities,under a data synchronization and multimodal data fusion platform, FL-EMUTEM (Fuzzy Logic Multimodal Environment for Medical Remote Monitoring). This platform incorporates algorithms that process each modality and providing a technique of multimodal data fusion which can ensures a pervasive in-home health monitoring for elderly people based on fuzzy logic.The originality of this thesis which is the combination of various modalities in the home, about its inhabitant and their surroundings, will constitute an interesting benefit and impact for the elderly person suffering from loneliness. This work complements the stationary smart home environment in bringing to bear its capability for integrative continuous observation and detection of critical situations.
2

Apprentissage neuronal profond pour l'analyse de contenus multimodaux et temporels / Deep learning for multimodal and temporal contents analysis

Vielzeuf, Valentin 19 November 2019 (has links)
Notre perception est par nature multimodale, i.e. fait appel à plusieurs de nos sens. Pour résoudre certaines tâches, il est donc pertinent d’utiliser différentes modalités, telles que le son ou l’image.Cette thèse s’intéresse à cette notion dans le cadre de l’apprentissage neuronal profond. Pour cela, elle cherche à répondre à une problématique en particulier : comment fusionner les différentes modalités au sein d’un réseau de neurones ?Nous proposons tout d’abord d’étudier un problème d’application concret : la reconnaissance automatique des émotions dans des contenus audio-visuels.Cela nous conduit à différentes considérations concernant la modélisation des émotions et plus particulièrement des expressions faciales. Nous proposons ainsi une analyse des représentations de l’expression faciale apprises par un réseau de neurones profonds.De plus, cela permet d’observer que chaque problème multimodal semble nécessiter l’utilisation d’une stratégie de fusion différente.C’est pourquoi nous proposons et validons ensuite deux méthodes pour obtenir automatiquement une architecture neuronale de fusion efficace pour un problème multimodal donné, la première se basant sur un modèle central de fusion et ayant pour visée de conserver une certaine interprétation de la stratégie de fusion adoptée, tandis que la seconde adapte une méthode de recherche d'architecture neuronale au cas de la fusion, explorant un plus grand nombre de stratégies et atteignant ainsi de meilleures performances.Enfin, nous nous intéressons à une vision multimodale du transfert de connaissances. En effet, nous détaillons une méthode non traditionnelle pour effectuer un transfert de connaissances à partir de plusieurs sources, i.e. plusieurs modèles pré-entraînés. Pour cela, une représentation neuronale plus générale est obtenue à partir d’un modèle unique, qui rassemble la connaissance contenue dans les modèles pré-entraînés et conduit à des performances à l'état de l'art sur une variété de tâches d'analyse de visages. / Our perception is by nature multimodal, i.e. it appeals to many of our senses. To solve certain tasks, it is therefore relevant to use different modalities, such as sound or image.This thesis focuses on this notion in the context of deep learning. For this, it seeks to answer a particular problem: how to merge the different modalities within a deep neural network?We first propose to study a problem of concrete application: the automatic recognition of emotion in audio-visual contents.This leads us to different considerations concerning the modeling of emotions and more particularly of facial expressions. We thus propose an analysis of representations of facial expression learned by a deep neural network.In addition, we observe that each multimodal problem appears to require the use of a different merge strategy.This is why we propose and validate two methods to automatically obtain an efficient fusion neural architecture for a given multimodal problem, the first one being based on a central fusion network and aimed at preserving an easy interpretation of the adopted fusion strategy. While the second adapts a method of neural architecture search in the case of multimodal fusion, exploring a greater number of strategies and therefore achieving better performance.Finally, we are interested in a multimodal view of knowledge transfer. Indeed, we detail a non-traditional method to transfer knowledge from several sources, i.e. from several pre-trained models. For that, a more general neural representation is obtained from a single model, which brings together the knowledge contained in the pre-trained models and leads to state-of-the-art performances on a variety of facial analysis tasks.
3

Multimodal Data Fusion Using Voice and Electromyography Data for Robotic Control

Khan Mohd, Tauheed 06 September 2019 (has links)
No description available.
4

Metody lokalizace rozdílů v různých modálitách malířských děl / Methods for Localization of Image Differences in Different Modalities of Paintings

Fürbach, Radek January 2013 (has links)
The work focuses on the analysis of paintings to determine the painting techniques. Specifically, it focuses on the localization of the underdrawing by comparing images taken in the spectra with different penetration depth. Defines the problem associated with the capture of the compared images in different spectra. Specifies methods that determine the dependence between two parts of the spectrum (mainly RGB and IR) and based on the dependence approximates conversion between these two parts of the spectrum (Red spectral component projection, Colour intensity, Weighted average of spectral components, Table conversion, Linear regression, PCA analysis and Edge decomposition). Work also describes more general problems that complicate solving tasks, such as noise, non-uniform illumination and adding the same type of radiation. Problems at work are thoroughly analyzed. We design a Calculation of illumination parameters using a neural network, Approximation of illumination by blur, Polynomial approximation of illumination and TWMJ approximation of illumination for suppressing non-uniform illumination. Define methods Estimation by edge decomposition and Local least squares method solving adding the same type of radiation. In addition, we describe the Gaussian filter, the Averaging, Median filter, Conservative...
5

DEVELOPMENT OF MULTIMODAL FUSION-BASED VISUAL DATA ANALYTICS FOR ROBOTIC INSPECTION AND CONDITION ASSESSMENT

Tarutal Ghosh Mondal (11775980) 01 December 2021 (has links)
<div>This dissertation broadly focuses on autonomous condition assessment of civil infrastructures using vision-based methods, which present a plausible alternative to existing manual techniques. A region-based convolutional neural network (Faster R-CNN) is exploited for the detection of various earthquake-induced damages in reinforced concrete buildings. Four different damage categories are considered such as surface crack, spalling, spalling with exposed rebars, and severely buckled rebars. The performance of the model is evaluated on image data collected from buildings damaged under several past earthquakes taking place in different parts of the world. The proposed algorithm can be integrated with inspection drones or mobile robotic platforms for quick assessment of damaged buildings leading to expeditious planning of retrofit operations, minimization of damage cost, and timely restoration of essential services. </div><div><br></div><div> </div><div> Besides, a computer vision-based approach is presented to track the evolution of a damage over time by analysing historical visual inspection data. Once a defect is detected in a recent inspection data set, its spatial correspondences in the data collected during previous rounds of inspection are identified leveraging popular computer vision-based techniques. A single reconstructed view is then generated for each inspection round by synthesizing the candidate corresponding images. The chronology of damage thus established facilitates time-based quantification and lucid visual interpretation. This study is likely to enhance the efficiency structural inspection by introducing the time dimension into the autonomous condition assessment pipeline.</div><div><br></div><div> </div><div> Additionally, this dissertation incorporates depth fusion into a CNN-based semantic segmentation model. A 3D animation and visual effect software is exploited to generate a synthetic database of spatially aligned RGB and depth image pairs representing various damage categories which are commonly observed in reinforced concrete buildings. A number of encoding techniques are explored for representing the depth data. Besides, various schemes for fusion of RGB and depth data are investigated to identify the best fusion strategy. It was observed that depth fusion enhances the performance of deep learning-based damage segmentation algorithms significantly. Furthermore, strategies are proposed to manufacture depth information from corresponding RGB frame, which eliminates the need of depth sensing at the time of deployment without compromising on segmentation performance. Overall, the scientific research presented in this dissertation will be a stepping stone towards realizing a fully autonomous structural condition assessment pipeline.</div>
6

Multimodal Data Analysis of Dyadic Interactions for an Automated Feedback System Supporting Parent Implementation of Pivotal Response Treatment

January 2019 (has links)
abstract: Parents fulfill a pivotal role in early childhood development of social and communication skills. In children with autism, the development of these skills can be delayed. Applied behavioral analysis (ABA) techniques have been created to aid in skill acquisition. Among these, pivotal response treatment (PRT) has been empirically shown to foster improvements. Research into PRT implementation has also shown that parents can be trained to be effective interventionists for their children. The current difficulty in PRT training is how to disseminate training to parents who need it, and how to support and motivate practitioners after training. Evaluation of the parents’ fidelity to implementation is often undertaken using video probes that depict the dyadic interaction occurring between the parent and the child during PRT sessions. These videos are time consuming for clinicians to process, and often result in only minimal feedback for the parents. Current trends in technology could be utilized to alleviate the manual cost of extracting data from the videos, affording greater opportunities for providing clinician created feedback as well as automated assessments. The naturalistic context of the video probes along with the dependence on ubiquitous recording devices creates a difficult scenario for classification tasks. The domain of the PRT video probes can be expected to have high levels of both aleatory and epistemic uncertainty. Addressing these challenges requires examination of the multimodal data along with implementation and evaluation of classification algorithms. This is explored through the use of a new dataset of PRT videos. The relationship between the parent and the clinician is important. The clinician can provide support and help build self-efficacy in addition to providing knowledge and modeling of treatment procedures. Facilitating this relationship along with automated feedback not only provides the opportunity to present expert feedback to the parent, but also allows the clinician to aid in personalizing the classification models. By utilizing a human-in-the-loop framework, clinicians can aid in addressing the uncertainty in the classification models by providing additional labeled samples. This will allow the system to improve classification and provides a person-centered approach to extracting multimodal data from PRT video probes. / Dissertation/Thesis / Doctoral Dissertation Computer Science 2019
7

Traitement joint de nuage de points et d'images pour l'analyse et la visualisation des formes 3D / Joint point clouds and images processing for the analysis and visualization of 3D models

Guislain, Maximilien 19 October 2017 (has links)
Au cours de la dernière décennie, les technologies permettant la numérisation d'espaces urbains ont connu un développement rapide. Des campagnes d'acquisition de données couvrant des villes entières ont été menées en utilisant des scanners LiDAR (Light Detection And Ranging) installés sur des véhicules mobiles. Les résultats de ces campagnes d'acquisition laser, représentants les bâtiments numérisés, sont des nuages de millions de points pouvant également contenir un ensemble de photographies. On s'intéresse ici à l'amélioration du nuage de points à l'aide des données présentes dans ces photographies. Cette thèse apporte plusieurs contributions notables à cette amélioration. La position et l'orientation des images acquises sont généralement connues à l'aide de dispositifs embarqués avec le scanner LiDAR, même si ces informations de positionnement sont parfois imprécises. Pour obtenir un recalage précis d'une image sur un nuage de points, nous proposons un algorithme en deux étapes, faisant appel à l'information mutuelle normalisée et aux histogrammes de gradients orientés. Cette méthode permet d'obtenir une pose précise même lorsque les estimations initiales sont très éloignées de la position et de l'orientation réelles. Une fois ces images recalées, il est possible de les utiliser pour inférer la couleur de chaque point du nuage en prenant en compte la variabilité des points de vue. Pour cela, nous nous appuyons sur la minimisation d'une énergie prenant en compte les différentes couleurs associables à un point et les couleurs présentes dans le voisinage spatial du point. Bien entendu, les différences d'illumination lors de l'acquisition des données peuvent altérer la couleur à attribuer à un point. Notamment, cette couleur peut dépendre de la présence d'ombres portées amenées à changer avec la position du soleil. Il est donc nécessaire de détecter et de corriger ces dernières. Nous proposons une nouvelle méthode qui s'appuie sur l'analyse conjointe des variations de la réflectance mesurée par le LiDAR et de la colorimétrie des points du nuage. En détectant suffisamment d'interfaces ombre/lumière nous pouvons caractériser la luminosité de la scène et la corriger pour obtenir des scènes sans ombre portée. Le dernier problème abordé par cette thèse est celui de la densification du nuage de points. En effet la densité locale du nuage de points est variable et parfois insuffisante dans certaines zones. Nous proposons une approche applicable directement par la mise en oeuvre d'un filtre bilatéral joint permettant de densifier le nuage de points en utilisant les données des images / Recent years saw a rapid development of city digitization technologies. Acquisition campaigns covering entire cities are now performed using LiDAR (Light Detection And Ranging) scanners embedded aboard mobile vehicles. These acquisition campaigns yield point clouds, composed of millions of points, representing the buildings and the streets, and may also contain a set of images of the scene. The subject developed here is the improvement of the point cloud using the information contained in the camera images. This thesis introduces several contributions to this joint improvement. The position and orientation of acquired images are usually estimated using devices embedded with the LiDAR scanner, even if this information is inaccurate. To obtain the precise registration of an image on a point cloud, we propose a two-step algorithm which uses both Mutual Information and Histograms of Oriented Gradients. The proposed method yields an accurate camera pose, even when the initial estimations are far from the real position and orientation. Once the images have been correctly registered, it is possible to use them to color each point of the cloud while using the variability of the point of view. This is done by minimizing an energy considering the different colors associated with a point and the potential colors of its neighbors. Illumination changes can also change the color assigned to a point. Notably, this color can be affected by cast shadows. These cast shadows are changing with the sun position, it is therefore necessary to detect and correct them. We propose a new method that analyzes the joint variation of the reflectance value obtained by the LiDAR and the color of the points. By detecting enough interfaces between shadow and light, we can characterize the luminance of the scene and to remove the cast shadows. The last point developed in this thesis is the densification of a point cloud. Indeed, the local density of a point cloud varies and is sometimes insufficient in certain areas. We propose a directly applicable approach to increase the density of a point cloud using multiple images
8

Réseaux Évidentiels pour la fusion de données multimodales hétérogènes : application à la détection de chutes / Evidential Networks-based heterogeneous multimodal data fusion : application for fall detection

Cavalcante Aguilar, Paulo Armando 22 October 2012 (has links)
Ces travaux de recherche se sont déroulés dans le cadre du développement d’une application de télévigilance médicale ayant pour but de détecter des situations de détresse à travers l’utilisation de plusieurs types de capteurs. La fusion multi-capteurs peut fournir des informations plus précises et fiables par rapport aux informations provenant de chaque capteur prises séparément. Par ailleurs les données issues de ces capteurs hétérogènes possèdent différents degrés d’imperfection et de confiance. Parmi les techniques de fusion multi-capteurs, les méthodes crédibilistes fondées sur la théorie de Dempster-Shafer sont actuellement considérées comme les plus adaptées à la représentation et au traitement des informations imparfaites, de ce fait permettant une modélisation plus réaliste du problème. En nous appuyant sur une représentation graphique de la théorie de Dempster-Shafer appelée Réseaux Évidentiels, nous proposons une structure de fusion de données hétérogènes issues de plusieurs capteurs pour la détection de chutes afin de maximiser les performances de détection chutes et ainsi de rendre le système plus fiable. La non-stationnarité des signaux recueillis sur les capteurs du système considéré peut conduire à une dégradation des conditions expérimentales, pouvant rendre les Réseaux Évidentiels incohérents dans leurs décisions. Afin de compenser les effets résultant de la non-stationnarité des signaux provenant des capteurs, les Réseaux Évidentiels sont rendus évolutifs dans le temps, ce qui nous a conduit à introduire les Réseaux Evidentiels Dynamiques dans nos traitements et à les évaluer sur des scénarios de chute simulés correspondant à des cas d’usage variés / This work took place in the development of a remote home healthcare monitoring application designed to detect distress situations through several types of sensors. The multi-sensor fusion can provide more accurate and reliable information compared to information provided by each sensor separately. Furthermore, data from multiple heterogeneous sensors present in the remote home healthcare monitoring systems have different degrees of imperfection and trust. Among the multi-sensor fusion techniques, belief methods based on Dempster-Shafer Theory are currently considered as the most appropriate for the representation and processing of imperfect information, thus allowing a more realistic modeling of the problem. Based on a graphical representation of the Dempster-Shafer called Evidential Networks, a structure of heterogeneous data fusion from multiple sensors for fall detection has been proposed in order to maximize the performance of automatic fall detection and thus make the system more reliable. Sensors’ non-stationary signals of the considered system may lead to degradation of the experimental conditions and make Evidential Networks inconsistent in their decisions. In order to compensate the sensors signals non-stationarity effects, the time evolution is taken into account by introducing the Dynamic Evidential Networks which was evaluated by the simulated fall scenarios corresponding to various use cases
9

Modèle d'interaction et performances du traitement du signal multimodal / Interaction model and performance of multimodal signal processing

Chlaily, Saloua 04 April 2018 (has links)
Bien que le traitement conjoint des mesures multimodales soit supposé conduire à de meilleures performances que celles obtenues en exploitant une seule modalité ou plusieurs modalités indépendamment, il existe des exemples en littérature qui prouvent que c'est pas toujours vrai. Dans cette thèse, nous analysons rigoureusement, en termes d'information mutuelle et d'erreur d'estimation, les différentes situations de l'analyse multimodale afin de déterminer les conditions conduisant à des performances optimales.Dans la première partie, nous considérons le cas simple de deux ou trois modalités, chacune étant associée à la mesure bruitée d'un signal, avec des liens entre modalités matérialisés par les corrélations entre les parties utiles du signal et par les corrélations les bruits. Nous montrons comment les performances obtenues sont améliorées avec l'exploitation des liens entre les modalités. Dans la seconde partie, nous étudions l'impact sur les performances d'erreurs sur les liens entre modalités. Nous montrons que ces fausses hypothèses dégradent les performances, qui peuvent alors devenir inférieure à celles atteintes avec une seule modalité.Dans le cas général, nous modélisons les multiples modalités comme un canal gaussien bruité. Nous étendons alors des résultats de la littérature en considérant l'impact d'erreurs sur les densités de probabilité du signal et du bruit sur l'information transmise par le canal. Nous analysons ensuite cette relation dans la cas d'un modèle simple de deux modalités. Nos résultats montrent en particulier le fait inattendu qu'une double inadéquation du bruit et du signal peuvent parfois se compenser et ainsi conduire à de très bonnes performances. / The joint processing of multimodal measurements is supposed to lead to better performances than those obtained using a single modality or several modalities independently. However, in literature, there are examples that show that is not always true. In this thesis, we analyze, in terms of mutual information and estimation error, the different situations of multimodal analysis in order to determine the conditions to achieve the optimal performances.In the first part, we consider the simple case of two or three modalities, each associated with noisy measurement of a signal. These modalities are linked through the correlations between the useful parts of the signal and the correlations between the noises. We show that the performances are improved if the links between the modalities are exploited. In the second part, we study the impact on performance of wrong links between modalities. We show that these false assumptions decline the performance, which can become lower than the performance achieved using a single modality.In the general case, we model the multiple modalities as a noisy Gaussian channel. We then extend literature results by considering the impact of the errors on signal and noise probability densities on the information transmitted by the channel. We then analyze this relationship in the case of a simple model of two modalities. Our results show in particular the unexpected fact that a double mismatch of the noise and the signal can sometimes compensate for each other, and thus lead to very good performances.
10

Building Information Modeling Connection Recommendation Based on Machine Learning Using Multimodal Information / Byggnadsinformationsmodellering Kopplingsrekommendation baserad på maskininlärning med användning av multimodal information

Zhou, Zixin January 2023 (has links)
Den ökande komplexiteten i byggprojekt ger upphov till behovet av ett effektivt sätt att designa, hantera och underhålla strukturer. Byggnadsinformationsmodellering (BIM) underlättar dessa processer genom att tillhandahålla en digital representation av fysiska strukturer. Tekla Structures (TS) har blivit en populär programvara för byggnadsinformationsmodellering inom konstruktionsdesign. I konstruktionsingenjörskap spelar kopplingar en viktig roll i att förena olika byggnadsobjekt. Trots det återstår utmaningen att effektivt och noggrant designa kopplingar i TS på grund av det breda spektrumet av tillgängliga kopplingstyper. Befintliga lösningar för rekommendation av anslutningar förlitar sig ofta på fördefinierade regler, vilket begränsar deras tillämplighet och kräver tidskrävande installation. Nylig forskning har undersökt maskininlärningsmetoder för rekommendation av anslutningar, men de lider av skalbarhetsproblem eller hög beräkningskostnad. Denna avhandling behandlar problemet med rekommendation av anslutningstyp i Tekla Structures som en klassificeringsuppgift, genom att dra nytta av de olika representationerna av BIM-objekt, inklusive 2D-bilder och attribut. Avhandlingen förbättrar befintliga metoder för enskilda datakällor genom att jämföra XGBoost med random forest för attribut, samtidigt som den förbättrar den tidigare CNN-modellen för bildklassificering. Dessutom undersöker detta projekt potentialen att kombinera bilder och attributdata för klassificering av anslutningstyper, genom att använda två multimodala strategier för datafusion: sen fusion och intermediär fusion. Resultaten visar att XGBoost med metadata från attributdatamängden ger bästa prestanda, med en maximal noggrannhet på 0.9283, och de experimentella multimodala datametoderna kan inte ytterligare optimera klassificeringsresultaten. Noggrannheten för attributbaserade metoder förbättras med upp till 0.6%. Förbättringen i CNN-modellen kan öka klassificeringsnoggrannheten med upp till 5%. Genom att jämföra olika datakällor och tillvägagångssätt syftar denna avhandling till att ge en praktisk rekommendation för anslutningsdesign och därigenom lägga grunden för bättre anslutningsdesignprocesser inom byggprojekt. / The increasing complexity of construction projects gives rise to the need for an efficient way of designing, managing, and maintaining structures. Building Information Modeling (BIM) facilitates these processes by providing a digital representation of physical structures. Tekla Structures (TS) has emerged as a popular building information modeling software for structural design. In structural engineering, connections play an important role in joining various building objects. However, the efficient and accurate design of connections in TS remains a challenge due to the wide range of available connection types. Existing solutions for connection recommendation often rely on predefined rules, limiting their applicability and requiring time-consuming setup. Recent research has explored machine learning approaches for connection recommendation, but they suffer from scalability issues or high computational costs. This thesis addresses the connection type recommendation problem in TS as a classification task, leveraging the diverse representations of the BIM objects, including 2D images and attributes. This thesis improves existing approaches for single modality data, comparing XGBoost with random forest for attributes, while enhancing the previous CNN model for image classification. Furthermore, this thesis investigates the potential of combining images and attribute data for connection type classification, using two multimodal data fusion strategies: late fusion and intermediate fusion. The results show that XGBoost with metadata of the attribute dataset yields the best performance, with a maximum accuracy of 0.9283, and the experimented multimodal data fusion methods are unable to further optimise the classification results. The accuracy of attribute-based methods is improved by up to 0.6%. The improvement in CNN model can enhance the classification accuracy by up to 5%. By comparing various data sources and approaches, this thesis aims to provide a practical connection recommendation design, thereby laying a foundation for better connection design processes in construction projects.

Page generated in 0.4543 seconds