Spelling suggestions: "subject:"multimodal data"" "subject:"multimodala data""
11 |
Building Information Modeling Connection Recommendation Based on Machine Learning Using Multimodal Information / Byggnadsinformationsmodellering Kopplingsrekommendation baserad på maskininlärning med användning av multimodal informationZhou, Zixin January 2023 (has links)
Den ökande komplexiteten i byggprojekt ger upphov till behovet av ett effektivt sätt att designa, hantera och underhålla strukturer. Byggnadsinformationsmodellering (BIM) underlättar dessa processer genom att tillhandahålla en digital representation av fysiska strukturer. Tekla Structures (TS) har blivit en populär programvara för byggnadsinformationsmodellering inom konstruktionsdesign. I konstruktionsingenjörskap spelar kopplingar en viktig roll i att förena olika byggnadsobjekt. Trots det återstår utmaningen att effektivt och noggrant designa kopplingar i TS på grund av det breda spektrumet av tillgängliga kopplingstyper. Befintliga lösningar för rekommendation av anslutningar förlitar sig ofta på fördefinierade regler, vilket begränsar deras tillämplighet och kräver tidskrävande installation. Nylig forskning har undersökt maskininlärningsmetoder för rekommendation av anslutningar, men de lider av skalbarhetsproblem eller hög beräkningskostnad. Denna avhandling behandlar problemet med rekommendation av anslutningstyp i Tekla Structures som en klassificeringsuppgift, genom att dra nytta av de olika representationerna av BIM-objekt, inklusive 2D-bilder och attribut. Avhandlingen förbättrar befintliga metoder för enskilda datakällor genom att jämföra XGBoost med random forest för attribut, samtidigt som den förbättrar den tidigare CNN-modellen för bildklassificering. Dessutom undersöker detta projekt potentialen att kombinera bilder och attributdata för klassificering av anslutningstyper, genom att använda två multimodala strategier för datafusion: sen fusion och intermediär fusion. Resultaten visar att XGBoost med metadata från attributdatamängden ger bästa prestanda, med en maximal noggrannhet på 0.9283, och de experimentella multimodala datametoderna kan inte ytterligare optimera klassificeringsresultaten. Noggrannheten för attributbaserade metoder förbättras med upp till 0.6%. Förbättringen i CNN-modellen kan öka klassificeringsnoggrannheten med upp till 5%. Genom att jämföra olika datakällor och tillvägagångssätt syftar denna avhandling till att ge en praktisk rekommendation för anslutningsdesign och därigenom lägga grunden för bättre anslutningsdesignprocesser inom byggprojekt. / The increasing complexity of construction projects gives rise to the need for an efficient way of designing, managing, and maintaining structures. Building Information Modeling (BIM) facilitates these processes by providing a digital representation of physical structures. Tekla Structures (TS) has emerged as a popular building information modeling software for structural design. In structural engineering, connections play an important role in joining various building objects. However, the efficient and accurate design of connections in TS remains a challenge due to the wide range of available connection types. Existing solutions for connection recommendation often rely on predefined rules, limiting their applicability and requiring time-consuming setup. Recent research has explored machine learning approaches for connection recommendation, but they suffer from scalability issues or high computational costs. This thesis addresses the connection type recommendation problem in TS as a classification task, leveraging the diverse representations of the BIM objects, including 2D images and attributes. This thesis improves existing approaches for single modality data, comparing XGBoost with random forest for attributes, while enhancing the previous CNN model for image classification. Furthermore, this thesis investigates the potential of combining images and attribute data for connection type classification, using two multimodal data fusion strategies: late fusion and intermediate fusion. The results show that XGBoost with metadata of the attribute dataset yields the best performance, with a maximum accuracy of 0.9283, and the experimented multimodal data fusion methods are unable to further optimise the classification results. The accuracy of attribute-based methods is improved by up to 0.6%. The improvement in CNN model can enhance the classification accuracy by up to 5%. By comparing various data sources and approaches, this thesis aims to provide a practical connection recommendation design, thereby laying a foundation for better connection design processes in construction projects.
|
12 |
Data input and content exploration in scenarios with restrictions / Entrada de dados e exploração de conteúdo em cenários com restriçõesPedrosa, Diogo de Carvalho 03 December 2014 (has links)
As technology evolves, new devices and interaction techniques are developed. These transformations create several challenges in terms of usability and user experience. Our research faces some challenges for data input or content exploration in scenarios with restrictions. It is not our intention to investigate all possible scenarios, but we deeply explore a broad range of devices and restrictions. We start with a discussion about the use of an interactive coffee table for exploration of personal photos and videos, also considering a TV set as an additional screen. In a second scenario, we present an architecture that offers to interactive digital TV (iDTV) applications the possibility of receiving multimodal data from multiple devices. Our third scenario concentrates on supporting text input for iDTV applications using a remote control, and presents an interface model based on multiple input modes as a solution. In the last two scenarios, we continued investigating better ways to provide text entry; however, our restriction becomes not using the hands, which is the kind of challenge faced by severely motor-disabled individuals. First, we present a text entry method based on two input symbols and an interaction technique based on detecting internal and external heel rotations using an accelerometer, for those who keep at least a partial movement of a leg and a foot. In the following scenario, only the eyes are required. We present an eye-typing technique that recognizes the intended word by weighting length and frequency of all possible words formed by filtering extra letters from the sequence of letters gazed by the user. The exploration of each scenario in depth was important to achieve the relevant results and contributions. On the other hand, the wide scope of this dissertation allowed the student to learn about several technologies and techniques. / Com a evolução da tecnologia, novos dispositivos e técnicas de interação são desenvolvidas. Essas transformações criam desafios em termos de usabilidade e experiência do usuário. Essa pesquisa enfrenta alguns desafios para a entrada de dados e exploração de conteúdo em cenários com restrições. Não foi intenção da pesquisa investigar todos os possíveis cenários, mas sim a exploração em profundidade de uma ampla gama de dispositivos e restrições. Ao todo cinco cenários são investigados. Primeiramente é apresentada uma discussão sobre o uso de uma mesa de centro interativa para a exploração de fotos e vídeos pessoais, a qual também considera um aparelho de TV como tela adicional. Com base no segundo cenário, uma arquitetura que oferece a aplicações de TV digital interativa (TVDI) a possibilidade de receber dados multimodais de múltiplos dispositivos é apresentada. O terceiro cenário se concentra no suporte a entrada de texto para aplicações de TVDI usando o controle remoto, resultando na apresentação de um modelo de interface baseado em múltiplos modos de entrada como solução. Os dois últimos cenários permitem continuar a investigação por melhores formas de entrada de texto, porém, a restrição se torna a impossibilidade de usar as mãos, um dos desafios enfrentados por indivíduos com deficiência motora severa. No primeiro deles, são apresentados um método de entrada de texto baseado em dois símbolos de entrada e uma técnica de interação baseada na detecção de rotações do pé apoiado sobre o calcanhar usando acelerômetro, para aqueles que mantêm pelo menos um movimento parcial de uma perna e um pé. No senário seguinte, apenas os movimentos dos olhos são exigidos. Foi apresentada uma técnica de escrita com o olho que reconhece a palavra desejada ponderando o comprimento de a frequência de ocorrência de todas as palavras que podem ser formadas filtrando letras excedentes da lista de letras olhadas pelo usuário. A exploração de cada cenário em profundidade foi importante para a obtenção de resultados e contribuições relevantes. Por outro lado, o amplo escopo da dissertação permitiu ao estudante o aprendizado de diversas técnicas e tecnologias.
|
13 |
Data input and content exploration in scenarios with restrictions / Entrada de dados e exploração de conteúdo em cenários com restriçõesDiogo de Carvalho Pedrosa 03 December 2014 (has links)
As technology evolves, new devices and interaction techniques are developed. These transformations create several challenges in terms of usability and user experience. Our research faces some challenges for data input or content exploration in scenarios with restrictions. It is not our intention to investigate all possible scenarios, but we deeply explore a broad range of devices and restrictions. We start with a discussion about the use of an interactive coffee table for exploration of personal photos and videos, also considering a TV set as an additional screen. In a second scenario, we present an architecture that offers to interactive digital TV (iDTV) applications the possibility of receiving multimodal data from multiple devices. Our third scenario concentrates on supporting text input for iDTV applications using a remote control, and presents an interface model based on multiple input modes as a solution. In the last two scenarios, we continued investigating better ways to provide text entry; however, our restriction becomes not using the hands, which is the kind of challenge faced by severely motor-disabled individuals. First, we present a text entry method based on two input symbols and an interaction technique based on detecting internal and external heel rotations using an accelerometer, for those who keep at least a partial movement of a leg and a foot. In the following scenario, only the eyes are required. We present an eye-typing technique that recognizes the intended word by weighting length and frequency of all possible words formed by filtering extra letters from the sequence of letters gazed by the user. The exploration of each scenario in depth was important to achieve the relevant results and contributions. On the other hand, the wide scope of this dissertation allowed the student to learn about several technologies and techniques. / Com a evolução da tecnologia, novos dispositivos e técnicas de interação são desenvolvidas. Essas transformações criam desafios em termos de usabilidade e experiência do usuário. Essa pesquisa enfrenta alguns desafios para a entrada de dados e exploração de conteúdo em cenários com restrições. Não foi intenção da pesquisa investigar todos os possíveis cenários, mas sim a exploração em profundidade de uma ampla gama de dispositivos e restrições. Ao todo cinco cenários são investigados. Primeiramente é apresentada uma discussão sobre o uso de uma mesa de centro interativa para a exploração de fotos e vídeos pessoais, a qual também considera um aparelho de TV como tela adicional. Com base no segundo cenário, uma arquitetura que oferece a aplicações de TV digital interativa (TVDI) a possibilidade de receber dados multimodais de múltiplos dispositivos é apresentada. O terceiro cenário se concentra no suporte a entrada de texto para aplicações de TVDI usando o controle remoto, resultando na apresentação de um modelo de interface baseado em múltiplos modos de entrada como solução. Os dois últimos cenários permitem continuar a investigação por melhores formas de entrada de texto, porém, a restrição se torna a impossibilidade de usar as mãos, um dos desafios enfrentados por indivíduos com deficiência motora severa. No primeiro deles, são apresentados um método de entrada de texto baseado em dois símbolos de entrada e uma técnica de interação baseada na detecção de rotações do pé apoiado sobre o calcanhar usando acelerômetro, para aqueles que mantêm pelo menos um movimento parcial de uma perna e um pé. No senário seguinte, apenas os movimentos dos olhos são exigidos. Foi apresentada uma técnica de escrita com o olho que reconhece a palavra desejada ponderando o comprimento de a frequência de ocorrência de todas as palavras que podem ser formadas filtrando letras excedentes da lista de letras olhadas pelo usuário. A exploração de cada cenário em profundidade foi importante para a obtenção de resultados e contribuições relevantes. Por outro lado, o amplo escopo da dissertação permitiu ao estudante o aprendizado de diversas técnicas e tecnologias.
|
14 |
Multimodální zpracování dat a mapování v robotice založené na strojovém učení / Machine Learning-Based Multimodal Data Processing and Mapping in RoboticsLigocki, Adam January 2021 (has links)
Disertace se zabývá aplikaci neuronových sítí pro detekci objektů na multimodální data v robotice. Celkem cílí na tři oblasti: tvorbu datasetu, zpracování multimodálních dat a trénování neuronových sítí. Nejdůležitější části práce je návrh metody pro tvorbu rozsáhlých anotovaných datasetů bez časové náročného lidského zásahu. Metoda používá neuronové sítě trénované na RGB obrázcích. Užitím dat z několika snímačů pro vytvoření modelu okolí a mapuje anotace z RGB obrázků na jinou datovou doménu jako jsou termální obrázky, či mračna bodů. Pomoci této metody autor vytvořil dataset několika set tisíc anotovaných obrázků a použil je pro trénink neuronové sítě, která následně překonala modely trénované na menších, lidmi anotovaných datasetech. Dále se autor v práci zabývá robustností detekce objektů v několika datových doménách za různých povětrnostních podmínek. Práce také popisuje kompletní řetězec zpracování multimodálních dat, které autor vytvořil během svého doktorského studia. To Zahrnuje vývoj unikátního senzorického zařízení, které je vybavené řadou snímačů běžně užívaných v robotice. Dále autor popisuje proces tvorby rozsáhlého, veřejně dostupného datasetu Brno Urban Dataset. Na závěr autor popisuje software, který vznikl během jeho studia a jak je tento software užit při zpracování dat v rámci jeho práce (Atlas Fusion a Robotic Template Library).
|
15 |
Personalized fake news aware recommendation systemSallami, Dorsaf 08 1900 (has links)
In today’s world, where online news is so widespread, various methods have been developed
in order to provide users with personalized news recommendations. Wonderful accomplish ments have been made when it comes to providing readers with everything that could attract
their attention. While accuracy is critical in news recommendation, other factors, such as
diversity, novelty, and reliability, are essential in satisfying the readers’ satisfaction. In fact,
technological advancements bring additional challenges which might have a detrimental im pact on the news domain. Therefore, researchers need to consider the new threats in the
development of news recommendations. Fake news, in particular, is a hot topic in the media
today and a new threat to public safety.
This work presents a modularized system capable of recommending news to the user and
detecting fake news, all while helping users become more aware of this issue. First, we suggest
FANAR, FAke News Aware Recommender system, a modification to news recommendation
algorithms that removes untrustworthy persons from the candidate user’s neighbourhood.
To do this, we created a probabilistic model, the Beta Trust model, to calculate user rep utation. For the recommendation process, we employed Graph Neural Networks. Then,
we propose EXMULF, EXplainable MUltimodal Content-based Fake News Detection Sys tem. It is tasked with the veracity analysis of information based on its textual content and
the associated image, together with an Explainable AI (XAI) assistant that is tasked with
combating the spread of fake news. Finally, we try to raise awareness about fake news by
providing personalized alerts based on user reliability.
To fulfill the objective of this work, we build a new dataset named FNEWR. Our exper iments reveal that EXMULF outperforms 10 state-of-the-art fake news detection models in
terms of accuracy. It is also worth mentioning that FANAR , which takes into account vi sual information in news, outperforms competing approaches based only on textual content.
Furthermore, it reduces the amount of fake news found in the recommendations list / De nos jours, où les actualités en ligne sont si répandues, diverses méthodes ont été dé veloppées afin de fournir aux utilisateurs des recommandations d’actualités personnalisées.
De merveilleuses réalisations ont été faites lorsqu’il s’agit de fournir aux lecteurs tout ce qui
pourrait attirer leur attention. Bien que la précision soit essentielle dans la recommandation
d’actualités, d’autres facteurs, tels que la diversité, la nouveauté et la fiabilité, sont essentiels
pour satisfaire la satisfaction des lecteurs. En fait, les progrès technologiques apportent des
défis supplémentaires qui pourraient avoir un impact négatif sur le domaine de l’information.
Par conséquent, les chercheurs doivent tenir compte des nouvelles menaces lors de l’élabo ration de nouvelles recommandations. Les fausses nouvelles, en particulier, sont un sujet
brûlant dans les médias aujourd’hui et une nouvelle menace pour la sécurité publique.
Au vu des faits mentionnés ci-dessus, ce travail présente un système modulaire capable
de détecter les fausses nouvelles, de recommander des nouvelles à l’utilisateur et de les aider
à être plus conscients de ce problème. Tout d’abord, nous suggérons FANAR, FAke News
Aware Recommender system, une modification d’algorithme de recommandation d’actuali tés qui élimine les personnes non fiables du voisinage de l’utilisateur candidat. A cette fin,
nous avons créé un modèle probabiliste, Beta Trust Model, pour calculer la réputation des
utilisateurs. Pour le processus de recommandation, nous avons utilisé Graph Neural Net works. Ensuite, nous proposons EXMULF, EXplainable MUltimodal Content-based Fake
News Detection System. Il s’agit de l’analyse de la véracité de l’information basée sur son
contenu textuel et l’image associée, ainsi qu’un assistant d’intelligence artificielle Explicable
(XAI) pour lutter contre la diffusion de fake news. Enfin, nous essayons de sensibiliser aux
fake news en fournissant des alertes personnalisées basées sur le profil des utilisateurs.
Pour remplir l’objectif de ce travail, nous construisons un nouveau jeu de données nommé
FNEWR. Nos résultats expérimentaux montrent qu’EXMULF surpasse 10 modèles de pointe
de détection de fausses nouvelles en termes de précision. Aussi, FANAR qui prend en compte
les informations visuelles dans les actualités, surpasse les approches concurrentes basées
uniquement sur le contenu textuel. De plus, il permet de réduire le nombre de fausses
nouvelles dans la liste des recommandations.
|
Page generated in 0.0513 seconds