• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • Tagged with
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Multimodal Classification of Second-Hand E-Commerce Ads / Multimodal klassiciering av annonser på Second-Hand-Marknadsplatser

Åberg, Ludvig January 2018 (has links)
In second-hand e-commerce, categorization of new products is typically done by the seller. Automating this process makes it easier to upload ads and could lower the number of incorrectly categorized ads. Automatic ad categorization also makes it possible for a second-hand e-commerce platform to use a more detailed category system, which could make the shopping experience better for potential buyers. Product ad categorization is typically addressed as a text classification problem as most metadata associated with products are textual. By including image information, i.e. using a multimodal approach, better performance can however be expected. The work done in this thesis evaluates different multimodal deep learning models for the task of ad categorization on data from Blocket.se. We examine late fusion models, where the modalities are combined at decision level, and early fusion models, where the modalities are combined at feature level. We also introduce our own approach Text Based Visual Attention  (TBVA), which extends the image CNN Inception v3 with an attention mechanism to incorporate textual information. For all models evaluated, the text classifier fastText is used to process text data and the Inception v3 network to process image data. Our results show that the late fusion models perform best in our setting. We conclude that these models generally learn which of the baseline models to ’trust’, while early fusion and the TBVA models learn more abstract concepts. As future work, we would like to examine how the TBVA models perform on other tasks, such as ad similarity. / Produkter som läggs ut på marknadsplatser, såsom Blocket.se, kategoriseras oftast av säljaren själv. Att automatisera processen för kategorisering gör det därför både enklare och snabbare att lägga upp annonser och kan minska antalet produkter med felaktig kategori. Automatisk kategorisering gör det ocksåmöjligt för marknadsplatsen att använda ett mer detaljerat kategorisystem, vilket skulle kunna effektivisera sökandet efter produkter för potentiella köpare.Produktkategorisering adresseras ofta som ett klassificeringsproblem för text, eftersom den största delen av produktinformationen finns i skriftlig form. Genom att också inkludera produktbilder kan vi dock förvänta oss bättre resultat.I den här uppsatsen evalueras olika metoder för att använda både bild och text för annonsklassificering av data från blocket.se. I synnerhetundersökslate fusion modeller, där informationen från modaliteterna kombineras i samband med klassificeringen, samt early fusion modeller, där modaliteterna istället kombineras på en abstrakt nivå innan klassificeringen. Vi introduserar också vår egen modell Text Based Visual Attention (TBVA), en utvidgning av bildklassificeraren Inception v3 [1], som använder en attention mekanism för att inkorporera textinformation. För alla modeller som beskrivs i denna uppsats används textklassificeraren fast Text[2] för att processa text och bildklassificeraren Inception v3 för att processa bild. Våra resultat visar att late fusion modeller presterar bäst med vår data. I slutsatsen konstateras att late fusion modellerna lär sig vilka fall den ska 'lita' på text eller bild informationen, där early fusion och TBVA modellerna istället lär sig mer abstrakta koncept. Som framtida arbete tror vi det skulle vara av värde att undersöka hur TBVA modellerna presterar på andra uppgifter, såsom att bedöma likheter mellan annonser.
2

Nuevas contribuciones en aplicaciones de fusión multimodal de bioseñales

Pereira González, Luis Manuel 26 December 2024 (has links)
[ES] Esta tesis aborda el problema de fusión de datos en el ámbito de la neurociencia. El objetivo principal de este estudio es la fusión de modalidades, con énfasis en la fusión bimodal de señales biomédicas fMRI+EEG y de ECG+EEG. Las técnicas de fusión de datos tienen como objetivo alcanzar la exactitud y precisión en la toma de decisiones que sería más difícil con una sola modalidad. Hemos hecho una extensa revisión bibliográfica que contempla la fusión temprana y la fusión tardía de la siguiente manera: fusión temprana a nivel de sensores; fusión temprana a nivel de características; fusión tardía a nivel de scores; y fusión tardía a nivel de decisiones. En cada uno de esos apartados se presenta una tabla comparativa con las debilidades y fortalezas de cada método, así como los trabajos más citados. También hemos hecho aportes teóricos en esta área abordando el tema de la comparación entre la fusión temprana y la fusión tardía (soft y hard) para un problema multimodal de dos clases, dando elementos sobre la opción más adecuada a la hora de seleccionar la fusión temprana o tardía. Para este análisis hemos asumido inicialmente el conocimiento de los modelos utilizados., para después considerar modelos donde hay que estimar una serie de parámetros a partir de un conjunto de entrenamiento. El análisis se ha hecho para datos incorrelados y se ha extendido a datos con matrices de covarianza arbitrarias. Hemos realizado un estudio experimental como complemento del capítulo teórico. A partir de cuatro experimentos diferentes se destaca la efectividad de la fusión de datos multimodales para la mejora del rendimiento de los clasificadores. Los métodos de fusión y los clasificadores probados mostraron consistentemente un rendimiento superior en términos de métricas como el F1 score, la precisión, AUC y APR, en comparación con el uso de una sola modalidad de datos. Los resultados logrados subrayan la importancia de la fusión de datos en aplicaciones neurocientíficas y abren nuevas posibilidades para el desarrollo de sistemas de diagnóstico más precisos y robustos. / [CA] Aquesta tesi aborda el problema de la fusió de dades en l'àmbit de la neurociència. L'objectiu principal d'aquest estudi és la fusió de modalitats, amb èmfasi en la fusió bimodal de senyals biomèdiques fMRI+EEG i d'ECG+EEG. Les tècniques de fusió de dades tenen com a objectiu assolir l'exactitud i precisió en la presa de decisions que seria més difícil amb una sola modalitat. Hem fet una extensa revisió bibliogràfica que contempla la fusió primerenca i la fusió tardana de la següent manera: fusió primerenca a nivell de sensors; fusió primerenca a nivell de característiques; fusió tardana a nivell de puntuacions; i fusió tardana a nivell de decisions. En cadascun d'aquests apartats es presenta una taula comparativa amb les debilitats i fortaleses de cada mètode, així com els treballs més citats. També hem fet aportacions teòriques en aquesta àrea abordant el tema de la comparació entre la fusió primerenca i la fusió tardana (suau i dura) per a un problema multimodal de dues classes, donant elements sobre l'opció més adequada a l'hora de seleccionar la fusió primerenca o tardana. Per a aquesta anàlisi, hem assumit inicialment el coneixement dels models utilitzats, per després considerar models on cal estimar una sèrie de paràmetres a partir d'un conjunt d'entrenament. L'anàlisi s'ha fet per a dades incorrelades i s'ha estès a dades amb matrius de covariància arbitràries. Hem realitzat un estudi experimental com a complement del capítol teòric. A partir de quatre experiments diferents es destaca l'efectivitat de la fusió de dades multimodals per a la millora del rendiment dels classificadors. Els mètodes de fusió i els classificadors provats van mostrar constantment un rendiment superior en termes de mètriques com el F1 score, la precisió, AUC i APR, en comparació amb l'ús d'una sola modalitat de dades. Els resultats obtinguts subratllen la importància de la fusió de dades en aplicacions neurocientífiques i obrin noves possibilitats per al desenvolupament de sistemes de diagnòstic més precisos i robusts. / [EN] This thesis addresses the problem of data fusion in the field of neuroscience. The main objective of this study is to explore multimodal fusion, with an emphasis on bimodal fusion of biomedical signals such as fMRI+EEG and ECG+EEG. Data fusion techniques aim to achieve accuracy and precision in decision-making that would be more challenging with a single modality. We have conducted an extensive literature review covering early fusion and late fusion, as follows: early fusion at the sensor level, early fusion at the feature level, late fusion at the score level, and late fusion at the decision level. In each of these sections, we present a comparative table outlining the strengths and weaknesses of each method, as well as the most cited works. We have also made theoretical contributions to this area by addressing the comparison between early and late fusion (both soft and hard) for a two-class multimodal problem, providing insights into the most suitable choice between early and late fusion. For this analysis, we initially assumed knowledge of the models used, then considered scenarios where a series of parameters must be estimated from a training set. The analysis was conducted for uncorrelated data and extended to data with arbitrary covariance matrices. We conducted an experimental study to complement the theoretical chapter. Based on four different experiments, the effectiveness of multimodal data fusion in enhancing classifier performance was highlighted. The tested fusion methods and classifiers consistently demonstrated superior performance in terms of metrics such as F1 score, precision, AUC, and APR compared to using a single data modality. The results emphasize the importance of data fusion in neuroscientific applications and open up new possibilities for developing more accurate and robust diagnostic systems. / Pereira González, LM. (2024). Nuevas contribuciones en aplicaciones de fusión multimodal de bioseñales [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/213614

Page generated in 0.061 seconds