21 |
On the use of knowledge graph embeddings for business expansion / Om användandet av kunskapsgrafinbäddningar för företagsexpansionRydberg, Niklas January 2022 (has links)
The area of Knowledge Graphs has grown significantly during recent time and has found many different applications both in industrial and academic settings. Despite this, many large Knowledge Graphs are in fact incomplete, which leads to the problem of finding the missing facts in the graphs using Link Prediction. There are several ways of performing Link prediction, the most common one that has emerged recently being using Machine learning techniques to learn low-dimensional representations of the Knowledge Graph called Knowledge Graph embeddings. This project attempts to explore whether or not this is a viable method to use in order to give suggestions for companies that want to expand their businesses. In order to test this hypothesis, a Knowledge Graph was built using real company data from open sources. Then different Knowledge Graph embedding models were trained on the data in order to predict missing elements in the Knowledge Graph. The models were then compared to see which one is most suitable for this task and data set. The geometric based models were found to perform the best for the specific data set used in this project. In this category there are models such as TransE, TransR and RotatE. The results point to the method being a valid option for giving expansion suggestions to companies using a Knowledge Graph of other companies and their products. However, to be certain of this, further research needs to be done where the method needs to be implemented on a larger scale using more diverse data. / Området kunskapsgrafer har växt mycket under de senaste åren och har många olika tillämpningar både inom akademiska och industriella områden. Trots denna tillväxt så är många kunskapsgrafer ofullständiga, vilket leder till problemet att hitta den faktan i kunskapsgraferna som saknas genom något som kallas länkförutsägelser. Det finns många olika metoder för att göra länkförutägelser, men den populäraste metoden som uppkommit de senaste åren är att använda maskininlärning för att lära in lågdimensionerade representationer av kunskapsgrafen i något som kallas kunskapsgrafsinbäddningar. I det här projektet försöker vi ta reda på om den här metoden går att använda för att ge förslag för företag som vill expandera och etablera sig på nya marknader. För att testa om detta är möjligt byggdes en kunskapsgraf med hjälp av data från öppna källor. Sedan fick olika kunskapsgrafsinbäddningsmodeller träna på data från kunskapsgrafen för att sedan kunna hitta fakta i grafen som saknades. De olika modellerna jämfördes sedan för att se vilken som var mest lämplig för att klara av uppgiften på vår kunskapsgraf. De modeller som är geometribaserade visade sig prestera bäst, bland dom fanns modeller som TransE, TransR och RotatE. Resultaten från projektet visar på att metoden är användbar för uppgiften att ge förslag om områden som ett företag kan expandera till. Dock skulle detta behöva undersökas mer med en större mer mångfaldig mängd data för att vara säker på att detta går att använda i fler marknadsområden än dem som ingick i projektet.
|
22 |
A Cross-domain and Cross-language Knowledge-based Representation of Text and its MeaningFranco Salvador, Marc 03 July 2017 (has links)
Tesis por compendio / Natural Language Processing (NLP) is a field of computer science, artificial intelligence, and computational linguistics concerned with the interactions between computers and human languages. One of its most challenging aspects involves enabling computers to derive meaning from human natural language. To do so, several meaning or context representations have been proposed with competitive performance. However, these representations still have room for improvement when working in a cross-domain or cross-language scenario.
In this thesis we study the use of knowledge graphs as a cross-domain and cross-language representation of text and its meaning. A knowledge graph is a graph that expands and relates the original concepts belonging to a set of words. We obtain its characteristics using a wide-coverage multilingual semantic network as knowledge base. This allows to have a language coverage of hundreds of languages and millions human-general and -specific concepts.
As starting point of our research we employ knowledge graph-based features - along with other traditional ones and meta-learning - for the NLP task of single- and cross-domain polarity classification. The analysis and conclusions of that work provide evidence that knowledge graphs capture meaning in a domain-independent way.
The next part of our research takes advantage of the multilingual semantic network and focuses on cross-language Information Retrieval (IR) tasks. First, we propose a fully knowledge graph-based model of similarity analysis for cross-language plagiarism detection. Next, we improve that model to cover out-of-vocabulary words and verbal tenses and apply it to cross-language document retrieval, categorisation, and plagiarism detection. Finally, we study the use of knowledge graphs for the NLP tasks of community questions answering, native language identification, and language variety identification.
The contributions of this thesis manifest the potential of knowledge graphs as a cross-domain and cross-language representation of text and its meaning for NLP and IR tasks. These contributions have been published in several international conferences and journals. / El Procesamiento del Lenguaje Natural (PLN) es un campo de la informática, la inteligencia artificial y la lingüística computacional centrado en las interacciones entre las máquinas y el lenguaje de los humanos. Uno de sus mayores desafíos implica capacitar a las máquinas para inferir el significado del lenguaje natural humano. Con este propósito, diversas representaciones del significado y el contexto han sido propuestas obteniendo un rendimiento competitivo. Sin embargo, estas representaciones todavía tienen un margen de mejora en escenarios transdominios y translingües.
En esta tesis estudiamos el uso de grafos de conocimiento como una representación transdominio y translingüe del texto y su significado. Un grafo de conocimiento es un grafo que expande y relaciona los conceptos originales pertenecientes a un conjunto de palabras. Sus propiedades se consiguen gracias al uso como base de conocimiento de una red semántica multilingüe de amplia cobertura. Esto permite tener una cobertura de cientos de lenguajes y millones de conceptos generales y específicos del ser humano.
Como punto de partida de nuestra investigación empleamos características basadas en grafos de conocimiento - junto con otras tradicionales y meta-aprendizaje - para la tarea de PLN de clasificación de la polaridad mono- y transdominio. El análisis y conclusiones de ese trabajo muestra evidencias de que los grafos de conocimiento capturan el significado de una forma independiente del dominio. La siguiente parte de nuestra investigación aprovecha la capacidad de la red semántica multilingüe y se centra en tareas de Recuperación de Información (RI). Primero proponemos un modelo de análisis de similitud completamente basado en grafos de conocimiento para detección de plagio translingüe. A continuación, mejoramos ese modelo para cubrir palabras fuera de vocabulario y tiempos verbales, y lo aplicamos a las tareas translingües de recuperación de documentos, clasificación, y detección de plagio. Por último, estudiamos el uso de grafos de conocimiento para las tareas de PLN de respuesta de preguntas en comunidades, identificación del lenguaje nativo, y identificación de la variedad del lenguaje.
Las contribuciones de esta tesis ponen de manifiesto el potencial de los grafos de conocimiento como representación transdominio y translingüe del texto y su significado en tareas de PLN y RI. Estas contribuciones han sido publicadas en diversas revistas y conferencias internacionales. / El Processament del Llenguatge Natural (PLN) és un camp de la informàtica, la intel·ligència artificial i la lingüística computacional centrat en les interaccions entre les màquines i el llenguatge dels humans. Un dels seus majors reptes implica capacitar les màquines per inferir el significat del llenguatge natural humà. Amb aquest propòsit, diverses representacions del significat i el context han estat proposades obtenint un rendiment competitiu. No obstant això, aquestes representacions encara tenen un marge de millora en escenaris trans-dominis i trans-llenguatges.
En aquesta tesi estudiem l'ús de grafs de coneixement com una representació trans-domini i trans-llenguatge del text i el seu significat. Un graf de coneixement és un graf que expandeix i relaciona els conceptes originals pertanyents a un conjunt de paraules. Les seves propietats s'aconsegueixen gràcies a l'ús com a base de coneixement d'una xarxa semàntica multilingüe d'àmplia cobertura. Això permet tenir una cobertura de centenars de llenguatges i milions de conceptes generals i específics de l'ésser humà.
Com a punt de partida de la nostra investigació emprem característiques basades en grafs de coneixement - juntament amb altres tradicionals i meta-aprenentatge - per a la tasca de PLN de classificació de la polaritat mono- i trans-domini. L'anàlisi i conclusions d'aquest treball mostra evidències que els grafs de coneixement capturen el significat d'una forma independent del domini. La següent part de la nostra investigació aprofita la capacitat\hyphenation{ca-pa-ci-tat} de la xarxa semàntica multilingüe i se centra en tasques de recuperació d'informació (RI). Primer proposem un model d'anàlisi de similitud completament basat en grafs de coneixement per a detecció de plagi trans-llenguatge. A continuació, vam millorar aquest model per cobrir paraules fora de vocabulari i temps verbals, i ho apliquem a les tasques trans-llenguatges de recuperació de documents, classificació, i detecció de plagi. Finalment, estudiem l'ús de grafs de coneixement per a les tasques de PLN de resposta de preguntes en comunitats, identificació del llenguatge natiu, i identificació de la varietat del llenguatge.
Les contribucions d'aquesta tesi posen de manifest el potencial dels grafs de coneixement com a representació trans-domini i trans-llenguatge del text i el seu significat en tasques de PLN i RI. Aquestes contribucions han estat publicades en diverses revistes i conferències internacionals. / Franco Salvador, M. (2017). A Cross-domain and Cross-language Knowledge-based Representation of Text and its Meaning [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/84285 / Compendio
|
Page generated in 0.0617 seconds