Global ETD Search

1	Algoritm för automatiserad generering av metadata Karlsson, Fredrik, Berg, Fredrik January 2015 (has links) Sveriges Radio stores their data in large archives which makes it hard to retrieve specific information. The sheer size of the archives makes retrieving information about a specific event difficult and causes a big problem. To solve this problem a more consistent use of metadata is needed. This resulted in an investigation about metadata and keyword genera-tion.The appointed task was to automatically generate keywords from transcribed radio shows. This included an investigation of which systems and algorithms that can be used to generate keywords, based on previous works. An application was also developed which suggests keywords based on a text to a user. This application was tested and compared to other al-ready existing software, as well as different methods/techniques based on both linguistic and statistic algorithms. The resulting analysis displayed that the developed application generated many accurate keywords, but also a large amount of keywords in general. The comparison also showed that the recall for the developed algorithm got better results than the already existing software, which in turn produced a better precision in their keywords. / Sveriges Radio sparar sin data i stora arkiv vilket gör det svårt att hitta specifik information. På grund av denna storlek blir uppgiften att hitta specifik information om händelser ett stort problem. För att lösa problemet krävs en mer konsekvent användning av metadata, därför har en undersökning om metadata och nyckelordsgenerering gjorts.Arbetet gick ut på att utveckla en algoritm som automatisk kan generera nyckelord från transkriberade radioprogram. Det ingick också i arbetet att göra en undersökning av tidigare arbeten för att se vilka system och algoritmer som kan användas för att generera nyckelord. Dessutom utvecklades en applikation som generar färdiga nyckelord som förslag till en användare. Denna applikation jämfördes och utvärderades med redan existerande program. Metoderna som använts bygger på både lingvistiska och statistiska algoritmer. En analys av resultaten gjordes och visade att den utvecklade applikationen genererade många precisa nyckelord, men även till antalet stora mängder nyckelord. Jämförelsen med ett redan existe-rande program visade att täckningen var bättre för den utvecklade applikationen, samtidigt som precisionen var bättre för det redan existerande programmet. Metadata nyckelord textutvinning naturliga språk algoritmer. Other Computer and Information Science Annan data- och informationsvetenskap
2	Algoritm för automatiserad generering av metadata / Algorithm for Automated Generation of Metadata Karlsson, Fredrik, Berg, Fredrik January 2015 (has links) Sveriges Radio sparar sin data i stora arkiv vilket gör det svårt att hitta specifik information. På grund av denna storlek blir uppgiften att hitta specifik information om händelser ett stort problem. För att lösa problemet krävs en mer konsekvent användning av metadata, därför har en undersökning om metadata och nyckelordsgenerering gjorts.Arbetet gick ut på att utveckla en algoritm som automatisk kan generera nyckelord från transkriberade radioprogram. Det ingick också i arbetet att göra en undersökning av tidigare arbeten för att se vilka system och algoritmer som kan användas för att generera nyckelord. Dessutom utvecklades en applikation som generar färdiga nyckelord som förslag till en användare. Denna applikation jämfördes och utvärderades med redan existerande program. Metoderna som använts bygger på både lingvistiska och statistiska algoritmer. En analys av resultaten gjordes och visade att den utvecklade applikationen genererade många precisa nyckelord, men även till antalet stora mängder nyckelord. Jämförelsen med ett redan existe-rande program visade att täckningen var bättre för den utvecklade applikationen, samtidigt som precisionen var bättre för det redan existerande programmet. / Sveriges Radio stores their data in large archives which makes it hard to retrieve specific information. The sheer size of the archives makes retrieving information about a specific event difficult and causes a big problem. To solve this problem a more consistent use of metadata is needed. This resulted in an investigation about metadata and keyword genera-tion.The appointed task was to automatically generate keywords from transcribed radio shows. This included an investigation of which systems and algorithms that can be used to generate keywords, based on previous works. An application was also developed which suggests keywords based on a text to a user. This application was tested and compared to other al-ready existing software, as well as different methods/techniques based on both linguistic and statistic algorithms. The resulting analysis displayed that the developed application generated many accurate keywords, but also a large amount of keywords in general. The comparison also showed that the recall for the developed algorithm got better results than the already existing software, which in turn produced a better precision in their keywords. Metadata keywords Natural Language Processing algorithms. Metadata nyckelord textutvinning naturliga språk algoritmer.
3	Computer Vision for Document Image Analysis and Text Extraction / Datorseende för analys av dokumentbilder och textutvinning Benchekroun, Omar January 2022 (has links) Automatic document processing has been a subject of interest in the industry for the past few years, especially with the recent technological advances in Machine Learning and Computer Vision. This project investigates in-depth a major component used in Document Image Processing known as Optical Character Recognition (OCR). First, an improvement upon existing shallow CNN+LSTM is proposed, using domain-specific data synthesis. We demonstrate that this model can achieve an accuracy of up to 97% on non-handwritten text, with an accuracy improvement of 24% when using synthetic data. Furthermore, we deal with handwritten text that presents more challenges including the variance of writing style, slanting, and character ambiguity. A CNN+Transformer architecture is validated to recognize handwriting extracted from real-world insurance statements data. This model achieves a maximal accuracy of 92% on real-world data. Moreover, we demonstrate how a data pipeline relying on synthetic data can be a scalable and affordable solution for modern OCR needs. / Automatisk dokumenthantering har varit ett ämne av intresse i branschen under de senaste åren, särskilt med de senaste tekniska framstegen inom maskininlärning och datorseende. I detta projekt kommer man att på djupet undersöka en viktig komponent som används vid bildbehandling av dokument och som kallas optisk teckenigenkänning (OCR). Först kommer en förbättring av befintlig ytlig CNN+LSTM att föreslås, med hjälp av domänspecifik datasyntes. Vi kommer att visa att denna modell kan uppnå en noggrannhet på upp till 97% på icke handskriven text, med en förbättring av noggrannheten på 24% när syntetiska data används. Dessutom kommer vi att behandla handskriven text som innebär fler utmaningar, t.ex. variationer i skrivstilen, snedställningar och tvetydiga tecken. En CNN+Transformer-arkitektur kommer att valideras för att känna igen handskrift från verkliga data om försäkringsbesked. Denna modell uppnår en maximal noggrannhet på 92% på verkliga data. Dessutom kommer vi att visa hur en datapipeline som bygger på syntetiska data är en skalbar och prisvärd lösning för moderna OCR-behov. Optical Character Recognition Document Analysis Text Extraction Transformers Convolutional Neural Networks Optisk teckenigenkänning dokumentanalys textutvinning transformatorer konvolutionella neurala nätverk Computer and Information Sciences Data- och informationsvetenskap
4	Impacts of peer-to-peer rental accommodation in Stockholm, Barcelona and Rio de Janeiro : An exploratory analysis of Airbnb’s data / Effekterna av peer-to-peer hyresmodell i Stockholm, Barcelona och Rio de Janeiro : en undersökande analys av Airbnbs data Suárez Pacios, Irene January 2020 (has links) As a part of the growing movement called the “peer-to-peer” economy, Airbnb has changed the short-stay rental market and has become one of the world’s largest booking websites for finding an accommodation to stay. The platform has also affected the economy of tourism around the world, so, given the importance of the subject, in this thesis study, the impacts that the Airbnb rental accommodation model has on clients of Stockholm, Barcelona and Rio de Janeiro is studied. In this way, it has been analyzed how factors such as price, location and seasonality affect Airbnb customers in these cities. To do this, the three cities were first analyzed individually and then compared, using data from the Inside Airbnb website from 2010 to now. This research has been carried out through an exploratory analysis using the R programming language. The study has been divided into three parts: First, the Spatial Data Analysis has shown that Airbnb´s presence in all three cities has increased significantly in the past decade, growing from the most touristy parts of the city to surrounding areas. In addition, it has been observed that the largest number of Airbnb properties are apartments located near the city center and touristic places, which also are the most valued areas by Airbnb customers and the most expensive to rent a property. Secondly, a Demand and Price Analysis has been carried out. In this part, the demand for Airbnb listings has been estimated over the years since 2010 and across months. A significant increase in demand has been appreciated in the last decade, which also shows a seasonal pattern. In the three cases, the demand graph follows the city´s climate, showing the highest demand during the summer months, which corresponds to the most expensive period. Finally, through User Review Mining, customer opinion has been studied by applying text mining to reviews. In this part of the research, word clouds have been used to have a visual representation of the text data, showing the most frequent words and analyzing what makes customers feel comfortable and uncomfortable. / I detta examensarbete har effekterna som Airbnbs hyresmodell har på kunder i Stockholm, Barcelona och Rio de Janeiro studerats. På detta sätt har det varit möjligt att analysera hur faktorer som pris, plats och säsongsvaror påverkar Airbnbs kunder i dessa städer. För att göra detta analyserades först de tre städerna individuellt och jämfördes sedan med data från webbplatsen Inside Airbnb från 2010 till nu. Denna forskning har genomförts genom en undersökande analys med programmeringsspråket R. Studien har delats in i tre delar: För det första har den rumsliga dataanalysen visat att Airbnbs närvaro i alla tre städerna har ökat markant under det senaste decenniet och växte från att omfatta de delar av staden som är mest intressanta för turister till omgivande områden. Dessutom har det observerats att det största antalet objekt på Airbnb är lägenheter belägna nära centrum och platser intressanta för turister, som också är de mest värderade områdena av Airbnbs kunder och de som är dyrast att hyra i en fastighet. För det andra har en efterfrågan och prisanalys genomförts. I denna del har efterfrågan på Airbnbs registreringar uppskattats under åren sedan 2010 och över flera månader. En betydande ökning av efterfrågan under det senaste decenniet har uppskattats, vilket också visar ett säsongsmönster. I samtliga tre fall följer efterfrågan förändringarna i stadens klimat och visar den högsta efterfrågan under sommarmånaderna, vilket också motsvarar den dyraste perioden. Slutligen, i avsnittet Användarrecensioner, har återkoppling från kunderna studerats genom att använda textutvinning på recensioner. I denna del av forskningen har ordmoln använts för att få en visuell representation av textdata, som visar de vanligaste orden och analyserar vad som gör att kunderna känner sig bekväma och obekväma. Airbnb peer-to-peer economy shared economy exploratory analysis text mining Airbnb peer-to-peer-ekonomi delad ekonomi undersökande analys textutvinning Mechanical Engineering Maskinteknik Other Engineering and Technologies Annan teknik

1

Page generated in 0.0472 seconds