131 |
Idea MiningSchieber, Andreas, Kruse, Paul 17 April 2014 (has links) (PDF)
Motiviert durch den Erfolg des Web 2.0 und Social Media in vielen Bereichen des öffentlichen Lebens und der damit verbundenen Open-Innovation-Bewegung, die Kunden aktiv in den Innovationsprozess einbezieht, schlägt dieser Beitrag eine Integration von Wissensmanagement und Text Mining zur Verbesserung dieses Innovationsprozesses vor. Durch den beschriebenen Ansatz werden Kunden nicht nur motiviert, ihre Ideen und Bedürfnisse auf webbasierten Kommunikationsplattformen preiszugeben, sondern die entstehenden, textbasierten Daten können automatisiert ausgewertet und zur zielgerichteten und zeitnahen Weiterentwicklung der Produkte eingesetzt werden. Anhand zweier Anwendungsszenarien aus der Praxis werden das resultierende Prozessmodell dargestellt und dessen Potenziale veranschaulicht.
|
132 |
Maladies rares et "Big Data" : solutions bioinformatiques vers une analyse guidée par les connaissances : applications aux ciliopathies / Rare diseases and big data : biocomputing solutions towards knowledge-guided analyses : applications to ciliopathiesChennen, Kirsley 14 October 2016 (has links)
Au cours de la dernière décennie, la recherche biomédicale et la pratique médicale ont été révolutionné par l'ère post-génomique et l'émergence des « Big Data » en biologie. Il existe toutefois, le cas particulier des maladies rares caractérisées par la rareté, allant de l’effectif des patients jusqu'aux connaissances sur le domaine. Néanmoins, les maladies rares représentent un réel intérêt, car les connaissances fondamentales accumulées en temps que modèle d'études et les solutions thérapeutique qui en découlent peuvent également bénéficier à des maladies plus communes. Cette thèse porte sur le développement de nouvelles solutions bioinformatiques, intégrant des données Big Data et des approches guidées par la connaissance pour améliorer l'étude des maladies rares. En particulier, mon travail a permis (i) la création de PubAthena, un outil de criblage de la littérature pour la recommandation de nouvelles publications pertinentes, (ii) le développement d'un outil pour l'analyse de données exomique, VarScrut, qui combine des connaissance multiniveaux pour améliorer le taux de résolution. / Over the last decade, biomedical research and medical practice have been revolutionized by the post-genomic era and the emergence of Big Data in biology. The field of rare diseases, are characterized by scarcity from the patient to the domain knowledge. Nevertheless, rare diseases represent a real interest as the fundamental knowledge accumulated as well as the developed therapeutic solutions can also benefit to common underlying disorders. This thesis focuses on the development of new bioinformatics solutions, integrating Big Data and Big Data associated approaches to improve the study of rare diseases. In particular, my work resulted in (i) the creation of PubAthena, a tool for the recommendation of relevant literature updates, (ii) the development of a tool for the analysis of exome datasets, VarScrut, which combines multi-level knowledge to improve the resolution rate.
|
133 |
Idea Mining: Wissensmanagement und Text Mining im InnovationsprozessSchieber, Andreas, Kruse, Paul 17 April 2014 (has links)
Motiviert durch den Erfolg des Web 2.0 und Social Media in vielen Bereichen des öffentlichen Lebens und der damit verbundenen Open-Innovation-Bewegung, die Kunden aktiv in den Innovationsprozess einbezieht, schlägt dieser Beitrag eine Integration von Wissensmanagement und Text Mining zur Verbesserung dieses Innovationsprozesses vor. Durch den beschriebenen Ansatz werden Kunden nicht nur motiviert, ihre Ideen und Bedürfnisse auf webbasierten Kommunikationsplattformen preiszugeben, sondern die entstehenden, textbasierten Daten können automatisiert ausgewertet und zur zielgerichteten und zeitnahen Weiterentwicklung der Produkte eingesetzt werden. Anhand zweier Anwendungsszenarien aus der Praxis werden das resultierende Prozessmodell dargestellt und dessen Potenziale veranschaulicht.:1 Einführung
1.1 Motivation
1.2 Forschungsziel
2 Beiträge im Forschungsfeld
3 Kundenorientierte Innovation
3.1 Der Innovationsprozess
3.2 Herausforderungen der Kundenintegration
4 Wissensmanagement
4.1 Anwendungspotenziale im Web 2.0
4.2 Anwendungspotenziale bei der Ideenfindung
5 Text Mining
5.1 Zielstellung und Datenquellen
5.2 Datenvorverarbeitung
5.3 Text-Mining-Verfahren und Anwendung
6 Der erweiterte Innovationsprozess
6.1 Integriertes Prozessmodell
6.2 Anwendungsszenarien
6.2.1 Dell’s IdeaStorm
6.2.2 My Starbucks Idea
7 Fazit und Ausblick
Literaturverzeichnis
|
134 |
Release of the MySQL based implementation of the CTS protocolTiepmar, Jochen 20 April 2016 (has links) (PDF)
In a project called "A Library of a Billion Words" we needed an implementation of the CTS protocol that is capable of handling a text collection containing at least 1 billion words. Because the existing solutions did not work for this scale or were still in development I started an implementation of the CTS protocol using methods that MySQL provides. Last year we published a paper that introduced a prototype with the core functionalities without being compliant with the specifications of CTS (Tiepmar et al., 2013). The purpose of this paper is to describe and evaluate the MySQL based implementa-tion now that it is fulfilling the specifications version 5.0 rc.1 and mark it as finished and ready to use. Fur-ther information, online instances of CTS for all de-scribed datasets and binaries can be accessed via the projects website1. Reference Tiepmar J, Teichmann C, Heyer G, Berti M and Crane G. 2013. A new Implementation for Canonical Text Services. in Proceedings of the 8th Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH).
|
135 |
Discovering relations between indirectly connected biomedical conceptsTsatsaronis, George, Weissenborn, Dirk, Schroeder, Michael 04 January 2016 (has links) (PDF)
BACKGROUND:
The complexity and scale of the knowledge in the biomedical domain has motivated research work towards mining heterogeneous data from both structured and unstructured knowledge bases. Towards this direction, it is necessary to combine facts in order to formulate hypotheses or draw conclusions about the domain concepts. This work addresses this problem by using indirect knowledge connecting two concepts in a knowledge graph to discover hidden relations between them. The graph represents concepts as vertices and relations as edges, stemming from structured (ontologies) and unstructured (textual) data. In this graph, path patterns, i.e. sequences of relations, are mined using distant supervision that potentially characterize a biomedical relation.
RESULTS:
It is possible to identify characteristic path patterns of biomedical relations from this representation using machine learning. For experimental evaluation two frequent biomedical relations, namely \"has target\", and \"may treat\", are chosen. Results suggest that relation discovery using indirect knowledge is possible, with an AUC that can reach up to 0.8, a result which is a great improvement compared to the random classification, and which shows that good predictions can be prioritized by following the suggested approach.
CONCLUSIONS:
Analysis of the results indicates that the models can successfully learn expressive path patterns for the examined relations. Furthermore, this work demonstrates that the constructed graph allows for the easy integration of heterogeneous information and discovery of indirect connections between biomedical concepts.
|
136 |
Status Quo der Textanalyse im Rahmen der Business IntelligenceSchieber, Andreas, Hilbert, Andreas 26 March 2014 (has links) (PDF)
Vor dem Hintergrund der Zunahme unstrukturierter Daten für Unternehmen befasst sich dieser Beitrag mit den Möglichkeiten, die durch den Einsatz der Business Intelligence für Unternehmen bestehen, wenn durch gezielte Analyse die Bedeutung dieser Daten erfasst, gefiltert und ausgewertet werden können. Allgemein ist das Ziel der Business Intelligence die Unterstützung von Entscheidungen, die im Unternehmen (auf Basis strukturierter Daten) getroffen werden. Die zusätzliche Auswertung von unstrukturierten Daten, d.h. unternehmensinternen Dokumenten oder Texten aus dem Web 2.0, führt zu einer Vergrößerung des Potenzials und dient der Erweiterung des Geschäftsverständnisses der Verbesserung der Entscheidungsfindung. Der Beitrag erläutert dabei nicht nur Konzepte und Verfahren, die diese Analysen ermöglichen, sondern zeigt auch Fallbeispiele zur Demonstration ihrer Nützlichkeit.
|
137 |
Graphdatenbanken für die textorientierten e-HumanitiesEfer, Thomas 15 February 2017 (has links) (PDF)
Vor dem Hintergrund zahlreicher Digitalisierungsinitiativen befinden sich weite Teile der Geistes- und Sozialwissenschaften derzeit in einer Transition hin zur großflächigen Anwendung digitaler Methoden. Zwischen den Fachdisziplinen und der Informatik zeigen sich große Differenzen in der Methodik und bei der gemeinsamen Kommunikation. Diese durch interdisziplinäre Projektarbeit zu überbrücken, ist das zentrale Anliegen der sogenannten e-Humanities. Da Text der häufigste Untersuchungsgegenstand in diesem Feld ist, wurden bereits viele Verfahren des Text Mining auf Problemstellungen der Fächer angepasst und angewendet. Während sich langsam generelle Arbeitsabläufe und Best Practices etablieren, zeigt sich, dass generische Lösungen für spezifische Teilprobleme oftmals nicht geeignet sind. Um für diese Anwendungsfälle maßgeschneiderte digitale Werkzeuge erstellen zu können, ist eines der Kernprobleme die adäquate digitale Repräsentation von Text sowie seinen vielen Kontexten und Bezügen.
In dieser Arbeit wird eine neue Form der Textrepräsentation vorgestellt, die auf Property-Graph-Datenbanken beruht – einer aktuellen Technologie für die Speicherung und Abfrage hochverknüpfter Daten. Darauf aufbauend wird das Textrecherchesystem „Kadmos“ vorgestellt, mit welchem nutzerdefinierte asynchrone Webservices erstellt werden können. Es bietet flexible Möglichkeiten zur Erweiterung des Datenmodells und der Programmfunktionalität und kann Textsammlungen mit mehreren hundert Millionen Wörtern auf einzelnen Rechnern und weitaus größere in Rechnerclustern speichern. Es wird gezeigt, wie verschiedene Text-Mining-Verfahren über diese Graphrepräsentation realisiert und an sie angepasst werden können. Die feine Granularität der Zugriffsebene erlaubt die Erstellung passender Werkzeuge für spezifische fachwissenschaftliche Anwendungen. Zusätzlich wird demonstriert, wie die graphbasierte Modellierung auch über die rein textorientierte Forschung hinaus gewinnbringend eingesetzt werden kann. / In light of the recent massive digitization efforts, most of the humanities disciplines are currently undergoing a fundamental transition towards the widespread application of digital methods. In between those traditional scholarly fields and computer science exists a methodological and communicational gap, that the so-called \\\"e-Humanities\\\" aim to bridge systematically, via interdisciplinary project work. With text being the most common object of study in this field, many approaches from the area of Text Mining have been adapted to problems of the disciplines. While common workflows and best practices slowly emerge, it is evident that generic solutions are no ultimate fit for many specific application scenarios. To be able to create custom-tailored digital tools, one of the central issues is to digitally represent the text, as well as its many contexts and related objects of interest in an adequate manner.
This thesis introduces a novel form of text representation that is based on Property Graph databases – an emerging technology that is used to store and query highly interconnected data sets. Based on this modeling paradigm, a new text research system called \\\"Kadmos\\\" is introduced. It provides user-definable asynchronous web services and is built to allow for a flexible extension of the data model and system functionality within a prototype-driven development process. With Kadmos it is possible to easily scale up to text collections containing hundreds of millions of words on a single device and even further when using a machine cluster. It is shown how various methods of Text Mining can be implemented with and adapted for the graph representation at a very fine granularity level, allowing the creation of fitting digital tools for different aspects of scholarly work. In extended usage scenarios it is demonstrated how the graph-based modeling of domain data can be beneficial even in research scenarios that go beyond a purely text-based study.
|
138 |
Analytics como uma ferramenta para Consumer Insights / Analytics as a Tool for Consumer InsightsCarvalho, André Silva de 24 March 2017 (has links)
Submitted by Adriana Alves Rodrigues (aalves@espm.br) on 2017-11-22T15:02:28Z
No. of bitstreams: 1
ANDRE SILVA DE CARVALHO.pdf: 3017440 bytes, checksum: 72f0dd79324eb16e16c0fca2fea756db (MD5) / Approved for entry into archive by Adriana Alves Rodrigues (aalves@espm.br) on 2017-11-22T15:02:51Z (GMT) No. of bitstreams: 1
ANDRE SILVA DE CARVALHO.pdf: 3017440 bytes, checksum: 72f0dd79324eb16e16c0fca2fea756db (MD5) / Approved for entry into archive by Ana Cristina Ropero (ana@espm.br) on 2017-11-23T10:56:03Z (GMT) No. of bitstreams: 1
ANDRE SILVA DE CARVALHO.pdf: 3017440 bytes, checksum: 72f0dd79324eb16e16c0fca2fea756db (MD5) / Made available in DSpace on 2017-11-23T10:56:31Z (GMT). No. of bitstreams: 1
ANDRE SILVA DE CARVALHO.pdf: 3017440 bytes, checksum: 72f0dd79324eb16e16c0fca2fea756db (MD5)
Previous issue date: 2017-03-24 / Being innovative in a more and more competitive market can be anything but trivial. There is
a complex variables system to be taken into account throughout an innovation process, and
hardly ever will there be enough data to support a research or decision. It is always possible to turn to human inference, or cognitive bias, when enough data is not available, or when time for decision-making is scarce. Consumer Insight technique has been used for this research purpose and aimed at lowering cognitive bias, seeking to find out what are consumers' wishes and needs so that decision-making or innovation could be supported. This paper proposes to mitigate the influence of cognitive bias, by means of data analysis techniques, in search for patterns which can identify opportunities to give both decision-making and search for innovation some support. In order to achive this purpose, unstructured data from 26.514 telephone talks had in a big financial market company between 01.12.2016 e 31.12.2016 have been used. Analysis has been carried out with the transcript from voice into text concomitantly with Text Mining and Social Network analysis. The results have led us to identify main client demands from a sales perspective, cancellation resquest, as well as the reason for inefficiency in offering new products from elements of higher centrality identified in the word association networks. It is implied that the combined use of analytical techniques applied to unstructured data may give rise to findings in which cognitive bias is lower. / Em um mercado cada vez mais competitivo, ser inovador pode ser um diferencial, porém não
é uma atividade trivial. Existe um sistema de variáveis complexas que deve ser considerado
ao longo de um processo de inovação e nem sempre há dados suficientes que suportem uma
pesquisa ou decisão. A inferência humana, ou viés cognitivo, pode ser uma alternativa quando
não existem dados suficientes ou quando o tempo para a tomada de decisão é menor que o
necessário. A técnica de Consumer Insight foi utilizada nesta pesquisa com o objetivo de
diminuir o viés cognitivo, buscando descobrir os anseios e necessidades do consumidor, para
suportar o processo de tomada de decisão ou inovação. Este estudo apresenta uma proposta
para mitigar a influência do viés cognitivo, a partir de técnicas de análise de dados, em busca
de padrões que possam identificar as oportunidades para suportar o processo decisório ou a
busca pela inovação. Neste trabalho foram utilizados dados não estruturados de 26.514
conversas telefônicas realizadas no período de 01/12/2016 a 31/12/2016, provenientes de uma
empresa do mercado financeiro. A metodologia analítica consistiu na transcrição de voz para
texto e no uso associado de técnicas de Text Mining e Análise de Redes Sociais. Os resultados
obtidos permitiram identificar as principais demandas dos clientes na perspectiva de vendas,
pedido de cancelamento e a razão da ineficiência das ofertas de novos produtos, a partir dos
elementos de maior centralidade identificados nas redes de associação de palavras. Implica-se
que o uso combinado de técnicas analíticas em dados não estruturados pode permitir a
obtenção de achados com menor influência do viés cognitivo.
|
139 |
La formation de la chronique boursière dans la presse quotidienne française (1801-1870) : métamorphoses textuelles d'un journalisme de données / The creation of the stock exchange section in the French daily press (1801-1870) : textual metamorphoses of a data journalismLanglais, Pierre-Carl 10 December 2015 (has links)
La médiatisation des activités boursières suscite un regain d’intérêt en sciences humaines et sociales. Cette thèse aborde ce sujet sous l’angle de sa formation historique : nous cherchons à décrire le processus de codification d’une écriture journalistique. En France, la chronique boursière a une date de naissance. Le 29 janvier 1838, le banquier et idéologue saint-simonien Isaac Pereire publie une « Revue de la Bourse de Paris » dans le Journal des débats. Vingt ans plus tard, chaque grand quotidien généraliste emploie un chroniqueur boursier ou bulletinier, qui se rend quotidiennement aux séances du Palais Brongniart. Ainsi se trouvent posés les termes d’une acceptabilité : la chronique boursière se dote graduellement des traits d’une rubrique journalistique standardisée. Le sous-titre de notre thèse en énonce les trois objectifs principaux. Il est successivement question de situer l’avènement du journalisme boursier dans le cadre d’une métamorphose générale des cultures textuelles, de décrire le développement d’une écriture journalistique de la donnée et enfin, de rendre compte de l’état des archives numérisées, qui nous parviennent sous la forme d’un journalisme en données. Nous avons souhaité tirer parti de la numérisation massive de la presse ancienne pour constituer des corpus élargis. À partir de notre application Pyllica, nous avons pu récupérer les chroniques boursières hebdomadaires du Journal des débats parues de 1838 à 1870. Le traitement automatisé des données textuelles (ou text mining) permet de situer avec précision les évolutions structurelles de procédés stylistiques. Cette thèse se présente ainsi comme une contribution à l’étude informatisée des poétiques journalistiques. / The mediatization of stock exchange activities has stirred a renewed interest in social sciences. This doctoral thesis tackles this topic through its historical development : it aims to describe the codification of a journalistic writing. In France, the stock exchange section has its Anno Dominici : on the 29th January 1838, the businessman and saint-simonian thinker Isaac Pereire launches a « Revue de la Bourse de Paris » in the Journal des débats. Twenty years later, each significant French daily has recruited a stock exchange chronicler. The main purpose of our work consist in identifying the factors that brought a shapeless text into a standard journalistic section. The subtitle of this thesis addresses three subsequent ambitions : to clarify the general setting that has allowed the creation of financial journalism, to analyze the establishment of a vintage form of “data journalism” and, then, to indicate that this older form of “data journalism” has been read as a set of data. The massive digitization of old newspapers has created the opportunity to study wider corpora. We developed an application, Pyllica, to scrap the collections of the French National Library and were able to store in a database all the weekly stock exchange sections published in the Journal des Débats from 1838 to 1870. The use of text mining techniques has allowed to determine precisely the evolution of stylistic and editorial motives. This thesis thus appears as a general contribution to the digital study of newspaper poetics.
|
140 |
Dealing with unstructured data : A study about information quality and measurement / Hantera ostrukturerad data : En studie om informationskvalitet och mätningVikholm, Oskar January 2015 (has links)
Many organizations have realized that the growing amount of unstructured text may contain information that can be used for different purposes, such as making decisions. Organizations can by using so-called text mining tools, extract information from text documents. For example within military and intelligence activities it is important to go through reports and look for entities such as names of people, events, and the relationships in-between them when criminal or other interesting activities are being investigated and mapped. This study explores how information quality can be measured and what challenges it involves. It is done on the basis of Wang and Strong (1996) theory about how information quality can be measured. The theory is tested and discussed from empirical material that contains interviews from two case organizations. The study observed two important aspects to take into consideration when measuring information quality: context dependency and source criticism. Context dependency means that the context in which information quality should be measured in must be defined based on the consumer’s needs. Source criticism implies that it is important to take the original source into consideration, and how reliable it is. Further, data quality and information quality is often used interchangeably, which means that organizations needs to decide what they really want to measure. One of the major challenges in developing software for entity extraction is that the system needs to understand the structure of natural language, which is very complicated. / Många organisationer har insett att den växande mängden ostrukturerad text kan innehålla information som kan användas till flera ändamål såsom beslutsfattande. Genom att använda så kallade text-mining verktyg kan organisationer extrahera information från textdokument. Inom till exempel militär verksamhet och underrättelsetjänst är det viktigt att kunna gå igenom rapporter och leta efter exempelvis namn på personer, händelser och relationerna mellan dessa när brottslig eller annan intressant verksamhet undersöks och kartläggs. I studien undersöks hur informationskvalitet kan mätas och vilka utmaningar det medför. Det görs med utgångspunkt i Wang och Strongs (1996) teori om hur informationskvalité kan mätas. Teorin testas och diskuteras utifrån ett empiriskt material som består av intervjuer från två fall-organisationer. Studien uppmärksammar två viktiga aspekter att ta hänsyn till för att mäta informationskvalitét; kontextberoende och källkritik. Kontextberoendet innebär att det sammanhang inom vilket informationskvalitét mäts måste definieras utifrån konsumentens behov. Källkritik innebär att det är viktigt att ta hänsyn informationens ursprungliga källa och hur trovärdig den är. Vidare är det viktigt att organisationer bestämmer om det är data eller informationskvalitét som ska mätas eftersom dessa två begrepp ofta blandas ihop. En av de stora utmaningarna med att utveckla mjukvaror för entitetsextrahering är att systemen ska förstå uppbyggnaden av det naturliga språket, vilket är väldigt komplicerat.
|
Page generated in 0.0223 seconds