41 |
Design und Implementierung eines Software-Ökosystems für textbasierte Inhaltsanalysen in den Sozialwissenschaften mit Schwerpunkt auf der Detektion schwacher SignaleKahmann, Christian 14 June 2021 (has links)
Der Einsatz von automatisierten quantitativen Methoden in den Sozialwissenschaften gewinnt stetig an Bedeutung. Dies hat zum einen mit der rasant wachsenden Menge und Verfügbarkeit digital vorliegender Daten zu tun. Zum anderen erlauben es innovative automatisierte Ansätze, Ergebnisse zu produzieren, welche durch qualitative Arbeit allein nicht möglich wären. Die Implementierung innovativer Algorithmen zur Anwendung quantitativer Verfahren bedarf jedoch eines großen Maßes an Wissen im Bereich der Programmierung sowie der Funktionsweise der anzuwendenden Methoden. Da dieses Expertenwissen aber nur in den wenigsten Fällen in rein sozialwissenschaftlichen Projekten vorhanden ist, ist es notwendig, andere Lösungsmöglichkeiten zur Anwendung automatisierter quantitativer Verfahren in den Sozialwissenschaften zu nutzen. Lediglich die Bereiche der Computational Social Science sowie die Digital Humanities stellen Forschungsbereiche der Sozialwissenschaften dar, welche als Vorreiter bereits Erfahrungen im Umgang mit automatisierten quantitativen Verfahren aufweisen. Eine mögliche Lösung für den breiten Einsatz von automatisierten Verfahren in den gesamten Sozialwissenschaften ist die Erstellung und Anwendung von Text-Mining-Infrastrukturen, die speziell für den Einsatz in den Sozialwissenschaften ausgerichtet sind. Diese erlauben es Sozialwissenschaftlern, mit einer vergleichsweise geringen Einstiegshürde aktuelle Verfahren und Forschungsansätze der Bereiche Text Mining und Machine Learning auf ihre eigenen Forschungsfragen und Daten anwenden zu können. Damit diese Infrastrukturen aber auch tatsächlich einen deutlichen Mehrwert für den Sozialwissenschaftler darstellen, müssen verschiedene Anforderungen erfüllt werden. Diese teilen sich auf in generelle an Software gestellte Forderungen wie beispielsweise Skalierbarkeit und Performanz sowie in spezifische Anforderungen für die Anwendung in den Sozialwissenschaften. Zu diesen speziellen Anforderungen zählt die Möglichkeit des Umgangs mit verschiedenartigen Datengrundlagen. In dieser Arbeit wird der Fokus auf textuelle Daten gelegt, wobei auch diese sehr große Unterschiede in ihrer Charakteristik und damit in deren notwendiger Verarbeitung aufweisen. Es werden darüber hinaus drei Schlüsselanforderungen identifiziert, die für den Einsatz inden Sozialwissenschaften essentiell sind. Die erste Schlüsselanforderung beschreibt die generelle Ausrichtung einer Text-MiningInfrastruktur als generische Plattform, welche durch die Merkmale von Anpassbarkeit, Erweiterbarkeit sowie der Möglichkeit des Exportes von Ergebnissen an die zahlreichen zum Teil sehr diversen Forschungsfragen der Sozialwissenschaften assimiliert werden kann. Die zweite Schlüsselanforderung stellt die Notwendigkeit, qualitative und quantitative Forschungsdesigns durch die Implementierung von dafür vorgesehenen Interfaces vereinen zu können, in den Vordergrund. Beide Forschungsansätze können auf diese Weise voneinander profitieren. Zuletzt wird noch die Bedeutung von schwachen Signalen als Forschungsgrundlage in den Sozialwissenschaften hervorgehoben. Für alle drei dieser Schlüsselanforderungen als auch die übrigen abgeleiteten Anforderungen an eine Text-Mining-Infrastruktur für den Einsatz in den Sozialwissenschaften werden mögliche Implementierungen und Lösungsansätze präsentiert. Dies geschieht zum einen durch die Beschreibung des Designs und der Entwicklung genau einer solchen Text-Mining-Infrastruktur am Beispiel des interactive Leipzig Corpus Miner. Es werden notwendige Abwägungen bezüglich verschiedener Implementierungsstrategien und Softwaredesignentscheidungen, welche zur Umsetzung der gestellten Anforderungen notwendig sind, erläutert. Zum anderen wird ein Maß zur Quantifizierung von diachronen Kontextänderungen in der Form der Kontextvolatilität vorgestellt. Das Maß wird im Laufe der Arbeit zur Detektion und Analyse schwacher Signale in textuellen Daten eingesetzt. Im letzten Teil der Arbeit werden die realisierten Umsetzungen der Schlüsselanforderungen am Beispiel verschiedener durchgeführter Projekte aufgezeigt. Die wichtigsten Beiträge dieser Arbeit sind damit zum Ersten eine Aufstellung spezifischer Anforderungen an Text-Mining-Infrastrukturen für den Einsatz in den Sozialwissenschaften. Zum Zweiten wird darauf aufbauend ein mögliches Design einer daraus resultierenden Forschungsumgebung detailliert erläutert. Den dritten Beitrag dieser Arbeit stellt die Weiterentwicklung der Kontextvolatilität als Verfahren zur Detektion schwacher Signale in diachronen Daten dar.
|
42 |
Nutzen und Benutzen von Text Mining für die MedienanalyseRichter, Matthias 05 November 2010 (has links)
Einerseits werden bestehende Ergebnisse aus so unterschiedlichen Richtungen wie etwa der empirischen Medienforschung und dem Text Mining zusammengetragen. Es geht dabei um Inhaltsanalyse, von Hand, mit Unterstützung durch Computer, oder völlig automatisch, speziell auch im Hinblick auf die Faktoren wie Zeit, Entwicklung und Veränderung. Die Verdichtung und Zusammenstellung liefert nicht nur einen Überblick aus ungewohnter Perspektive, in diesem Prozess geschieht auch die Synthese von etwas Neuem.
Die Grundthese bleibt dabei immer eine einschließende: So wenig es möglich scheint, dass in Zukunft der Computer Analysen völlig ohne menschliche Interpretation betreiben kann und wird, so wenig werden menschliche Interpretatoren noch ohne die jeweils bestmögliche Unterstützung des Rechners in der Lage sein, komplexe Themen zeitnah umfassend und ohne allzu große subjektive Einflüsse zu bearbeiten – und so wenig werden es sich substantiell wertvolle Analysen noch leisten können, völlig auf derartige Hilfen und Instrumente der Qualitätssicherung zu verzichten.
Daraus ergeben sich unmittelbar Anforderungen: Es ist zu klären, wo die Stärken und Schwächen von menschlichen Analysten und von Computerverfahren liegen. Darauf aufbauend gilt es eine optimale Synthese aus beider Seiten Stärken und unter Minimierung der jeweiligen Schwächen zu erzielen. Praktisches Ziel ist letztlich die Reduktion von Komplexität und die Ermöglichung eines Ausgangs aus dem Zustand des systembedingten „overnewsed but uninformed“-Seins.:Abbildungsverzeichnis v
Tabellenverzeichnis viii
1 einleitung 1
1.1 Sinn einer wissenschaftlichen Arbeit zu Beginn des
21. Jahrhunderts 1
1.2 Verortung der Arbeit in der Ordnung der Wissenschaften
1
1.3 Vor dem Text 2
1.4 Beitrag zu Forschung und Praxis 3
1.5 Anlage und Aufbau der Arbeit 4
2 grundlagen 5
2.1 Textdaten 5
2.1.1 Zeichen 5
2.1.2 Verweise 6
2.1.3 Encoding 6
2.1.4 Umwandlung 7
2.2 Untersuchungsobjekte 7
2.2.1 Begriffe 7
2.2.2 Verteilung 8
2.2.3 Kookkurrenzen 12
2.3 Exkurs: Ein Verteilungsexperiment 12
2.3.1 Setup 12
2.3.2 Einfluss der Samplegröße 14
2.3.3 Einfluss der Korpusgröße 14
2.3.4 Wiederauftauchen von Types und Kookkurrenzen
14
2.4 Zeit 18
2.4.1 Definition 18
2.4.2 Betrachtungsarten 18
2.4.3 Zeitreihenanalyse 18
2.5 Wahrheit und Information 19
3 zugänge zu text 21
3.1 Inhaltsanalyse 21
3.1.1 Geschichte 21
3.1.2 Vorgehen 22
3.1.3 Kritik 23
3.1.4 Mit Computer 23
3.1.5 Medienresonanzanalyse 24
3.1.6 Exkurs: Automatische Analyse von Meinungen
und Einstellungen 25
3.1.7 Ein anderer Zugang zu Text durch Text Mining
26
3.2 Beispiele 27
3.2.1 Nachrichtensuchmaschinen 27
3.2.2 Nachrichtenzusammenfassungen 28
3.2.3 Nachrichtenüberblicke 29
4 die wörter des tages 34
4.1 Einordnung und Ursprung 34
4.1.1 Projekt Deutscher Wortschatz 34
4.1.2 Idee zu „Wörtern des Tages“ 37
4.1.3 Verwandte Ansätze und Arbeiten 38
4.2 Archivierung 39
4.2.1 Zur Funktion von Archiven 40
4.2.2 Rechtliche Rahmenbedingungen 40
4.3 Implementierung 44
4.3.1 Daten und Datenacquise 45
4.3.2 Vorverarbeitung 50
4.3.3 Linguistische Aufbereitung 54
4.3.4 Tägliche Verarbeitung 58
4.3.5 Präsentation 65
4.3.6 Evaluation 70
4.4 Weiterentwicklungen und Perspektiven 71
4.4.1 Anwendungen 71
4.4.2 Mashup 74
4.4.3 Medien- und Trendanalyse 78
5 schluss 84
a weitere beispiele aus der anwendung 85
a.1 Wirtschaft 85
a.2 Papst: Tod und Neuwahl 87
a.3 Weltsicherheitsrat 93
b listings 94
c datenbankschema 110
d wissenschaftlicher werdegang 112
e publikationen 113
literaturverzeichnis 114
|
43 |
Methods in Text Mining for Diagnostic RadiologyJohnson, Eamon B. 31 May 2016 (has links)
No description available.
|
44 |
Evaluation of Automotive Data mining and Pattern Recognition Techniques for Bug AnalysisGawande, Rashmi 02 February 2016 (has links) (PDF)
In an automotive infotainment system, while analyzing bug reports, developers have to spend significant time on reading log messages and trying to locate anomalous behavior before identifying its root cause. The log messages need to be viewed in a Traceviewer tool to read in a human readable form and have to be extracted to text files by applying manual filters in order to further analyze the behavior. There is a need to evaluate machine learning/data mining methods which could potentially assist in error analysis. One such method could be learning patterns for “normal” messages. “Normal” could even mean that they contain keywords like “exception”, “error”, “failed” but are harmless or not relevant to the bug that is currently analyzed. These patterns could then be applied as a filter, leaving behind only truly anomalous messages that are interesting for analysis. A successful application of the filter would reduce the noise, leaving only a few “anomalous” messages. After evaluation of the researched candidate algorithms, two algorithms namely GSP and FP Growth were found useful and thus implemented together in a prototype. The prototype implementation overall includes processes like pre-processing, creation of input, executing algorithms, creation of training set and analysis of new trace logs. Execution of prototype resulted in reducing manual effort thus achieving the objective of this thesis work.
|
45 |
Automatisierte Verfahren für die Themenanalyse nachrichtenorientierter Textquellen: Automatisierte Verfahren für dieThemenanalyse nachrichtenorientierterTextquellenNiekler, Andreas 13 January 2016 (has links)
Im Bereich der medienwissenschaftlichen Inhaltsanalyse stellt die Themenanalyse
einen wichtigen Bestandteil dar. Für die Analyse großer digitaler Textbestände hin-
sichtlich thematischer Strukturen ist es deshalb wichtig, das Potential automatisierter
computergestützter Methoden zu untersuchen. Dabei müssen die methodischen und
analytischen Anforderungen der Inhaltsanalyse beachtet und abgebildet werden, wel-
che auch für die Themenanalyse gelten. In dieser Arbeit werden die Möglichkeiten der
Automatisierung der Themenanalyse und deren Anwendungsperspektiven untersucht.
Dabei wird auf theoretische und methodische Grundlagen der Inhaltsanalyse und auf
linguistische Theorien zu Themenstrukturen zurückgegriffen,um Anforderungen an ei-
ne automatische Analyse abzuleiten. Den wesentlichen Beitrag stellt die Untersuchung
der Potentiale und Werkzeuge aus den Bereichen des Data- und Text-Mining dar, die
für die inhaltsanalytische Arbeit in Textdatenbanken hilfreich und gewinnbringend
eingesetzt werden können. Weiterhin wird eine exemplarische Analyse durchgeführt,
um die Anwendbarkeit automatischer Methoden für Themenanalysen zu zeigen. Die
Arbeit demonstriert auch Möglichkeiten der Nutzung interaktiver Oberflächen, formu-
liert die Idee und Umsetzung einer geeigneten Software und zeigt die Anwendung eines
möglichen Arbeitsablaufs für die Themenanalyse auf. Die Darstellung der Potentiale
automatisierter Themenuntersuchungen in großen digitalen Textkollektionen in dieser
Arbeit leistet einen Beitrag zur Erforschung der automatisierten Inhaltsanalyse.
Ausgehend von den Anforderungen, die an eine Themenanalyse gestellt werden,
zeigt diese Arbeit, mit welchen Methoden und Automatismen des Text-Mining diesen
Anforderungen nahe gekommen werden kann. Zusammenfassend sind zwei Anforde-
rungen herauszuheben, deren jeweilige Erfüllung die andere beeinflusst. Zum einen
ist eine schnelle thematische Erfassung der Themen in einer komplexen Dokument-
sammlung gefordert, um deren inhaltliche Struktur abzubilden und um Themen
kontrastieren zu können. Zum anderen müssen die Themen in einem ausreichenden
Detailgrad abbildbar sein, sodass eine Analyse des Sinns und der Bedeutung der The-
meninhalte möglich ist. Beide Ansätze haben eine methodische Verankerung in den
quantitativen und qualitativen Ansätzen der Inhaltsanalyse. Die Arbeit diskutiert
diese Parallelen und setzt automatische Verfahren und Algorithmen mit den Anforde-
rungen in Beziehung. Es können Methoden aufgezeigt werden, die eine semantische
und damit thematische Trennung der Daten erlauben und einen abstrahierten Über-
blick über große Dokumentmengen schaffen. Dies sind Verfahren wie Topic-Modelle
oder clusternde Verfahren. Mit Hilfe dieser Algorithmen ist es möglich, thematisch
kohärente Untermengen in Dokumentkollektion zu erzeugen und deren thematischen
Gehalt für Zusammenfassungen bereitzustellen. Es wird gezeigt, dass die Themen
trotz der distanzierten Betrachtung unterscheidbar sind und deren Häufigkeiten und
Verteilungen in einer Textkollektion diachron dargestellt werden können. Diese Auf-
bereitung der Daten erlaubt die Analyse von thematischen Trends oder die Selektion
bestimmter thematischer Aspekte aus einer Fülle von Dokumenten. Diachrone Be-
trachtungen thematisch kohärenter Dokumentmengen werden dadurch möglich und
die temporären Häufigkeiten von Themen können analysiert werden. Für die detaillier-
te Interpretation und Zusammenfassung von Themen müssen weitere Darstellungen
und Informationen aus den Inhalten zu den Themen erstellt werden. Es kann gezeigt
werden, dass Bedeutungen, Aussagen und Kontexte über eine Kookurrenzanalyse
im Themenkontext stehender Dokumente sichtbar gemacht werden können. In einer
Anwendungsform, welche die Leserichtung und Wortarten beachtet, können häufig
auftretende Wortfolgen oder Aussagen innerhalb einer Thematisierung statistisch
erfasst werden. Die so generierten Phrasen können zur Definition von Kategorien
eingesetzt werden oder mit anderen Themen, Publikationen oder theoretischen An-
nahmen kontrastiert werden. Zudem sind diachrone Analysen einzelner Wörter, von
Wortgruppen oder von Eigennamen in einem Thema geeignet, um Themenphasen,
Schlüsselbegriffe oder Nachrichtenfaktoren zu identifizieren. Die so gewonnenen Infor-
mationen können mit einem „close-reading“ thematisch relevanter Dokumente ergänzt
werden, was durch die thematische Trennung der Dokumentmengen möglich ist. Über
diese methodischen Perspektiven hinaus lassen sich die automatisierten Analysen
als empirische Messinstrumente im Kontext weiterer hier nicht besprochener kommu-
nikationswissenschaftlicher Theorien einsetzen. Des Weiteren zeigt die Arbeit, dass
grafische Oberflächen und Software-Frameworks für die Bearbeitung von automatisier-
ten Themenanalysen realisierbar und praktikabel einsetzbar sind. Insofern zeigen die
Ausführungen, wie die besprochenen Lösungen und Ansätze in die Praxis überführt
werden können.
Wesentliche Beiträge liefert die Arbeit für die Erforschung der automatisierten
Inhaltsanalyse. Die Arbeit dokumentiert vor allem die wissenschaftliche Auseinan-
dersetzung mit automatisierten Themenanalysen. Während der Arbeit an diesem
Thema wurden vom Autor geeignete Vorgehensweisen entwickelt, wie Verfahren des
Text-Mining in der Praxis für Inhaltsanalysen einzusetzen sind. Unter anderem wur-
den Beiträge zur Visualisierung und einfachen Benutzung unterschiedlicher Verfahren
geleistet. Verfahren aus dem Bereich des Topic Modelling, des Clustering und der
Kookkurrenzanalyse mussten angepasst werden, sodass deren Anwendung in inhalts-
analytischen Anwendungen möglich ist. Weitere Beiträge entstanden im Rahmen der
methodologischen Einordnung der computergestützten Themenanalyse und in der
Definition innovativer Anwendungen in diesem Bereich. Die für die vorliegende Arbeit
durchgeführte Experimente und Untersuchungen wurden komplett in einer eigens ent-
wickelten Software durchgeführt, die auch in anderen Projekten erfolgreich eingesetzt
wird. Um dieses System herum wurden Verarbeitungsketten,Datenhaltung,Visualisie-
rung, grafische Oberflächen, Möglichkeiten der Dateninteraktion, maschinelle Lernver-
fahren und Komponenten für das Dokumentretrieval implementiert. Dadurch werden
die komplexen Methoden und Verfahren für die automatische Themenanalyse einfach
anwendbar und sind für künftige Projekte und Analysen benutzerfreundlich verfüg-
bar. Sozialwissenschaftler,Politikwissenschaftler oder Kommunikationswissenschaftler
können mit der Softwareumgebung arbeiten und Inhaltsanalysen durchführen, ohne
die Details der Automatisierung und der Computerunterstützung durchdringen zu
müssen.
|
46 |
Evaluation of Automotive Data mining and Pattern Recognition Techniques for Bug AnalysisGawande, Rashmi 25 January 2016 (has links)
In an automotive infotainment system, while analyzing bug reports, developers have to spend significant time on reading log messages and trying to locate anomalous behavior before identifying its root cause. The log messages need to be viewed in a Traceviewer tool to read in a human readable form and have to be extracted to text files by applying manual filters in order to further analyze the behavior. There is a need to evaluate machine learning/data mining methods which could potentially assist in error analysis. One such method could be learning patterns for “normal” messages. “Normal” could even mean that they contain keywords like “exception”, “error”, “failed” but are harmless or not relevant to the bug that is currently analyzed. These patterns could then be applied as a filter, leaving behind only truly anomalous messages that are interesting for analysis. A successful application of the filter would reduce the noise, leaving only a few “anomalous” messages. After evaluation of the researched candidate algorithms, two algorithms namely GSP and FP Growth were found useful and thus implemented together in a prototype. The prototype implementation overall includes processes like pre-processing, creation of input, executing algorithms, creation of training set and analysis of new trace logs. Execution of prototype resulted in reducing manual effort thus achieving the objective of this thesis work.
|
47 |
Une nouvelle approche pour la détection des spams se basant sur un traitement des données catégoriellesParakh Ousman, Yassine Zaralahy January 2012 (has links)
Le problème des spams connaît depuis ces 20 dernières années un essor considérable. En effet, le pollupostage pourrait représenter plus de 72% de l'ensemble du trafic de courrier électronique. Au-delà de l'aspect intrusif des spams, ceux-ci peuvent comporter des virus ou des scripts néfastes ; d'où l'intérêt de les détecter afin de les supprimer.Le coût d'un envoi de courriels par un spammeur étant infime, ce dernier peut se permettre de transmettre le spam au plus d'adresse de messagerie électronique. Pour le spammeur qui arrive à récupérer même une petite partie d'utilisateurs, son opération devient commercialement viable. Imaginant un million de courriels envoyés et seul 0,1% de personnes qui se font appâtées [i.e. appâter], cela représente tout de même 1 millier de personnes ; et ce chiffre est très réaliste. Nous voyons que derrière la protection de la vie privée et le maintien d'un environnement de travail sain se cachent également des enjeux économiques. La détection des spams est une course constante entre la mise en place de nouvelles techniques de classification du courriel et le contournement de celles-ci par les spammeurs. Jusqu'alors, ces derniers avaient une avance dans cette lutte. Cette tendance s'est inversée avec l'apparition de techniques basées sur le filtrage du contenu. Ces filtres pour la plupart sont basés sur un classificateur bayésien naïf. Nous présentons dans ce mémoire une approche nouvelle de cette classification en utilisant une méthode basée sur le traitement de données catégorielles. Cette méthode utilise les N-grams pour identifier les motifs significatifs afin de limiter l'impact du morphisme des courriers indésirables.
|
48 |
Using text mining to identify crime patterns from Arabic crime news report corpusAlruily, Meshrif January 2012 (has links)
Most text mining techniques have been proposed only for English text, and even here, most research has been conducted on specific texts related to special contexts within the English language, such as politics, medicine and crime. In contrast, although Arabic is a widely spoken language, few mining tools have been developed to process Arabic text, and some Arabic domains have not been studied at all. In fact, Arabic is a language with a very complex morphology because it is highly inflectional, and therefore, dealing with texts written in Arabic is highly complicated. This research studies the crime domain in the Arabic language, exploiting unstructured text using text mining techniques. Developing a system for extracting important information from crime reports would be useful for police investigators, for accelerating the investigative process (instead of reading entire reports) as well as for conducting further or wider analyses. We propose the Crime Profiling System (CPS) to extract crime-related information (crime type, crime location and nationality of persons involved in the event), automatically construct dictionaries for the existing information, cluster crime documents based on certain attributes and utilize visualisation techniques to assist in crime data analysis. The proposed information extraction approach is novel, and it relies on computational linguistic techniques to identify the abovementioned information, i.e. without using predefined dictionaries (e.g. lists of location names) and annotated corpus. The language used in crime reporting is studied to identify patterns of interest using a corpus-based approach. Frequency analysis, collocation analysis and concordance analysis are used to perform the syntactic analysis in order to discover the local grammar. Moreover, the Self Organising Map (SOM) approach is adopted in order to perform the clustering and visualisation tasks for crime documents based on crime type, location or nationality. This clustering technique is improved because only refined data containing meaningful keywords extracted through the information extraction process are inputted into it, i.e. the data is cleaned by removing noise. As a result, a huge reduction in the quantity of data fed into the SOM is obtained, consequently, saving memory, data loading time and the execution time needed to perform the clustering. Therefore, the computation of the SOM is accelerated. Finally, the quantization error is reduced, which leads to high quality clustering. The outcome of the clustering stage is also visualised and the system is able to provide statistical information in the form of graphs and tables about crimes committed within certain periods of time and within a particular area.
|
49 |
Securing Cyberspace: Analyzing Cybercriminal Communities through Web and Text Mining PerspectivesBenjamin, Victor January 2016 (has links)
Cybersecurity has become one of the most pressing issues facing society today. In particular, cybercriminals often congregate within online communities to exchange knowledge and assets. As a result, there has been a strong interest in recent years in developing a deeper understanding on cybercriminal behaviors, the global cybercriminal supply chain, emerging threats, and various other cybersecurity-related activities. However, few works in recent years have focused on identifying, collecting, and analyzing cybercriminal contents. Despite the high societal impact of cybercriminal community research, only a few studies have leveraged these rich data sources in their totality, and those that do often resort to manual data collection and analysis techniques. In this dissertation, I address two broad research questions: 1) In what ways can I advance cybersecurity as a science by scrutinizing the contents of online cybercriminal communities? and 2) How can I make use of computational methodologies to identify, collect, and analyze cybercriminal communities in an automated and scalable manner? To these ends, the dissertation comprises four essays. The first essay introduces a set of computational methodologies and research guidelines for conducting cybercriminal community research. To this point, there has been no literature establishing a clear route for non-technical and non-security researchers to begin studying such communities. The second essay examines possible motives for prolonged participation by individuals within cybercriminal communities. The third essay develops new neural network language model (NNLM) capabilities and applies them to cybercriminal community data in order to understand hacker-specific language evolution and to identify emerging threats. The last essay focuses on developing a NNLM-based framework for identifying information dissemination among varying international cybercriminal populations by examining multilingual cybercriminal forums. These essays help further establish cybersecurity as a science.
|
50 |
Metodolgía para estimar el impacto que generan las llamadas realizadas en un call center en la fuga de los clientes utilizando técnicas de text miningSepúlveda Jullian, Catalina January 2015 (has links)
Ingeniera Civil Industrial / La industria de las telecomunicaciones está en constante crecimiento debido al desarrollo de las tecnologías y a la necesidad creciente de las personas de estar conectadas. Por lo mismo es que presenta un alto grado de competitividad y los clientes son libres de elegir la opción que más les acomode y cumpla con sus expectativas.
De esta forma la predicción de fuga, y con ello la retención de clientes, son factores fundamentales para el éxito de una compañía. Sin embargo, dados los altos grados de competitividad entre las distintas empresas, se hace necesario innovar en cuanto a modelos de fuga utilizando nuevas fuentes de información, como lo son las llamadas al Call Center. Es así como el objetivo general de este trabajo es medir el impacto que generan las llamadas realizadas en el Call Center en la predicción de fuga de los clientes.
Para lograr lo anterior se cuenta con información de las interacciones que tienen los clientes con el Call Center, específicamente el texto de cada llamada. Para extraer información sobre el contenido de las llamadas se aplicó un modelo de detección de tópicos sobre el texto para así conocer los temas tratados y utilizar esta información en los modelos de fuga.
Los resultados obtenidos luego de realizar diversos modelos logit de predicción de fuga, muestran que al utilizar tanto la información de las llamadas como la del cliente (demográfica y transaccional), el modelo es superior en accuracy en un 8.7% a uno que no utiliza esta nueva fuente de información. Además el modelo con ambos tipos de variables presenta un error tipo I un 25% menor a un modelo que no incluye el contenido de las llamadas.
Tras los análisis realizados es posible concluir que las llamadas al Call Center sí son relevantes y de ayuda al momento de predecir la fuga de un cliente, ya que logran aumentar la capacidad predictiva y ajuste del modelo. Además de que entregan nueva información sobre el comportamiento del cliente y es posible detectar aquellos tópicos que puedan estar asociados con la fuga, lo que permite tomar acciones correctivas.
|
Page generated in 0.0501 seconds