• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 929
  • 156
  • 74
  • 55
  • 27
  • 23
  • 18
  • 13
  • 10
  • 9
  • 8
  • 7
  • 5
  • 5
  • 4
  • Tagged with
  • 1601
  • 1601
  • 1601
  • 622
  • 565
  • 464
  • 383
  • 376
  • 266
  • 256
  • 245
  • 228
  • 221
  • 208
  • 204
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1021

Word Clustering in an Interactive Text Analysis Tool / Klustring av ord i ett interaktivt textanalysverktyg

Gränsbo, Gustav January 2019 (has links)
A central operation of users of the text analysis tool Gavagai Explorer is to look through a list of words and arrange them in groups. This thesis explores the use of word clustering to automatically arrange the words in groups intended to help users. A new word clustering algorithm is introduced, which attempts to produce word clusters tailored to be small enough for a user to quickly grasp the common theme of the words. The proposed algorithm computes similarities among words using word embeddings, and clusters them using hierarchical graph clustering. Multiple variants of the algorithm are evaluated in an unsupervised manner by analysing the clusters they produce when applied to 110 data sets previously analysed by users of Gavagai Explorer. A supervised evaluation is performed to compare clusters to the groups of words previously created by users of Gavagai Explorer. Results show that it was possible to choose a set of hyperparameters deemed to perform well across most data sets in the unsupervised evaluation. These hyperparameters also performed among the best on the supervised evaluation. It was concluded that the choice of word embedding and graph clustering algorithm had little impact on the behaviour of the algorithm. Rather, limiting the maximum size of clusters and filtering out similarities between words had a much larger impact on behaviour.
1022

MULTILINGUAL CYBERBULLYING DETECTION SYSTEM

Rohit Sidram Pawar (6613247) 11 June 2019 (has links)
Since the use of social media has evolved, the ability of its users to bully others has increased. One of the prevalent forms of bullying is Cyberbullying, which occurs on the social media sites such as Facebook©, WhatsApp©, and Twitter©. The past decade has witnessed a growth in cyberbullying – is a form of bullying that occurs virtually by the use of electronic devices, such as messaging, e-mail, online gaming, social media, or through images or mails sent to a mobile. This bullying is not only limited to English language and occurs in other languages. Hence, it is of the utmost importance to detect cyberbullying in multiple languages. Since current approaches to identify cyberbullying are mostly focused on English language texts, this thesis proposes a new approach (called Multilingual Cyberbullying Detection System) for the detection of cyberbullying in multiple languages (English, Hindi, and Marathi). It uses two techniques, namely, Machine Learning-based and Lexicon-based, to classify the input data as bullying or non-bullying. The aim of this research is to not only detect cyberbullying but also provide a distributed infrastructure to detect bullying. We have developed multiple prototypes (standalone, collaborative, and cloud-based) and carried out experiments with them to detect cyberbullying on different datasets from multiple languages. The outcomes of our experiments show that the machine-learning model outperforms the lexicon-based model in all the languages. In addition, the results of our experiments show that collaboration techniques can help to improve the accuracy of a poor-performing node in the system. Finally, we show that the cloud-based configurations performed better than the local configurations.
1023

Approches jointes texte/image pour la compréhension multimodale de documents / Text/image joint approaches for multimodal understanding of documents

Delecraz, Sébastien 10 December 2018 (has links)
Les mécanismes de compréhension chez l'être humain sont par essence multimodaux. Comprendre le monde qui l'entoure revient chez l'être humain à fusionner l'information issue de l'ensemble de ses récepteurs sensoriels. La plupart des documents utilisés en traitement automatique de l'information sont multimodaux. Par exemple, du texte et des images dans des documents textuels ou des images et du son dans des documents vidéo. Cependant, les traitements qui leurs sont appliqués sont le plus souvent monomodaux. Le but de cette thèse est de proposer des traitements joints s'appliquant principalement au texte et à l'image pour le traitement de documents multimodaux à travers deux études : l'une portant sur la fusion multimodale pour la reconnaissance du rôle du locuteur dans des émissions télévisuelles, l'autre portant sur la complémentarité des modalités pour une tâche d'analyse linguistique sur des corpus d'images avec légendes. Pour la première étude nous nous intéressons à l'analyse de documents audiovisuels provenant de chaînes d'information télévisuelle. Nous proposons une approche utilisant des réseaux de neurones profonds pour la création d'une représentation jointe multimodale pour les représentations et la fusion des modalités. Dans la seconde partie de cette thèse nous nous intéressons aux approches permettant d'utiliser plusieurs sources d'informations multimodales pour une tâche monomodale de traitement automatique du langage, afin d'étudier leur complémentarité. Nous proposons un système complet de correction de rattachements prépositionnels utilisant de l'information visuelle, entraîné sur un corpus multimodal d'images avec légendes. / The human faculties of understanding are essentially multimodal. To understand the world around them, human beings fuse the information coming from all of their sensory receptors. Most of the documents used in automatic information processing contain multimodal information, for example text and image in textual documents or image and sound in video documents, however the processings used are most often monomodal. The aim of this thesis is to propose joint processes applying mainly to text and image for the processing of multimodal documents through two studies: one on multimodal fusion for the speaker role recognition in television broadcasts, the other on the complementarity of modalities for a task of linguistic analysis on corpora of images with captions. In the first part of this study, we interested in audiovisual documents analysis from news television channels. We propose an approach that uses in particular deep neural networks for representation and fusion of modalities. In the second part of this thesis, we are interested in approaches allowing to use several sources of multimodal information for a monomodal task of natural language processing in order to study their complementarity. We propose a complete system of correction of prepositional attachments using visual information, trained on a multimodal corpus of images with captions.
1024

Context-based Image Concept Detection and Annotation

Unknown Date (has links)
Scene understanding attempts to produce a textual description of visible and latent concepts in an image to describe the real meaning of the scene. Concepts are either objects, events or relations depicted in an image. To recognize concepts, the decision of object detection algorithm must be further enhanced from visual similarity to semantical compatibility. Semantically relevant concepts convey the most consistent meaning of the scene. Object detectors analyze visual properties (e.g., pixel intensities, texture, color gradient) of sub-regions of an image to identify objects. The initially assigned objects names must be further examined to ensure they are compatible with each other and the scene. By enforcing inter-object dependencies (e.g., co-occurrence, spatial and semantical priors) and object to scene constraints as background information, a concept classifier predicts the most semantically consistent set of names for discovered objects. The additional background information that describes concepts is called context. In this dissertation, a framework for building context-based concept detection is presented that uses a combination of multiple contextual relationships to refine the result of underlying feature-based object detectors to produce most semantically compatible concepts. In addition to the lack of ability to capture semantical dependencies, object detectors suffer from high dimensionality of feature space that impairs them. Variances in the image (i.e., quality, pose, articulation, illumination, and occlusion) can also result in low-quality visual features that impact the accuracy of detected concepts. The object detectors used to build context-based framework experiments in this study are based on the state-of-the-art generative and discriminative graphical models. The relationships between model variables can be easily described using graphical models and the dependencies and precisely characterized using these representations. The generative context-based implementations are extensions of Latent Dirichlet Allocation, a leading topic modeling approach that is very effective in reduction of the dimensionality of the data. The discriminative contextbased approach extends Conditional Random Fields which allows efficient and precise construction of model by specifying and including only cases that are related and influence it. The dataset used for training and evaluation is MIT SUN397. The result of the experiments shows overall 15% increase in accuracy in annotation and 31% improvement in semantical saliency of the annotated concepts. / Includes bibliography. / Dissertation (Ph.D.)--Florida Atlantic University, 2016. / FAU Electronic Theses and Dissertations Collection
1025

Elaboração textual via definição de entidades mencionadas e de perguntas relacionadas aos verbos em textos simplificados do português / Text elaboration through named entities definition and questions related to verbs in simplified portuguese texts

Marcelo Adriano Amancio 15 June 2011 (has links)
Esta pesquisa aborda o tema da Elaboração Textual para um público alvo que tem letramento nos níveis básicos e rudimentar, de acordo com a classificação do Indicador Nacional de Alfabetismo Funcional (INAF, 2009). A Elaboração Textual é definida como um conjunto de técnicas que acrescentam material redundante em textos, sendo tradicionalmente usadas a adição de definições, sinônimos, antônimos, ou qualquer informação externa com o objetivo de auxiliar na compreensão do texto. O objetivo deste projeto de mestrado foi a proposta de dois métodos originais de elaboração textual: (1) via definição das entidades mencionadas que aparecem em um texto e (2) via definições de perguntas elaboradas direcionadas aos verbos das orações de um texto. Para a primeira tarefa, usou-se um sistema de reconhecimento de entidades mencionadas da literatura, o Rembrandt, e definições curtas da enciclopédia Wikipédia, sendo este método incorporado no sistema Web FACILITA EDUCATIVO, uma das ferramentas desenvolvidas no projeto PorSimples. O método foi avaliado de forma preliminar com um pequeno grupo de leitores com baixo nível de letramento e a avaliação foi positiva, indicando que este auxílio facilitou a leitura dos usuários da avaliação. O método de geração de perguntas elaboradas aos verbos de uma oração é uma tarefa nova que foi definida, estudada, implementada e avaliada neste mestrado. A avaliação não foi realizada junto ao público alvo e sim com especialistas em processamento de língua natural que avaliaram positivamente o método e indicaram quais erros influenciam negativamente na qualidade das perguntas geradas automaticamente. Existem boas indicações de que os métodos de elaboração desenvolvidos podem ser úteis na melhoria da compreensão da leitura para o público alvo em questão, as pessoas com baixo nível de letramento / This research addresses the topic of Textual Elaboration for low-literacy readers, i.e. people at the rudimentary and basic literacy levels according to the National Indicator of Functional Literacy (INAF, 2009). Text Elaboration consists of a set of techniques that adds extra material in texts using, traditionally, definitions, synonyms, antonyms, or any external information to assist in text understanding. The main goal of this research was the proposal of two methods of Textual Elaboration: (1) the use of short definitions for Named Entities in texts and (2) assignment of wh-questions related to verbs in text. The first task used the Rembrandt named entity recognition system and short definitions of Wikipedia. It was implemented in PorSimples web Educational Facilita tool. This method was preliminarily evaluated with a small group of low-literacy readers. The evaluation results were positive, what indicates that the tool was useful for improving the text understanding. The assignment of wh-questions related to verbs task was defined, studied, implemented and assessed during this research. Its evaluation was conducted with NLP researches instead of with low-literacy readers. There are good evidences that the text elaboration methods and resources developed here are useful in helping text understanding for low-literacy readers
1026

CorrefSum: revisão da coesão referencial em sumários extrativos

Gonçalves, Patrícia Nunes 28 February 2008 (has links)
Made available in DSpace on 2015-03-05T13:59:43Z (GMT). No. of bitstreams: 0 Previous issue date: 28 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Com o avanço da Internet, cada vez mais convivemos com a sobrecarga de informação. É nesse contexto que a área de sumarização automática de textos tem se tornado uma área proeminente de pesquisa. A sumarização é o processo de discernir as informações mais importantes dos textos para produzir uma versão resumida. Sumarizadores extrativos escolhem as sentenças mais relevantes do texto e as reagrupam para formar o sumário. Muitas vezes, as frases selecionadas do texto não preservam a coesão referencial necessária para o entendimento do texto. O foco deste trabalho é, portanto, na análise e recuperação da coesão referencial desses sumários. O objetivo é desenvolver um sistema que realiza a manutenção da coesão referencial dos sumários extrativos usando como fonte de informação as cadeias de correferência presentes no texto-fonte. Para experimentos e avaliação dos resultados foram utilizados dois sumarizadores: Gist-Summ e SuPor-2. Foram utilizadas duas formas de avaliação: automática e subjetiva. Os resultados / With the advance of Internet technology we see the problem of information overload. In this context, automatic summarization is an important research area. Summarization is the process of identifying the most relevant information brought about in a text and on that basis to rewrite a short version of it. Extractive summarizers choose the most relevant sentences in a text and regroup them to form the summary. Usually the juxtaposition of the selected sentences violate the referential cohesion that is needed for the interpretation of the text. This work focuses on the analysis and recovery of referential cohesion of extractive summaries on the basis of knowledge about correference chains as presented in the source text. Some experiments were undertaken considering the summarizers GistSumm and SuPor-2. Evaluation was done in two ways, automatically and subjectively. The results indicate that this is a promising area of work and ways of advancing in this research are discussed
1027

Modelo baseado em processamento de dados heterogêneos para aplicações de apoio clínico

Rönnau, Rodrigo Freiberger 06 December 2017 (has links)
Submitted by JOSIANE SANTOS DE OLIVEIRA (josianeso) on 2018-02-08T12:32:48Z No. of bitstreams: 1 Rodrigo Freiberger Rönnau_.pdf: 4107183 bytes, checksum: a19ee8d2e8f8964708c6b3baf34e7ad2 (MD5) / Made available in DSpace on 2018-02-08T12:32:48Z (GMT). No. of bitstreams: 1 Rodrigo Freiberger Rönnau_.pdf: 4107183 bytes, checksum: a19ee8d2e8f8964708c6b3baf34e7ad2 (MD5) Previous issue date: 2017-12-06 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / O uso de sistemas computacionais no auxílio à prática clínica vem sendo amplamente estudado atualmente, buscando a avaliação de suas possibilidades na melhoria da qualidade do atendimento prestado aos pacientes. Dentre as aplicações com essa finalidade, podem-se destacar aquelas que atuam sobre laudos médicos ou sobre os exames por imagem, em atividades que realizam a extração, disponibilização e uso de características adquiridas através do processamento desses documentos. Entretanto, ao observar a literatura da área, percebe-se que há uma lacuna na utilização combinada das informações obtidas em cada tipo de processamento, ao mesmo tempo em que são indicadas possibilidades relevantes de criação de aplicações compartilhando e integrando estas informações. Outra lacuna identificada está relacionada à interoperabilidade dos dados e dos resultados obtidos entre os diferentes sistemas já existentes. Com o intuito de contribuir para a solução das questões apresentadas, neste trabalho é proposto um modelo, com estrutura modular e expansível, que viabiliza o emprego de diferentes formatos de entrada com o objetivo de prover, de forma integrada, informações de apoio ao médico ou especialista. Os dados extraídos são disponibilizados de maneira estruturada através de padrões reconhecidos, viabilizando a interoperabilidade entre os sistemas e o seu uso a partir de diferentes aplicações computacionais. Foram construídos dois protótipos, utilizando como base o modelo proposto. Para apresentar o funcionamento e os benefícios de uso do modelo, bem como possibilitar a sua avaliação, foram descritos cenários que demonstram seu emprego. Tanto o modelo como os protótipos foram apresentados a 12 profissionais da saúde e a 35 profissionais da computação. Os participantes preencheram um questionário de avaliação. Como resultado, 97,8% dos entrevistados indicaram que o modelo proposto é útil e 76,6% pretendem utilizá-lo e/ou divulgá-lo. / The use of computer systems to aid in the clinical practice has been widely studied, seeking an evaluation of its possibilities in improving the quality of the care provided to patients. Among the applications for this purpose, it is possible to highlight those that act on medical reports or medical images, in activities that perform the extraction, storage and use of characteristics acquired through the processing of these documents. However, observing the literature of the area, it is noticed that there is a gap in the combined use of information obtained in each type of processing, while indicating, at the same time, relevant possibilities of applications sharing and integrating this information. Another identified gap is related to the interoperability of the data and results obtained between different existing systems. In order to contribute to the solution of the presented questions, this work proposes a model, with a modular and expandable structure, which makes possible the use of different input formats with the objective of providing, in an integrated way, support information to the physician or specialist. The extracted data are made available in a structured manner through recognized standards, allowing the interoperability between the systems and their use from different computational applications. Two prototypes were constructed, using as basis the proposed model. Scenarios that demonstrate the use and benefits of the model have been described and used in its evaluation. Both the model and the prototypes were presented to 12 health professionals and 35 computer professionals. Participants completed an evaluation questionnaire. As result, 97.8% of respondents indicated that the proposed model is useful and 76.6% intend to use it and/or disseminate it.
1028

Modelo de reconhecimento de vinculação textual baseado em regras linguísticas e informações morfossintáticas voltado para ambientes virtuais de ensino e aprendizagem

Flores, Evandro Metz January 2014 (has links)
Submitted by Fabricia Fialho Reginato (fabriciar) on 2015-07-01T23:00:34Z No. of bitstreams: 1 EvandroFlores.pdf: 1289007 bytes, checksum: 44450c63dc59c23ca86b3e4fdbdcea30 (MD5) / Made available in DSpace on 2015-07-01T23:00:34Z (GMT). No. of bitstreams: 1 EvandroFlores.pdf: 1289007 bytes, checksum: 44450c63dc59c23ca86b3e4fdbdcea30 (MD5) Previous issue date: 2014 / CNPQ – Conselho Nacional de Desenvolvimento Científico e Tecnológico / GVDASA / A rápida evolução das tecnologias de informação e comunicação tem possibilitado o desenvolvimento de modalidades de ensino e educação, tais como a Educação a Distância, capazes de alcançar pessoas anteriormente impossibilitadas de frequentar o ensino superior. Um aspecto importante destas modalidades é o amplo uso de recursos de mediação digital, sendo que estes podem gerar um grande volume de dados o qual, por vezes, não é viável para utilização proveitosa de forma manual pelos professores envolvidos nesta interação. Este contexto gera a necessidade e oportunidade de definição de ferramentas que possam atuar para automatizar parte deste trabalho. Uma destas possibilidades é a verificação de correção de respostas textuais, onde o objetivo é identificar vinculações entre amostras textuais que podem ser, por exemplo, diferentes respostas textuais a uma pergunta. Embora sejam utilizadas com bons resultados, as técnicas atualmente aplicadas a este problema apresentam deficiências ou características que diminuem sua precisão ou adequação em diversos contextos. Poucos trabalhos são capazes de realizar a vinculação textual caso seja alterada a flexão verbal, outros não são capazes de identificar informações importantes ou em que posição na frase as informações se encontram. Além disso, poucos trabalhos são adaptados para a língua portuguesa. Este trabalho propõe um modelo de reconhecimento de vinculação textual baseado em regras linguísticas e informações morfossintáticas voltado para ambientes virtuais de ensino e aprendizagem, que busca contornar estes problemas apresentando uma nova abordagem através do uso combinado da análise sintática, morfológica, regras linguísticas, detecção da flexão de voz, tratamento de negação e do uso de sinônimos. O trabalho também apresenta um protótipo desenvolvido para avaliar o modelo proposto. Ao final são apresentados os resultados obtidos, que até o momento são promissores, permitindo a identificação da vinculação textual de diferentes amostras textuais com precisão e flexibilidade relevantes. / The fast evolution of information and communication technologies has enabled the development of modalities of teaching and learning, such as distance education, that allow to reach people previously unable to attend higher education. An important aspect of these modalities is the extensive use of digital mediation resources. These resources can generate a large volume of data that sometimes is not feasible for beneficial manual use by the teachers involved in this interaction. In this context there is a necessity and opportunity for defining tools and approaches that can act to automate part of this work. One of these possibilities is the verification of textual responses correctness, where the goal is to identify linkages between textual samples, which can be, for example, different textual answer to a question. Although presenting good results, techniques currently applied to this problem have deficiencies or characteristics that decrease their accuracy or suitability in several contexts. Few studies are able to perform textual entailment in case the verbal inflection was changed; others are not able to identify important information or position in the sentence where the information is found. Moreover, few works are adapted to Portuguese. This work proposes a model to recognition of textual entailment based on linguistic rules, which seeks to overcome these problems by presenting a new approach through the combined use of syntactic analysis, morphology, linguistic rules, detection of the bending voice, treatment of denial and the use of synonyms. This work also presents a prototype developed to evaluate the model proposed herein. The end results, which are promising, allow the identification of textual linking of different textual samples accurately and with flexibility.
1029

A study of the use of natural language processing for conversational agents

Wilkens, Rodrigo Souza January 2016 (has links)
linguagem é uma marca da humanidade e da consciência, sendo a conversação (ou diálogo) uma das maneiras de comunicacão mais fundamentais que aprendemos quando crianças. Por isso uma forma de fazer um computador mais atrativo para interação com usuários é usando linguagem natural. Dos sistemas com algum grau de capacidade de linguagem desenvolvidos, o chatterbot Eliza é, provavelmente, o primeiro sistema com foco em diálogo. Com o objetivo de tornar a interação mais interessante e útil para o usuário há outras aplicações alem de chatterbots, como agentes conversacionais. Estes agentes geralmente possuem, em algum grau, propriedades como: corpo (com estados cognitivos, incluindo crenças, desejos e intenções ou objetivos); incorporação interativa no mundo real ou virtual (incluindo percepções de eventos, comunicação, habilidade de manipular o mundo e comunicar com outros agentes); e comportamento similar ao humano (incluindo habilidades afetivas). Este tipo de agente tem sido chamado de diversos nomes como agentes animados ou agentes conversacionais incorporados. Um sistema de diálogo possui seis componentes básicos. (1) O componente de reconhecimento de fala que é responsável por traduzir a fala do usuário em texto. (2) O componente de entendimento de linguagem natural que produz uma representação semântica adequada para diálogos, normalmente utilizando gramáticas e ontologias. (3) O gerenciador de tarefa que escolhe os conceitos a serem expressos ao usuário. (4) O componente de geração de linguagem natural que define como expressar estes conceitos em palavras. (5) O gerenciador de diálogo controla a estrutura do diálogo. (6) O sintetizador de voz é responsável por traduzir a resposta do agente em fala. No entanto, não há consenso sobre os recursos necessários para desenvolver agentes conversacionais e a dificuldade envolvida nisso (especialmente em línguas com poucos recursos disponíveis). Este trabalho foca na influência dos componentes de linguagem natural (entendimento e gerência de diálogo) e analisa em especial o uso de sistemas de análise sintática (parser) como parte do desenvolvimento de agentes conversacionais com habilidades de linguagem mais flexível. Este trabalho analisa quais os recursos do analisador sintático contribuem para agentes conversacionais e aborda como os desenvolver, tendo como língua alvo o português (uma língua com poucos recursos disponíveis). Para isto, analisamos as abordagens de entendimento de linguagem natural e identificamos as abordagens de análise sintática que oferecem um bom desempenho. Baseados nesta análise, desenvolvemos um protótipo para avaliar o impacto do uso de analisador sintático em um agente conversacional. / Language is a mark of humanity and conscience, with the conversation (or dialogue) as one of the most fundamental manners of communication that we learn as children. Therefore one way to make a computer more attractive for interaction with users is through the use of natural language. Among the systems with some degree of language capabilities developed, the Eliza chatterbot is probably the first with a focus on dialogue. In order to make the interaction more interesting and useful to the user there are other approaches besides chatterbots, like conversational agents. These agents generally have, to some degree, properties like: a body (with cognitive states, including beliefs, desires and intentions or objectives); an interactive incorporation in the real or virtual world (including perception of events, communication, ability to manipulate the world and communicate with others); and behavior similar to a human (including affective abilities). This type of agents has been called by several terms, including animated agents or embedded conversational agents (ECA). A dialogue system has six basic components. (1) The speech recognition component is responsible for translating the user’s speech into text. (2) The Natural Language Understanding component produces a semantic representation suitable for dialogues, usually using grammars and ontologies. (3) The Task Manager chooses the concepts to be expressed to the user. (4) The Natural Language Generation component defines how to express these concepts in words. (5) The dialog manager controls the structure of the dialogue. (6) The synthesizer is responsible for translating the agents answer into speech. However, there is no consensus about the necessary resources for developing conversational agents and the difficulties involved (especially in resource-poor languages). This work focuses on the influence of natural language components (dialogue understander and manager) and analyses, in particular the use of parsing systems as part of developing conversational agents with more flexible language capabilities. This work analyses what kind of parsing resources contributes to conversational agents and discusses how to develop them targeting Portuguese, which is a resource-poor language. To do so we analyze approaches to the understanding of natural language, and identify parsing approaches that offer good performance, based on which we develop a prototype to evaluate the impact of using a parser in a conversational agent.
1030

Uma abordagem semiautomática para identificação de elementos de processo de negócio em texto de linguagem natural / A semi-automatic approach to identify business process elements in natural language text

Ferreira, Renato César Borges January 2017 (has links)
Para permitir um efetivo gerenciamento de processos de negócio, o primeiro passo é o desenvolvimento de modelos de processo adequados aos objetivos das organizações. Tais modelos são utilizados para descreverem papéis e responsabilidades dos colaboradores nas organizações. Além disso, a modelagem de processos é de grande importância para documentar, entender e automatizar processos. As organizações, geralmente provêm documentos não estruturados e de difícil entendimento por parte dos analistas. Neste panorama, a modelagem de processos se torna demorada e de alto custo, podendo gerar modelos de processo que estão em desacordo com a realidade prevista pelas organizações. A extração de modelos ou fragmentos de processo a partir de descrições textuais pode contribuir para minimizar o esforço necessário à modelagem de processos. Neste contexto, esta dissertação propõe uma abordagem para identificar elementos de processo de negócio em texto em linguagem natural de forma semiautomática. Baseado no estudo de processamento de linguagem natural, foi definido um conjunto de regras de mapeamento para identificar elementos de processo em descrição textual Além disso, para avaliar as regras de mapeamento e viabilizar a abordagem proposta, foi desenvolvido um protótipo capaz de identificar elementos de processo em texto de forma semiautomática. Para medir o desempenho do protótipo proposto, foram utilizadas métricas de recuperação de informação, tais como precisão, revocação e medida-F. Além disso, foram aplicados dois questionários com o objetivo de verificar a aceitação perante os usuários. As avaliações apresentam resultados promissores. A análise de 70 textos, apresentou, em média, 73,61% de precisão, 70,15% de revocação e 71,82% de medida-F. Além disso, os resultados do primeiro e segundo questionários apresentaram, em média, 91,66% de aceitação dos participantes. A principal contribuição deste trabalho é propor regras de mapeamento para identificar elementos de processo em texto em linguagem natural para auxiliar e minimizar o tempo necessário à modelagem de processos realizada pelos analistas de processo. / To enable effective business process management, the first step is the design of appropriate process models to the organization’s objectives. These models are used to describe roles and responsibilities of the employees in an organizations. In addition, business process modeling is very important to report, understand and automate processes. However, the documentation existent in organizations about such processes is mostly unstructured and difficult to be understood by analysts. In this context, process modeling becomes highly time consuming and expensive, generating process models that do not comply with the reality of the organizations. The extracting of process models from textual descriptions may contribute to minimize the effort required in process modeling. In this context, this dissertation proposes a semi-automatic approach to identify process elements in natural language text. Based on the study of natural language processing, it was defined a set of mapping rules to identify process elements in text. In addition, in order to evaluate the mapping rules and to demonstrate the feasibility of the proposed approach, a prototype was developed able to identify process elements in text in a semiautomatic way To measure the performance of the proposed prototype metrics were used to retrieve information such as precision, recall, and F-measure. In addition, two surveys were developed with the purpose of verifying the acceptance of the users. The evaluations present promising results. The analyses of 70 texts presented, on average, 73.61% precision, 70.15% recall and 71.82% F-measure. In addition, the results of the first and second surveys presented on average 91.66% acceptance of the participants. The main contribution of this work is to provide mapping rules for identify process elements in natural language text to support and minimize the time required for process modeling performed by process analysts.

Page generated in 0.1624 seconds