Global ETD Search

1	Sistemas inteligentes híbridos para classificação de texto Pereira Rodrigues, Joseane 31 January 2009 (has links) Made available in DSpace on 2014-06-12T16:00:02Z (GMT). No. of bitstreams: 2 arquivo5821_1.pdf: 891518 bytes, checksum: 9560f5e12af9c2656653e6d7b10b47ed (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2009 / Fundação de Amparo a Pesquisa do Estado da Bahia / Grande parte da informação contida em repositórios digitais, como a Web e as Bibliotecas Digitais, está representada em formato de documentos de texto. Sistemas de Recuperação de Informação têm sido usados para prover acesso a documentos relevantes armazenados nesses repositórios. No entanto, esses sistemas ainda apresentam limitações a serem superadas. Muitos dos problemas desses sistemas têm sido tratados usando técnicas de classificação de texto oriundas da Inteligência Artificial (em especial os algoritmos de Aprendizado de Máquina). Cada técnica apresenta vantagens e limitações, considerando os conjuntos de textos em que são aplicadas. Este trabalho investigou técnicas de combinação de classificadores de texto, em especial, técnicas baseadas em Boosting. Essas técnicas tentam superar as limitações dos classificadores sendo combinados, mantendo suas vantagens individuais, e assim apresentando um melhor desempenho nas tarefas em que são aplicados. Trabalhos anteriores apontam problemas em aberto em relação ao uso de métodos de combinação para classificadores de texto. Assim, esperamos neste projeto avançar o estado da arte sobre o tema. No trabalho realizado, implementamos uma variação de Boosting proposta na literatura que usa informações de vizinhança, chamada LocalBoost. Essa variação tem alcançado bons resultados comparativos em dados benchmark. Propomos ainda uma variação do LocalBoost para tratamento de dados desbalanceados, que foi avaliada em experimentos tanto com bases de classificação de texto como para bases de dados não-textuais. Os resultados dos experimentos revelaram a viabilidade do uso da variação proposta Classificação de texto Combinação de classificadores de texto
2	Extração de informações de narrativas clínicas / Clinical reports information retrieval Oleynik, Michel 02 October 2013 (has links) Narrativas clínicas são normalmente escritas em linguagem natural devido a seu poder descritivo e facilidade de comunicação entre os especialistas. Processar esses dados para fins de descoberta de conhecimento e coleta de estatísticas exige técnicas de extração de informações, com alguns resultados já apresentados na literatura para o domínio jornalístico, mas ainda raras no domínio médico. O presente trabalho visa desenvolver um classificador de laudos de anatomia patológica que seja capaz de inferir a topografia e a morfologia de um câncer na Classificação Internacional de Doenças para Oncologia (CID-O). Dados fornecidos pelo A.C. Camargo Cancer Center em São Paulo foram utilizados para treinamento e validação. Técnicas de processamento de linguagem natural (PLN) aliadas a classificadores bayesianos foram exploradas na busca de qualidade da recuperação da informação, avaliada por meio da medida-F2. Valores acima de 74% para o grupo topográfico e de 61% para o grupo morfológico são relatados, com pequena contribuição das técnicas de PLN e suavização. Os resultados corroboram trabalhos similares e demonstram a necessidade de retreinamento das ferramentas de PLN no domínio médico. / Clinical reports are usually written in natural language due to its descriptive power and ease of communication among specialists. Processing data for knowledge discovery and statistical analysis requires information retrieval techniques, already established for newswire texts, but still rare in the medical subdomain. The present work aims at developing an automated classifier of pathology reports, which should be able to infer the topography and the morphology classes of a cancer using codes of the International Classification of Diseases for Oncology (ICD-O). Data provided by the A.C. Camargo Cancer Center located in Sao Paulo was used for training and validation. Techniques of natural language processing (NLP) and Bayes classifiers were used in search for information retrieval quality, evaluated by F2-score. Measures upper than 74% in the topographic group and 61% in the morphologic group are reported, with small contribution from NLP or smoothing techniques. The results agree with similar studies and show that a retraining of NLP tools in the medical domain is necessary. classificação de texto laudos de anatomia patológica natural language processing pathology reports processamento de linguagem natural text classication
3	Redução de características baseada em grupos semânticos aplicados à classificação de textos MARQUES, Elaine Cristina Moreira 17 July 2018 (has links) Submitted by Mario BC (mario@bc.ufrpe.br) on 2018-11-08T12:02:13Z No. of bitstreams: 1 Elaine Cristina Moreira Marques.pdf: 4610553 bytes, checksum: 274979b8aee4b03c56f9c68296eeb073 (MD5) / Made available in DSpace on 2018-11-08T12:02:13Z (GMT). No. of bitstreams: 1 Elaine Cristina Moreira Marques.pdf: 4610553 bytes, checksum: 274979b8aee4b03c56f9c68296eeb073 (MD5) Previous issue date: 2018-07-17 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The classification of texts is a technique that aims to organize and categorize information, from textual documents present on digital platforms. Usually each of the words that constitute the documents are considered as a characteristic. This approach to simple textual representations is called Bag of Words. Although these characteristics are important for classifying documents, most of them are irrelevant and/or redundant, which causes problems such as high dimensionality, making categorization costly in terms of memory and execution. In order to reduce the large demand for computational resources, dimensionality reduction techniques are applied, such as the selection and transformation of characteristics. Characteristic selection is widely used in the literature because it has a lower computational cost compared to other techniques . In this technique, characteristics are selected without presenting modifications in the original characteristics, that is, the selection of a subset that contains only the most relevant characteristics of the original set occurs. In the transformation of characteristics occurs the formation of a new set of characteristics, this new set being smaller than the original set, containing new words caused by the combination or transformation of the original words. It is important to stress that both methods have some kind of loss of information. The objective of this work is to propose a new dimensionality reduction method that minimizes the loss of characteristic information from the creation of semantically related groups of words using clustering algorithms and Word Embeddings. With this, it is possible to reduce the amount of characteristics maintaining the semantics of each word. In this work the reduction occurred through the creation of semantic groups. Initially, the words in the databases were vectorized using Word2Vec and Glove methods. After the words were vectorized, the clustering algorithms were applied, creating smaller groups of characteristics in relation to the original groups. The method was applied in widely used databases in the literature, reaching good results, especially in more unstructured data, such as Web pages, news, Twitter posts, among others. / A classificação de textos é uma técnica que tem como objetivo organizar e categorizar informações, a partir de documentos textuais presentes nas plataformas digitais. Usualmente cada uma das palavras que constituem os documentos são consideradas como uma característica. Esta abordagem para representações textuais simples é chamada Bag of Words. Embora estas características sejam importantes para classificar documentos, a maioria delas são irrelevantes e/ou redundantes o que provoca problemas como alta dimensionalidade, tornando a categorização custosa em termos de memória e execução. Para reduzir a grande demanda de recursos computacionais, técnicas de redução de dimensionalidade são aplicadas, como a seleção e a transformação de características. A seleção de características é bastante utilizada na literatura, pelo fato desta possuir um custo computacional mais baixo em relação as outras técnicas. Nesta técnica, características são selecionadas sem apresentar modificações nas características originais, ou seja, ocorre a seleção de um subconjunto que contém apenas as características mais relevantes do conjunto original. Na transformação de características ocorre a formação de um novo conjunto de características, sendo este novo conjunto menor que o conjunto original, contendo novas palavras ocasionadas por meio da combinação ou transformação das palavras originais. É importante frisar que ambos os métodos possuem algum tipo de perda de informação. O objetivo deste trabalho é propor um novo método de redução de dimensionalidade que minimize a perda de informação das características a partir da criação de grupos de palavras semanticamente relacionadas utilizando algoritmos de agrupamento e Word Embeddings. Com isso, é possível reduzir a quantidade de características mantendo a semântica de cada palavra. Neste trabalho a redução ocorreu por meio da criação de grupos semânticos. Inicialmente as palavras das bases de dados passaram por uma vetorização, utilizando os métodos Word2Vec e o Glove. Após a vetorização das palavras, foram aplicados os algoritmos de agrupamento, criando grupos menores de características em relação aos grupos originais. O método foi aplicado em bases de dados bastante utilizadas na literatura, alcançando bons resultados, principalmente em dados mais desestruturados, como páginas da Web, notícias, postagens feitas em Twitter, entre outras. Agrupamento de texto Classificação de texto Redução de dimensionalidade Algoritmos de agrupamento
4	Extração de informações de narrativas clínicas / Clinical reports information retrieval Michel Oleynik 02 October 2013 (has links) Narrativas clínicas são normalmente escritas em linguagem natural devido a seu poder descritivo e facilidade de comunicação entre os especialistas. Processar esses dados para fins de descoberta de conhecimento e coleta de estatísticas exige técnicas de extração de informações, com alguns resultados já apresentados na literatura para o domínio jornalístico, mas ainda raras no domínio médico. O presente trabalho visa desenvolver um classificador de laudos de anatomia patológica que seja capaz de inferir a topografia e a morfologia de um câncer na Classificação Internacional de Doenças para Oncologia (CID-O). Dados fornecidos pelo A.C. Camargo Cancer Center em São Paulo foram utilizados para treinamento e validação. Técnicas de processamento de linguagem natural (PLN) aliadas a classificadores bayesianos foram exploradas na busca de qualidade da recuperação da informação, avaliada por meio da medida-F2. Valores acima de 74% para o grupo topográfico e de 61% para o grupo morfológico são relatados, com pequena contribuição das técnicas de PLN e suavização. Os resultados corroboram trabalhos similares e demonstram a necessidade de retreinamento das ferramentas de PLN no domínio médico. / Clinical reports are usually written in natural language due to its descriptive power and ease of communication among specialists. Processing data for knowledge discovery and statistical analysis requires information retrieval techniques, already established for newswire texts, but still rare in the medical subdomain. The present work aims at developing an automated classifier of pathology reports, which should be able to infer the topography and the morphology classes of a cancer using codes of the International Classification of Diseases for Oncology (ICD-O). Data provided by the A.C. Camargo Cancer Center located in Sao Paulo was used for training and validation. Techniques of natural language processing (NLP) and Bayes classifiers were used in search for information retrieval quality, evaluated by F2-score. Measures upper than 74% in the topographic group and 61% in the morphologic group are reported, with small contribution from NLP or smoothing techniques. The results agree with similar studies and show that a retraining of NLP tools in the medical domain is necessary. classificação de texto laudos de anatomia patológica processamento de linguagem natural natural language processing pathology reports text classication
5	MaSTA: a text-based machine learning approach for systems-of-systems in the big data context / MaSTA: uma abordagem de aprendizado de máquina orientado a textos para sistemas-de-sistemas no contexto de big data Bianchi, Thiago 11 April 2019 (has links) Systems-of-systems (SoS) have gained a very important status in industry and academia as an answer to the growing complexity of software-intensive systems. SoS are particular in the sense that their capabilities transcend the mere sum of the capacities of their diverse independent constituents. In parallel, the current growth in the amount of data collected in different formats is impressive and imposes a considerable challenge for researchers and professionals, characterizing hence the Big Data context. In this scenario, Machine Learning techniques have been increasingly explored to analyze and extract relevant knowledge from such data. SoS have also generated a large amount of data and text information and, in many situations, users of SoS need to manually register unstructured, critical texts, e.g., work orders and service requests, and also need to map them to structured information. Besides that, these are repetitive, time-/effort-consuming, and even error-prone tasks. The main objective of this Thesis is to present MaSTA, an approach composed of an innovative classification method to infer classifiers from large textual collections and an evaluation method that measures the reliability and performance levels of such classifiers. To evaluate the effectiveness of MaSTA, we conducted an experiment with a commercial SoS used by large companies that provided us four datasets containing near one million records related with three classification tasks. As a result, this experiment indicated that MaSTA is capable of automatically classifying the documents and also improve the user assertiveness by reducing the list of possible classifications. Moreover, this experiment indicated that MaSTA is a scalable solution for the Big Data scenarios in which document collections have hundreds of thousands (even millions) of documents, even produced by different constituents of an SoS. / Sistemas-de-sistemas (SoS) conquistaram um status muito importante na indústria e na academia como uma resposta à crescente complexidade dos sistemas intensivos de software. SoS são particulares no sentido de que suas capacidades transcendem a mera soma das capacidades de seus diversos constituintes independentes. Paralelamente, o crescimento atual na quantidade de dados coletados em diferentes formatos é impressionante e impõe um desafio considerável para pesquisadores e profissionais, caracterizando consequentemente o contexto de Big Data. Nesse cenário, técnicas de Aprendizado de Máquina têm sido cada vez mais exploradas para analisar e extrair conhecimento relevante de tais dados. SoS também têm gerado uma grande quantidade de dados e informações de texto e, em muitas situações, os usuários do SoS precisam registrar manualmente textos críticos não estruturados, por exemplo, ordens de serviço e solicitações de serviço, e também precisam mapeá-los para informações estruturadas. Além disso, essas tarefas são repetitivas, demoradas, e até mesmo propensas a erros. O principal objetivo desta Tese é apresentar o MaSTA, uma abordagem composta por um método de classificação inovador para inferir classificadores a partir de grandes coleções de texto e um método de avaliação que mensura os níveis de confiabilidade e desempenho desses classificadores. Para avaliar a eficácia do MaSTA, nós conduzimos um experimento com um SoS comercial utilizado por grandes empresas que nos forneceram quatro conjuntos de dados contendo quase um milhão de registros relacionados com três tarefas de classificação. Como resultado, esse experimento indicou que o MaSTA é capaz de classificar automaticamente os documentos e também melhorar a assertividade do usuário através da redução da lista de possíveis classificações. Além disso, esse experimento indicou que o MaSTA é uma solução escalável para os cenários de Big Data, nos quais as coleções de documentos têm centenas de milhares (até milhões) de documentos, até mesmo produzidos por diferentes constituintes de um SoS. Aprendizado de máquina Big Data Big Data Classificação de texto Machine learning Naive Bayes Naive Bayes Sistema-de-sistemas System-of-systems Text classification
6	Uma investigação de aspectos da classificação de tópicos para textos curtos Oliveira, Ewerton Lopes Silva de 23 February 2015 (has links) Submitted by Clebson Anjos (clebson.leandro54@gmail.com) on 2016-02-15T17:35:03Z No. of bitstreams: 1 arquivototal.pdf: 1768771 bytes, checksum: 5e8df60284fb114853ef61923cb2ec0d (MD5) / Made available in DSpace on 2016-02-15T17:35:03Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 1768771 bytes, checksum: 5e8df60284fb114853ef61923cb2ec0d (MD5) Previous issue date: 2015-02-23 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / In recent years a large number of scientific research has stimulated the use of web data as inputs for the epidemiological surveillance and knowledge discovery/mining related to public health in general. In order to make use of social media content, especially tweets, some approaches proposed before transform a content identification problem to a text classification problem, following the supervised learning scenario. However, during this process, some limitations attributed to the representation of messages as well as the extraction of attributes arise. From this, the present research is aimed to investigate the performance impact in the short social messages classification task using a continuous expansion of the training set approach with support of a measure of confidence in the predictions made. At the same time, the survey also aimed to evaluate alternatives for consideration and extraction of terms used for the classification in order to reduce dependencies on term-frequency based metrics. Restricted to the binary classification of tweets related to health events and written in English, the results showed a 9% improvement in F1, compared to the baseline used, showing that the action of expanding the classifier increases the performance, even in the case of short message classification task for health concerns. For the term weighting objective, the main contribution obtained is the ability to automatically indentify high discriminative terms in the dataset, without suffering limitations regarding term-frequency. This may, for example, be able to help build more robust and dynamic classification processes which make use of lists of specific terms for indexing contents on external database ( textit background knowledge). Overall, the results can benefit, by the improvement of the discussed hypotheses, the emergence of more robust applications in the field of surveillance, control and decision making to real health events (epidemiology, health campaigns, etc.), through the task of classifying short social messages. / Nos últimos anos um grande número de pesquisas científicas fomentou o uso de informações da web como insumos para a vigilância epidemiológica e descoberta/mineração de conhecimentos relacionados a saúde pública em geral. Ao fazerem uso de conteúdo das mídias sociais, principalmente tweets, as abordagens propostas transformam o problema de identificação de conteúdo em um problema de classificação de texto, seguindo o cenário de aprendizagem supervisionada. Neste processo, algumas limitações atribuídas à representação das mensagens, atualização de modelo assim como a extração de atributos discriminativos, surgem. Partido disso, a presente pesquisa propõe investigar o impacto no desempenho de classificação de mensagens sociais curtas através da expansão contínua do conjunto de treinamento tendo como referência a medida de confiança nas predições realizadas. Paralelamente, a pesquisa também teve como objetivo avaliar alternativas para ponderação e extração de termos utilizados para a classificação, de modo a reduzir a dependência em métricas baseadas em frequência de termos. Restringindo-se à classificação binária de tweets relacionados a eventos de saúde e escritos em língua inglesa, os resultados obtidos revelaram uma melhoria de F1 de 9%, em relação a linha de base utilizada, evidenciando que a ação de expandir o classificador eleva o desempenho de classificação, também para o caso da classificação de mensagens curtas em domínio de saúde. Sobre a ponderação de termos, tem-se que a principal contribuição obtida, está na capacidade de levantar termos característicos do conjunto de dados e suas classes de interesse automaticamente, sem sofrer com limitações de frequência de termos, o que pode, por exemplo, ser capaz de ajudar a construir processos de classificação mais robustos e dinâmicos ao qual façam uso de listas de termos específicos para indexação em consultas à bancos de dados externos (background knowledge). No geral, os resultados apresentados podem beneficiar, pelo aprimoramento das hipóteses levantadas, o surgimento de aplicações mais robustas no campo da vigilância, controle e contrapartida à eventos reais de saúde (epidemiologia, campanhas de saúde, etc.), por meio da tarefa de classificação de mensagens sociais curtas. Aprendizagem de máquina Classificação de texto Mensagens sociais Text classification Social messages Machine learning
7	Inferência das áreas de atuação de pesquisadores / Inference of the area of expertise of researchers Fonseca, Felipe Penhorate Carvalho da 30 January 2018 (has links) Atualmente, existe uma grande gama de dados acadêmicos disponíveis na web. Com estas informações é possível realizar tarefas como descoberta de especialistas em uma dada área, identificação de potenciais bolsistas de produtividade, sugestão de colaboradores, entre outras diversas. Contudo, o sucesso destas tarefas depende da qualidade dos dados utilizados, pois dados incorretos ou incompletos tendem a prejudicar o desempenho dos algoritmos aplicados. Diversos repositórios de dados acadêmicos não contêm ou não exigem a informação explícita das áreas de atuação dos pesquisadores. Nos dados dos currículos Lattes essa informação existe, porém é inserida manualmente pelo pesquisador sem que haja nenhum tipo de validação (e potencialmente possui informações desatualizadas, faltantes ou mesmo incorretas). O presente trabalho utilizou técnicas de aprendizado de máquina na inferência das áreas de atuação de pesquisadores com base nos dados cadastrados na plataforma Lattes. Os títulos da produção científica foram utilizados como fonte de dados, sendo estes enriquecidos com informações semanticamente relacionadas presentes em outras bases, além de adotar representações diversas para o texto dos títulos e outras informações acadêmicas como orientações e projetos de pesquisa. Objetivou-se avaliar se o enriquecimento dos dados melhora o desempenho dos algoritmos de classificação testados, além de analisar a contribuição de fatores como métricas de redes sociais, idioma dos títulos e a própria estrutura hierárquica das áreas de atuação no desempenho dos algoritmos. A técnica proposta pode ser aplicada a diferentes dados acadêmicos (não sendo restrita a dados presentes na plataforma Lattes), mas os dados oriundos dessa plataforma foram utilizados para os testes e validações da solução proposta. Como resultado, identificou-se que a técnica utilizada para realizar o enriquecimento do texto não auxiliou na melhoria da precisão da inferência. Todavia, as métricas de redes sociais e representações numéricas melhoram a inferência quando comparadas com técnicas do estado da arte, assim como o uso da própria estrutura hierárquica de classes, que retornou os melhores resultados dentre os obtidos / Nowadays, there is a wide range of academic data available on the web. With this information, it is possible to solve tasks such as the discovery of specialists in a given area, identification of potential scholarship holders, suggestion of collaborators, among others. However, the success of these tasks depends on the quality of the data used, since incorrect or incomplete data tend to impair the performance of the applied algorithms. Several academic data repositories do not contain or do not require the explicit information of the researchers\' areas. In the data of the Lattes curricula, this information exists, but it is inserted manually by the researcher without any kind of validation (and potentially it is outdated, missing or even there is incorrect information). The present work utilized machine learning techniques in the inference of the researcher\'s areas based on the data registered in the Lattes platform. The titles of the scientific production were used as data source and they were enriched with semantically related information present in other bases, besides adopting other representations for the text of the titles and other academic information as orientations and research projects. The objective of this dissertation was to evaluate if the data enrichment improves the performance of the classification algorithms tested, as well as to analyze the contribution of factors such as social network metrics, the language of the titles and the hierarchical structure of the areas in the performance of the algorithms. The proposed technique can be applied to different academic data (not restricted to data present in the Lattes platform), but the data from this platform was used for the tests and validations of the proposed solution. As a result, it was identified that the technique used to perform the enrichment of the text did not improve the accuracy of the inference. However, social network metrics and numerical representations improved inference accuracy when compared to state-of-the-art techniques, as well as the use of the hierarchical structure of the classes, which returned the best results among the obtained Classificação de texto Enriquecimento de texto Inferência de áreas de atuação Lattes platform Modelagem de tópicos Plataforma Lattes Research interest Text classification Text enrichment Topic modeling
8	Inferência das áreas de atuação de pesquisadores / Inference of the area of expertise of researchers Felipe Penhorate Carvalho da Fonseca 30 January 2018 (has links) Atualmente, existe uma grande gama de dados acadêmicos disponíveis na web. Com estas informações é possível realizar tarefas como descoberta de especialistas em uma dada área, identificação de potenciais bolsistas de produtividade, sugestão de colaboradores, entre outras diversas. Contudo, o sucesso destas tarefas depende da qualidade dos dados utilizados, pois dados incorretos ou incompletos tendem a prejudicar o desempenho dos algoritmos aplicados. Diversos repositórios de dados acadêmicos não contêm ou não exigem a informação explícita das áreas de atuação dos pesquisadores. Nos dados dos currículos Lattes essa informação existe, porém é inserida manualmente pelo pesquisador sem que haja nenhum tipo de validação (e potencialmente possui informações desatualizadas, faltantes ou mesmo incorretas). O presente trabalho utilizou técnicas de aprendizado de máquina na inferência das áreas de atuação de pesquisadores com base nos dados cadastrados na plataforma Lattes. Os títulos da produção científica foram utilizados como fonte de dados, sendo estes enriquecidos com informações semanticamente relacionadas presentes em outras bases, além de adotar representações diversas para o texto dos títulos e outras informações acadêmicas como orientações e projetos de pesquisa. Objetivou-se avaliar se o enriquecimento dos dados melhora o desempenho dos algoritmos de classificação testados, além de analisar a contribuição de fatores como métricas de redes sociais, idioma dos títulos e a própria estrutura hierárquica das áreas de atuação no desempenho dos algoritmos. A técnica proposta pode ser aplicada a diferentes dados acadêmicos (não sendo restrita a dados presentes na plataforma Lattes), mas os dados oriundos dessa plataforma foram utilizados para os testes e validações da solução proposta. Como resultado, identificou-se que a técnica utilizada para realizar o enriquecimento do texto não auxiliou na melhoria da precisão da inferência. Todavia, as métricas de redes sociais e representações numéricas melhoram a inferência quando comparadas com técnicas do estado da arte, assim como o uso da própria estrutura hierárquica de classes, que retornou os melhores resultados dentre os obtidos / Nowadays, there is a wide range of academic data available on the web. With this information, it is possible to solve tasks such as the discovery of specialists in a given area, identification of potential scholarship holders, suggestion of collaborators, among others. However, the success of these tasks depends on the quality of the data used, since incorrect or incomplete data tend to impair the performance of the applied algorithms. Several academic data repositories do not contain or do not require the explicit information of the researchers\' areas. In the data of the Lattes curricula, this information exists, but it is inserted manually by the researcher without any kind of validation (and potentially it is outdated, missing or even there is incorrect information). The present work utilized machine learning techniques in the inference of the researcher\'s areas based on the data registered in the Lattes platform. The titles of the scientific production were used as data source and they were enriched with semantically related information present in other bases, besides adopting other representations for the text of the titles and other academic information as orientations and research projects. The objective of this dissertation was to evaluate if the data enrichment improves the performance of the classification algorithms tested, as well as to analyze the contribution of factors such as social network metrics, the language of the titles and the hierarchical structure of the areas in the performance of the algorithms. The proposed technique can be applied to different academic data (not restricted to data present in the Lattes platform), but the data from this platform was used for the tests and validations of the proposed solution. As a result, it was identified that the technique used to perform the enrichment of the text did not improve the accuracy of the inference. However, social network metrics and numerical representations improved inference accuracy when compared to state-of-the-art techniques, as well as the use of the hierarchical structure of the classes, which returned the best results among the obtained Classificação de texto Enriquecimento de texto Inferência de áreas de atuação Modelagem de tópicos Plataforma Lattes Lattes platform Research interest Text classification Text enrichment Topic modeling
9	Modelo preditivo de situações como apoio à consciência situacional e ao processo decisório em sistemas de resposta à emergência / Situations predictive model for aid situation awareness and decision process in emergency response systems Berti, Claudia Beatriz 28 August 2017 (has links) Submitted by Claudia Berti (claudiabberti@gmail.com) on 2018-06-04T08:46:28Z No. of bitstreams: 2 Tese_DOC_702806.pdf: 2723844 bytes, checksum: 41136d680ab0e665de58c6e74bbe7fe5 (MD5) Carta Comprovante_DOC_702806.pdf: 377043 bytes, checksum: 09e3818f3e8c5eaed8195aa5beef0112 (MD5) / Approved for entry into archive by Eunice Nunes (eunicenunes6@gmail.com) on 2018-06-04T12:44:18Z (GMT) No. of bitstreams: 2 Tese_DOC_702806.pdf: 2723844 bytes, checksum: 41136d680ab0e665de58c6e74bbe7fe5 (MD5) Carta Comprovante_DOC_702806.pdf: 377043 bytes, checksum: 09e3818f3e8c5eaed8195aa5beef0112 (MD5) / Approved for entry into archive by Eunice Nunes (eunicenunes6@gmail.com) on 2018-06-04T12:59:57Z (GMT) No. of bitstreams: 2 Tese_DOC_702806.pdf: 2723844 bytes, checksum: 41136d680ab0e665de58c6e74bbe7fe5 (MD5) Carta Comprovante_DOC_702806.pdf: 377043 bytes, checksum: 09e3818f3e8c5eaed8195aa5beef0112 (MD5) / Made available in DSpace on 2018-06-04T13:00:10Z (GMT). No. of bitstreams: 2 Tese_DOC_702806.pdf: 2723844 bytes, checksum: 41136d680ab0e665de58c6e74bbe7fe5 (MD5) Carta Comprovante_DOC_702806.pdf: 377043 bytes, checksum: 09e3818f3e8c5eaed8195aa5beef0112 (MD5) Previous issue date: 2017-08-28 / Não recebi financiamento / Situation Awareness (SAW) is a concept widely used in areas that require critical decision making, and refers to the ability of an individual or team to perceive, understand and anticipate the future state of a current situation, which is influenced by the dynamicity and critical nature of events. SAW is considered as the main precursor of the decision-making process. In the emergency response area, obtaining and maintaining SAW requires a great effort from the human operator, the cognitive overload required in the activity, high level of stress involving the care, exhaustive shifts that may negatively reflect the care process and consequently the decision process as one all. Decision support systems that address aspects of the SAW can contribute to the enrichment and maintenance of the operator's SAW and in the decision-making process. Given this context, this work presents a Situational Predictive Model to systematize the development of modules to support the human operator's SAW in emergency response systems, which provides for the use of service models and protocols of institutions acting as prototypical situations. Objectively the model proposes the prediction and or the premature identification of the situation while the applicant has emergency assistance. A Conceptual Model was developed that guided the construction of the Predictive Model and will serve as basis for other developments. So-called human sensors and social sensors have become important sources of information especially in social networks. For the treatment of this data, text classifier methods are used with satisfactory results that cover the areas of education, security, entertainment, commercial, among others. For the emergency responses domain, object of this thesis, human sensors are the main source of information and machine learning techniques as text classifiers show important alternatives. In order to be validated, the Predictive Situations Model was implemented with the creation of a vocabulary based on the actual decision-making models of the Military Police of the State of São Paulo (PMESP) and the development of algorithms two classifying methods (Bag of Words and Naïve Bayes). Tests were performed with four different types of input instances (sentences). For all the metrics analyzed (accuracy, accuracy and coverage) the tests demonstrated superiority of the Naïve Bayes algorithm. The difference between the hit rates in relation to the Bag of Word algorithm for the class of instances with the highest degree of identification difficulty was over 37%. These results demonstrated good potential the Predictive Situations Model to collaborate with the existing systems of emergency services, allowing more attendance effectiveness and reduction of the cognitive overload that the attendants are routinely subjected to. / Consciência da situação ou consciência situacional (Situation Awareness – SAW) é um conceito amplamente utilizado em áreas que requerem tomada de decisão crítica, e se refere à habilidade de um indivíduo ou equipe de percepção, compreensão e antecipação de estado futuro de uma situação corrente, que é influenciada pela dinamicidade e natureza crítica de eventos. SAW é considerada como principal precursora do processo decisório. Em domínios, por exemplo, de resposta à emergência, obter e manter SAW requer do operador humano grande esforço, pela sobrecarga cognitiva exigida na atividade, alto nível de estresse que envolve o atendimento, turnos exaustivos que podem refletir negativamente no processo de atendimento e consequentemente no processo decisório como um todo. Sistemas de apoio à tomada de decisão que contemplam aspectos da SAW podem contribuir no enriquecimento e manutenção da SAW do operador e no processo decisório. Diante desse contexto, este trabalho apresenta um Modelo Preditivo de Situações para sistematizar o desenvolvimento de módulos de apoio a SAW de operadores humanos em sistemas de resposta à emergência, que prevê a utilização de modelos de atendimento e protocolos das instituições atuando como situações prototípicas. Objetivamente o modelo propõe a previsão e ou a identificação prematura da situação em tempo real ao atendimento da emergência. Conjuntamente foi desenvolvido um Modelo Conceitual que norteou a construção do Modelo Preditivo e servirá como base a outros desenvolvimentos. Atualmente os denominados sensores humanos e sensores sociais, especialmente de redes sociais, estão sendo utilizados, de forma crescente, como importantes fontes de informação para a melhor compreensão de situações em diferentes áreas de aplicação. No domínio de resposta à emergência, objeto de estudo desta tese, os sensores humanos são a principal fonte de informação, sobre a qual técnicas de aprendizagem de máquina como classificadores de texto foram aplicadas com resultados muito positivos. Para ser validado, o Modelo Preditivo de Situações foi implementado com a criação de um vocabulário baseado nos modelos decisórios reais da Polícia Militar do Estado de São Paulo (PMESP) e com o desenvolvimento de algoritmos de dois métodos classificadores (Bag of Words e Naïve Bayes). Testes foram realizados com quatro tipos diferentes de instâncias de entrada (frases). Para todas as métricas analisadas (precisão, acurácia e cobertura) os testes demostraram superioridade do algoritmo Naïve Bayes. A diferença entre a taxa de acerto em relação ao algoritmo Bag of Word para a classe de instâncias com maior grau de dificuldade de identificação foi superior a 37%. Tais resultados demonstraram bom potencial do Modelo Preditivo de Situações de colaborar com os sistemas já existentes de atendimento emergencial, possibilitando maior efetividade no atendimento e diminuição da sobrecarga cognitiva a que são submetidos os atendentes cotidianamente. Consciência da situação Tomada de decisão Resposta à emergência Aprendizado de máquina Classificação de texto Situation awareness Decision making Emergency response Machine learning Text classification

Search results