• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 206
  • 26
  • 6
  • 5
  • 5
  • 5
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • Tagged with
  • 239
  • 239
  • 233
  • 116
  • 115
  • 82
  • 52
  • 51
  • 51
  • 47
  • 47
  • 37
  • 36
  • 35
  • 34
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
151

Resolução automática de pronomes em português utilizando coerência do discurso / Automatic pronoun resolution in portuguese using discourse coherence

Silva, Fernando José Vieira da, 1986- 20 August 2018 (has links)
Orientador: Ariadne Maria Brito Rizzoni Carvalho / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-20T03:50:58Z (GMT). No. of bitstreams: 1 Silva_FernandoJoseVieirada_M.pdf: 1134176 bytes, checksum: a3e6489420245269fc086ab2eb5d803e (MD5) Previous issue date: 2012 / Resumo: ...Observação: O resumo, na íntegra, poderá ser visualizado no texto completo da tese digital / Abstract: ...Note: The complete abstract is available with the full electronic document / Mestrado / Ciência da Computação / Mestre em Ciência da Computação
152

Uma arquitetura de question-answering instanciada no domínio de doenças crônicas / A question-answering architecture instantiated on the domains of chronic disease

Luciana Farina Almansa 08 August 2016 (has links)
Nos ambientes médico e de saúde, especificamente no tratamento clínico do paciente, o papel da informação descrita nos prontuários médicos é registrar o estado de saúde do paciente e auxiliar os profissionais diretamente ligados ao tratamento. A investigação dessas informações de estado clínico em pesquisas científicas na área de biomedicina podem suportar o desenvolvimento de padrões de prevenção e tratamento de enfermidades. Porém, ler artigos científicos é uma tarefa que exige tempo e disposição, uma vez que realizar buscas por informações específicas não é uma tarefa simples e a área médica e de saúde está em constante atualização. Além disso, os profissionais desta área, em sua grande maioria, possuem uma rotina estressante, trabalhando em diversos empregos e atendendo muitos pacientes em um único dia. O objetivo deste projeto é o desenvolvimento de um Framework de Question Answering (QA) para suportar o desenvolvimento de sistemas de QA, que auxiliem profissionais da área da saúde na busca rápida por informações, especificamente, em epigenética e doenças crônicas. Durante o processo de construção do framework, estão sendo utilizados dois frameworks desenvolvidos anteriormente pelo grupo de pesquisa da mestranda: o SisViDAS e o FREDS, além de desenvolver os demais módulos de processamento de pergunta e de respostas. O QASF foi avaliado por meio de uma coleção de referências e medidas estatísticas de desempenho e os resultados apontam valores de precisão em torno de 0.7 quando a revocação era 0.3, para ambos o número de artigos recuperados e analisados eram 200. Levando em consideração que as perguntas inseridas no QASF são longas, com 70 termos por pergunta em média, e complexas, o QASF apresentou resultados satisfatórios. Este projeto pretende contribuir na diminuição do tempo gasto por profissionais da saúde na busca por informações de interesse, uma vez que sistemas de QA fornecem respostas diretas e precisas sobre uma pergunta feita pelo usuário / The medical record describes health conditions of patients helping experts to make decisions about the treatment. The biomedical scientific knowledge can improve the prevention and the treatment of diseases. However, the search for relevant knowledge may be a hard task because it is necessary time and the healthcare research is constantly updating. Many healthcare professionals have a stressful routine, because they work in different hospitals or medical offices, taking care many patients per day. The goal of this project is to design a Question Answering Framework to support faster and more precise searches for information in epigenetic, chronic disease and thyroid images. To develop the proposal, we are reusing two frameworks that have already developed: SisViDAS and FREDS. These two frameworks are being exploited to compose a document processing module. The other modules (question and answer processing) are being completely developed. The QASF was evaluated by a reference collection and performance measures. The results show 0.7 of precision and 0.3 of recall for two hundred articles retrieved. Considering that the questions inserted on the framework have an average of seventy terms, the QASF shows good results. This project intends to decrease search time once QA systems provide straight and precise answers in a process started by a user question in natural language
153

[pt] SEGMENTAÇÃO SEMÂNTICA DE VAGAS DE EMPREGO: ESTUDO COMPARATIVO DE ALGORITMOS CLÁSSICOS DE APRENDIZADO DE MÁQUINA / [en] SEMANTIC JOB VACANCY SEGMENTATION: COMPARATIVE STUDY OF CLASSICAL MACHINE LEARNING ALGORITHMS

DAVID EVANDRO AMORIM MARTINS 18 August 2020 (has links)
[pt] Este trabalho demonstra como web mining, processamento de linguagem natural e aprendizado de máquina podem ser combinados para melhorar a compreensão de vagas de emprego segmentando semanticamente os textos de suas descrições. Para atingir essa finalidade, foram coletados dados textuais de três grandes sites de vagas de emprego: Catho, LinkedIn e VAGAS.com.br. Baseado na literatura, este trabalho propôe uma estrutura semântica simplificada em que cada sentença da descrição da vaga de emprego pode pertencer a uma dessas classes: Responsabilidades, Requisitos, Benefícios e Outros. De posse dessa ideia, a tarefa de segmentação semântica pode ser repensada como uma segmentação de sentenças seguida de uma classificação. Usando o Python como ferramenta, são experimentadas algumas formas de construção de atributos a partir de textos, tanto léxicas quanto semânticas, e quatro algoritmos clássicos de aprendizado de máquina: Naive Bayes, Regressão Logística, Máquina de Vetores de Suporte e Floresta Aleatória. Como resultados, este trabalho traz um classificador (Regressão Logística com representação binária) com 95.58 porcento de acurácia, sem sobreajuste de modelo e sem degenerar as classificações por desbalanceio de classes, que é comparável ao estado da arte para Classificação de Texto. Esse classificador foi treinado e validado usando dados do Catho, mas foi testado também nos dados do VAGAS.com.br (88.60 porcento) e do LinkedIn (91.14 porcento), apresentando uma evidência de que seu aprendizado é generalizável para dados de outros sites. Além disso, o classificador foi usado para segmentação semântica das vagas de emprego e obteve uma métrica Pk de 3.67 porcento e uma métrica WindowDiff de 4.78 porcento, que é comparável ao estado da arte de Segmentação de Texto. Por fim, vale salientar duas contribuições indiretas deste trabalho: 1) uma estrutura para pensar e analisar vagas de emprego e 2) uma indicação de que algoritmos clássicos também podem alcançar o estado da arte e, portanto, sempre devem experimentados. / [en] This dissertation demonstrates how web mining, natural language processing, and machine learning can be combined to improve understanding of job openings by semantically segmenting the texts of their descriptions. To achieve this purpose, textual data were collected from three major job sites: Catho, LinkedIn and VAGAS.com.br. Based on the literature, this work proposes a simplified semantic structure in which each sentence of the job description can belong to one of these classes: Responsibilities, Requirements, Benefits and Others. With this idea, the semantic segmentation task can be rethought as a sentence segmentation followed by a classification. Using Python as a tool, some ways of constructing features from texts are tried out, both lexical and semantic, and four classic machine learning algorithms: Naïve Bayes, Logistic Regression, Support Vector Machine, and Random Forest. As a result, this work presents a classifier (Logistic Regression with binary representation) with 95.58 percent accuracy, without model overfitting and without degeneration by class unbalance, which is comparable to state-of-the-art for Text Classification. This classifier was trained and validated using Catho data, but was also tested on VAGAS.com.br (88.60 percent) and LinkedIn (91.14 percent) data, providing evidence that its learning is generalizable to data from other sites. In addition, the classifier was used for semantic segmentation of job openings and obtained a Pk metric equals to 3.67 percent and a WindowDiff metric equals to 4.78 percent, which is comparable to state-of-the-art for Text Segmentation. Finally, it is worth highlighting two indirect contributions of this work: 1) a structure for thinking and analyzing job openings and 2) an indication that classical algorithms can also reach the state of the art and therefore should always be tried.
154

[pt] MODELAGEM DE EVENTOS DE TRÂNSITO COM BASE EM CLIPPING DE GRANDES MASSAS DE DADOS DA WEB / [en] TRAFFIC EVENTS MODELING BASED ON CLIPPING OF HUGE QUANTITY OF DATA FROM THE WEB

LUCIANA ROSA REDLICH 28 January 2015 (has links)
[pt] Este trabalho consiste no desenvolvimento de um modelo que auxilie na análise de eventos ocorridos no trânsito das grandes cidades. Utilizando uma grande massa de dados publicados na Internet, em especial no twitter, por usuários comuns, este trabalho fornece uma ontologia para eventos do trânsito publicados em notícias da internet e uma aplicação que use o modelo proposto para realizar consultas aos eventos modelados. Para isso, as notícias publicadas em linguagem natural são processadas, isto é, as entidades relevantes no texto são identificadas e depois estruturadas de tal forma que seja feita uma analise semântica da notícia publicada. As notícias publicadas são estruturadas no modelo proposto de eventos e com isso é possível que sejam feitas consultas sobre suas propriedades e relacionamentos, facilitando assim a análise do processo do trânsito e dos eventos ocorridos nele. / [en] This work proposes a traffic event model to assist the analysis of traffic events on big cities. This paper aims to provide not only an ontology for traffic events considering published news over the Internet, but also a prototype of a software architecture that uses the proposed model to perform queries on the events, using a huge quantity of published data on the Internet by regular users, especially on twitter. To do so, the news published in natural language is processed, and the relevant entities in the text are identified and structured in order to make a semantic analysis of them. The news reported is structured in the proposed model of events and thus the queries about their properties and relationships could be answered. As a consequence, the result of this work facilitates the analysis of the events occurred on the traffic process.
155

[en] AN APPROACH TO ANSWERING NATURAL LANGUAGE QUESTIONS IN PORTUGUESE FROM ONTOLOGIES AND KNOWLEDGE BASES / [pt] UMA ABORDAGEM PARA RESPONDER PERGUNTAS EM LINGUAGEM NATURAL NA LÍNGUA PORTUGUESA A PARTIR DE ONTOLOGIAS E BASES DE CONHECIMENTO

ALYSSON GOMES DE SOUSA 29 April 2020 (has links)
[pt] Nos últimos anos temos visto o crescimento do volume de dados não estruturados gerados naWeb tradicional, e por isso aWeb Semântica nasceu como um paradigma que se propõe a estruturar o conteúdo da Web de uma forma flexível, por meio de ontologias de domínio e o modelo RDF, tornando os computadores capazes de processar automaticamente esses dados e possibilitando a geração de mais informação e conhecimento. Mas para tornar estas informações acessíveis para usuários de outros domínios, é necessário que haja uma maneira mais conveniente de consultar estas bases de conhecimento. A área de Processamento de Linguagem Natural (PLN) forneceu ferramentas para permitir que a linguagem natural (falada ou escrita) seja um meio conveniente para realizar consultas em bases de conhecimento. Contudo, para que o uso da linguagem natural seja realmente efetivo, é necessário um método que converta uma pergunta ou pedido em linguagem natural em uma consulta estruturada. Tendo em vista este objetivo, o presente trabalho propõe uma abordagem que converte uma pergunta/pedido em Português em uma consulta estruturada na linguagem SPARQL, por meio do uso de árvores de dependências e ontologias estruturada em grafos, e que também permite o enriquecimento dos resultados das perguntas/pedidos por meio da geração de perguntas relacionadas. / [en] In recent years we have seen the growth of the volume of unstructured data generated in the traditional Web. Therefore the Semantic Web was born as a paradigm that proposes to structure the content of the Web flexibly through domain ontologies and the RDF model, making computers capable of automatically processing this data, enabling the generation of more information and knowledge. However, to make this information accessible to users in other domains, there needs to be a more convenient way of looking at these knowledge bases. The Natural Language Processing (NLP) area has provided tools to allow natural (spoken or writing) is a convenient way to perform queries in knowledge bases. However, for the use of natural language to be useful, a method is required that converts a natural language question or request into a structured query. With this objective, the present work proposes an approach that converts a question/request in Portuguese into a structured query in the SPARQL language, through the use of dependency trees and structured ontologies in graphs, and that also enables the enrichment of question/request results by generating related questions.
156

Leis de Escala nos gastos com saneamento básico: dados do SIOP e DOU / Scaling Patterns in Basic Sanitation Expenditure: data from SIOP and DOU

Ribeiro, Ludmila Deute 14 March 2019 (has links)
A partir do final do século 20, o governo federal criou vários programas visando a ampliação de acesso ao saneamento básico. Embora esses programas tenham trazido o abastecimento de água potável e a coleta de resíduos sólidos para a maioria dos municípios brasileiros, o esgotamento sanitário ainda está espacialmente concentrado na região Sudeste e nas áreas mais urbanizadas. Para explicar esse padrão espacialmente concentrado, é frequentemente assumido que o tamanho das cidades realmente importa para o saneamento básico, especialmente para o esgotamento sanitário. De fato, à medida que as cidades crescem em tamanho, devemos esperar economias de escala no volume de infraestrutura de saneamento. Economias de escala na infra-estrutura implicam uma redução nos custos de saneamento básico, de forma proporcional ao tamanho da cidade, levando também a uma (esperada) relação de lei de escala (ou de potência) entre os gastos com saneamento básico e o tamanho da cidade. Usando a população, N(t), como medida do tamanho da cidade no momento t, a lei de escala para infraestrutura assume o formato Y(t) = Y0N(t)&#946 onde &#946 &#8776 0.8 < 1, Y denota o volume de infraestrutura e Y0 é uma constante. Diversas propriedades das cidades, desde a produção de patentes e renda até a extensão da rede elétrica, são funções de lei de potência do tamanho da população com expoentes de escalamento, &#946, que se enquadram em classes distintas. As quantidades que refletem a criação de riqueza e a inovação têm &#946 &#8776 1.2 > 1 (retornos crescentes), enquanto aquelas responsáveis pela infraestrutura exibem &#946 &#8776 0.8 < 1 (economias de escala). Verificamos essa relação com base em dados extraídos do Sistema Integrado de Planejamento e Orçamento (SIOP), que abrangem transferências com recursos não onerosos, previstos na Lei Orçamentária Anual (LOA), na modalidade saneamento básico. No conjunto, os valores estimados de &#946 mostram redução das transferências da União Federal para saneamento básico, de forma proporcional ao tamanho dos municípios beneficiários. Para a dotação inicial, valores programados na LOA, estimado foi de aproximadamente: 0.63 para municípios com população superior a dois mil habitantes; 0.92 para municípios acima de vinte mil habitantes; e 1.18 para municípios com mais de cinquenta mil habitantes. A segunda fonte de dados identificada foi o Diário Oficial da União (DOU), periódico do governo federal para publicação de atos oficiais. Os dados fornecidos pelo DOU referem-se aos recursos não onerosos e também aos empréstimos com recursos do Fundo de Garantia por Tempo de Serviço (FGTS). Para extração dos dados textuais foram utilizadas técnicas de Processamento de Linguagem Natural(PLN). Essas técnicas funcionam melhor quando os algoritmos são alimentados com anotações - metadados que fornecem informações adicionais sobre o texto. Por isso geramos uma base de dados, a partir de textos anotados do DOU, para treinar uma rede LSTM bidirecional aplicada à etiquetagem morfossintática e ao reconhecimento de entidades nomeadas. Os resultados preliminares obtidos dessa forma estão relatados no texto / Starting in the late 20th century, the Brazilian federal government created several programs to increase the access to water and sanitation. However, although these programs made improvements in water access, sanitation was generally overlooked. While water supply, and waste collection are available in the majority of the Brazilian municipalities, the sewage system is still spatially concentrated in the Southeast region and in the most urbanized areas. In order to explain this spatially concentrated pattern it is frequently assumed that the size of cities does really matter for sanitation services provision, specially for sewage collection. As a matter of fact, as cities grow in size, one should expect economies of scale in sanitation infrastructure volume. Economies of scale in sanitation infrastructure means a decrease in basic sanitation costs, proportional to the city size, leading also to a (expected) power law relationship between the expenditure on sanitation and city size.Using population, N(t), as the measure of city size at time t, power law scaling for infrastructure takes the form Y(t) = Y0N(t)&#946 where &#946 &#8776 0.8 < 1, Y denotes infrastructure volume and is a constant. Many diverse properties of cities from patent production and personal income to electrical cable length are shown to be power law functions of population size with scaling exponents, &#946, that fall into distinct universality classes. Quantities reflecting wealth creation and innovation have &#946 &#8776 1.2 > 1 (increasing returns), whereas those accounting for infrastructure display &#946 &#8776 0.8 < 1 (economies of scale). We verified this relationship using data from federal government databases, called Integrated Planning and Budgeting System, known as SIOP. SIOP data refers only to grants, funds given to municipalities by the federal government to run programs within defined guidelines. Preliminary results from SIOP show decrease in Federal Grants to Brazilian Municipalities, proportional to the city size. For the initial budget allocation, &#946 was found to be roughly 0.63 for municipalities above twenty thousand inhabitants; to be roughly 0.92 for municipalities above twenty thousand inhabitants; and to be roughly 1.18 for municipalities above fifty thousand inhabitants. The second data source is DOU, government journal for publishing official acts. DOU data should give us information not only about grants, but also about FGTS funds for basic sanitation loans. In order to extract data from DOU we have applied Natural Language Processing (NLP) tools. These techniques often work better when the algorithms are provided with annotations metadata that provides additional information about the text. In particular, we fed a database with annotations into a bidirectional LSTM model applied to POS Tagging and Named-entity Recognition. Preliminary results are reported in the paper
157

Indução de filtros lingüisticamente motivados na recuperação de informação / Linguistically motivated filter induction in information retrieval

Arcoverde, João Marcelo Azevedo 17 April 2007 (has links)
Apesar dos processos de recuperação e filtragem de informação sempre terem usado técnicas básicas de Processamento de Linguagem Natural (PLN) no suporte à estruturação de documentos, ainda são poucas as indicações sobre os avanços relacionados à utilização de técnicas mais sofisticadas de PLN que justifiquem o custo de sua utilização nestes processos, em comparação com as abordagens tradicionais. Este trabalho investiga algumas evidências que fundamentam a hipótese de que a aplicação de métodos que utilizam conhecimento linguístico é viável, demarcando importantes contribuições para o aumento de sua eficiência em adição aos métodos estatásticos tradicionais. É proposto um modelo de representação de texto fundamentado em sintagmas nominais, cuja representatividade de seus descritores é calculada utilizando-se o conceito de evidência, apoiado em métodos estatísticos. Filtros induzidos a partir desse modelo são utilizados para classificar os documentos recuperados analisando-se a relevância implícita no perfil do usuário. O aumento da precisão (e, portanto, da eficácia) em sistemas de Recuperação de Informação, conseqüência da pós-filtragem seletiva de informações, demonstra uma clara evidência de como o uso de técnicas de PLN pode auxiliar a categorização de textos, abrindo reais possibilidades para o aprimoramento do modelo apresentado / Although Information Retrieval and Filtering tasks have always used basic Natural Language Processing (NLP) techniques for supporting document structuring, there is still space for more sophisticated NLP techniques which justify their cost when compared to the traditional approaches. This research aims to investigate some evidences that justify the hypothesis on which the use of linguistic-based methods is feasible and can bring on relevant contributions to this area. In this work noun phrases of a text are used as descriptors whose evidence is calculated by statistical methods. Filters are then induced to classify the retrieved documents by measuring their implicit relevance presupposed by an user profile. The increase of precision (efficacy) in IR systems as a consequence of the use of NLP techniques for text classification in the filtering task is an evidence of how this approach can be further explored
158

Estudo comparativo de diferentes classificadores baseados em aprendizagem de m?quina para o processo de Reconhecimento de Entidades Nomeadas

Santos, Jadson da Silva 09 September 2016 (has links)
Submitted by Jadson Francisco de Jesus SILVA (jadson@uefs.br) on 2018-01-24T22:42:26Z No. of bitstreams: 1 JadsonDisst.pdf: 3499973 bytes, checksum: 5deaf9020f758e9c07f86e9e62890129 (MD5) / Made available in DSpace on 2018-01-24T22:42:26Z (GMT). No. of bitstreams: 1 JadsonDisst.pdf: 3499973 bytes, checksum: 5deaf9020f758e9c07f86e9e62890129 (MD5) Previous issue date: 2016-09-09 / The Named Entity Recognition (NER) process is the task of identifying relevant termsintextsandassigningthemalabel.Suchwordscanreferencenamesofpeople, organizations, and places. The variety of techniques that can be used in the named entityrecognitionprocessislarge.Thetechniquescanbeclassifiedintothreedistinct approaches: rule-based, machine learning and hybrid. Concerning to the machine learningapproaches,severalfactorsmayinfluenceitsaccuracy,includingtheselected classifier, the set of features extracted from the terms, the characteristics of the textual bases, and the number of entity labels. In this work, we compared classifiers that use machine learning applied to the NER task. The comparative study includes classifiers based on CRF (Conditional Random Fields), MEMM (MaximumEntropy Markov Model) and HMM (Hidden Markov Model), which are compared in two corpora in Portuguese derived from WikiNer, and HAREM, and two corporas in English derived from CoNLL-03 and WikiNer. The comparison of the classifiers shows that the CRF is superior to the other classifiers, both with Portuguese and English texts. This study also includes the comparison of the individual and joint contribution of features, including contextual features, besides the comparison ofthe NER per named entity labels, between classifiers andcorpora. / O processo de Reconhecimento de Entidades Nomeadas (REN) ? a tarefa de iden- tificar termos relevantes em textos e atribu?-los um r?tulo. Tais palavras podem referenciar nomes de pessoas, organiza??es e locais. A variedade de t?cnicas que podem ser usadas no processo de reconhecimento de entidades nomeadas ? grande. As t?cnicas podem ser classificadas em tr?s abordagens distintas: baseadas em regras, baseadas em aprendizagem de m?quina e h?bridas. No que diz respeito as abordagens de aprendizagem de m?quina, diversos fatores podem influenciar sua exatida?, incluindo o classificador selecionado, o conjunto de features extra?das dos termos, as caracter?sticas das bases textuais e o n?mero de r?tulos de entidades. Neste trabalho, comparamos classificadores que utilizam aprendizagem de m?quina aplicadas a tarefa do REN. O estudo comparativo inclui classificadores baseados no CRF (Condicional Random Fields), MEMM (Maximum Entropy Markov Model) e HMM (Hidden Markov Model), os quais s?o comparados em dois corporas em portugu?s derivados do WikiNer, e HAREM, e dois corporas em ingl?s derivados doCoNLL-03 e WikiNer. A compara??o dos classificadores demonstra que o CRF ? superior aos demais classificadores, tanto com textos em portugu?s, quanto ingl?s. Este estudo tamb?m inclui a compara??o da contribui??o, individual e em conjunto de features, incluindo features de contexto, al?m da compara??o do REN por r?otulos de entidades nomeadas, entre os classificadores e os corpora.
159

Uma arquitetura de pré-processamento para análise de sentimento em mídias sociais em português brasileiro / A pre-processing architecture for feeling in social media in Brazilian Portuguese

CIRQUEIRA, Douglas da Rocha 23 August 2018 (has links)
Submitted by Luciclea Silva (luci@ufpa.br) on 2018-10-31T16:22:50Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_Arquiteturapreprocessamentoanalise.pdf: 2201314 bytes, checksum: b0a349ed6a153c4ed20626b65076c0ad (MD5) / Approved for entry into archive by Luciclea Silva (luci@ufpa.br) on 2018-10-31T16:23:19Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_Arquiteturapreprocessamentoanalise.pdf: 2201314 bytes, checksum: b0a349ed6a153c4ed20626b65076c0ad (MD5) / Made available in DSpace on 2018-10-31T16:23:20Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_Arquiteturapreprocessamentoanalise.pdf: 2201314 bytes, checksum: b0a349ed6a153c4ed20626b65076c0ad (MD5) Previous issue date: 2018-08-23 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A Web 2.0 e a evolução nas Tecnologias da Informação e Comunicação, têm impulsionado novos meios de interação e relacionamento. Neste contexto, as Redes Sociais Online (RSO) são um exemplo, como plataformas que permitem a interação e o compartilhamento de informações entre pessoas. Além disso, é possível observar que RSO passaram a ser adotadas como canal de desabafo de consumidores, por meio de opiniões sobre produtos e experiências. Este cenário apresenta uma ótima oportunidade para que empresas possam melhorar produtos, serviços e estratégias de mercado, já que as RSO são poderosas fontes massivas de dados não-estruturados gerados pelo consumidor (do inglês, User- Generated Content - UGC), com opiniões e avaliações sobre ofertas em plataformas tais como Facebook, Twitter e Instagram. O Brasil é um grande exemplo onde esse fenômeno pode ser observado e apresenta potencial oportunidade de exploração de mercado, dado que a população brasileira é uma das nações que mais utiliza RSO no mundo. Neste âmbito, técnicas computacionais de Mineração de Opinião (MO) ou Análise de Sentimento (AS) são aplicadas com o intuito de inferir a polaridade dominante (positivo, negativo, neutro) quanto ao sentimento associado a textos, e, podem ser aplicadas em dados de RSO a fim de avaliar o feedback do público-alvo. Apesar das diversas estratégias de AS reportadas na literatura, ainda há vários desafios enfrentados na aplicação de AS em textos oriundos de RSO, devido às características da linguagem utilizada em tais plataformas. O estado da arte de AS é voltado para a língua inglesa e as propostas existentes para Português Brasileiro (PT_Br) não apresentam uma metodologia padronizada nas tarefas de pré-processamento. Neste âmbito, esta pesquisa investiga uma metodologia sem tradução e propõe uma nova arquitetura expandida de pré-processamento de AS voltada para o PT_Br, a fim de prover atributos enriquecidos para os algoritmos de AS. A proposta foi comparada com modelos bem estabelecidos na literatura, e resultados obtidos indicam que esta pode superar o estado da arte em até 3% de revocação, para 6 de 7 bases de dados avaliadas. / The Web 2.0 and the evolution of Information Technologies have brought novel interaction and relationship channels. In this context, the Online Social Networks (OSN) are an example as platforms which allow interactions and sharing of information between people. In this scenario, it is possible to observe the adoption of OSN as a channel for posting opinions regarding products and experience. This scene presents an excellent opportunity for companies that aim to improve products, services and marketing strategies, given OSNs are powerful sources of massive unstructured data generated by consumers (UGC), with opinions and reviews concerning offers, in platforms such as Facebook, Twitter and Instagram. Brazil is a highlight in this scenario, where this phenomenon can be observed, as the Brazilian population is one of the most active in social media platforms in the world. This makes it a country full of opportunities to market exploitation. In this context, computational techniques of Opinion Mining and Sentiment Analysis (SA) are applied aiming to infer the polarity (positive, negative, neutral) regarding a sentiment associated to texts, and can also be applied in data from OSN to evaluate the feedback from a target audience. Although the existing diversity of SA strategies reported in the literature, there are still challenges faced in the application of SA in text data from OSN, given the characteristics of the language adopted in such platforms. The state of art is focused on SA towards the English language, and the existing proposals for Brazilian Portuguese do not have a standardized methodology for preprocessing steps. In this context, this research investigates an approach with no translation, and proposes a novel preprocessing architecture for SA towards Brazilian Portuguese, aiming to provide enriched features to SA algorithms. The proposal was compared with well-established baselines from the literature, and the obtained results indicate that this architecture can overcome the state of art recall in at least 3% , for 6 out of 7 datasets evaluated.
160

Modelo baseado em processamento de dados heterogêneos para aplicações de apoio clínico

Rönnau, Rodrigo Freiberger 06 December 2017 (has links)
Submitted by JOSIANE SANTOS DE OLIVEIRA (josianeso) on 2018-02-08T12:32:48Z No. of bitstreams: 1 Rodrigo Freiberger Rönnau_.pdf: 4107183 bytes, checksum: a19ee8d2e8f8964708c6b3baf34e7ad2 (MD5) / Made available in DSpace on 2018-02-08T12:32:48Z (GMT). No. of bitstreams: 1 Rodrigo Freiberger Rönnau_.pdf: 4107183 bytes, checksum: a19ee8d2e8f8964708c6b3baf34e7ad2 (MD5) Previous issue date: 2017-12-06 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / O uso de sistemas computacionais no auxílio à prática clínica vem sendo amplamente estudado atualmente, buscando a avaliação de suas possibilidades na melhoria da qualidade do atendimento prestado aos pacientes. Dentre as aplicações com essa finalidade, podem-se destacar aquelas que atuam sobre laudos médicos ou sobre os exames por imagem, em atividades que realizam a extração, disponibilização e uso de características adquiridas através do processamento desses documentos. Entretanto, ao observar a literatura da área, percebe-se que há uma lacuna na utilização combinada das informações obtidas em cada tipo de processamento, ao mesmo tempo em que são indicadas possibilidades relevantes de criação de aplicações compartilhando e integrando estas informações. Outra lacuna identificada está relacionada à interoperabilidade dos dados e dos resultados obtidos entre os diferentes sistemas já existentes. Com o intuito de contribuir para a solução das questões apresentadas, neste trabalho é proposto um modelo, com estrutura modular e expansível, que viabiliza o emprego de diferentes formatos de entrada com o objetivo de prover, de forma integrada, informações de apoio ao médico ou especialista. Os dados extraídos são disponibilizados de maneira estruturada através de padrões reconhecidos, viabilizando a interoperabilidade entre os sistemas e o seu uso a partir de diferentes aplicações computacionais. Foram construídos dois protótipos, utilizando como base o modelo proposto. Para apresentar o funcionamento e os benefícios de uso do modelo, bem como possibilitar a sua avaliação, foram descritos cenários que demonstram seu emprego. Tanto o modelo como os protótipos foram apresentados a 12 profissionais da saúde e a 35 profissionais da computação. Os participantes preencheram um questionário de avaliação. Como resultado, 97,8% dos entrevistados indicaram que o modelo proposto é útil e 76,6% pretendem utilizá-lo e/ou divulgá-lo. / The use of computer systems to aid in the clinical practice has been widely studied, seeking an evaluation of its possibilities in improving the quality of the care provided to patients. Among the applications for this purpose, it is possible to highlight those that act on medical reports or medical images, in activities that perform the extraction, storage and use of characteristics acquired through the processing of these documents. However, observing the literature of the area, it is noticed that there is a gap in the combined use of information obtained in each type of processing, while indicating, at the same time, relevant possibilities of applications sharing and integrating this information. Another identified gap is related to the interoperability of the data and results obtained between different existing systems. In order to contribute to the solution of the presented questions, this work proposes a model, with a modular and expandable structure, which makes possible the use of different input formats with the objective of providing, in an integrated way, support information to the physician or specialist. The extracted data are made available in a structured manner through recognized standards, allowing the interoperability between the systems and their use from different computational applications. Two prototypes were constructed, using as basis the proposed model. Scenarios that demonstrate the use and benefits of the model have been described and used in its evaluation. Both the model and the prototypes were presented to 12 health professionals and 35 computer professionals. Participants completed an evaluation questionnaire. As result, 97.8% of respondents indicated that the proposed model is useful and 76.6% intend to use it and/or disseminate it.

Page generated in 0.1286 seconds