Global ETD Search

211	RISO - TT - Extração de expressões temporais em textos. / RISO - TT - Extraction of temporal expressions in texts. SANTOS, Adriano Araújo. 26 July 2018 (has links) Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-07-26T15:09:11Z No. of bitstreams: 1 ADRIANO ARAÚJO SANTOS - DISSERTAÇÃO PPGCC 2013..pdf: 7720673 bytes, checksum: fdba828ba2c20b709ed7c3efbc93f751 (MD5) / Made available in DSpace on 2018-07-26T15:09:11Z (GMT). No. of bitstreams: 1 ADRIANO ARAÚJO SANTOS - DISSERTAÇÃO PPGCC 2013..pdf: 7720673 bytes, checksum: fdba828ba2c20b709ed7c3efbc93f751 (MD5) Previous issue date: 2013-04-22 / A necessidade de gerenciar a grande quantidade de documentos digitais existentes na atualidade, associada à incapacidade humana de analisar todas essas informações em tempo hábil, fez com que as pesquisas e o desenvolvimento de sistemas na área de automatização de processos para a gestão de informação crescessem, no entanto, essa atividade não é trivial. A maioria dos documentos disponíveis não tem estrutura bem definida (padronizada), o que torna difícil a criação de mecanismos computacionais que automatizem a análise das informações e gera a necessidade de se promoverem atividades intermediárias de conversão de informações em linguagem natural em informações estruturadas. Para isso, são necessárias atividades de reconhecimento de padrões nominais, temporais e espaciais. No tocante a essa pesquisa, o objetivo principal foi criar um mecanismo de reconhecimento de padrões temporais. Heuristicamente, foi criado um dicionário de regras baseadas em associações de padrões temporais e desenvolvido um módulo de marcação e recuperação de padrões temporais em uma arquitetura extensível e flexível, chamado RISO-TT, que implementa esse mecanismo de reconhecimento de padrões temporais. Esse módulo faz parte do projeto de pesquisa RISO (Recuperação da Informação Semântica de Objetos Textuais). Foram realizados dois experimentos para avaliar a eficiência do RISO-TT. O primeiro, com o intuito de verificar a extensibilidade e a flexibilidade do módulo RISO-TT, e o segundo, para analisar a eficiência da abordagem proposta com base em uma comparação com duas ferramentas consolidadas no meio académico (HeidelTime e SuTime). O RISO-TT obteve resultados superiores aos concorrentes no processo de marcação de expressões temporais, comprovados por meio de testes estatísticos. / The necessity of managing the large amount of digital existing documents nowadays, associated to the human inability to analyze ali this information in a fast manner, led to a growth of research in the area of system development for automation of the information management process. Nevertheless, this is not a trivial task. Most of the available documents do not have a standardized structure, hindering the development of computational schemes that can automate the analysis of information, thus requiring jobs of information conversion from natural language to structured information. For such, syntactic, temporal and spatial pattern recognition tasks are needed. Concerning the present study, the main objective is to create an advanced temporal pattern recognition mechanism. We created, heurístically, a rules dictionary of temporal patterns, developing a module in an extendable and flexible architecture for retrieval and marking. This module, called RISO-TT, implements this pattern recognition mechanism and is part of the RISO project (Retrieval of Semantic Information from Textual Objects). Two experiments were carried out in order to evaluate the efficiency of this approach. The first one was intended to verify the extendability and flexibility of the RISO-TT architecture and the second one to analyze the efficiency of the proposed approach, based on a comparison between the developed module and two Consolidated tools in the academic community (Heideltime and SuTime). RISO-TT outperformed the rivais in the temporal expression marking process, which was proved through statistical tests. Informática Ciência da Informação Extração temporal Reconhecimento de padrões temporais Processamento de linguagem natural Recuperação da informação Linguagem natural Reconhecimento de padrões nominais Reconhecimento de padrões espaciais RISO-TT Recuperação da informação semântica Information retrieval Vocabulários temáticos Indexação da informação Consulta semântica Gestão da informação
212	Anotação semântica baseada em ontologia: um estudo do português brasileiro em documentos históricos do final do século XIX Pereira, Juliana Wolf 01 July 2014 (has links) Made available in DSpace on 2016-06-02T19:06:12Z (GMT). No. of bitstreams: 1 5898.pdf: 11774674 bytes, checksum: 3cc87530008d9b42c105781f8a1068a3 (MD5) Previous issue date: 2014-07-01 / Financiadora de Estudos e Projetos / This dissertation presents an approach to proceed with semantic annotation in historical documents from the 19th century that discuss the constitution of the mother tongue, the Portuguese Language in Brazil. The objective is to generate a group of semantically annotated documents in agreement with a domain ontology. To provide this domain ontology, the IntrumentoLinguistico Ontology was built, and it supported the process of automatic semantic annotation. The results obtained with the annotation were analyzed in comparison with the Gold Standard and they presented an elevated level of coincidence, between 0.86 and 1.00 for the Fl-score measure. Besides that, it was possible to locate new documents about the discussed domain in a sample of the Revistas Brazileiras. These results prove the efficacy of the approach of automatic semantic annotation. / Esta dissertação apresenta uma abordagem de anotação semântica automática em documentos históricos do século XIX que discutem a constituição da língua pátria, a Língua Portuguesa no Brasil. O objetivo e gerar um conjunto de documentos semanticamente anotados em acordo com uma ontologia de domínio. Para prover essa ontologia de domínio, foi construída a Ontologia Instrumento Linguístico que apoiou o processo para a realização da anotação semântica automática. Os resultados obtidos com a anotação foram analisados em comparação com o Gold Standard e apresentaram alto grau de coincidência, entre 0.86 e 1.00 para a medida F1-Score. Além disso, foi possível localizar novos documentos sobre o domínio discutido em uma amostra das Revistas Brazileiras. Esses resultados comprovam a eficácia da abordagem de anotação semântica automática. Processamento de textos (Computação) Extração de relações semânticas Ontologia Documentos históricos Mineração de textos Semantic annotation Ontology-based information extraction Ontology Historical documents Text mining Natural language processing
213	Máquinas de classificação para detectar polaridade de mensagens de texto em redes sociais / Sentiment analysis on social networks using ensembles Von Lochter, Johannes 18 November 2015 (has links) Submitted by Milena Rubi (milenarubi@ufscar.br) on 2016-10-17T13:16:57Z No. of bitstreams: 1 LOCHTER_Johannes_2015.pdf: 611113 bytes, checksum: 55a3009a4bb5c0fe9f30edf98fe0bc77 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2016-10-17T13:17:13Z (GMT) No. of bitstreams: 1 LOCHTER_Johannes_2015.pdf: 611113 bytes, checksum: 55a3009a4bb5c0fe9f30edf98fe0bc77 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2016-10-17T13:17:24Z (GMT) No. of bitstreams: 1 LOCHTER_Johannes_2015.pdf: 611113 bytes, checksum: 55a3009a4bb5c0fe9f30edf98fe0bc77 (MD5) / Made available in DSpace on 2016-10-17T13:17:36Z (GMT). No. of bitstreams: 1 LOCHTER_Johannes_2015.pdf: 611113 bytes, checksum: 55a3009a4bb5c0fe9f30edf98fe0bc77 (MD5) Previous issue date: 2015-11-18 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / The popularity of social networks have attracted attention of companies. The growing amount of connected users and messages posted per day make these environments fruitful to detect needs, tendencies, opinions, and other interesting information that can feed marketing and sales departments. However, the most social networks impose size limit to messages, which lead users to compact them by using abbreviations, slangs, and symbols. Recent works in literature have reported advances in minimizing the impact created by noisy messages in text categorization tasks by means of semantic dictionaries and ontology models. They are used to normalize and expand short and messy text messages before using them with a machine learning approach. In this way, we have proposed an ensemble of machine learning methods and natural language processing techniques to find the best way to combine text processing approaches with classification methods to automatically detect opinion in short english text messages. Our experiments were diligently designed to ensure statistically sound results, which indicate that the proposed system has achieved a performance higher than the individual established classifiers. / A popularidade das redes sociais tem atraído a atenção das empresas. O crescimento do número de usuários e das mensagens enviadas por dia transforma esse ambiente em uma rica fonte de informações para descoberta de necessidades, tendências, opiniões e outras informações que podem auxiliar departamentos de vendas e marketing. Contudo,a maioria das redes sociais impõe limite no tamanho das mensagens, o que leva os usuários a usarem abreviações e gírias para compactarem o texto. Trabalhos na literatura demonstraram avanço na minimização do impacto de mensagens ruidosas nas tarefas de categorização textual através da utilização de dicionários semânticos e modelos ontológicos. Com a aplicação destes, as amostras são normalizadas e expandidas antes de serem apresentadas aos métodos preditivos. Assim, nesta dissertação é proposto um comitê de máquinas de classificação utilizando técnicas de processamento de linguagem natural para detectar opiniões automaticamente em mensagens curtas de texto em inglês. Os resulta-dos apresentados foram validados estatisticamente e indicaram que o sistema proposto obteve capacidade preditiva superior aos métodos preditivos isolados. Análise de sentimento Detecção de opinião Categorização de texto Mineração de dados (Computação) Opinião pública - Pesquisa Redes sociais on-line Online social networks Public opinion polls Data mining
214	Normalização textual e indexação semântica aplicadas da filtragem de SMS spam / Texto normalization and semantic indexing to enhance SMS spam filtering Silva, Tiago Pasqualini da 01 July 2016 (has links) Submitted by Milena Rubi (milenarubi@ufscar.br) on 2017-06-01T17:49:19Z No. of bitstreams: 1 SILVA_Tiago_2016.pdf: 13631569 bytes, checksum: 7774c3913aa556cc48c0669f686cd3b5 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-06-01T17:49:26Z (GMT) No. of bitstreams: 1 SILVA_Tiago_2016.pdf: 13631569 bytes, checksum: 7774c3913aa556cc48c0669f686cd3b5 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-06-01T17:49:32Z (GMT) No. of bitstreams: 1 SILVA_Tiago_2016.pdf: 13631569 bytes, checksum: 7774c3913aa556cc48c0669f686cd3b5 (MD5) / Made available in DSpace on 2017-06-01T17:49:38Z (GMT). No. of bitstreams: 1 SILVA_Tiago_2016.pdf: 13631569 bytes, checksum: 7774c3913aa556cc48c0669f686cd3b5 (MD5) Previous issue date: 2016-07-01 / Não recebi financiamento / The rapid popularization of smartphones has contributed to the growth of SMS usage as an alternative way of communication. The increasing number of users, along with the trust they inherently have in their devices, makes SMS messages a propitious environment for spammers. In fact, reports clearly indicate that volume of mobile phone spam is dramatically increasing year by year. SMS spam represents a challenging problem for traditional filtering methods nowadays, since such messages are usually fairly short and normally rife with slangs, idioms, symbols and acronyms that make even tokenization a difficult task. In this scenario, this thesis proposes and then evaluates a method to normalize and expand original short and messy SMS text messages in order to acquire better attributes and enhance the classification performance. The proposed text processing approach is based on lexicography and semantic dictionaries along with the state-of-the-art techniques for semantic analysis and context detection. This technique is used to normalize terms and create new attributes in order to change and expand original text samples aiming to alleviate factors that can degrade the algorithms performance, such as redundancies and inconsistencies. The approach was validated with a public, real and non-encoded dataset along with several established machine learning methods. The experiments were diligently designed to ensure statistically sound results which indicate that the proposed text processing techniques can in fact enhance SMS spam filtering. / A popularização dos smartphones contribuiu para o crescimento do uso de mensagens SMS como forma alternativa de comunicação. O crescente número de usuários, aliado à confiança que eles possuem nos seus dispositivos tornam as mensagem SMS um ambiente propício aos spammers. Relatórios recentes indicam que o volume de spam enviados via SMS está aumentando vertiginosamente nos últimos anos. SMS spam representa um problema desafiador para os métodos tradicionais de detecção de spam, uma vez que essas mensagens são curtas e geralmente repletas de gírias, símbolos, abreviações e emoticons, que torna até mesmo a tokenização uma tarefa difícil. Diante desse cenário, esta dissertação propõe e avalia um método para normalizar e expandir amostras curtas e ruidosas de mensagens SMS de forma a obter atributos mais representativos e, com isso, melhorar o desempenho geral na tarefa de classificação. O método proposto é baseado em dicionários lexicográficos e semânticos e utiliza técnicas modernas de análise semântica e detecção de contexto. Ele é empregado para normalizar os termos que compõem as mensagens e criar novos atributos para alterar e expandir as amostras originais de texto com o objetivo de mitigar fatores que podem degradar o desempenho dos métodos de classificação, tais como redundâncias e inconsistências. A proposta foi avaliada usando uma base de dados real, pública e não codificada, além de vários métodos consagrados de aprendizado de máquina. Os experimentos foram conduzidos para garantir resultados estatisticamente corretos e indicaram que o método proposto pode de fato melhorar a detecção de spam em SMS. Smartphones Aplicativos móveis Filtragem de SMS spam Aprendizado de máquina Categorização de texto Mobile apps SMS spam filtering Text categorization Machine learning
215	Atribuição automática de autoria de obras da literatura brasileira / Atribuição automática de autoria de obras da literatura brasileira Nobre Neto, Francisco Dantas 19 January 2010 (has links) Made available in DSpace on 2015-05-14T12:36:48Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 1280792 bytes, checksum: d335d67b212e054f48f0e8bca0798fe5 (MD5) Previous issue date: 2010-01-19 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Authorship attribution consists in categorizing an unknown document among some classes of authors previously selected. Knowledge about authorship of a text can be useful when it is required to detect plagiarism in any literary document or to properly give the credits to the author of a book. The most intuitive form of human analysis of a text is by selecting some characteristics that it has. The study of selecting attributes in any written document, such as average word length and vocabulary richness, is known as stylometry. For human analysis of an unknown text, the authorship discovery can take months, also becoming tiring activity. Some computational tools have the functionality of extracting such characteristics from the text, leaving the subjective analysis to the researcher. However, there are computational methods that, in addition to extract attributes, make the authorship attribution, based in the characteristics gathered in the text. Techniques such as neural network, decision tree and classification methods have been applied to this context and presented results that make them relevant to this question. This work presents a data compression method, Prediction by Partial Matching (PPM), as a solution of the authorship attribution problem of Brazilian literary works. The writers and works selected to compose the authors database were, mainly, by their representative in national literature. Besides, the availability of the books has also been considered. The PPM performs the authorship identification without any subjective interference in the text analysis. This method, also, does not make use of attributes presents in the text, differently of others methods. The correct classification rate obtained with PPM, in this work, was approximately 93%, while related works exposes a correct rate between 72% and 89%. In this work, was done, also, authorship attribution with SVM approach. For that, were selected attributes in the text divided in two groups, one word based and other in function-words frequency, obtaining a correct rate of 36,6% and 88,4%, respectively. / Atribuição de autoria consiste em categorizar um documento desconhecido dentre algumas classes de autores previamente selecionadas. Saber a autoria de um texto pode ser útil quando é necessário detectar plágio em alguma obra literária ou dar os devidos créditos ao autor de um livro. A forma mais intuitiva ao ser humano para se analisar um texto é selecionando algumas características que ele possui. O estudo de selecionar atributos em um documento escrito, como tamanho médio das palavras e riqueza vocabular, é conhecido como estilometria. Para análise humana de um texto desconhecido, descobrir a autoria pode demandar meses, além de se tornar uma tarefa cansativa. Algumas ferramentas computacionais têm a funcionalidade de extrair tais características do texto, deixando a análise subjetiva para o pesquisador. No entanto, existem métodos computacionais que, além de extrair atributos, atribuem a autoria baseado nas características colhidas ao longo do texto. Técnicas como redes neurais, árvores de decisão e métodos de classificação já foram aplicados neste contexto e apresentaram resultados que os tornam relevantes para tal questão. Este trabalho apresenta um método de compressão de dados, o Prediction by Partial Matching (PPM), para solução do problema de atribuição de autoria de obras da literatura brasileira. Os escritores e obras selecionados para compor o banco de autores se deram, principalmente, pela representatividade que possuem na literatura nacional. Além disso, a disponibilidade dos livros em formato eletrônico também foi considerada. O PPM realiza a identificação de autoria sem ter qualquer interferência subjetiva na análise do texto. Este método, também, não faz uso de atributos presentes ao longo do texto, diferentemente de outros métodos. A taxa de classificação correta alcançada com o PPM, neste trabalho, foi de aproximadamente 93%, enquanto que trabalhos relacionados mostram uma taxa de acerto entre 72% e 89%. Neste trabalho, também foi realizado atribuição de autoria com a abordagem SVM. Para isso, foram selecionados atributos no texto dividido em dois tipos, sendo um baseado em palavras e o outro na contagem de palavrasfunção, obtendo uma taxa de acerto de 36,6% e 88,4%, respectivamente. Atribuição de autoria Prediction by Partial Matching (PPM) Processamento de Linguagem Natural (PLN) literatura brasileira Estilometria Authorship Attribution Prediction by Partial Matching (PPM) Natural Language Processing (NLP) Brazilian literature stylometry
216	Um sistema de disseminação seletiva da informação baseado em Cross-Document Structure Theory Beltrame, Walber Antonio Ramos 30 August 2011 (has links) Made available in DSpace on 2016-12-23T14:33:46Z (GMT). No. of bitstreams: 1 Dissertacao Walber.pdf: 1673761 bytes, checksum: 5ada541492a23b9653e4a80bea3aaa40 (MD5) Previous issue date: 2011-08-30 / A System for Selective Dissemination of Information is a type of information system that aims to harness new intellectual products, from any source, for environments where the probability of interest is high. The inherent challenge is to establish a computational model that maps specific information needs, to a large audience, in a personalized way. Therefore, it is necessary to mediate informational structure of unit, so that includes a plurality of attributes to be considered by process of content selection. In recent publications, systems are proposed based on text markup data (meta-data models), so that treatment of manifest information between computing semi-structured data and inference mechanisms on meta-models. Such approaches only use the data structure associated with the profile of interest. To improve this characteristic, this paper proposes construction of a system for selective dissemination of information based on analysis of multiple discourses through automatic generation of conceptual graphs from texts, introduced in solution also unstructured data (text). The proposed model is motivated by Cross-Document Structure Theory, introduced in area of Natural Language Processing, focusing on automatic generation of summaries. The model aims to establish correlations between semantic of discourse, for example, if there are identical information, additional or contradictory between multiple texts. Thus, an aspects discussed in this dissertation is that these correlations can be used in process of content selection, which had already been shown in other related work. Additionally, the algorithm of the original model is revised in order to make it easy to apply / Um Sistema de Disseminação Seletiva da Informação é um tipo de Sistema de Informação que visa canalizar novas produções intelectuais, provenientes de quaisquer fontes, para ambientes onde a probabilidade de interesse seja alta. O desafio computacional inerente é estabelecer um modelo que mapeie as necessidades específicas de informação, para um grande público, de modo personalizado. Para tanto, é necessário mediar à estruturação da unidade informacional, de maneira que contemple a pluralidade de atributos a serem considerados pelo processo de seleção de conteúdo. Em recentes publicações acadêmicas, são propostos sistemas baseados em marcação de dados sobre textos (modelos de meta-dados), de forma que o tratamento da informação manifesta-se entre computação de dados semi-estruturados e mecanismos de inferência sobre meta-modelos. Tais abordagens utilizam-se apenas da associação da estrutura de dados com o perfil de interesse. Para aperfeiçoar tal característica, este trabalho propõe a construção de um sistema de disseminação seletiva da informação baseado em análise de múltiplos discursos por meio da geração automática de grafos conceituais a partir de textos, concernindo à solução também os dados não estruturados (textos). A proposta é motivada pelo modelo Cross-Document Structure Theory, recentemente difundido na área de Processamento de Língua Natural, voltado para geração automática de resumos. O modelo visa estabelecer correlações de natureza semântica entre discursos, por exemplo, se existem informações idênticas, adicionais ou contraditórias entre múltiplos textos. Desse modo, um dos aspectos discutidos nesta dissertação é que essas correlações podem ser usadas no processo de seleção de conteúdo, o que já fora evidenciado em outros trabalhos correlatos. Adicionalmente, o algoritmo do modelo original é revisado, a fim de torná-lo de fácil aplicabilidade Disseminação seletiva da informação Recuperação da informação Teoria dos grafos Selective dissemination of information Retrieval of information Theory of graphs
217	Extrator de conhecimento coletivo : uma ferramenta para democracia participativa / Extractor Collective Knowledge : a tool for participatory democracy Angelo, Tiago Novaes, 1983- 26 August 2018 (has links) Orientadores: Ricardo Ribeiro Gudwin, Cesar José Bonjuani Pagan / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-26T04:03:32Z (GMT). No. of bitstreams: 1 Angelo_TiagoNovaes_M.pdf: 3900207 bytes, checksum: 2eed8dd66c9bdc37e4d58e9eac614c9d (MD5) Previous issue date: 2014 / Resumo: O surgimento das Tecnologias de Comunicação e Informação trouxe uma nova perspectiva para o fortalecimento da democracia nas sociedades modernas. A democracia representativa, modelo predominante nas sociedades atuais, atravessa uma crise de credibilidade cuja principal consequência é o afastamento do cidadão na participação política, enfraquecendo os ideais democráticos. Neste contexto, a tecnologia surge como possibilidade para construção de um novo modelo de participação popular que resgate uma cidadania mais ativa, inaugurando o que denomina-se de democracia digital. O objetivo desta pesquisa foi desenvolver e implementar uma ferramenta, denominada "Extrator de Conhecimento Coletivo", com o propósito de conhecer o que um coletivo pensa a respeito de sua realidade a partir de pequenos relatos de seus participantes, dando voz à população num processo de democracia participativa. Os fundamentos teóricos baseiam-se em métodos de mineração de dados, sumarizadores extrativos e redes complexas. A ferramenta foi implementada e testada usando um banco de dados formado por opiniões de clientes a respeito de suas estadias em um Hotel. Os resultados apresentaram-se satisfatórios. Para trabalhos futuros, a proposta é que o Extrator de Conhecimento Coletivo seja o núcleo de processamento de dados de um espaço virtual onde a população pode se expressar e exercer ativamente sua cidadania / Abstract: The emergence of Information and Communication Technologies brought a new perspective to the strengthening of democracy in modern societies. The representative democracy, prevalent model in today's societies, crosses a crisis of credibility whose main consequence is the removal of citizen participation in politics, weakening democratic ideals. In this context, technology emerges as a possibility for construction of a new model of popular participation to rescue more active citizenship, inaugurating what is called digital democracy. The objective of this research was to develop and implement a tool called "Collective Knowledge Extractor", with the purpose of knowing what the collective thinks about his reality through small reports of its participants, giving voice to the people in a process participatory democracy. The theoretical foundations are based on methods of data mining, extractive summarizers and complex networks. The tool was implemented and tested using a database consisting of customer reviews about their stay in a Hotel. The results were satisfactory. For future work, the proposal is that the Extractor Collective Knowledge be the core data processing of a virtual space where people can express themselves and actively exercise their citizenship / Mestrado / Engenharia de Computação / Mestre em Engenharia Elétrica Comunicações digitais Redes de informação - Aspectos sociais Redes complexas Digital communications Information networks - Social aspects Participatory management Natural language processing (Computer) Complex networks
218	[en] THE BOOSTING AT START ALGORITHM AND ITS APPLICATIONS / [pt] O ALGORITMO BOOSTING AT START E SUAS APLICACOES JULIO CESAR DUARTE 15 September 2017 (has links) [pt] Boosting é uma técnica de aprendizado de máquina que combina diversos classificadores fracos com o objetivo de melhorar a acurácia geral. Em cada iteração, o algoritmo atualiza os pesos dos exemplos e constrói um classificador adicional. Um esquema simples de votação é utilizado para combinar os classificadores. O algoritmo mais famoso baseado em Boosting é o AdaBoost. Este algoritmo aumenta os pesos dos exemplos em que os classificadores anteriores cometeram erros. Assim, foca o classificador adicional nos exemplos mais difíceis. Inicialmente, uma distribuição uniforme de pesos é atribúda aos exemplos. Entretanto, não existe garantia que essa seja a melhor escolha para a distribuição inicial. Neste trabalho, apresentamos o Boosting at Start (BAS), uma nova abordagem de aprendizado de máquina baseada em Boosting. O BAS generaliza o AdaBoost permitindo a utilização de uma distribuição inicial arbitrária. Também apresentamos esquemas para determinação de tal distribuição. Além disso, mostramos como adaptar o BAS para esquemas de Aprendizado Semi-supervisionado. Adicionalmente, descrevemos a aplicação do BAS em diferentes problemas de classificação de dados e de texto, comparando o seu desempenho com o algoritmo AdaBoost original e alguns algoritmos do estado-da-arte para tais tarefas. Os resultados experimentais indicam que uma modelagem simples usando o algoritmo BAS gera classificadores eficazes. / [en] Boosting is a Machine Learning technique that combines several weak classifers with the goal of improving the overall accuracy. In each iteration, the algorithm updates the example weights and builds an additional classifer. A simple voting scheme is used to combine the classifers. The most famous Boosting-based algorithm is AdaBoost. This algorithm increases the weights of the examples that were misclassifed by the previous classifers. Thus, it focuses the additional classifer on the hardest examples. Initially, an uniform weight distribution is assigned to the examples. However, there is no guarantee that this is the best choice for the initial distribution. In this work, we present Boosting at Start (BAS), a new Machine Learning approach based on Boosting. BAS generalizes AdaBoost by allowing the use of an arbitrary initial distribution. We present schemes for the determination of such distribution. We also show how to adapt BAS to Semi-supervised learning schemes. Additionally, we describe the application of BAS in different problems of data and text classifcation, comparing its performance with the original AdaBoost algorithm and some state-of-the-art algorithms for such tasks. The experimental results indicate that a simple modelling using the BAS algorithm generates effective classifers. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] BOOSTING [en] BOOSTING [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] NATURAL LANGUAGE PROCESSING [pt] ALGORITMOS DE COMITE [en] ENSEMBLE ALGORITHMS [pt] ADABOOST [en] ADABOOST [pt] BOOSTING AT START [en] BOOSTING AT START
219	"SemanticAgent, uma plataforma para desenvolvimento de agentes inteligentes" / SemanticAgent, a platform for development of Intelligent Agents capable of processing restricted natural language. Percival Silva de Lucena 15 April 2003 (has links) Agentes inteligentes é um termo guarda-chuva que agrega diversas pesquisas no desenvolvimento de softwares autônomos que utilizam técnicas de Inteligência Artificial a fim de satisfazer metas estabelecidas por seus usuários. A construção de sistemas baseados em agentes inteligentes é uma tarefa complexa que envolve aspectos como comunicação entre agentes, planejamento, divisão de tarefas, coordenação, representação e manipulação de conhecimento e comportamentos, entre outras tarefas. Plataformas para agentes prevêem alguns serviços que permitem a desenvolvedores construir soluções sem a necessidade de se preocupar com todos detalhes da implementação. Um novo modelo para criação de agentes chamado 'agentes atômicos' é proposto com o objetivo de oferecer flexibilidade para o gerenciamento de conhecimento e implementação de comportamentos. A arquitetura Agentes Semânticos provê um framework para a implementação de tal modelo, oferecendo um conjunto de ferramentas para a criação de agentes inteligentes. Um protótipo de plataforma para agentes, baseado em tal arquitetura, foi desenvolvido em Java e permite a criação de aplicações capazes de processar linguagem natural restrita, manipular conhecimento e executar ações úteis. / Intelligent Agents is an umbrella term that aggregates different research on the development of autonomous software that uses Artificial Intelligence techniques in order to satisfy user requests. The construction of systems based on intelligent agents is a complex task that involves aspects such as agent communication, planning, work division, cooperation, epresentation and manipulation of knowledge,among other activities. Agent Platforms provide some services that allow developers to build solutions without the need of worrying about every implementation detail. A new model for creating agents, called 'atomic agents', is proposed with the goal of offering flexible knowledge management and behavior implementation for constructing software agents. The Semantic AgentArchitecture provides a framework for the implementation of such model, offering a set of tools for the creation of intelligent agents. A prototype Agent Platform, based on the architecture, was developed in Java and allows the creation of applications that are able to process restricted natural language, manipulate knowledge and execute useful actions. Agentes de Sofware Agentes Inteligentes Frameworks para agentes de software Interfaces Baseadas em Linguagem Natural Processamento de Linguagem Natural Universal Networking Language (UNL) Agent Frameworks Intelligent Agents Natural Language Based Interfaces Software Agents Universal Networking Language (UNL)
220	Auxílio na prevenção de doenças crônicas por meio de mapeamento e relacionamento conceitual de informações em biomedicina / Support in the Prevention of Chronic Diseases by means of Mapping and Conceptual Relationship of Biomedical Information Juliana Tarossi Pollettini 28 November 2011 (has links) Pesquisas recentes em medicina genômica sugerem que fatores de risco que incidem desde a concepção de uma criança até o final de sua adolescência podem influenciar no desenvolvimento de doenças crônicas da idade adulta. Artigos científicos com descobertas e estudos inovadores sobre o tema indicam que a epigenética deve ser explorada para prevenir doenças de alta prevalência como doenças cardiovasculares, diabetes e obesidade. A grande quantidade de artigos disponibilizados diariamente dificulta a atualização de profissionais, uma vez que buscas por informação exata se tornam complexas e dispendiosas em relação ao tempo gasto na procura e análise dos resultados. Algumas tecnologias e técnicas computacionais podem apoiar a manipulação dos grandes repositórios de informações biomédicas, assim como a geração de conhecimento. O presente trabalho pesquisa a descoberta automática de artigos científicos que relacionem doenças crônicas e fatores de risco para as mesmas em registros clínicos de pacientes. Este trabalho também apresenta o desenvolvimento de um arcabouço de software para sistemas de vigilância que alertem profissionais de saúde sobre problemas no desenvolvimento humano. A efetiva transformação dos resultados de pesquisas biomédicas em conhecimento possível de ser utilizado para beneficiar a saúde pública tem sido considerada um domínio importante da informática. Este domínio é denominado Bioinformática Translacional (BUTTE,2008). Considerando-se que doenças crônicas são, mundialmente, um problema sério de saúde e lideram as causas de mortalidade com 60% de todas as mortes, o presente trabalho poderá possibilitar o uso direto dos resultados dessas pesquisas na saúde pública e pode ser considerado um trabalho de Bioinformática Translacional. / Genomic medicine has suggested that the exposure to risk factors since conception may influence gene expression and consequently induce the development of chronic diseases in adulthood. Scientific papers bringing up these discoveries indicate that epigenetics must be exploited to prevent diseases of high prevalence, such as cardiovascular diseases, diabetes and obesity. A large amount of scientific information burdens health care professionals interested in being updated, once searches for accurate information become complex and expensive. Some computational techniques might support management of large biomedical information repositories and discovery of knowledge. This study presents a framework to support surveillance systems to alert health professionals about human development problems, retrieving scientific papers that relate chronic diseases to risk factors detected on a patient\'s clinical record. As a contribution, healthcare professionals will be able to create a routine with the family, setting up the best growing conditions. According to Butte, the effective transformation of results from biomedical research into knowledge that actually improves public health has been considered an important domain of informatics and has been called Translational Bioinformatics. Since chronic diseases are a serious health problem worldwide and leads the causes of mortality with 60% of all deaths, this scientific investigation will probably enable results from bioinformatics researches to directly benefit public health. Bioinformática Translacional Doenças Crônicas Fatores Epigenéticos Informática Biomédica Mineração de Textos Processamento de Linguagem Natural Recuperação de Informação Chronic Diseases Epigenetic Factors Information Retrieval Medical Informatics Natural Language Processing Text Mining Translational Bioinformatics

Search results