Global ETD Search

61	Modelagem gerativa para sumarização automática multidocumento / Generative modeling for multi-document sumarization Jorge, María Lucía Del Rosario Castro 09 March 2015 (has links) A Sumarização Multidocumento consiste na produção automática de um único sumário a partir de um conjunto de textos que tratam de um mesmo assunto. Essa tarefa vem se tornando cada vez mais importante, já que auxilia o processamento de grandes volumes de informação, permitindo destacar a informação mais relevante para o usuário. Nesse trabalho, são propostas e exploradas modelagens baseadas em Aprendizado Gerativo, em que a tarefa de Sumarização Multidocumento é esquematizada usando o modelo Noisy- Channel e seus componentes de modelagem de língua, de transformação e decodificação, que são apropriadamente instanciados para a tarefa em questão. Essas modelagens são formuladas com atributos superficiais e profundos. Em particular, foram definidos três modelos de transformação, cujas histórias gerativas capturam padrões de seleção de conteúdo a partir de conjuntos de textos e seus correspondentes sumários multidocumento produzidos por humanos. O primeiro modelo é relativamente mais simples, pois é composto por atributos superficiais tradicionais; o segundo modelo é mais complexo, pois, além de atributos superficiais, adiciona atributos discursivos monodocumento; finalmente, o terceiro modelo é o mais complexo, pois integra atributos superficiais, de natureza discursiva monodocumento e semântico-discursiva multidocumento, pelo uso de informação proveniente das teorias RST e CST, respectivamente. Além desses modelos, também foi desenvolvido um modelo de coerência (ou modelo de língua) para sumários multidocumento, que é projetado para capturar padrões de coerência, tratando alguns dos principais fenômenos multidocumento que a afetam. Esse modelo foi desenvolvido com base no modelo de entidades e com informações discursivas. Cada um desses modelos foi inferido a partir do córpus CSTNews de textos jornalísticos e seus respectivos sumários em português. Finalmente, foi desenvolvido também um decodificador para realizar a construção do sumário a partir das inferências obtidas. O decodificador seleciona o subconjunto de sentenças que maximizam a probabilidade do sumário de acordo com as probabilidades inferidas nos modelos de seleção de conteúdo e o modelo de coerência. Esse decodificador inclui também uma estratégia para evitar que sentenças redundantes sejam incluídas no sumário final. Os sumários produzidos a partir dessa modelagem gerativa são comparados com os sumários produzidos por métodos estatísticos do estado da arte, os quais foram implementados, treinados e testados sobre o córpus. Utilizando-se avaliações de informatividade tradicionais da área, os resultados obtidos mostram que os modelos desenvolvidos neste trabalho são competitivos com os métodos estatísticos do estado da arte e, em alguns casos, os superam. / Multi-document Summarization consists in automatically producing a unique summary from a set of source texts that share a common topic. This task is becoming more important, since it supports large volume data processing, enabling to highlight relevant information to the users. In this work, generative modeling approaches are proposed and investigated, where the Multidocument Summarization task is modeled through the Noisy-Channel framework and its components: language model, transformation model and decoding, which are properly instantiated for the correspondent task. These models are formulated with shallow and deep features. Particularly, three main transformation models were defined, establishing generative stories that capture content selection patterns from sets of source texts and their corresponding human multi-document summaries. The first model is the less complex, since its features are traditional shallow features; the second model is more complex, incorporating single-document discursive knowledge features (given by RST) to the features proposed in the first model; finally, the third model is the most complex, since it incorporates multi-document discursive knowledge features (given by CST) to the features provided by models 1 and 2. Besides these models, it was also developed a coherence model (represented by the Noisy-Channel´s language model) for multi-document summaries. This model, different from transformation models, aims at capturing coerence patterns in multi-document summaries. This model was developed over the Entity-based Model and incorporates discursive knowledge in order to capture coherence patterns, exploring multi-document phenomena. Each of these models was treined with the CSTNews córpus of journalistic texts and their corresponding summaries. Finally, a decoder to search for the summary that maximizes the probability of the estimated models was developed. The decoder selects the subset of sentences that maximize the estimated probabilities. The decoder also includes an additional functionality for treating redundancy in the decoding process by using discursive information from the CST. The produced summaries are compared with the summaries produced by state of the art generative models, which were also treined and tested with the CSTNews corpus. The evaluation was carried out using traditional informativeness measures, and the results showed that the generative models developed in this work are competitive with the state of the art statistical models, and, in some cases, they outperform them. . Aprendizado de máquina Generative modeling Machine learning Modelagem gerativa Multi-document sumarization Sumarização multidocumento
62	Classificação automática de textos por meio de aprendizado de máquina baseado em redes / Text automatic classification through machine learning based on networks Rossi, Rafael Geraldeli 26 October 2015 (has links) Nos dias atuais há uma quantidade massiva de dados textuais sendo produzida e armazenada diariamente na forma de e-mails, relatórios, artigos e postagens em redes sociais ou blogs. Processar, organizar ou gerenciar essa grande quantidade de dados textuais manualmente exige um grande esforço humano, sendo muitas vezes impossível de ser realizado. Além disso, há conhecimento embutido nos dados textuais, e analisar e extrair conhecimento de forma manual também torna-se inviável devido à grande quantidade de textos. Com isso, técnicas computacionais que requerem pouca intervenção humana e que permitem a organização, gerenciamento e extração de conhecimento de grandes quantidades de textos têm ganhado destaque nos últimos anos e vêm sendo aplicadas tanto na academia quanto em empresas e organizações. Dentre as técnicas, destaca-se a classificação automática de textos, cujo objetivo é atribuir rótulos (identificadores de categorias pré-definidos) à documentos textuais ou porções de texto. Uma forma viável de realizar a classificação automática de textos é por meio de algoritmos de aprendizado de máquina, que são capazes de aprender, generalizar, ou ainda extrair padrões das classes das coleções com base no conteúdo e rótulos de documentos textuais. O aprendizado de máquina para a tarefa de classificação automática pode ser de 3 tipos: (i) indutivo supervisionado, que considera apenas documentos rotulados para induzir um modelo de classificação e classificar novos documentos; (ii) transdutivo semissupervisionado, que classifica documentos não rotulados de uma coleção com base em documentos rotulados; e (iii) indutivo semissupervisionado, que considera documentos rotulados e não rotulados para induzir um modelo de classificação e utiliza esse modelo para classificar novos documentos. Independente do tipo, é necessário que as coleções de documentos textuais estejam representadas em um formato estruturado para os algoritmos de aprendizado de máquina. Normalmente os documentos são representados em um modelo espaço-vetorial, no qual cada documento é representado por um vetor, e cada posição desse vetor corresponde a um termo ou atributo da coleção de documentos. Algoritmos baseados no modelo espaço-vetorial consideram que tanto os documentos quanto os termos ou atributos são independentes, o que pode degradar a qualidade da classificação. Uma alternativa à representação no modelo espaço-vetorial é a representação em redes, que permite modelar relações entre entidades de uma coleção de textos, como documento e termos. Esse tipo de representação permite extrair padrões das classes que dificilmente são extraídos por algoritmos baseados no modelo espaço-vetorial, permitindo assim aumentar a performance de classificação. Além disso, a representação em redes permite representar coleções de textos utilizando diferentes tipos de objetos bem como diferentes tipos de relações, o que permite capturar diferentes características das coleções. Entretanto, observa-se na literatura alguns desafios para que se possam combinar algoritmos de aprendizado de máquina e representações de coleções de textos em redes para realizar efetivamente a classificação automática de textos. Os principais desafios abordados neste projeto de doutorado são (i) o desenvolvimento de representações em redes que possam ser geradas eficientemente e que também permitam realizar um aprendizado de maneira eficiente; (ii) redes que considerem diferentes tipos de objetos e relações; (iii) representações em redes de coleções de textos de diferentes línguas e domínios; e (iv) algoritmos de aprendizado de máquina eficientes e que façam um melhor uso das representações em redes para aumentar a qualidade da classificação automática. Neste projeto de doutorado foram propostos e desenvolvidos métodos para gerar redes que representem coleções de textos, independente de domínio e idioma, considerando diferentes tipos de objetos e relações entre esses objetos. Também foram propostos e desenvolvidos algoritmos de aprendizado de máquina indutivo supervisionado, indutivo semissupervisionado e transdutivo semissupervisionado, uma vez que não foram encontrados na literatura algoritmos para lidar com determinados tipos de relações, além de sanar a deficiência dos algoritmos existentes em relação à performance e/ou tempo de classificação. É apresentado nesta tese (i) uma extensa avaliação empírica demonstrando o benefício do uso das representações em redes para a classificação de textos em relação ao modelo espaço-vetorial, (ii) o impacto da combinação de diferentes tipos de relações em uma única rede e (iii) que os algoritmos propostos baseados em redes são capazes de superar a performance de classificação de algoritmos tradicionais e estado da arte tanto considerando algoritmos de aprendizado supervisionado quanto semissupervisionado. As soluções propostas nesta tese demonstraram ser úteis e aconselháveis para serem utilizadas em diversas aplicações que envolvam classificação de textos de diferentes domínios, diferentes características ou para diferentes quantidades de documentos rotulados. / A massive amount of textual data, such as e-mails, reports, articles and posts in social networks or blogs, has been generated and stored on a daily basis. The manual processing, organization and management of this huge amount of texts require a considerable human effort and sometimes these tasks are impossible to carry out in practice. Besides, the manual extraction of knowledge embedded in textual data is also unfeasible due to the large amount of texts. Thus, computational techniques which require little human intervention and allow the organization, management and knowledge extraction from large amounts of texts have gained attention in the last years and have been applied in academia, companies and organizations. The tasks mentioned above can be carried out through text automatic classification, in which labels (identifiers of predefined categories) are assigned to texts or portions of texts. A viable way to perform text automatic classification is through machine learning algorithms, which are able to learn, generalize or extract patterns from classes of text collections based on the content and labels of the texts. There are three types of machine learning algorithms for automatic classification: (i) inductive supervised, in which only labeled documents are considered to induce a classification model and this model are used to classify new documents; (ii) transductive semi-supervised, in which all known unlabeled documents are classified based on some labeled documents; and (iii) inductive semi-supervised, in which labeled and unlabeled documents are considered to induce a classification model in order to classify new documents. Regardless of the learning algorithm type, the texts of a collection must be represented in a structured format to be interpreted by the algorithms. Usually, the texts are represented in a vector space model, in which each text is represented by a vector and each dimension of the vector corresponds to a term or feature of the text collection. Algorithms based on vector space model consider that texts, terms or features are independent and this assumption can degrade the classification performance. Networks can be used as an alternative to vector space model representations. Networks allow the representations of relations among the entities of a text collection, such as documents and terms. This type of representation allows the extraction patterns which are not extracted by algorithms based on vector-space model. Moreover, text collections can be represented by networks composed of different types of entities and relations, which provide the extraction of different patterns from the texts. However, there are some challenges to be solved in order to allow the combination of machine learning algorithms and network-based representations to perform text automatic classification in an efficient way. The main challenges addressed in this doctoral project are (i) the development of network-based representations efficiently generated which also allows an efficient learning; (ii) the development of networks which represent different types of entities and relations; (iii) the development of networks which can represent texts written in different languages and about different domains; and (iv) the development of efficient learning algorithms which make a better use of the network-based representations and increase the classification performance. In this doctoral project we proposed and developed methods to represent text collections into networks considering different types of entities and relations and also allowing the representation of texts written in any language or from any domain. We also proposed and developed supervised inductive, semi-supervised transductive and semi-supervised inductive learning algorithms to interpret and learn from the proposed network-based representations since there were no algorithms to handle certain types of relations considered in this thesis. Besides, the proposed algorithms also attempt to obtain a higher classification performance and a faster classification than the existing network-based algorithms. In this doctoral thesis we present (i) an extensive empirical evaluation demonstrating the benefits about the use of network-based representations for text classification, (ii) the impact of the combination of different types of relations in a single network and (iii) that the proposed network-based algorithms are able to surpass the classification performance of traditional and state-of-the-art algorithms considering both supervised and semi-supervised learning. The solutions proposed in this doctoral project have proved to be advisable to be used in many applications involving classification of texts from different domains, areas, characteristics or considering different numbers of labeled documents. Aprendizado de máquina Classificação de textos Heterogeneous networks Label propagation Machine learning Propagação de rótulos Redes heterogêneas Text classification
63	Classificador para auxílio ao diagnóstico de TEA baseado em um modelo computacional de atenção visual / Classifier to aid ASD diagnosis based on a computational model of visual attention Oliveira, Jéssica dos Santos de 07 December 2017 (has links) O Transtorno do Espectro do Autismo (TEA) é um transtorno do neurodesenvolvimento que afeta principalmente as habilidades de interação social dos indivíduos. Para auxiliar no diagnóstico, estudos têm utilizado técnicas de rastreamento de olhar, mas, em geral, os sinais são interpretados manualmente ou a automatização considera somente alguns dos indícios que podem definir a presença do TEA em indivíduos. O presente projeto visa a preencher esta lacuna, propondo utilizar os dados do rastreamento do olhar para o desenvolvimento de um modelo de atenção visual para TEA e para Desenvolvimento Típico (DT). A partir desses modelos, é construído um classificador que visará auxiliar no diagnóstico do TEA. Para alcançar o objetivo proposto, foram realizadas as seguintes etapas: revisão bibliográfica, aprovação do comitê de ética, definição do modelo de atenção visual, implementação do modelo, análise e publicação dos resultados. Os métodos foram testados com técnica de validação cruzada e construção de curva ROC. Os resultados mostraram que o modelo de atenção visual desenvolvido é capaz de prever a atenção visual do grupo TEA e do grupo DT, e que o método para classificação desenvolvido consegue classificar um indivíduo com TEA com média de 90\\% de precisão e 83\\% de especificidade, atingindo no melhor resultado 96\\% de precisão e 93\\% de especificidade. Espera-se que o método possa ser utilizado por profissionais da área de saúde e que sirva de base também para outras aplicações / Autism Spectrum Disorder (ASD) is a neurodevelopmental disorder that affects mainly social interaction skills of individuals. In order to aid the diagnosis, studies have used eye-tracking techniques, but, in general, the signals are interpreted manually or the automation considers only some of the evidence that may define the presence of the ASD in individuals considering eye-tracking signals. This project aims at contributing to this challenge, processing data provided from eye-tracking based on a visual attention model for ASD and Typical Development (TD). From this model its build a classifier that will aid ASD diagnosis. To achieve the proposed goal, the following steps were performed: literature review, approval of the ethics committee, definition of a visual attention model, model implementation, analysis and publication of results. The methods were tested with cross-validation technique and ROC curve construction. The results showed that the developed model is able to predict visual attention of the TEA group and the DT group, and that the developed training method can classify an individual with TEA with an average of 90\\% of precision and 83\\% of specificity. In the best result was achive 96\\% of accuracy and 93\\% of specificity. It is expected that the method can be used by health professionals and also serve as a basis for other applications Aprendizado de Máquina Autism Autismo Eye trackin Machine Learning Model of visual attention Modelo de Atenção Visual Rastreamento de olhar
64	Extração de regras operacionais ótimas de sistemas de distrubuição de água através de algoritmos genéticos multiobjetivo e aprendizado de máquina / Extraction of optimal operation rules of the water distribution systems using multiobjective genetic algorithms and machine learning Carrijo, Ivaltemir Barros 10 December 2004 (has links) A operação eficiente do sistema é uma ferramenta fundamental para que sua vida útil se prolongue o máximo possível, garantindo o perfeito atendimento aos consumidores, além de manter os custos com energia elétrica e manutenção dentro de padrões aceitáveis. Para uma eficiente operação, é fundamental o conhecimento do sistema, pois, através deste, com ferramentas como modelos de simulação hidráulica, otimização e definição de regras, é possível fornecer ao operador condições de operacionalidade das unidades do sistema de forma racional, não dependendo exclusivamente de sua experiência pessoal, mantendo a confiabilidade do mesmo. Neste trabalho é desenvolvido um modelo computacional direcionado ao controle operacional ótimo de sistemas de macro distribuição de água potável, utilizando um simulador hidráulico, um algoritmo de otimização, considerando dois objetivos (custos de energia elétrica e benefícios hidráulicos) e um algoritmo de aprendizado para extração de regras operacionais para o sistema. Os estudos foram aplicados no sistema de macro distribuição da cidade de Goiânia. Os resultados demonstraram que podem ser produzidas estratégias operacionais satisfatórias para o sistema em substituição ao julgamento pessoal do operador. / The efficient operation of a system is a fundamental tool to postpone the systems service life as much as possible, thus ensuring a good service to the consumer while keeping electrical energy and maintenance costs at acceptable levels. Efficient operation requires knowledge of the system, for this knowledge, supported by tools such as models for hydraulic simulation, optimization, and definition of rules, provides the operator with proper conditions for the rational operating of the systems units without depending exclusively on personal experience while maintaining the systems reliability. In this work is developed a computational model for the optimal operation control of macro water distribution systems using a hydraulic simulator, an optimization algorithm, and a learn algorithm to extract operational rules (strategies) for the system. These studies are to be based on the macro system of the city of Goiânia, in Brazil. The results show that solutions for satisfactory operation can be quickly produced as a substitute to the personal judgment of the operator. algoritmos genéticos aprendizado de máquina genetic algorithms machine learning multiobjective optimization operação ótima optimal operation otimização multiobjetivo
65	"Novas abordagens em aprendizado de máquina para a geração de regras, classes desbalanceadas e ordenação de casos" / "New approaches in machine learning for rule generation, class imbalance and rankings" Prati, Ronaldo Cristiano 07 July 2006 (has links) Algoritmos de aprendizado de máquina são frequentemente os mais indicados em uma grande variedade de aplicações de mineração dados. Entretanto, a maioria das pesquisas em aprendizado de máquina refere-se ao problema bem definido de encontrar um modelo (geralmente de classificação) de um conjunto de dados pequeno, relativamente bem preparado para o aprendizado, no formato atributo-valor, no qual os atributos foram previamente selecionados para facilitar o aprendizado. Além disso, o objetivo a ser alcançado é simples e bem definido (modelos de classificação precisos, no caso de problemas de classificação). Mineração de dados propicia novas direções para pesquisas em aprendizado de máquina e impõe novas necessidades para outras. Com a mineração de dados, algoritmos de aprendizado estão quebrando as restrições descritas anteriormente. Dessa maneira, a grande contribuição da área de aprendizado de máquina para a mineração de dados é retribuída pelo efeito inovador que a mineração de dados provoca em aprendizado de máquina. Nesta tese, exploramos alguns desses problemas que surgiram (ou reaparecem) com o uso de algoritmos de aprendizado de máquina para mineração de dados. Mais especificamente, nos concentramos seguintes problemas: Novas abordagens para a geração de regras. Dentro dessa categoria, propomos dois novos métodos para o aprendizado de regras. No primeiro, propomos um novo método para gerar regras de exceção a partir de regras gerais. No segundo, propomos um algoritmo para a seleção de regras denominado Roccer. Esse algoritmo é baseado na análise ROC. Regras provêm de um grande conjunto externo de regras e o algoritmo proposto seleciona regras baseado na região convexa do gráfico ROC. Proporção de exemplos entre as classes. Investigamos vários aspectos relacionados a esse tópico. Primeiramente, realizamos uma série de experimentos em conjuntos de dados artificiais com o objetivo de testar nossa hipótese de que o grau de sobreposição entre as classes é um fator complicante em conjuntos de dados muito desbalanceados. Também executamos uma extensa análise experimental com vários métodos (alguns deles propostos neste trabalho) para balancear artificialmente conjuntos de dados desbalanceados. Finalmente, investigamos o relacionamento entre classes desbalanceadas e pequenos disjuntos, e a influência da proporção de classes no processo de rotulação de exemplos no algoritmo de aprendizado de máquina semi-supervisionado Co-training. Novo método para a combinação de rankings. Propomos um novo método, chamado BordaRank, para construir ensembles de rankings baseado no método de votação borda count. BordaRank pode ser aplicado em qualquer problema de ordenação binária no qual vários rankings estejam disponíveis. Resultados experimentais mostram uma melhora no desempenho com relação aos rankings individuais, alem de um desempenho comparável com algoritmos mais sofisticados que utilizam a predição numérica, e não rankings, para a criação de ensembles para o problema de ordenação binária. / Machine learning algorithms are often the most appropriate algorithms for a great variety of data mining applications. However, most machine learning research to date has mainly dealt with the well-circumscribed problem of finding a model (generally a classifier) given a single, small and relatively clean dataset in the attribute-value form, where the attributes have previously been chosen to facilitate learning. Furthermore, the end-goal is simple and well-defined, such as accurate classifiers in the classification problem. Data mining opens up new directions for machine learning research, and lends new urgency to others. With data mining, machine learning is now removing each one of these constraints. Therefore, machine learning's many valuable contributions to data mining are reciprocated by the latter's invigorating effect on it. In this thesis, we explore this interaction by proposing new solutions to some problems due to the application of machine learning algorithms to data mining applications. More specifically, we contribute to the following problems. New approaches to rule learning. In this category, we propose two new methods for rule learning. In the first one, we propose a new method for finding exceptions to general rules. The second one is a rule selection algorithm based on the ROC graph. Rules come from an external larger set of rules and the algorithm performs a selection step based on the current convex hull in the ROC graph. Proportion of examples among classes. We investigated several aspects related to this issue. Firstly, we carried out a series of experiments on artificial data sets in order to verify our hypothesis that overlapping among classes is a complicating factor in highly skewed data sets. We also carried out a broadly experimental analysis with several methods (some of them proposed by us) that artificially balance skewed datasets. Our experiments show that, in general, over-sampling methods perform better than under-sampling methods. Finally, we investigated the relationship between class imbalance and small disjuncts, as well as the influence of the proportion of examples among classes in the process of labelling unlabelled cases in the semi-supervised learning algorithm Co-training. New method for combining rankings. We propose a new method called BordaRanking to construct ensembles of rankings based on borda count voting, which could be applied whenever only the rankings are available. Results show an improvement upon the base-rankings constructed by taking into account the ordering given by classifiers which output continuous-valued scores, as well as a comparable performance with the fusion of such scores. aprendizado de máquina class imbalance classes desbalanceadas combinação de rankings ensemble of rankings geração de regras machine learning rule learning
66	Exploring the intersections between Information Visualization and Machine Learning / Explorando as interseções entre Visualização da Informação e Aprendizado de Máquina Corrêa, Igor Bueno 10 October 2018 (has links) With todays flood of data coming from many types of sources, Machine Learning becomes increasingly important. Though, many times the use of Machine Learning is not enough to make sense of all this data. This makes visualization a very useful tool for Machine Learning practitioners and data analysts alike. Interactive visualization techniques can be very helpful by giving insight on the meaning of the output from classification tasks. In this work, the aim is to explore, implement and evaluate different visualization techniques with the explicit goal of directly relating these visualization to the Machine Learning process. The proposed approach is the development of visualization techniques for a posteriori analysis that combines data exploration and classification evaluation. Results include a modified version of the Radial Visualization technique, called Dual RadViz, and also the use of interactive multiclass Partial Dependence Plots as means of finding counterfactual explanations about Machine Learning classification. An account of some of the many ways Machine Learning and visualization are used together is also given. / Hoje em dia, com o enorme fluxo de dados provenientes de muitos tipos de fontes, Aprendizado de Máquina se torna cada vez mais importante. No entanto, muitas vezes o uso de Aprendizado de Máquina não é o suficiente para que seja possível enxergar o valor e o significado de todos estes dados. Isso faz com que visualização seja uma valiosa ferramenta tanto para analistas de dados quanto para aqueles que praticam tarefas relacionadas à Aprendizado de Máquina. Técnicas de visualização interativa podem ser de grande utilidade por possibilitarem insights sobre o significado do resultado de tarefas de classificação. Neste trabalho, o objetivo é explorar, implementar e avaliar diferentes técnicas de visualização, explicitamente focando em suas relações com o processo de Aprendizado de Máquina. A abordagem proposta se trata do desenvolvimento de técnicas de visualização para análise a posteriori dos resultados de tarefas de classificação, combinando avaliação da classificação e exploração visual de dados. Os resultados incluem uma versão modificada da técnica de Visualização Radial, chamada Dual RadViz, e também o uso de Gráficos de Dependência Parcial multiclasse interativos como meio de se chegar à explicações contrafatuais sobre resultados de classificação. É dado também um relato de algumas das muitas maneiras onde Aprendizado de Máquina e visualização são usados conjuntamente. Aprendizado de máquina Information visualization Machine learning RadViz RadViz Visual analytics Visual analytics Visualização da informação
67	Análise comparativa entre a primeira e a segunda versão do Kinect na biometria do caminhar / Comparative analysys of Kinect’s first and second version on biometrics of gait Dias, Leandro Weige 25 April 2017 (has links) Submitted by Aline Batista (alinehb.ufpel@gmail.com) on 2018-04-19T13:36:05Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_Leandro_Weige_Dias.pdf: 6474786 bytes, checksum: e8c0c5d24930246b588d580da0385883 (MD5) / Approved for entry into archive by Aline Batista (alinehb.ufpel@gmail.com) on 2018-04-19T14:44:49Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_Leandro_Weige_Dias.pdf: 6474786 bytes, checksum: e8c0c5d24930246b588d580da0385883 (MD5) / Made available in DSpace on 2018-04-19T14:44:56Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_Leandro_Weige_Dias.pdf: 6474786 bytes, checksum: e8c0c5d24930246b588d580da0385883 (MD5) Previous issue date: 2017-04-25 / Sem bolsa / Este trabalho tem por objetivo central trazer uma comparação entre as duas versões do sensor Kinect em relação a identificação biométrica através do caminhar humano. Para realizar a comparação entre os sensores, foram implementadas quatro metodologias diferentes de extração de parâmetros do caminhar humano, sendo analisados tanto atributos antropométricos, cinemáticos como espaço-temporais. Uma análise individual de cada atributo das propostas de caracterização do caminhar foi realizada para identificar os predicados que traziam maior contribuição na identificação dos indivíduos. Com a finalidade de se criar uma base de exemplos para a extração dos parâmetros do caminhar, foram capturados 50 indivíduos através dos sensores Kinect e aplicados algoritmos de aprendizado de máquina para a classificação das pessoas. Os resultados obtidos mostraram uma acurácia superior do Kinect One na maioria das metodologias, justificando a sua utilização em relação ao Kinect 360. Neste trabalho também foram realizados como experimentos adicionais a comparação entre os sensores com relação a identificação do gênero do indivíduo e a análise da dependência de pose. / The main goal of this thesis is to bring a comparative between the two versions of the Kinect sensor in biometric identification through human gait. To compare the sensors, four different methods of human gait parameters extraction were implemented, being analyzed both anthropometric, kinematic and spatiotemporal attributes. An individual analysis of each attribute of the gait characterization methodologies was performed to identify the attributes that bring the greatest contribution in the identification of individuals. In order to create a base for extracting gait parameters, 50 individuals were captured through the Kinect sensors and machine learning algorithms were applied to classify the people. The results obtained show a superiority of Kinect One in most of the methodologies, justifying its use in relation to Kinect 360. In this work, a mapping between the sensors in relation to the identification of the individual’s gender and an analysis of the pose dependency were also performed as additional experiments. Aprendizado de máquina Biometria Kinect Machine learning Biometrics
68	Melhoramento do índice de detecções na espectrometria gama em amostras ambientais usando inteligência artificial / Improvement of the detection rate in gamma spectrometry of environmental samples using artificial intelligence Arine, Bruno Burini Robles [UNESP] 19 December 2016 (has links) Submitted by Bruno Burini Robles Arine null (bruno.arine@gmail.com) on 2017-02-16T22:06:06Z No. of bitstreams: 1 dissertacao.pdf: 6110929 bytes, checksum: 77eef5d96d26472d9053d49594a07b06 (MD5) / Approved for entry into archive by Juliano Benedito Ferreira (julianoferreira@reitoria.unesp.br) on 2017-02-20T20:55:33Z (GMT) No. of bitstreams: 1 arine_bbr_me_soro.pdf: 6110929 bytes, checksum: 77eef5d96d26472d9053d49594a07b06 (MD5) / Made available in DSpace on 2017-02-20T20:55:33Z (GMT). No. of bitstreams: 1 arine_bbr_me_soro.pdf: 6110929 bytes, checksum: 77eef5d96d26472d9053d49594a07b06 (MD5) Previous issue date: 2016-12-19 / A utilização de elementos radioativos se estende hoje a diversos ramos da ciência e tecnologia, exigindo maneiras eficientes, precisas e sustentáveis de monitoramento para a preservação ambiental e a saúde humana. Uma técnica eficiente e não-destrutiva de análise de elementos emissores de raios gama é a espectrometria gama. No entanto, os softwares atuais de análise se deparam com certos empecilhos quando tratam de amostras ambientais, cujas concentrações de radioatividade são próximas do limite de detecção, ou quando certos radionuclídeos de interesse estão sujeitos a interferências. Este trabalho desenvolveu algoritmos de análise através de ferramentas do campo da inteligência artificial, de forma a obter um desempenho superior do que os métodos empregados em softwares clássicos de análise radiométrica. Três classificadores do campo da inteligência artificial foram testados; árvores de decisão (AD), máquinas de vetores de suporte (MVS) e redes neurais artificiais (RNA). Em testes com uma fonte de chumbo-210 de baixa atividade, a MVS obteve acurácia de 0,93, enquanto os métodos tradicionais obtiveram acurácia máxima de 0,73. Em testes com amostras reais de nitrato de uranila, a acurácia de classificação da RNA foi de 0,91, enquanto a acurácia dos métodos tradicionais foi de 0,70. Observou-se que os modelos baseados em inteligência artificial tiveram desempenho superior aos métodos tradicionais em todos os experimentos. Entretanto, esta vantagem diminui à medida que a relação sinal-ruído dos espectros aumenta, se tornando negligível quando a relação sinal-ruído supera o limite de detecção. / Usage of radioactive elements is present in several areas of science and technology, requiring efficient, accurate, and sustainable ways of environmental conservation and human health monitoring. Gamma-ray spectrometry is an efficient and non-destructive analysis technique for identification of gamma-ray emitting elements. Nonetheless, current analysis softwares have certain limitations regarding environmental samples, whose radioactivity concentration is often close to the detection limit, or when certain radionuclides of interest are subject to interference. This work aims the development of analysis algorithms based on the field of artificial intelligence in order to achieve better performance than the methods in classical radiometric analysis software. Three artificial intelligence classifiers were tested; decision trees (DT), support vector machines (SVM) and artificial neural networks (ANN). In tests with a low-activity lead-210 source, SVM obtained an accuracy of 0.93, while the traditional methods obtained a maximum accuracy of 0.73. In tests with real samples of uranyl nitrate, the accuracy of ANN classification was 0.91, while the accuracy of the traditional methods was 0.70. It was observed that artificial intelligence-based models performed better than traditional methods in all experiments. However, this advantage decreases as the signal-to-noise ratio of the spectra increases, becoming negligible when the signal-to-noise ratio exceeds the detection limit. Radiação gama Meio ambiente Inteligência artificial Aprendizado de máquina Gamma radiation Environment Artificial intelligence Machine learning
69	Noise detection in classification problems / Detecção de ruídos em problemas de classificação Luís Paulo Faina Garcia 22 June 2016 (has links) In many areas of knowledge, considerable amounts of time have been spent to comprehend and to treat noisy data, one of the most common problems regarding information collection, transmission and storage. These noisy data, when used for training Machine Learning techniques, lead to increased complexity in the induced classification models, higher processing time and reduced predictive power. Treating them in a preprocessing step may improve the data quality and the comprehension of the problem. This Thesis aims to investigate the use of data complexity measures capable to characterize the presence of noise in datasets, to develop new efficient noise ltering techniques in such subsamples of problems of noise identification compared to the state of art and to recommend the most properly suited techniques or ensembles for a specific dataset by meta-learning. Both artificial and real problem datasets were used in the experimental part of this work. They were obtained from public data repositories and a cooperation project. The evaluation was made through the analysis of the effect of artificially generated noise and also by the feedback of a domain expert. The reported experimental results show that the investigated proposals are promising. / Em diversas áreas do conhecimento, um tempo considerável tem sido gasto na compreensão e tratamento de dados ruidosos. Trata-se de uma ocorrência comum quando nos referimos a coleta, a transmissão e ao armazenamento de informações. Esses dados ruidosos, quando utilizados na indução de classificadores por técnicas de Aprendizado de Maquina, aumentam a complexidade da hipótese obtida, bem como o aumento do seu tempo de indução, além de prejudicar sua acurácia preditiva. Trata-los na etapa de pré-processamento pode significar uma melhora da qualidade dos dados e um aumento na compreensão do problema estudado. Esta Tese investiga medidas de complexidade capazes de caracterizar a presença de ruídos em um conjunto de dados, desenvolve novos filtros que sejam mais eficientes em determinados nichos do problema de detecção e remoção de ruídos que as técnicas consideradas estado da arte e recomenda as mais apropriadas técnicas ou comitês de técnicas para um determinado conjunto de dados por meio de meta-aprendizado. As bases de dados utilizadas nos experimentos realizados neste trabalho são tanto artificiais quanto reais, coletadas de repositórios públicos e fornecidas por projetos de cooperação. A avaliação consiste tanto da adição de ruídos artificiais quanto da validação de um especialista. Experimentos realizados mostraram o potencial das propostas investigadas. Aprendizado de máquina Detecção de ruídos Meta-aprendizado. Problemas de classificação Classification problems Machine learning Meta-learning Noise detection
70	A wikification prediction model based on the combination of latent, dyadic and monadic features / Um modelo de previsão para Wikification baseado na combinação de atributos latentes, diádicos e monádicos Raoni Simões Ferreira 25 April 2016 (has links) Most of the reference information, nowadays, is found in repositories of documents semantically linked, created in a collaborative fashion and freely available in the web. Among the many problems faced by content providers in these repositories, one of the most important is Wikification, that is, the placement of links in the articles. These links have to support user navigation and should provide a deeper semantic interpretation of the content. Wikification is a hard task since the continuous growth of such repositories makes it increasingly demanding for editors. As consequence, they have their focus shifted from content creation, which should be their main objective. This has motivated the design of automatic Wikification tools which, traditionally, address two distinct problems: (a) how to identify which words (or phrases) in an article should be selected as anchors and (b) how to determine to which article the link, associated with the anchor, should point. Most of the methods in literature that address these problems are based on machine learning approaches which attempt to capture, through statistical features, characteristics of the concepts and its associations. Although these strategies handle the repository as a graph of concepts, normally they take limited advantage of the topological structure of this graph, as they describe it by means of human-engineered link statistical features. Despite the effectiveness of these machine learning methods, better models should take full advantage of the information topology if they describe it by means of data-oriented approaches such as matrix factorization. This indeed has been successfully done in other domains, such as movie recommendation. In this work, we fill this gap, proposing a wikification prediction model that combines the strengths of traditional predictors based on statistical features with a latent component which models the concept graph topology by means of matrix factorization. By comparing our model with a state-of-the-art wikification method, using a sample of Wikipedia articles, we obtained a gain up to 13% in F1 metric. We also provide a comprehensive analysis of the model performance showing the importance of the latent predictor component and the attributes derived from the associations between the concepts. The study still includes the analysis of the impact of ambiguous concepts, which allows us to conclude the model is resilient to ambiguity, even though does not include any explicitly disambiguation phase. We finally study the impact of selecting training samples from specific content quality classes, an information that is available in some respositories, such as Wikipedia. We empirically shown that the quality of the training samples impact on precision and overlinking, when comparing training performed using random quality samples versus high quality samples. / Atualmente, informações de referência são disponibilizadas através de repositórios de documentos semanticamente ligados, criados de forma colaborativa e com acesso livre na Web. Entre os muitos problemas enfrentados pelos provedores de conteúdo desses repositórios, destaca-se a Wikification, isto é, a inclusão de links nos artigos desses repositórios. Esses links possibilitam a navegação pelos artigos e permitem ao usuário um aprofundamento semântico do conteúdo. A Wikification é uma tarefa complexa, uma vez que o crescimento contínuo de tais repositórios resulta em um esforço cada vez maior dos editores. Como consequência, eles têm seu foco desviado da criação de conteúdo, que deveria ser o seu principal objetivo. Isso tem motivado o desenvolvimento de ferramentas de Wikification automática que, tradicionalmente, abordam dois problemas distintos: (a) como identificar que palavras (ou frases) em um artigo deveriam ser selecionados como texto de âncora e (b) como determinar para que artigos o link, associado ao texto de âncora, deveria apontar. A maioria dos métodos na literatura que abordam esses problemas usam aprendizado de máquina. Eles tentam capturar, através de atributos estatísticos, características dos conceitos e seus links. Embora essas estratégias tratam o repositório como um grafo de conceitos, normalmente elas pouco exploram a estrutura topológica do grafo, uma vez que se limitam a descrevê-lo por meio de atributos estatísticos dos links, projetados por especialistas humanos. Embora tais métodos sejam eficazes, novos modelos poderiam tirar mais proveito da topologia se a descrevessem por meio de abordagens orientados a dados, tais como a fatoração matricial. De fato, essa abordagem tem sido aplicada com sucesso em outros domínios como recomendação de filmes. Neste trabalho, propomos um modelo de previsão para Wikification que combina a força dos previsores tradicionais baseados em atributos estatísticos, projetados por seres humanos, com um componente de previsão latente, que modela a topologia do grafo de conceitos usando fatoração matricial. Ao comparar nosso modelo com o estado-da-arte em Wikification, usando uma amostra de artigos Wikipédia, observamos um ganho de até 13% em F1. Além disso, fornecemos uma análise detalhada do desempenho do modelo enfatizando a importância do componente de previsão latente e dos atributos derivados dos links entre os conceitos. Também analisamos o impacto de conceitos ambíguos, o que permite concluir que nosso modelo se porta bem mesmo diante de ambiguidade, apesar de não tratar explicitamente este problema. Ainda realizamos um estudo sobre o impacto da seleção das amostras de treino conforme a qualidade dos seus conteúdos, uma informação disponível em alguns repositórios, tais como a Wikipédia. Nós observamos que o treino com documentos de alta qualidade melhora a precisão do método, minimizando o uso de links desnecessários. Aprendizado de máquina Fatoração matricial Previsão de links Wikificação Wikipédia Link prediction Machine learning Matrix factorization Wikification Wikipedia

Search results