Global ETD Search

161	Avaliação de métodos de inferência de redes de regulação gênica. / Evaluation of gene regulatory networks inference methods. Alan Rafael Fachini 17 October 2016 (has links) A representação do Sistema de Regulação Gênica por meio de uma Rede de Regulação Gênica (GRN) pode facilitar a compreensão dos processos biológicos no nível molecular, auxiliando no entendimento do comportamento dos genes, a descoberta da causa de doenças e o desenvolvimento de novas drogas. Através das GRNs pode-se avaliar quais genes estão ativos e quais são suas influências no sistema. Nos últimos anos, vários métodos computacionais foram desenvolvidos para realizar a inferência de redes a partir de dados de expressão gênica. Esta pesquisa apresenta uma análise comparativa de métodos de inferência de GRNs, realizando uma revisão do modelo experimental descrito na literatura atual aplicados a conjuntos de dados contendo poucas amostras. Apresenta também o uso comitês de especialistas (ensemble) para agregar o resultado dos métodos a fim de melhorar a qualidade da inferência. Como resultado obteve-se que o uso de poucas amostras de dados (abaixo de 50) não fornecem resultados interessantes para a inferência de redes. Demonstrou-se também que o uso de comitês de especialistas melhoram os resultados de inferência. Os resultados desta pesquisa podem auxiliar em pesquisas futuras baseadas em GRNs. / The representation of the gene regulation system by means of a Gene Regulatory Network (GRN) can help the understanding of biological processes at the molecular level, elucidating the behavior of genes and leading to the discovery of disease causes and the development of new drugs. GRNs allow to evaluate which genes are active and how they influence the system. In recent years, many computational methods have been developed for networks inference from gene expression data. This study presents a comparative analysis of GRN inference methods, reviewing the experimental modeling present in the state-of-art scientific publications applied to datasets with small data samples. The use of ensembles was proposed to improve the quality of the network inference. As results, we show that the use of small data samples (less than 50 samples) do not show a good result in the network inference problem. We also show that the use of ensemble improve the network inference. Bioinformática Comitês de Especialistas Redes de Regulação Gênica Bioinformatics Ensemble Gene Regulatory Networks Machine learning Network Inference
162	Identificação in silico de ncRNAs no organismo modelo Halobacterium salinarum NRC-1 / In Silico identification of non-coding RNAs in Halobacterium salinarum NRC-1 model archeon organism Fonseca, Marcos Abraão de Souza 25 April 2016 (has links) A regulação da expressão gênica ocorre como um fenômeno essencial nos processos celulares em resposta a dinamicidade mútua estabelecida entre um organismo e seu meio. Além dos elementos reguladores já conhecidos, como fatores de transcrição ou modificações pós-transcricionais, observa-se um crescente interesse no papel de regulação desempenhado por moléculas de RNA não codificadores (ncRNA), que podem atuar em vários níveis de processamento da informação biológica. Organismos modelos oferecem uma forma conveniente de pesquisa e diferentes grupos buscam direcionar seus estudos para um entendimento mais amplo no que se refere aos mecanismos celulares presentes nesses organismos. Apesar da existência de alguns elementos conhecidos para o organismo modelo Halobacterium salinarum, acreditamos que nem todos seus elementos de ncRNAs foram identificados. Nesse contexto, desenvolvemos uma análise in silico para a identificação de novos ncRNAs em H. salinarum NRC-1 e aplicamos metodologias para a predição de possíveis interações RNA-Proteína. Com base em uma pespectiva de integração de dados e diferentes metodologias existentes, modelos de Aprendizado de Máquina (AM) foram criados e utilizados para a definição de regiões candidatas a ncRNAs. De acordo com os resultados, 42 novos ncRNAs puderam ser identificados e possibilitaram completar o catálogo de genes ncRNAs de H. salinarum NRC-1 e aumentar o universo conhecido destes em 82%. A análise dos resultados obtidos por outras abordagens disponíveis para a identificação de ncRNAs corroboram com alguns dos candidatos sugeridos neste trabalho. Adicionalmente, foram aplicados e avaliados métodos, também baseados em AM, para a identificação de candidatos à interação com a proteína de interesse LSm, presente no organismo em estudo, no intuito de incluir uma possível caracterização funcional de ncRNAs. Os resultados alcançados na aplicação metodologias para a predição de interações RNA-Proteína não foram suficientes para a criação de um modelo com predições de alto grau de acurácia porém, contribuem como estudos preliminares e discussões para o desenvolvimento de outras estratégias. / The gene expression regulation occurs on different cell levels in response to dynamics established between an organism and its environment. In addition to the regulatory elements already known, for instance, transcription factors or post-translation modifications, there is growing interests in the regulatory role played by non-coding RNA molecules (ncRNA) whose functions can be performed on different level of biological information processing. Model organisms allow a convenient way to work on laboratory and different research groups aiming to guide their studies for a mutual and wide understanding of the cellular mechanisms present on these organisms. Although some ncRNAs elements have been found in Halobacterium salinarum model organism we believe that not enough is knowing about these genomic regions. In these context, an in silico analysis for ncRNAs identification and RNA-protein prediction approach were applied to H. salinarum NRC-1. Considering a data integration perspective and some available methodologies, several machine learning models was built and used to designate candidate ncRNAs genome regions. According to achieve results, 42 new ncRNAs could be identified, increasing 82% the total of known ncRNAs in H. salinarum NRC-1. Combing analysis with other available tools, it had been observed that some suggested candidates also was found with different methodologies and thus, it highlights the proposed results. Additionally, we developed and analyzed methods, also machine learning based, to predict ncRNAs candidates to interact with LSm protein, present on the interested model organism aiming a basic ncRNA characterization. The achieved results in this part was not satisfactory since the applied models were not substantially accurate predictions. However, we believe that these preliminary results can contribute with some discussions to new different approaches. Aprendizado de máquina Halobacterium salinarum Halobactrium salinarum Interação RNA-Proteína Machine learning Non-coding RNAs RNA-Protein interaction RNAs não-codificadores
163	Aprendizado de máquina multirrótulo: explorando a dependência de rótulos e o aprendizado ativo / Multi-label machine learning: exploring label dependency and active learning Cherman, Everton Alvares 10 January 2014 (has links) Métodos tradicionais de aprendizado supervisionado, chamados de aprendizado monorrótulo, consideram que cada exemplo do conjunto de dados rotulados está associado a um único rótulo. No entanto, existe uma crescente quantidade de aplicações que lidam com exemplos que estão associados a múltiplos rótulos. Essas aplicações requerem métodos de aprendizado multirrótulo. Esse cenário de aprendizado introduz novos desafios que demandam abordagens diferentes daquelas tradicionalmente utilizadas no aprendizado monorrótulo. O custo associado ao processo de rotulação de exemplos, um problema presente em aprendizado monorrótulo, é ainda mais acentuado no contexto multirrótulo. O desenvolvimento de métodos para reduzir esse custo representa um desafio de pesquisa nessa área. Além disso, novos métodos de aprendizado também devem ser desenvolvidos para, entre outros objetivos, considerar a dependência de rótulos: uma nova característica presente no aprendizado multirrótulo. Há um consenso na comunidade de que métodos de aprendizado multirrótulo têm a capacidade de usufruir de melhor eficácia preditiva quando considerada a dependência de rótulos. Os principais objetivos deste trabalho estão relacionados a esses desafios: reduzir o custo do processo de rotulação de exemplos; e desenvolver métodos de aprendizado que explorem a dependência de rótulos. No primeiro caso, entre outras contribuições, um novo método de aprendizado ativo, chamado score dev, é proposto para reduzir os custos associados ao processo de rotulação multirrótulo. Resultados experimentais indicam que o método score dev é superior a outros métodos em vários domínios. No segundo caso, um método para identificar dependência de rótulos, chamado UBC, é proposto, bem como o BR+, um método para explorar essa característica. O método BR+ apresenta resultados superiores a métodos considerados estado da arte / Traditional supervised learning methods, called single-label learning, consider that each example from a labeled dataset is associated with only one label. However, an increasing number of applications deals with examples that are associated with multiple labels. These applications require multi-label learning methods. This learning scenario introduces new challenges and demands approaches that are different from those traditionally used in single-label learning. The cost of labeling examples, a problem in single-label learning, is even higher in the multi-label context. Developing methods to reduce this cost represents a research challenge in this area. Moreover, new learning methods should also be developed to, among other things, consider the label dependency: a new characteristic present in multi-label learning problems. Furthermore, there is a consensus in the community that multi-label learning methods are able to improve their predictive performance when label dependency is considered. The main aims of this work are related to these challenges: reducing the cost of the labeling process; and developing multi-label learning methods to explore label dependency. In the first case, as well as other contributions, a new multi-label active learning method, called score dev, is proposed to reduce the multi-labeling processing costs. Experimental results show that score dev outperforms other methods in many domains. In the second case, a method to identify label dependency, called UBC, is proposed, as well as BR+, a method to explore this characteristic. Results show that the BR+ method outperforms other state-of-the-art methods Active learning Aprendizado ativo Aprendizado de máquina Aprendizado multirrótulo Dependência de rótulos Label dependency Machine learning Multi-label learning
164	Estimação monocular de profundidade por aprendizagem profunda para veículos autônomos: influência da esparsidade dos mapas de profundidade no treinamento supervisionado / Monocular depth estimation by deep learning for autonomous vehicles: influence of depth maps sparsity in supervised training Rosa, Nícolas dos Santos 24 June 2019 (has links) Este trabalho aborda o problema da estimação de profundidade a partir de imagens monoculares (SIDE), com foco em melhorar a qualidade das predições de redes neurais profundas. Em um cenário de aprendizado supervisionado, a qualidade das predições está intrinsecamente relacionada aos rótulos de treinamento, que orientam o processo de otimização. Para cenas internas, sensores de profundidade baseados em escaneamento por luz estruturada (Ex.: Kinect) são capazes de fornecer mapas de profundidade densos, embora de curto alcance. Enquanto que para cenas externas, consideram-se LiDARs como sensor de referência, que comparativamente fornece medições mais esparsas, especialmente em regiões mais distantes. Em vez de modificar a arquitetura de redes neurais para lidar com mapas de profundidade esparsa, este trabalho introduz um novo método de densificação para mapas de profundidade, usando o framework de Mapas de Hilbert. Um mapa de ocupação contínuo é produzido com base nos pontos 3D das varreduras do LiDAR, e a superfície reconstruída resultante é projetada em um mapa de profundidade 2D com resolução arbitrária. Experimentos conduzidos com diferentes subconjuntos do conjunto de dados do KITTI mostram uma melhora significativa produzida pela técnica proposta (esparso-para-contínuo), sem necessitar inserir informações extras durante a etapa de treinamento. / This work addresses the problem of single image depth estimation (SIDE), focusing on improving the quality of deep neural network predictions. In a supervised learning scenario, the quality of predictions is intrinsically related to the training labels, which guide the optimization process. For indoor scenes, structured-light-based depth sensors (e.g. Kinect) are able to provide dense, albeit short-range, depth maps. While for outdoor scenes, LiDARs are considered the standard sensor, which comparatively provide much sparser measurements, especially in areas further away. Rather than modifying the neural network architecture to deal with sparse depth maps, this work introduces a novel densification method for depth maps using the Hilbert Maps framework. A continuous occupancy map is produced based on 3D points from LiDAR scans, and the resulting reconstructed surface is projected into a 2D depth map with arbitrary resolution. Experiments conducted with various subsets of the KITTI dataset show a significant improvement produced by the proposed Sparse-to-Continuous technique, without the introduction of extra information into the training stage. Aprendizado de Máquina Aprendizado Profundo Aprendizado Supervisionado Deep Learning Depth Estimation Estimação de Profundidade Machine Learning Monocular Vision Supervised Learning Visão Monocular
165	MaSTA: a text-based machine learning approach for systems-of-systems in the big data context / MaSTA: uma abordagem de aprendizado de máquina orientado a textos para sistemas-de-sistemas no contexto de big data Bianchi, Thiago 11 April 2019 (has links) Systems-of-systems (SoS) have gained a very important status in industry and academia as an answer to the growing complexity of software-intensive systems. SoS are particular in the sense that their capabilities transcend the mere sum of the capacities of their diverse independent constituents. In parallel, the current growth in the amount of data collected in different formats is impressive and imposes a considerable challenge for researchers and professionals, characterizing hence the Big Data context. In this scenario, Machine Learning techniques have been increasingly explored to analyze and extract relevant knowledge from such data. SoS have also generated a large amount of data and text information and, in many situations, users of SoS need to manually register unstructured, critical texts, e.g., work orders and service requests, and also need to map them to structured information. Besides that, these are repetitive, time-/effort-consuming, and even error-prone tasks. The main objective of this Thesis is to present MaSTA, an approach composed of an innovative classification method to infer classifiers from large textual collections and an evaluation method that measures the reliability and performance levels of such classifiers. To evaluate the effectiveness of MaSTA, we conducted an experiment with a commercial SoS used by large companies that provided us four datasets containing near one million records related with three classification tasks. As a result, this experiment indicated that MaSTA is capable of automatically classifying the documents and also improve the user assertiveness by reducing the list of possible classifications. Moreover, this experiment indicated that MaSTA is a scalable solution for the Big Data scenarios in which document collections have hundreds of thousands (even millions) of documents, even produced by different constituents of an SoS. / Sistemas-de-sistemas (SoS) conquistaram um status muito importante na indústria e na academia como uma resposta à crescente complexidade dos sistemas intensivos de software. SoS são particulares no sentido de que suas capacidades transcendem a mera soma das capacidades de seus diversos constituintes independentes. Paralelamente, o crescimento atual na quantidade de dados coletados em diferentes formatos é impressionante e impõe um desafio considerável para pesquisadores e profissionais, caracterizando consequentemente o contexto de Big Data. Nesse cenário, técnicas de Aprendizado de Máquina têm sido cada vez mais exploradas para analisar e extrair conhecimento relevante de tais dados. SoS também têm gerado uma grande quantidade de dados e informações de texto e, em muitas situações, os usuários do SoS precisam registrar manualmente textos críticos não estruturados, por exemplo, ordens de serviço e solicitações de serviço, e também precisam mapeá-los para informações estruturadas. Além disso, essas tarefas são repetitivas, demoradas, e até mesmo propensas a erros. O principal objetivo desta Tese é apresentar o MaSTA, uma abordagem composta por um método de classificação inovador para inferir classificadores a partir de grandes coleções de texto e um método de avaliação que mensura os níveis de confiabilidade e desempenho desses classificadores. Para avaliar a eficácia do MaSTA, nós conduzimos um experimento com um SoS comercial utilizado por grandes empresas que nos forneceram quatro conjuntos de dados contendo quase um milhão de registros relacionados com três tarefas de classificação. Como resultado, esse experimento indicou que o MaSTA é capaz de classificar automaticamente os documentos e também melhorar a assertividade do usuário através da redução da lista de possíveis classificações. Além disso, esse experimento indicou que o MaSTA é uma solução escalável para os cenários de Big Data, nos quais as coleções de documentos têm centenas de milhares (até milhões) de documentos, até mesmo produzidos por diferentes constituintes de um SoS. Aprendizado de máquina Big Data Big Data Classificação de texto Machine learning Naive Bayes Naive Bayes Sistema-de-sistemas System-of-systems Text classification
166	TRIVIR: A Visualization System to Support Document Retrieval with High Recall / TRIVIR: Um sistema de visualização para apoio à recuperação de documentos com alta cobertura Dias, Amanda Gonçalves 08 July 2019 (has links) A high recall problem in document retrieval is described by scenarios in which one wants to ensure that, given one (or multiple) query document(s), (nearly) all relevant related documents are retrieved, with minimum human effort. The problem may be expressed as a document similarity search: a user picks an example document (or multiple ones), and an automatic system recovers similar ones from a collection. This problem is often handled with a so-called Continuous Active Learning strategy: given the initial query, which is a document described by a set of relevant terms, a learning method returns the most-likely relevant documents (e.g., the most similar) to the reviewer in batches, the reviewer labels each document as relevant/not relevant and this information is fed back into the learning algorithm, which uses it to refine its predictions. This iterative process goes on until some quality condition is satisfied, which might demand high human effort, since documents are displayed as ranked lists and need to be labeled individually, and impact negatively the convergence of the learning algorithm. Besides, the vocabulary mismatch issue, i.e., when distinct terminologies are employed to describe semantically related or equivalent concepts, can impair recall capability. We propose TRIVIR, a novel interactive visualization tool powered by an information retrieval (IR) engine that implements an active learning protocol to support IR with high recall. The system integrates multiple graphical views in order to assist the user identifying the relevant documents in a collection. Given representative documents as queries, users can interact with the views to label documents as relevant/not relevant, and this information is used to train a machine learning (ML) algorithm which suggests other potentially relevant documents. TRIVIR offers two major advantages over existing visualization systems for IR. First, it merges the ML algorithm output into the visualization, while supporting several user interactions in order to enhance and speed up its convergence. Second, it tackles the vocabulary mismatch problem, by providing terms synonyms and a view that conveys how the terms are used within the collection. Besides, TRIVIR has been developed as a flexible front-end interface that can be associated with distinct text representations and multidimensional projection techniques. We describe two use cases conducted with collaborators who are potential users of TRIVIR. Results show that the system simplified the search for relevant documents in large collections, based on the context in which the terms occur. / No âmbito de recuperação de documentos, há situações em que é preciso assegurar que todos os documentos relevantes para uma dada consulta serão recuperados, de preferência com um esforço humano mínimo. Uma das maneiras de formular este problema de recuperação com alta cobertura é com uma consulta por similaridade: um usuário seleciona um (ou vários) documento(s), e um sistema automático é utilizado para recuperar, de uma coleção, os documentos semelhantes aos apresentados. Uma maneira usual de abordar o problema adota uma estratégia denominada Continuous Active Learning, em que dado o(s) documento(s) de consulta, descrito por seus termos relevantes, um método de aprendizado de máquina retorna e apresenta ao analista, em lotes, os documentos mais provavelmente relevantes, ou mais similares a esse(s). O analista classifica cada documento quanto à relevância, realimentando o algoritmo de aprendizado, o qual pode então refinar suas previsões. Esse processo interativo continua até que alguma condição de qualidade seja satisfeita, o que pode exigir grande esforço do usuário, já que os documentos são oferecidos no formato de listas ranqueadas e devem ser marcados individualmente, e impactar negativamente a convergência do algoritmo de aprendizado. Ademais, uma das dificuldades é a incompatibilidade de vocabulário, quando terminologias distintas são empregadas para descrever conceitos semanticamente relacionados, o que pode prejudicar a identificação dos documentos relevantes. Neste trabalho propomos TRIVIR, uma visualização interativa alimentada por um motor de recuperação de informação (RI) que implementa o protocolo Continuous Active Learning com o fim de auxiliar RI de alta cobertura. O sistema integra várias representações gráficas para auxiliar o usuário a identificar documentos relevantes em uma coleção. Dados documentos representativos como entrada, usuários podem interagir com as visualizações e marcar documentos como relevantes/não relevantes. Esta informação é utilizada para treinar um algoritmo de aprendizado de máquina que, por sua vez, sugere documentos potencialmente relevantes. TRIVIR oferece duas principais vantagens em relação a outros sistemas de visualização para RI. Primeiro, integra a visualização a um algoritmo de aprendizado de máquina com o qual usários podem interagir para melhorar e acelerar a convergência do algoritmo. Segundo, o sistema trata o problema de incompatibilidade de vocabulário, provendo sinônimos dos termos e o contexto no qual termos são utilizados na coleção. TRIVIR foi desenvolvido como uma interface web flexível podendo ser associado com diferentes técnicas de representação de documentos e projeção multidimensional. Descrevemos dois casos de uso conduzidos com potenciais usuários do TRIVIR. Resultados mostraram que o sistema facilitou a pesquisa por documentos relevantes em grandes coleções, por meio da utilização da informação do contexto no qual os termos ocorrem. Aprendizado de máquina Cobertura total Incompatibilidade de vocabulário Information retrieval Machine learning Recuperação de informação Total recall Visualização Visualization Vocabulary mismatch
167	Paralelização do algoritmo DIANA com OpenMP e MPI / Parallelization of the DIANA algorithm with OpenMP and MPI Ribeiro, Hethini do Nascimento 31 August 2018 (has links) Submitted by HETHINI DO NASCIMENTO RIBEIRO (hethini.ribeiro@outlook.com) on 2018-10-08T23:20:34Z No. of bitstreams: 1 Dissertação_hethini.pdf: 1986842 bytes, checksum: f1d6e8b9be8decd1fb1e992204d2b2d0 (MD5) / Rejected by Elza Mitiko Sato null (elzasato@ibilce.unesp.br), reason: Solicitamos que realize correções na submissão seguindo as orientações abaixo: Problema 01) A FICHA CATALOGRÁFICA (Obrigatório pela ABNT NBR14724) está desconfigurada e falta número do CDU. Problema 02) Falta citação nos agradecimentos, segundo a Portaria nº 206, de 4 de setembro de 2018, todos os trabalhos que tiveram financiamento CAPES deve constar nos agradecimentos a expressão: "O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001 Problema 03) Falta o ABSTRACT (resumo em língua estrangeira), você colocou apenas o resumo em português. Problema 04) Na lista de tabelas, a página referente a Tabela 9 está desconfigurada. Problema 05) A cidade na folha de aprovação deve ser Bauru, cidade onde foi feita a defesa. Bauru 31 de agosto de 2018 Problema 06) A paginação deve ser sequencial, iniciando a contagem na folha de rosto e mostrando o número a partir da introdução, a ficha catalográfica ficará após a folha de rosto e não deverá ser contada. OBS:-Estou encaminhando via e-mail o template/modelo das páginas pré-textuais para que você possa fazer as correções da paginação, sugerimos que siga este modelo pois ele contempla as normas da ABNT Lembramos que o arquivo depositado no repositório deve ser igual ao impresso, o rigor com o padrão da Universidade se deve ao fato de que o seu trabalho passará a ser visível mundialmente. Agradecemos a compreensão on 2018-10-09T14:18:32Z (GMT) / Submitted by HETHINI DO NASCIMENTO RIBEIRO (hethini.ribeiro@outlook.com) on 2018-10-10T00:30:40Z No. of bitstreams: 1 Dissertação_hethini_corrigido.pdf: 1570340 bytes, checksum: a42848ab9f1c4352dcef8839391827a7 (MD5) / Approved for entry into archive by Elza Mitiko Sato null (elzasato@ibilce.unesp.br) on 2018-10-10T14:37:37Z (GMT) No. of bitstreams: 1 ribeiro_hn_me_sjrp.pdf: 1566499 bytes, checksum: 640247f599771152e290426a2174d30f (MD5) / Made available in DSpace on 2018-10-10T14:37:37Z (GMT). No. of bitstreams: 1 ribeiro_hn_me_sjrp.pdf: 1566499 bytes, checksum: 640247f599771152e290426a2174d30f (MD5) Previous issue date: 2018-08-31 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / No início desta década havia cerca de 5 bilhões de telefones em uso gerando dados. Essa produção global aumentou aproximadamente 40% ao ano no início da década passada. Esses grandes conjuntos de dados que podem ser capturados, comunicados, agregados, armazenados e analisados, também chamados de Big Data, estão colocando desafios inevitáveis em muitas áreas e, em particular, no campo Machine Learning. Algoritmos de Machine Learning são capazes de extrair informações úteis desses grandes repositórios de dados e por este motivo está se tornando cada vez mais importante o seu estudo. Os programas aptos a realizarem essa tarefa podem ser chamados de algoritmos de classificação e clusterização. Essas aplicações são dispendiosas computacionalmente. Para citar alguns exemplos desse custo, o algoritmo Quality Threshold Clustering tem, no pior caso, complexidade O(��5). Os algoritmos hierárquicos AGNES e DIANA, por sua vez, possuem O(n²) e O(2n) respectivamente. Sendo assim, existe um grande desafio, que consiste em processar grandes quantidades de dados em um período de tempo realista, encorajando o desenvolvimento de algoritmos paralelos que se adequam ao volume de dados. O objetivo deste trabalho é apresentar a paralelização do algoritmo de hierárquico divisivo DIANA. O desenvolvimento do algoritmo foi realizado em MPI e OpenMP, chegando a ser três vezes mais rápido que a versão monoprocessada, evidenciando que embora em ambientes de memória distribuídas necessite de sincronização e troca de mensagens, para um certo grau de paralelismo é vantajosa a aplicação desse tipo de otimização para esse algoritmo. / Earlier in this decade there were about 5 billion phones in use generating data. This global production increased approximately 40% per year at the beginning of the last decade. These large datasets that can be captured, communicated, aggregated, stored and analyzed, also called Big Data, are posing inevitable challenges in many areas, and in particular in the Machine Learning field. Machine Learning algorithms are able to extract useful information from these large data repositories and for this reason their study is becoming increasingly important. The programs that can perform this task can be called classification and clustering algorithms. These applications are computationally expensive. To cite some examples of this cost, the Quality Threshold Clustering algorithm has, in the worst case, complexity O (n5). The hierarchical algorithms AGNES and DIANA, in turn, have O (n²) and O (2n) respectively. Thus, there is a great challenge, which is to process large amounts of data in a realistic period of time, encouraging the development of parallel algorithms that fit the volume of data. The objective of this work is to present the parallelization of the DIANA divisive hierarchical algorithm. The development of the algorithm was performed in MPI and OpenMP, reaching three times faster than the monoprocessed version, evidencing that although in distributed memory environments need synchronization and exchange of messages, for a certain degree of parallelism it is advantageous to apply this type of optimization for this algorithm. / 1757857 Paralelismo Algoritmos de clusterização Aprendizado de máquina Mineração de dados DIANA OpenMP MPI Parallelism Clustering algorithms Machine learning Data mining
168	Uso potencial de ferramentas de classificação de texto como assinaturas de comportamentos suicidas : um estudo de prova de conceito usando os escritos pessoais de Virginia Woolf Berni, Gabriela de Ávila January 2018 (has links) A presente dissertação analisa o conteúdo dos diários e cartas de Virginia Woolf para avaliar se um algoritmo de classificação de texto poderia identificar um padrão escrito relacionado aos dois meses anteriores ao suicídio de Virginia Woolf. Este é um estudo de classificação de texto. Comparamos 46 entradas de textos dos dois meses anteriores ao suicídio de Virginia Woolf com 54 textos selecionados aleatoriamente do trabalho de Virginia Woolf durante outro período de sua vida. O texto de cartas e dos diários foi incluído, enquanto livros, romances, histórias curtas e fragmentos de artigos foram excluídos. Os dados foram analisados usando um algoritmo de aprendizagem mecânica Naïve-Bayes. O modelo mostrou uma acurácia de 80,45%, sensibilidade de 69% e especificidade de 91%. A estatística Kappa foi de 0,6, o que significa um bom acordo, e o valor P do modelo foi de 0,003. A Área Sob a curva ROC foi 0,80. O presente estudo foi o primeiro a analisar a viabilidade de um modelo de machine learning, juntamente com dados de texto, a fim de identificar padrões escritos associados ao comportamento suicida nos diários e cartas de um romancista. Nossa assinatura de texto foi capaz de identificar o período de dois meses antes do suicídio com uma alta precisão / The present study analyzes the content of Virginia Woolf’s diaries and letters to assess whether a text classification algorithm could identify written pattern related to the two months previous to Virginia Woolf’s suicide. This is a text classification study. We compared 46 texts entries from the two months previous to Virginia Woolf’s suicide with 54 texts randomly selected from Virginia Woolf’s work during other period of her life. Letters and diaries were included, while books, novels, short stories, and article fragments were excluded. The data was analyzed by using a Naïve-Bayes machine-learning algorithm. The model showed a balanced accuracy of 80.45%, sensitivity of 69%, and specificity of 91%. The Kappa statistic was 0.6, which means a good agreement, and the p value of the model was 0.003. The Area Under the ROC curve was 0.80. The present study was the first to analyze the feasibility of a machine learning model coupled with text data in order to identify written patterns associated with suicidal behavior in the diaries and letters of a novelist. Our text signature was able to identify the period of two months preceding suicide with a high accuracy. Woolf, Virginia, 1882-1941 Transtorno bipolar Suicídio Aprendizado de máquina Manuscritos Bipolar disorder Machine learning Suicide Naïve-Bayes
169	Classificação de conteúdo malicioso baseado em Floresta de Caminhos Ótimos / Malicious content classification based on Optimum-path Forest Fernandes, Dheny [UNESP] 19 May 2016 (has links) Submitted by DHENY FERNANDES null (dfernandes@fc.unesp.br) on 2016-06-15T17:19:42Z No. of bitstreams: 1 Dissertação.pdf: 1456402 bytes, checksum: 56f028f949d37b33c377e1c247b0fd43 (MD5) / Approved for entry into archive by Ana Paula Grisoto (grisotoana@reitoria.unesp.br) on 2016-06-21T17:18:53Z (GMT) No. of bitstreams: 1 fernandes_d_me_bauru.pdf: 1456402 bytes, checksum: 56f028f949d37b33c377e1c247b0fd43 (MD5) / Made available in DSpace on 2016-06-21T17:18:53Z (GMT). No. of bitstreams: 1 fernandes_d_me_bauru.pdf: 1456402 bytes, checksum: 56f028f949d37b33c377e1c247b0fd43 (MD5) Previous issue date: 2016-05-19 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / O advento da Internet trouxe amplos benefícios nas áreas de comunicação, entretenimento, compras, relações sociais, entre outras. Entretanto, várias ameaças começaram a surgir nesse cenário, levando pesquisadores a criar ferramentas para lidar com elas. Spam, malwares, con- teúdos maliciosos, pishing, fraudes e falsas URLs são exemplos de ameaças. Em contrapartida, sistemas antivírus, firewalls e sistemas de detecção e prevenção de intrusão são exemplos de ferramentas de combate às tais ameaças. Principalmente a partir de 2010, encabeçado pelo malware Stuxnet, as ameaças tornaram-se muito mais complexas e persistentes, fazendo com que as ferramentas até então utilizadas se tornassem obsoletas. O motivo é que tais ferra- mentas, baseadas em assinaturas e anomalias, não conseguem acompanhar tanto a velocidade de desenvolvimento das ameaças quanto sua complexidade. Desde então, pesquisadores têm voltado suas atenções a métodos mais eficazes para se combater ciberameaças. Nesse contexto, algoritmos de aprendizagem de máquina estão sendo explorados na busca por soluções que analisem em tempo real ameaças provenientes da internet. Assim sendo, este trabalho tem como objetivo analisar o desempenho dos classificadores baseados em Floresta de Caminhos Ótimos, do inglês Optimum-path Forest (OPF), comparando-os com os demais classificadores do estado-da-arte. Para tanto, serão analisados dois métodos de extração de características: um baseado em tokens e o outro baseado em Ngrams, sendo N igual a 3. De maneira geral, o OPF mais se destacou no não bloqueio de mensagens legítimas e no tempo de treinamento. Em algumas bases a quantidade de spam corretamente classificada também foi alta. A versão do OPF que utiliza grafo completo foi melhor, apesar de que em alguns casos a versão com grafo knn se sobressaiu. Devido às exigências atuais em questões de segurança, o OPF, pelo seu rápido tempo de treinamento, pode ser melhorado em sua eficácia visando uma aplicação real. Em relação aos métodos de extração de características, 3gram foi superior, melhorando os resultados obtidos pelo OPF. / The advent of Internet has brought widespread benefits in the areas of communication, entertainment, shopping, social relations, among others. However, several threats began to emerge in this scenario, leading researchers to create tools to deal with them. Spam, malware, malicious content, phishing, fraud and false URLs are some examples of these threats. In contrast, anti-virus systems, firewalls and intrusion detection and prevention systems are examples of tools to combat such threats. Especially since 2010, headed by the Stuxnet malware, threats have become more complex and persistent, making the tools previously used became obsolete. The reason is that such tools based on signatures and anomalies can not follow both the speed of development of the threats and their complexity. Since then, researchers have turned their attention to more effective methods to combat cyber threats. In this context, machine learning algorithms are being exploited in the search for solutions to analyze real-time threats from the internet. Therefore, this study aims to analyze the performance of classifiers based on Optimum-path Forest, OPF, comparing them with the other state-of-the-art classifiers. To do so, two features extraction methods will be analyzed: one based on tokens and other based on Ngrams, considering N equal 3. Overall, OPF stood out in not blocking legitimate messages and training time. In some bases the amount of spam classified correctly was high as well. The version that uses complete graph was better, although in some cases the version that makes use of knn graph outperformed it. Due to the current demands on security issues, OPF, considering its fast training time, can be improved in its effectiveness aiming at a real application. In relation to feature extraction methods, 3gram was better, improving OPF’s results. Segurança em redes de computadores Floresta de Caminhos Ótimos Spam Classificação Aprendizado de máquina Computer network security Optimum-path Forest Classification Machine learning
170	Análise e Implementação de Algoritmos para a Aprendizagem por Reforço Medeiros, Thiago Rodrigues 14 February 2014 (has links) Made available in DSpace on 2015-05-14T12:36:47Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 6270725 bytes, checksum: 85c195f570753865adfc82909842b1d3 (MD5) Previous issue date: 2014-02-14 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The Reinforcement Learning is a subfield of machine learning and can be defined as a learning problem. An intelligent system that faces this problem, understands from rewards if the actions you are performing in the environment are good or bad. There are several methods and algorithms found in the literature to solve the problems of reinforcement learning. However, each of them have their advantages and disadvantages. From this, this paper presents a statistical analysis of some algorithms and a library of reinforcement learning, called AILibrary-RL. The AILibrary-RL is a library that has the objective to facilitate, organize and promote reusability of code, to implement systems that have this kind of problem. Before its development, a bibliographic survey of the main methods that solve this problem, aimed at statistical analysis of the data was performed in order to evaluate its advantages and disadvantages in different environments. This dissertation described the whole process of this work, since the survey bibliographic, analysis of the methods, mechanisms and library construction. / A Aprendizagem por Reforço é um subcampo do Aprendizado de Máquina e pode ser definido como um problema de aprendizagem. Um sistema inteligente que enfrenta esse problema, entende a partir de recompensas, se as ações que está realizando no ambiente são boas ou ruins. Existem vários métodos e algoritmos encontrados na literatura para resolver os problemas de aprendizagem por reforço, no entanto, cada um deles possuem suas vantagens e desvantagens. A partir disso, esse trabalho apresenta uma análise estatística de alguns algoritmos e uma biblioteca de aprendizagem por reforço, chamada AILibrary-RL. A AILibrary-RL é uma biblioteca que possui o objetivo de facilitar, organizar e promover a reusabilidade de código, para a implementação de sistemas que possuem esse tipo de problemática. Antes de seu desenvolvimento, foi realizado um levantamento bibliográfico dos principais métodos que solucionam a problemática de AR, visando a análise estatística dos mesmos, com o objetivo de avaliar suas vantagens e desvantagens em ambientes variados. Nesta dissertação está descrito todo o processo deste trabalho, desde o levantamento bibliográfico, análise dos métodos, mecanismos e construção da biblioteca. Aprendizado de Máquina Aprendizado por Reforço Análise Biblioteca Machine Learning Reinforcement Learning Library Statistical Analysis

Search results