Spelling suggestions: "subject:"dde aprendizado"" "subject:"dde prendizado""
351 |
O aprendizado e resistência camponesa nos acampamentos e assentamentos de sem-terra em Quedas do Iguaçu/PR / The learning and resistence peasant in the encampments and nestings of sem-terra im Queda do Iguaçu/PRRoos, Djoni 08 March 2010 (has links)
Made available in DSpace on 2017-05-12T14:42:33Z (GMT). No. of bitstreams: 1
Capitulo I.pdf: 2664070 bytes, checksum: 07dc2db2df74bb0037c752c716833c40 (MD5)
Previous issue date: 2010-03-08 / Fundação Araucária / The social movements, mainly the MST, possess prominence in the process of fight of the
peasants in Brazil. By means of the movements, the peasants have reached a set of conquests
of which if he detaches the nesting land. But, in the trajectory of fight of the peasants in the
social movements diverse contradictions, conflicts and actions of internal resistances exist that
go in contrast to definitive practical conceptions and of the proper movements. The conflicts
and internal resistances appear because the leaderships of the movements direct strange
actions to the project of the peasants, as the collective cooperatives, for example. Thus, the
fight for the land is formed by incompatible actions that possess origin in the encampments
and if they reveal with more intensity in the nestings, when the peasants conquers greater
autonomy. In this process of fight still, a learning exists politician constructed and acquired
during the period of the encampment that later is materialized in the nestings. At the same
time, this learning intercrosses with a learning and to know constructed in the trajectory of life
of the peasants, that is, exists a learning forged in the process of fight in the social movements
and learning, also forged in the fights and resistances, is of the movements, that however if
complement and however oppose. To understand this learning in the movements, as well as
the existing conflict of projects in the fight for the land, two nestings in the city of Quedas do
Iguaçu (region Center-South of the State of the Paraná), being one older, nesting had been
studied Rio Perdido, created in 1988 and formed for 60 families and the other, the Celso
Furtado, created in 2005, and formed for 1089 families. Both the nestings had been conquered
from fights made in the MST. / Os movimentos sociais, principalmente o MST, possuem destaque no processo de luta dos
camponeses no Brasil. Por meio dos movimentos, os camponeses têm alcançado um conjunto
de conquistas das quais se destaca a terra de assentamento. Mas, na trajetória de luta dos
camponeses nos movimentos sociais existem contradições diversas, conflitos e ações de
resistências internas que vão ao contrário de determinadas concepções e práticas dos próprios
movimentos. Os conflitos e resistências internas surgem porque as lideranças dos movimentos
encaminham ações estranhas ao projeto dos camponeses, como as cooperativas coletivas, por
exemplo. Assim, a luta pela terra é formada por ações contraditórias que possuem origem nos
acampamentos e se manifestam com mais intensidade nos assentamentos, quando os
camponeses conquistam maior autonomia. Neste processo de luta ainda, existe um
aprendizado político construído e adquirido durante o período do acampamento que
posteriormente se materializa nos assentamentos. Ao mesmo tempo, este aprendizado
entrecruza com o aprendizado e saberes construídos na trajetória de vida dos camponeses, ou
seja, existe um aprendizado forjado no processo de luta nos movimentos sociais e
aprendizado, também forjado nas lutas e resistências, fora dos movimentos, que ora se
complementam e ora contrapõem. Para compreender este aprendizado nos movimentos, bem
como o conflito de projetos existente na luta pela terra, foram estudados dois assentamentos
no município de Quedas do Iguaçu (mesorregião Centro-Sul do Estado do Paraná), sendo um
mais antigo, assentamento Rio Perdido, criado em 1988 e formado por 60 famílias e o outro, o
Celso Furtado, criado em 2005, e formado por 1089 famílias. Ambos os assentamentos foram
conquistados a partir de lutas feitas no MST.
Palavras-Chave: Acampamento; Assentamento; MST; Aprendizado; Campesinato.
|
352 |
[en] TRANSITIONBASED DEPENDENCY PARSING APPLIED ON UNIVERSAL DEPENDENCIES / [pt] ANÁLISE DE DEPENDÊNCIA BASEADA EM TRANSIÇÃO APLICADA A UNIVERSAL DEPENDENCIESCESAR DE SOUZA BOUCAS 11 February 2019 (has links)
[pt] Análise de dependência consiste em obter uma estrutura sintática
correspondente a determinado texto da linguagem natural. Tal estrutura,
usualmente uma árvore de dependência, representa relações hierárquicas
entre palavras. Representação computacionalmente eficiente que vem sendo
utilizada para lidar com desafios que surgem com o crescente volume de
informação textual online. Podendo ser utilizada, por exemplo, para inferir
computacionalmente o significado de palavras das mais diversas línguas.
Este trabalho apresenta a análise de dependência com enfoque em uma de
suas modelagens mais populares em aprendizado de máquina: o método
baseado em transição. Desenvolvemos uma implementação gulosa deste
modelo com um classificador neural simples para executar experimentos.
Datasets da iniciativa Universal Dependencies são utilizados para treinar e
posteriormente testar o sistema com a validação disponibilizada na tarefa
compartilhada da CoNLL-2017. Os resultados mostram empiricamente que
se pode obter ganho de performance inicializando a camada de entrada
da rede neural com uma representação de palavras obtida com pré-treino.
Chegando a uma performance de 84,51 LAS no conjunto de teste da
língua portuguesa do Brasil e 75,19 LAS no conjunto da língua inglesa.
Ficando cerca de 4 pontos atrás da performance do melhor resultado para
analisadores de dependência baseados em sistemas de transição. / [en] Dependency parsing is the task that transforms a sentence into a
syntactic structure, usually a dependency tree, that represents relations
between words. This representations are useful to deal with several tasks
that arises with the increasing volume of textual online information and
the need for technologies that depends on NLP tasks to work. It can be
used, for example, to enable computers to infer the meaning of words
of multiple natural languages. This paper presents dependency parsing
with focus on one of its most popular modeling in machine learning: the
transition-based method. A greedy implementation of this model with
a simple neural network-based classifier is used to perform experiments.
Universal Dependencies treebanks are used to train and then test the system
using the validation script published in the CoNLL-2017 shared task. The
results empirically indicate the benefits of initializing the input layer of the
network with word embeddings obtained through pre-training. It reached
84.51 LAS in the Portuguese of Brazil test set and 75.19 LAS in the English
test set. This result is nearly 4 points behind the performance of the best
results of transition-based parsers.
|
353 |
Uso de aprendizado supervisionado para análise de confiabilidade de dados de crowdsourcing sobre posicionamento de ônibus / Use of supervised learning to analyze reliability of crowdsourcing bus location dataDiego Vieira Neves 16 October 2018 (has links)
Pesquisadores de diversas áreas estão estudando o desenvolvimento do que chamamos de Cidades Inteligentes: a integração de Sistemas de Informação e Comunicação com tecnologias de Internet das Coisas para utilizar os recursos de uma cidade de forma mais inteligente. Um dos principais objetivos das cidades inteligentes é solucionar os problemas relacionados à mobilidade urbana, que afeta significativamente a qualidade de vida da população. Um problema observável nas grandes metrópoles é a qualidade dos seus serviços de transporte público, especialmente quando nos referimos ao modal ônibus. A falta de informações confiáveis, associada à baixa qualidade dos serviços de transporte coletivo disponibilizados, leva o usuário a não optar pela utilização desse recurso, o que agrava problemas urbanos sociais e ambientais. Para reverter esse cenário, as iniciativas em cidades inteligentes propõem o uso de Sistemas de Transportes Inteligentes que podem utilizar diversos sensores e equipamentos para coletar diferente tipos de dados referente aos serviços de transporte público. A captura e processamento desses dados permite, em tese, permite que o cidadão possa utilizar o transporte público com confiabilidade e previsibilidade. Contudo, esses dados podem ser insuficientes ou de baixa qualidade para uso em tempo real. Neste trabalho de mestrado investigamos o uso de dados obtidos via colaboração coletiva (crowdsourcing) como complemento dessas informações. Para mitigar as incertezas introduzidas pelo uso de crowdsourcing, este trabalho propõe a utilização de técnicas de aprendizado de máquina para criação de métodos de análise de confiabilidade dos dados coletados para o sistema de transporte público (por ônibus) do município de São Paulo. Para mitigar as incertezas introduzidas pelo uso de crowdsourcing, este trabalho propõe e compara o uso de diferentes técnicas de aprendizado de máquina para criar um modelo de análise de confiabilidade para os dados coletados, especializado no sistema de transporte coletivo (por ônibus) da cidade de São Paulo. Os resultados demostram, que os algoritmos de Árvore de Decisão e Gaussian Naive Bayes foram mais eficazes e eficientes na realização da atividade de classificação dos dados obtidos com crowdsourcing. O algoritmo de Árvore de Decisão, apresentou os melhores indicadores de desempenho em termos de acurácia (94,34\\%) e F-score (99\\%), e o segundo melhor tempo de execução (0,023074 segundo). Já o algoritmo de Gaussian Naive Bayes foi o mais eficiente, com tempo médio de execução de 0,003182 segundos e foi o quarto melhor resultado em termos de acurácia (98,18\\%) e F-score (97\\%) / Researchers from different areas are studying the development of what we call Smart Cities: integrating Information and Communication Systems with Internet of Things to use city resources more intelligently. A major objective of smart cities is to solve problems related to urban mobility that significantly affects the quality of life of the population. An observable problem in big cities is the quality of their public transport services, specifically when we refer to the bus modal. The lack of reliable information, associated with the poor quality of public transport services, encouraging the user to look for alternatives, which aggravates urban social and environmental problems. To reverse this scenario, smart cities initiatives propose the use Intelligent Transport Systems, that can use various sensors and equipment to collect several types of data on public transport services. The capture and processing of these data allows, in theory, citizens to use the public transport with reliability and predictability. However, this data can be insufficient or of poor quality for usage in real-time. This master\'s work investigates the use of crowdsourcing data as a complement to this information. To mitigate the uncertainties introduced by the use of crowdsourcing, this research proposes and compares the use of different machine learning techniques to create a reliability analysis model for the data collected that is specialized for use on public transport system (bus) in the city of São Paulo. The results show that the Decision Tree and Gaussian Naive Bayes algorithms are more effective and efficient in performing the classification activity of the data obtained with crowdsourcing. The Decision Tree algorithm presented the best performance indicators in terms of accuracy (94.34\\%) and F-score (99\\%), and the second best execution time (0.023074 seconds). The Gaussian Naive Bayes algorithm was the most efficient, with an average execution time of 0.003182 seconds and was the forth best result in terms of accuracy (98.18\\%) and F-score (97\\%)
|
354 |
Dynamic CPU frequency scaling using machine learning for NFV applications. / Escalamento dinâmico de frequência da CPU usando aprendizado de máquina em aplicações NFV.Ligia Maria Moreira Zorello 10 October 2018 (has links)
Growth in the Information and Communication Technology sector is increasing the need to improve the quality of service and energy efficiency, as this industry has already surpassed 12% of global energy consumption in 2017. Data centers correspond to a large part of this consumption, accounting for about 15% of energy expenditure on the Information and Communication Technology domain; moreover, the subsystem that generates the most costs for data center operators is that of servers and storage. Many solutions have been proposed to reduce server consumption, such as the use of dynamic voltage and frequency scaling, a technology that enables the adaptation of energy consumption to the workload by modifying the operating voltage and frequency, although they are not optimized for network traffic. In this thesis, a control method was developed using a prediction engine based on the analysis of the ongoing traffic. Machine learning algorithms based on Neural Networks and Support Vector Machines have been used, and it was verified that it is possible to reduce power consumption by up to 12% on servers with Intel Sandy Bridge processor and up to 21 % in servers with Intel Haswell processor when compared to the maximum frequency, which is currently the most used solution in the industry. / O crescimento do setor de Tecnologia da Informação e Comunicação está aumentando a necessidade de melhorar a qualidade de serviço e a eficiência energética, pois o setor já ultrapassou a marca de 12% do consumo energético global em 2017. Data centers correspondem a grande parte desse consumo, representando cerca de 15% dos gastos com energia do setor Tecnologia Informação e Comunicação; além disso, o subsistema que gera mais custos para operadores de data centers é o de servidores e armazenamento. Muitas soluções foram propostas a fim de reduzir o consumo de energia com servidores, como o uso de escalonamento dinâmico de tensão e frequência, uma tecnologia que permite adaptar o consumo de energia à carga de trabalho, embora atualmente não sejam otimizadas para o processamento do tráfego de rede. Nessa dissertação, foi desenvolvido um método de controle usando um mecanismo de previsão baseado na análise do tráfego que chega aos servidores. Os algoritmos de aprendizado de máquina baseados em Redes Neurais e em Máquinas de Vetores de Suporte foram utilizados, e foi verificado que é possível reduzir o consumo de energia em até 12% em servidores com processador Intel Sandy Bridge e em até 21% em servidores com processador Intel Haswell quando comparado com a frequência máxima, que é atualmente a solução mais utilizada na indústria.
|
355 |
"O framework de integração do sistema DISCOVER" / The Discover integration frameworkPrati, Ronaldo Cristiano 04 April 2003 (has links)
Talvez uma das maiores capacidades do ser humano seja a sua habilidade de aprender a partir de observações e transmitir o que aprendeu para outros humanos. Durante séculos, a humanidade vem tentado compreender o mundo em que vive e, a partir desse novo conhecimento adquirido, melhorar o mundo em que vive. O desenvolvimento da tecnologia colocou a descoberta de conhecimento em um momento ímpar na história da humanidade. Com os progressos da Ciência da Computação, e, em particular, da Inteligência Artificial - IA - e Aprendizado de Máquina -AM, hoje em dia é possível, a partir de métodos de inferência indutiva e utilizando um conjunto de exemplos, descobrir algum tipo de conhecimento implícito nesses exemplos. Entretanto, por ser uma área de pesquisa relativamente nova, e por envolver um processo tanto iterativo quanto interativo, atualmente existem poucas ferramentas que suportam eficientemente a descoberta de conhecimento a partir dos dados. Essa falta de ferramentas se agrava ainda mais no que se refere ao seu uso por pesquisadores em Aprendizado de Máquina e Aquisição de Conhecimento. Esses fatores, além do fato que algumas pesquisas em nosso Laboratório de Inteligência Computacional - LABIC - têm alguns componentes em comum, motivaram a elaboração do projeto Discover, que consiste em uma estratégia de trabalho em conjunto, envolvendo um conjunto de ferramentas que se integram e interajam, e que supram as necessidades de pesquisa dos integrantes do nosso laboratório. O Discover também pode ser utilizado como um campo de prova para desenvolver novas ferramentas e testar novas idéias. Como o Discover tem como principal finalidade o seu uso e extensão por pesquisadores, uma questão principal é que a arquitetura do projeto seja flexível o suficiente para permitir que novas pesquisas sejam englobadas e, simultaneamente, deve impor determinados padrões que permitam a integração eficiente de seus componentes. Neste trabalho, é proposto um framework de integração de componentes que tem como principal objetivo possibilitar a criação de um sistema computacional a partir das ferramentas desenvolvidas para serem utilizadas no projeto Discover. Esse framework compreende um mecanismo de adaptação de interface que cria uma camada (interface horizontal) sobre essas ferramentas, um poderoso mecanismo de metadados, que é utilizado para descrever tanto os componentes que implementam as funcionalidades do sistema quanto as configurações de experimentos criadas pelos usuário, que serão executadas pelo framework, e um ambiente de execução para essas configurações de experimentos. / One of human greatest capability is the ability to learn from observed instances of the world and to transmit what have been learnt to others. For thousands of years, we have tried to understand the world, and used the acquired knowledge to improve it. Nowadays, due to the progress in digital data acquisition and storage technology as well as significant progress in the field of Artificial Intelligence - AI, particularly Machine Learning - ML, it is possible to use inductive inference in huge databases in order to find, or discover, new knowledge from these data. The discipline concerned with this task has become known as Knowledge Discovery from Databases - KDD. However, this relatively new research area offers few tools that can efficiently be used to acquire knowledge from data. With these in mind, a group of researchers at the Computational Intelligence Laboratory - LABIC - is working on a system, called Discover, in order to help our research activities in KDD and ML. The aim of the system is to integrate ML algorithms mostly used by the community with the data and knowledge processing tools developed as the results of our work. The system can also be used as a workbench for new tools and ideas. As the main concern of the Discover is related to its use and extension by researches, an important question is related to the flexibility of its architecture. Furthermore, the Discover architecture should allow new tools be easily incorporated. Also, it should impose strong patterns to guarantee efficient component integration. In this work, we propose a component integration framework that aims the development of an integrated computational environment using the tools already implemented in the Discover project. The proposed component integration framework has been developed keeping in mind its future integration with new tools. This framework offers an interface adapter mechanism that creates a layer (horizontal interface) over these tools, a powerful metadata mechanism, which is used to describe both components implementing systems' functionalities and experiment configurations created by the user, and an environment that enables these experiment execution.
|
356 |
Técnicas de aprendizado não supervisionado baseadas no algoritmo da caminhada do turista / Unsupervised learning techniques based on the tourist walk algorithmPorto Filho, Carlos Humberto 07 November 2017 (has links)
Nas últimas décadas, a quantidade de informações armazenadas no formato digital tem crescido de forma exponencial, levando à necessidade cada vez maior de produção de ferramentas computacionais que auxiliem na geração do conhecimento a partir desses dados. A área de Aprendizado de Máquina fornece diversas técnicas capazes de identificar padrões nesses conjuntos de dados. Dentro dessas técnicas, este trabalho destaca o Aprendizado de Máquina Não Supervisionado onde o objetivo é classificar as entidades em clusters (grupos) mutuamente exclusivos baseados na similaridade entre as instâncias. Os clusters não são pré-definidos e daí o elemento não supervisionado. Organizar esses dados em clusters que façam sentido é uma das maneiras mais fundamentais de entendimento e aprendizado. A análise de clusters é o estudo dos métodos para agrupamento e se divide entre hierárquico e particional. A classificação hierárquica é uma sequência encadeada de partições enquanto que na particional há somente uma partição. O interesse deste trabalho são as técnicas baseadas em uma caminhada determinística parcialmente auto repulsiva conhecida como caminhada do turista. Partindo da hipótese de que é possível utilizar a caminhada do turista como uma técnica de Aprendizado de Máquina Não Supervisionado, foi implementado um algoritmo hierárquico baseado na caminhada do turista proposto por Campiteli et al. (2006). Foi avaliado, através de diferentes conjuntos de imagens médicas, como essa técnica se compara com técnicas hierárquicas tradicionais. Também é proposto um novo algoritmo de Aprendizado de Máquina Não Supervisionado particional baseado na caminhada do turista, chamado de Tourist Walk Partitional Clustering (TWPC). Os resultados mostraram que a técnica hierárquica baseada na caminhada do turista é capaz de identificar clusters em conjuntos de imagens médicas através de uma árvore que não impõe uma estrutura binária, com um número menor de hierarquias e uma invariabilidade à escala dos dados, resultando em uma estrutura mais organizada. Mesmo que a árvore não seja diretamente baseada nas distâncias dos dados, mas em um ranking de vizinhos, ela ainda preserva uma correlação entre suas distâncias cofenéticas e as distâncias reais entre os dados. O método particional proposto TWPC foi capaz de encontrar, de forma eficiente, formas arbitrárias de clusters com variações inter-cluster e intra-cluster. Além disso o algoritmo tem como vantagens: ser determinístico; funcionar com interações locais, sem a necessidade de conhecimento a priori de todos os itens do conjunto; incorporar o conceito de ruído e outlier; e funcionar com um ranking de vizinhos, que pode ser construído através de qualquer medida. / In the last decades, the amount of data stored in digital format has grown exponentially, leading to the increasing need to produce computational tools that help generate knowledge from these data. The Machine Learning field provides several techniques capable of identifying patterns in these data sets. Within these techniques we highlight the Unsupervised Machine Learning where the objective is to classify the entities in mutually exclusive clusters based on the similarity between the instances. Clusters are not predefined and hence the unsupervised element. Organizing this data into clusters that make sense is one of the most fundamental ways of understanding and learning. Cluster analysis is the study of methods for clustering and is divided between hierarchical and partitional. A hierarchical clustering is a sequence of partitions whereas in the partitional clustering there is only one partition. Here we are interested in techniques based on a deterministic partially self-avoiding walk, known as tourist walk. Based on the hypothesis that it is possible to use the tourist walk as an unsupervised machine learning technique, we have implemented a hierarchical algorithm based on the tourist walk proposed by Campiteli et al. (2006). We evaluate this algorithm using different sets of medical images and compare it with traditional hierarchical techniques. We also propose a new algorithm for partitional clustering based on the tourist talk, called Tourist Walk Partitional Clustering (TWPC). The results showed that the hierarchical technique based on the tourist walk is able to identify clusters in sets of medical images through a tree that does not impose a binary structure, with a smaller number of hierarchies and is invariable to scale transformation, resulting in a more organized structure. Even though the tree is not directly based on the distances of the data but on a ranking of neighbors, it still preserves a correlation between its cophenetic distances and the actual distances between the data. The proposed partitional clustering method TWPC was able to find, in an efficient way, arbitrary shapes of clusters with inter-cluster and intra-cluster variations. In addition, the algorithm has the following advantages: it is deterministic; it operates based on local interactions, without the need for a priori knowledge of all the items in the set; it is capable of incorporate the concept of noise and outlier; and work with a ranking of neighbors, which can be built through any measure.
|
357 |
Modelos computacionais prognósticos de lesões traumáticas do plexo braquial em adultos / Prognostic computational models for traumatic brachial plexus injuries in adultsAbud, Luciana de Melo e 20 June 2018 (has links)
Estudos de prognóstico clínico consistem na predição do curso de uma doença em pacientes e são utilizados por profissionais da saúde com o intuito de aumentar as chances ou a qualidade de sua recuperação. Sob a perspectiva computacional, a criação de um modelo prognóstico clínico é um problema de classificação, cujo objetivo é identificar a qual classe (dentro de um conjunto de classes predefinidas) uma nova amostra pertence. Este projeto visa a criar modelos prognósticos de lesões traumáticas do plexo braquial, um conjunto de nervos que inervam os membros superiores, utilizando dados de pacientes adultos com esse tipo de lesão. Os dados são provenientes do Instituto de Neurologia Deolindo Couto (INDC) da Universidade Federal do Rio de Janeiro (UFRJ) e contêm dezenas de atributos clínicos coletados por meio de questionários eletrônicos. Com esses modelos prognósticos, deseja-se identificar de maneira automática os possíveis preditores do curso desse tipo de lesão. Árvores de decisão são classificadores frequentemente utilizados para criação de modelos prognósticos, por se tratarem de um modelo transparente, cujo resultado pode ser examinado e interpretado clinicamente. As Florestas Aleatórias, uma técnica que utiliza um conjunto de árvores de decisão para determinar o resultado final da classificação, podem aumentar significativamente a acurácia e a generalização dos modelos gerados, entretanto ainda são pouco utilizadas na criação de modelos prognósticos. Neste projeto, exploramos a utilização de florestas aleatórias nesse contexto, bem como a aplicação de métodos de interpretação de seus modelos gerados, uma vez que a transparência do modelo é um aspecto particularmente importante em domínios clínicos. A estimativa de generalização dos modelos resultantes foi feita por meio de métodos que viabilizam sua utilização sobre um número reduzido de instâncias, uma vez que os dados relativos ao prognóstico são provenientes de 44 pacientes do INDC. Além disso, adaptamos a técnica de florestas aleatórias para incluir a possível existência de valores faltantes, que é uma característica presente nos dados utilizados neste projeto. Foram criados quatro modelos prognósticos - um para cada objetivo de recuperação, sendo eles a ausência de dor e forças satisfatórias avaliadas sobre abdução do ombro, flexão do cotovelo e rotação externa no ombro. As acurácias dos modelos foram estimadas entre 77% e 88%, utilizando o método de validação cruzada leave-one-out. Esses modelos evoluirão com a inclusão de novos dados, provenientes da contínua chegada de novos pacientes em tratamento no INDC, e serão utilizados como parte de um sistema de apoio à decisão clínica, de forma a possibilitar a predição de recuperação de um paciente considerando suas características clínicas. / Studies of prognosis refer to the prediction of the course of a disease in patients and are employed by health professionals in order to improve patients\' recovery chances and quality. Under a computational perspective, the creation of a prognostic model is a classification task that aims to identify to which class (within a predefined set of classes) a new sample belongs. The goal of this project is the creation of prognostic models for traumatic injuries of the brachial plexus, a network of nerves that innervates the upper limbs, using data from adult patients with this kind of injury. The data come from the Neurology Institute Deolindo Couto (INDC) of Rio de Janeiro Federal University (UFRJ) and they are characterized by dozens of clinical features that are collected by means of electronic questionnaires. With the use of these prognostic models we intended to automatically identify possible predictors of the course of brachial plexus injuries. Decision trees are classifiers that are frequently used for the creation of prognostic models since they are a transparent technique that produces results that can be clinically examined and interpreted. Random Forests are a technique that uses a set of decision trees to determine the final classification results and can significantly improve model\'s accuracy and generalization, yet they are still not commonly used for the creation of prognostic models. In this project we explored the use of random forests for that purpose, as well as the use of interpretation methods for the resulting models, since model transparency is an important aspect in clinical domains. Model assessment was achieved by means of methods whose application over a small set of samples is suitable, since the available prognostic data refer to only 44 patients from INDC. Additionally, we adapted the random forests technique to include missing data, that are frequent among the data used in this project. Four prognostic models were created - one for each recovery goal, those being absence of pain and satisfactory strength evaluated over shoulder abduction, elbow flexion and external shoulder rotation. The models\' accuracies were estimated between 77% and 88%, calculated through the leave-one-out cross validation method. These models will evolve with the inclusion of new data from new patients that will arrive at the INDC and they will be used as part of a clinical decision support system, with the purpose of prediction of a patient\'s recovery considering his or her clinical characteristics.
|
358 |
Rotulação de indivíduos representativos no aprendizado semissupervisionado baseado em redes: caracterização, realce, ganho e filosofia / Representatives labeling for network-based semi-supervised learning:characterization, highlighting, gain and philosophyAraújo, Bilzã Marques de 29 April 2015 (has links)
Aprendizado semissupervisionado (ASS) é o nome dado ao paradigma de aprendizado de máquina que considera tanto dados rotulados como dados não rotulados. Embora seja considerado frequentemente como um meio termo entre os paradigmas supervisionado e não supervisionado, esse paradigma é geralmente aplicado a tarefas preditivas ou descritivas. Na tarefa preditiva de classificação, p. ex., o objetivo é rotular dados não rotulados de acordo com os rótulos dos dados rotulados. Nesse caso, enquanto que os dados não rotulados descrevem as distribuições dos dados e mediam a propagação dos rótulos, os itens de dados rotulados semeiam a propagação de rótulos e guiam-na à estabilidade. No entanto, dados são gerados tipicamente não rotulados e sua rotulação requer o envolvimento de especialistas no domínio, rotulando-os manualmente. Dificuldades na visualização de grandes volumes de dados, bem como o custo associado ao envolvimento do especialista, são desafios que podem restringir o desempenho dessa tarefa. Por- tanto, o destacamento automático de bons candidatos a dados rotulados, doravante denominados indivíduos representativos, é uma tarefa de grande importância, e pode proporcionar uma boa relação entre o custo com especialista e o desempenho do aprendizado. Dentre as abordagens de ASS discriminadas na literatura, nosso interesse de estudo se concentra na abordagem baseada em redes, onde conjuntos de dados são representados relacionalmente, através da abstração gráfica. Logo, o presente trabalho tem como objetivo explorar a influência dos nós rotulados no desempenho do ASS baseado em redes, i.e., estudar a caracterização de nós representativos, como a estrutura da rede pode realçá-los, o ganho de desempenho de ASS proporcionado pela rotulação manual dos mesmos, e aspectos filosóficos relacionados. Em relação à caracterização, critérios de caracterização de nós centrais em redes são estudados considerando-se redes com estruturas modulares bem definidas. Contraintuitivamente, nós bastantes conectados (hubs) não são muito representativos. Nós razoavelmente conectados em vizinhanças pouco conectadas, por outro lado, são; estritamente local, esse critério de caracterização é escalável a grandes volumes de dados. Em redes com distribuição de grau homogênea - modelo Girvan-Newman (GN), nós com alto coeficiente de agrupamento também mostram-se representativos. Por outro lado, em redes com distribuição de grau heterogênea - modelo Lancichinetti-Fortunato-Radicchi (LFR), nós com alta intermedialidade se destacam. Nós com alto coeficiente de agrupamento em redes GN estão tipicamente situados em motifs do tipo quase-clique; nós com alta intermedialidade em redes LFR são hubs situados na borda das comunidades. Em ambos os casos, os nós destacados são excelentes regularizadores. Além disso, como critérios diversos se destacam em redes com características diversas, abordagens unificadas para a caracterização de nós representativos também foram estudadas. Crítica para o realce de indivíduos representativos e o bom desempenho da classificação semissupervisionada, a construção de redes a partir de bases de dados vetoriais também foi estudada. O método denominado AdaRadius foi proposto, e apresenta vantagens tais como adaptabilidade em bases de dados com densidade variada, baixa dependência da configuração de seus parâmetros, e custo computacional razoável, tanto sobre dados pool-based como incrementais. As redes resultantes, por sua vez, são esparsas, porém conectadas, e permitem que a classificação semissupervisionada se favoreça da rotulação prévia de indivíduos representativos. Por fim, também foi estudada a validação de métodos de construção de redes para o ASS, sendo proposta a medida denominada coerência grafo-rótulos de Katz. Em suma, os resultados discutidos apontam para a validade da seleção de indivíduos representativos para semear a classificação semissupervisionada, corroborando a hipótese central da presente tese. Analogias são encontrados em diversos problemas modelados em redes, tais como epidemiologia, propagação de rumores e informações, resiliência, letalidade, grandmother cells, e crescimento e auto-organização. / Semi-supervised learning (SSL) is the name given to the machine learning paradigm that considers both labeled and unlabeled data. Although often defined as a mid-term between unsupervised and supervised machine learning, this paradigm is usually applied to predictive or descriptive tasks. In the classification task, for example, the goal is to label the unlabeled data according to the labels of the labeled data. In this case, while the unlabeled data describes the data distributions and mediate the label propagation, the labeled data seeds the label propagation and guide it to the stability. However, as a whole, data is generated unlabeled, and to label data requires the involvement of domain specialists, labeling it by hand. Difficulties on visualizing huge amounts of data, as well as the cost of the specialists involvement, are challenges which may constraint the labeling task performance. Therefore, the automatic highlighting of good candidates to label by hand, henceforth called representative individuals, is a high value task, which may result in a good tradeoff between the cost with the specialist and the machine learning performance. Among the SSL approaches in the literature, our study is focused on the network--based approache, where datasets are represented relationally, through the graphic abstraction. Thus, the current study aims to explore and exploit the influence of the labeled data on the SSL performance, that is, the proper characterization of representative nodes, how the network structure may enhance them, the SSL performance gain due to labeling them by hand, and related philosophical aspects. Concerning the characterization, central nodes characterization criteria were studied on networks with well-defined modular structures. Counterintuitively, highly connected nodes (hubs) are not much representatives. Not so connected nodes placed in low connectivity neighborhoods are, though. Strictly local, this characterization is scalable to huge volumes of data. In networks with homogeneous degree distribution - Girvan-Newman networks (GN), nodes with high clustering coefficient also figure out as representatives. On the other hand, in networks with inhomogeneous degree distribution - Lancichinetti-Fortunato-Radicchi networks (LFR), nodes with high betweenness stand out. Nodes with high clustering coefficient in GN networks typically lie in almost-cliques motifs; nodes with high betweenness in LFR networks are highly connected nodes, which lie in communities borders. In both cases, the highlighted nodes are outstanding regularizers. Besides that, unified approaches to characterize representative nodes were studied because diverse criteria stand out for diverse networks. Crucial for highlighting representative nodes and ensure good SSL performance, the graph construction from vector-based datasets was also studied. The method called AdaRadius was introduced and presents advantages such as adaptability to data with variable density, low dependency on parameters settings, and reasonable computational cost on both pool based and incremental data. Yielding networks are sparse but connected and allow the semi-supervised classification to take great advantage of the manual labeling of representative nodes. Lastly, the validation of graph construction methods for SSL was studied, being proposed the validation measure called graph-labels Katz coherence. Summing up, the discussed results give rise to the validity of representative individuals selection to seed the semi-supervised classification, supporting the central assumption of current thesis. Analogies may be found in several real-world network problems, such as epidemiology, rumors and information spreading, resilience, lethality, grandmother cells, and network evolving and self-organization.
|
359 |
Influência da previsibilidade de eventos no ambiente e na inibição motora proativa sobre efeitos atencionais observados em tarefas de tempo de reação. / Influence of the predictability of events in the environment and of proactive motor inhibition on attentional effects in reaction time tasks.Sais, Fernanda Amadei 27 June 2017 (has links)
O aprendizado de regularidades do ambiente e a utilização de predições sobre eventos futuros para alocar o processamento sensorial e implementar estratégias de controle motor são processos determinantes dos efeitos atencionais. Um dos objetivos desse trabalho foi verificar se a atenção pode ser alocada seguindo como pista probabilística a sequência de lados de apresentação dos estímulos alvo gerada por cadeias de Markov probabilísticas de ordem 1 e de ordem 2, que envolvem um aprendizado estatístico implícito mais complexo. Encontramos evidências de que os indivíduos são capazes de alocar a atenção de acordo com esse aprendizado. Avaliamos, também, o grau de inibição motora proativa implementado durante a realização de uma tarefa e a sua interação com efeitos atencionais. Resultados com medidas de tempo de reação e de EEG indicam que, nas tarefas utilizadas nesse trabalho, os efeitos da pista visual sobre os tempos de reação possam estar associados a mecanismos de controle motor inibitórios. / The ability to learn regularities in the environment and to use predictions about future events to allocate sensory processing and to implement motor control strategies are strong drivers of attentional effects. In this study we investigated if attention could be oriented in space using as a probabilistic cue the sequence at which target stimuli would appear at each side of a computer screen, when that sequence could be generated using Markov chains of order 1 and of order 2, which would require complex statistical learning. We found evidence that individuals are able to allocate attention according to this learning. Also, here we evaluate the level of proactive motor inhibition in a task and how it interacted with attentional effects. Results of reaction time measures and EEG indicate that, in tasks such as the ones used in this study, the effects a visual cue has on reaction times can be related to mechanisms of motor inhibitory control.
|
360 |
Um filtro iterativo utilizando árvores de decisão / An Iterative Decision Tree Threshold FilterPicchi Netto, Oscar 24 September 2013 (has links)
Usar algoritmos de Aprendizado de Máquina é um dos modos ecientes de extrair as informações de grandes bases biológicas. Sabendo-se que a quantidade de dados que são coletados cresce a cada dia, o uso de alguma técnica de seleção de atributos eficiente é, em alguns casos, essencial não só para otimizar o tempo do algoritmo de Aprendizado da Máquina a ser aplicado posteriormente como também para reduzir os dados, de forma que possa ser possível testá-los, por exemplo, em uma bancada de laboratório em algumas situações específicas. O objetivo deste estudo é propor uma abordagem utilizando árvores de decisão em um filtro iterativo, visando auxiliar na extração de informação de grande bases biológicas. Pois, com uma base de menor dimensionalidade, um especialista humano pode entender melhor ou ainda utilizar um algoritmo de Aprendizado de Máquina de forma mais eficaz. O filtro proposto pode utilizar qualquer classificador com um seletor de atributos embutido e qualquer métrica pode ser utilizada para determinar se o atributo deve ser escolhido. Foi fixado, neste estudo, o algoritmo utilizado como J48 e a área embaixo da curva ROC (AUC) como métrica. Em experimentos utilizando diversas bases de dados biomédicas, o filtro proposto foi analisado e sua capacidade de compressão e desempenho foram avaliados em cinco diferentes paradigmas de aprendizado de máquina, utilizando dois limiares diferentes para a métrica escolhida. O melhor limiar obteve uma capacidade de compressão de cerca de 50% dos dados em geral e 99.4% em bases de baixa densidade, geralmente grandes bases. Os valores AUC obtidos pelo filtro quando comparados com cinco algoritmos de paradigmas de aprendizado diferentes mostraram um desempenho melhor em quatro das cinco situações avaliadas. O filtro proposto foi depois analisado e comparado com outros seletores de atributos da literatura e o indutor sozinho. Quanto ao tempo gasto pelo filtro em relação aos outros ele se apresentou no mesmo patamar de 3 dos 4 seletores testados. Quando comparado em relação ao AUC o filtro proposto se mostrou robusto nos cinco indutores analisados, não apresentando nenhuma diferença significativa em nenhum dos cenários testados. Em relação aos indutores, o filtro apresentou um desempenho melhor, mesmo que não significante, em 4 dos 5 indutores. / Using Machine Learning algorithms is an eficient way to extract information from large biological databases. But, in some cases, the amount of data is huge that using an eficient featured subset selection is, in some cases, essencial not only to optimize the learning time but also to reduce the amount of data, allowing, for example, a test in a laboratory workbench. The objective of this study is to propose an approach using decision trees in a iterative filter. The filter helps information extraction from large biological databases, since in a database with few dimensions a human specialist can understand it better or can use Machine Learning algorithms in a more efective way. The proposed lter can use any classier with embed featured subset selection and can use any performance metric to determine which attribute must be chosen. In this study, we have fixed the algorithm used within the filter as J48 and AUC was used as metric for performance evaluation. In experiments using biomedical databases, the proposed filter was analyzed and its compression capacity and performance were tested. In five diferent Machine Learning paradigms, using two diferent thresholds for the chosen metric. The best threshold was capable of reducing around 50% of the data using all databases and 99.4% on the small density bases, usually high dimensional databases. AUC values for the filter when compared with the five algorithm got a better performance in four of five tested situations. The proposed filter then was tested against others featured subset selectors from the literature, and against the inducer alone. Analyzing time the proposed lter is in the same level as 3 of 4 of the tested selectors. When tested for AUC the proposed selector shows itself robust in the five inducers tested, not showing any signicant diference in all tested scenarios. Against the inducers alone our filter showed a better performance, even not signicant, in 4 of the 5 inducers.
|
Page generated in 0.0861 seconds