Global ETD Search

631	Algoritmo para indução de árvores de classificação para dados desbalanceados / Algorithm for induction of classification trees for unbalanced data Cláudio Frizzarini 21 November 2013 (has links) As técnicas de mineração de dados, e mais especificamente de aprendizado de máquina, têm se popularizado enormemente nos últimos anos, passando a incorporar os Sistemas de Informação para Apoio à Decisão, Previsão de Eventos e Análise de Dados. Por exemplo, sistemas de apoio à decisão na área médica e ambientes de \\textit{Business Intelligence} fazem uso intensivo dessas técnicas. Algoritmos indutores de árvores de classificação, particularmente os algoritmos TDIDT (Top-Down Induction of Decision Trees), figuram entre as técnicas mais comuns de aprendizado supervisionado. Uma das vantagens desses algoritmos em relação a outros é que, uma vez construída e validada, a árvore tende a ser interpretada com relativa facilidade, sem a necessidade de conhecimento prévio sobre o algoritmo de construção. Todavia, são comuns problemas de classificação em que as frequências relativas das classes variam significativamente. Algoritmos baseados em minimização do erro global de classificação tendem a construir classificadores com baixas taxas de erro de classificação nas classes majoritárias e altas taxas de erro nas classes minoritárias. Esse fenômeno pode ser crítico quando as classes minoritárias representam eventos como a presença de uma doença grave (em um problema de diagnóstico médico) ou a inadimplência em um crédito concedido (em um problema de análise de crédito). Para tratar esse problema, diversos algoritmos TDIDT demandam a calibração de parâmetros {\\em ad-hoc} ou, na ausência de tais parâmetros, a adoção de métodos de balanceamento dos dados. As duas abordagens não apenas introduzem uma maior complexidade no uso das ferramentas de mineração de dados para usuários menos experientes, como também nem sempre estão disponíveis. Neste trabalho, propomos um novo algoritmo indutor de árvores de classificação para problemas com dados desbalanceados. Esse algoritmo, denominado atualmente DDBT (Dynamic Discriminant Bounds Tree), utiliza um critério de partição de nós que, ao invés de se basear em frequências absolutas de classes, compara as proporções das classes nos nós com as proporções do conjunto de treinamento original, buscando formar subconjuntos com maior discriminação de classes em relação ao conjunto de dados original. Para a rotulação de nós terminais, o algoritmo atribui a classe com maior prevalência relativa no nó em relação à prevalência no conjunto original. Essas características fornecem ao algoritmo a flexibilidade para o tratamento de conjuntos de dados com desbalanceamento de classes, resultando em um maior equilíbrio entre as taxas de erro em classificação de objetos entre as classes. / Data mining techniques and, particularly, machine learning methods, have become very popular in recent years. Many decision support information systems and business intelligence tools have incorporated and made intensive use of such techniques. Top-Down Induction of Decision Trees Algorithms (TDIDT) appear among the most popular tools for supervised learning. One of their advantages with respect to other methods is that a decision tree is frequently easy to be interpreted by the domain specialist, precluding the necessity of previous knowledge about the induction algorithms. On the other hand, several typical classification problems involve unbalanced data (heterogeneous class prevalence). In such cases, algorithms based on global error minimization tend to induce classifiers with low error rates over the high prevalence classes, but with high error rates on the low prevalence classes. This phenomenon may be critical when low prevalence classes represent rare or important events, like the presence of a severe disease or the default in a loan. In order to address this problem, several TDIDT algorithms require the calibration of {\\em ad-hoc} parameters, or even data balancing techniques. These approaches usually make data mining tools more complex for less expert users, if they are ever available. In this work, we propose a new TDIDT algorithm for problems involving unbalanced data. This algorithm, currently named DDBT (Dynamic Discriminant Bounds Tree), uses a node partition criterion which is not based on absolute class frequencies, but compares the prevalence of each class in the current node with those in the original training sample. For terminal nodes labeling, the algorithm assigns the class with maximum ration between the relative prevalence in the node and the original prevalence in the training sample. Such characteristics provide more flexibility for the treatment of unbalanced data-sets, yielding a higher equilibrium among the error rates in the classes. Aprendizado supervisionado Árvore de classificação Árvore de decisão Dados desbalanceados Mineração de dados Classification tree Data mining Decision Tree Supervised learning Unbalanced data
632	Estratégias para aplicação de políticas parciais com motivação intrínseca. / Application strategies for intrinsic motivated options Rafael Lemes Beirigo 02 October 2014 (has links) As técnicas de Aprendizado por Reforço permitem a solução de um problema através da escolha de ações que maximizem valores de recompensas recebidas que refletem a qualidade das ações tomadas pelo agente em um processo de tentativa e erro. Em problemas com estrutura hierárquica, a solução final depende do encadeamento de soluções para subproblemas aí presentes, sendo frequente a repetição de subproblemas nesse encadeamento. Nesses casos, a utilização de políticas parciais permite o aprendizado e armazenamento das soluções individuais para cada subproblema, que podem então ser utilizadas múltiplas vezes na composição de uma solução completa para o problema final, acelerando o aprendizado. Apesar de vantajosa, a utilização de políticas parciais necessita de definições por parte do projetista, o que representa uma sobrecarga. Para contornar esse problema, foram propostas técnicas de descoberta automática de políticas parciais, dentre as quais a utilização de motivação intrínseca se destaca por permitir ao agente aprender soluções de subproblemas úteis na solução do problema final sem a necessidade de se definir manualmente novas recompensas para esses subproblemas individualmente. Apesar de promissora, essa proposta utiliza um conjunto de componentes de aprendizado que ainda carece de investigação aprofundada acerca dos impactos individual e coletivo de cada componente, notadamente a aplicação das políticas parciais durante o aprendizado. Nesta dissertação são propostas duas abordagens para a aplicação de políticas parciais no Aprendizado por Reforço com Motivação Intrínseca: (i) armazenamento das políticas parciais em aplicação pelo agente e (ii) exploração interna à aplicação das políticas parciais. O impacto das propostas no desempenho de aprendizado é avaliado experimentalmente em um domínio com forte caracterização hierárquica. / Reinforcement Learning techniques allow an agent to learn the solution to a problem by interacting with the environment and executing actions, thus receiving rewards that reflect the value of the actions taken, on a process of trial and error. When a problem has a hierarchical structure, its final solution depends on several solutions to the subproblems it contains, and it is rather common the repetition of subproblems. On these cases, by using options it is possible to learn the solution to each subproblem individually, keeping and then using them multiple times to compose the complete solution to the problem, thus accelerating the learning process. But, despite this advantage, the use of options create the need for some definitions, what can represent a burden to the designer. To circumvent this problem, automatic option discovery techniques were proposed, among which the use of intrinsic motivation deserves special attention for allowing the agent to learn the solution of the subproblems, which are useful to compose the final solution, without the need to manually define new rewards to these subproblems individually. Despite being promising, this technique is built upon a set of several learning components that need a more deep investigation on the individual and collective impacts of each component, mostly the options application strategies during the learning process. On this work two modifications are proposed concerning the application process of options on the Intrinsically Motivated Reinforcement Learning: (i) storage of the history of the options applied by the agent and (ii) allow the agent to explore, even when following an option. These modifications were implemented on an algorithm present on the literature and evaluated on a domain with strong hierarchical characteristics. Aplicação de políticas parciais Aprendizado por reforço Motivação intrínseca Políticas parciais Intrinsic motivation Option application strategies Option discovery Reinforcement learning
633	Avaliação de métodos de inferência de redes de regulação gênica. / Evaluation of gene regulatory networks inference methods. Alan Rafael Fachini 17 October 2016 (has links) A representação do Sistema de Regulação Gênica por meio de uma Rede de Regulação Gênica (GRN) pode facilitar a compreensão dos processos biológicos no nível molecular, auxiliando no entendimento do comportamento dos genes, a descoberta da causa de doenças e o desenvolvimento de novas drogas. Através das GRNs pode-se avaliar quais genes estão ativos e quais são suas influências no sistema. Nos últimos anos, vários métodos computacionais foram desenvolvidos para realizar a inferência de redes a partir de dados de expressão gênica. Esta pesquisa apresenta uma análise comparativa de métodos de inferência de GRNs, realizando uma revisão do modelo experimental descrito na literatura atual aplicados a conjuntos de dados contendo poucas amostras. Apresenta também o uso comitês de especialistas (ensemble) para agregar o resultado dos métodos a fim de melhorar a qualidade da inferência. Como resultado obteve-se que o uso de poucas amostras de dados (abaixo de 50) não fornecem resultados interessantes para a inferência de redes. Demonstrou-se também que o uso de comitês de especialistas melhoram os resultados de inferência. Os resultados desta pesquisa podem auxiliar em pesquisas futuras baseadas em GRNs. / The representation of the gene regulation system by means of a Gene Regulatory Network (GRN) can help the understanding of biological processes at the molecular level, elucidating the behavior of genes and leading to the discovery of disease causes and the development of new drugs. GRNs allow to evaluate which genes are active and how they influence the system. In recent years, many computational methods have been developed for networks inference from gene expression data. This study presents a comparative analysis of GRN inference methods, reviewing the experimental modeling present in the state-of-art scientific publications applied to datasets with small data samples. The use of ensembles was proposed to improve the quality of the network inference. As results, we show that the use of small data samples (less than 50 samples) do not show a good result in the network inference problem. We also show that the use of ensemble improve the network inference. Bioinformática Comitês de Especialistas Redes de Regulação Gênica Bioinformatics Ensemble Gene Regulatory Networks Machine learning Network Inference
634	Modelagem e soluções para redes de anúncios. / Model and solutions for Ad Networks. Flávio Sales Truzzi 07 May 2014 (has links) Redes de Anúncios (Ad Networks) são redes que promovem a distribuição de anúncios pela internet, de forma a maximizar o lucro total gerado pela exibição dos anúncios nos websites. Estas redes tipicamente operam através do modelo de negócios chamado CPC (Custo por Clique), em que o anunciante paga um determinado valor somente se algum usuário clicar em seu anúncio. A escolha de como o intermediador planeja a distribuição dos anúncios aos websites é de extrema importância, já que a taxa de cliques nos anúncios é extremamente baixa. Atualmente a alocação dos anúncios tem sido feita através de uma solução aproximada baseada na alocação ótima definida com dados de um período anterior, a qual é calculada através de programação linear aliada à utilização de heurísticas. Entretanto, este sistema claramente é um processo de decisão sequencial em que diversas restrições são aplicáveis, como por exemplo: o orçamento dos anunciantes, limites mínimos do número de exibições de cada anúncio, categorias dos anúncios, entre outras. Neste trabalho argumenta-se que MDPs (Markov Decision Processes) fornecem uma melhor modelagem para o problema, já que conseguem levar em conta a dinâmica do sistema, considerando, por exemplo, que um anúncio que tem poucas chances de ser clicado consiga ser alocado de forma eficiente em relação ao retorno de longo prazo, mesmo quando outros anúncios proveriam um lucro maior a curto prazo. No entanto, devido ao grande número de estados, utilizar uma solução ótima através de MDPs é impraticável. Portanto analisa-se o desempenho relativo entre o estado da arte e a modelagem ótima, obtendo garantias de que a solução aproximada baseada em programação linear não está longe da solução ótima, e que em problemas grandes (similares aos encontrados na prática) essa diferença pode ser ignorada. Por fim, propõe-se uma modelagem baseada em aprendizado por reforço para a solução deste problema, utilizando duas abordagens, uma desconsiderando informações de contexto e outra considerando informações de contexto. Aqui argumenta-se que o uso de aprendizado por reforço é mais apropriado para a solução do problema de alocação de anúncios, já que ele é capaz de adaptar sua política de alocação em função das mudanças que ocorrem como, por exemplo, no perfil do usuário. / Ad Networks promote the distribution of ads in the internet, so as to maximize the revenue generated by their display of ads in websites. These networks typically operate using the CPC (Cost per Click) business model, where the advertiser pays a monetary value when a user clicks in its advertisement. The choice of how the Ad Network distributes ads to websites is of utmost importance, since the rate of clicks on ads is extremely low. The allocation of ads has been done by an approximate solution based on data from an early period of time, which is calculated using linear programming combined with heuristics. However, this problem is clearly a sequential decision process in which multiple sequential restrictions apply, such as: the budget of the advertisers, minimum limits on the number of views for each campaign, categories of advertisements. In this dissertation we argue that MDPs (Markov Decision Processes) provide a better model for the problem, since they can automatically take into account the dynamics of the system, considering, for example, an ad with little chance of being clicked can be allocated in an efficient way, even when other ads would provide a higher profit in the short term. However, due to the large number of states, an optimal solution through MDPs is impractical; therefore we analyze here the relative performance between the linear programming and the MDP approaches, deriving guarantees that the approximate solution based on linear programming is not far from the MDP optimal solution, and in large problems (similar to those found in practice) this difference can be disregarded. Finally, we propose a model based on reinforcement learning using two different approaches, one disregarding the contextual information, and the other using contextual information. We argue that the use of reinforcement learning is more suitable for solving the problem of allocation of ads, since it is able to adapt its allocation policy to reflect changes that occur, e.g., in the user profile. Aprendizado por reforço Inteligência artificial Processos de decisão Markov Redes de anúncios Ad Networks Artificial inteligence Markov Decision Processes Reinforcement learning
635	Um método baseado em inteligência computacional para a geração automática de casos de teste de caixa preta. / A method based on computational intelligence for automatic Black Box test cases generation. Hindenburgo Elvas Gonçalves de Sá 09 September 2010 (has links) Este trabalho de dissertação apresenta um método baseado em técnicas de inteligência computacional, como aprendizado de conjunto de regras, redes neurais artificiais e lógica fuzzy, para propor o desenvolvimento de ferramentas capazes de gerar e classificar casos de testes de caixa preta com as finalidades de auxiliar na atividade de preparação de testes, na detecção de defeitos em características ou funcionalidades e na diminuição do tempo de detecção de correção do software visando, com isto, atingir uma cobertura de testes qualitativamente superior ao processo criação manual. A obtenção de novos casos de testes e a classificação dos casos de testes gerados utilizam técnicas de aprendizado de um conjunto de regras, utilizando algoritmos de cobertura seqüencial, e de uma máquina de inferência fuzzy. A definição dos métodos, tanto para gerar como para classificar os casos de testes, foram fundamentados em experimentos visando comparar as similaridades entre os métodos fuzzy, redes neurais artificiais e aprendizado de conjunto de regras. Por fim, procurou-se desenvolver uma ferramenta à titulo de prova de conceitos objetivando aplicar os métodos que obtiveram melhores resultados nas experimentações. Os critérios adotados para definir os métodos foram às métricas de complexidade ciclomática e total de linhas de código (LOC). / This dissertation work presents a method based on computational intelligence techniques, such as learning set of rules, artificial neural networks and fuzzy logic, proposed the development of tools that generate test cases and sort of black box with the purposes of assisting activity in the preparation of tests for detection of defects in features or functionality and decreasing the detection time correction software aimed, with this, reach a qualitatively higher test coverage to the manual creation process. The acquisition of new test cases and classification of test cases generated using techniques Learning learning a whole set of Regrasregras using sequential covering algorithms, and a fuzzy inference machine. The definition of methods, both to generate and to classify the test cases were substantiated in experiments aimed at comparing the similarities between the fuzzy methods, neural networks and learning of the rule set. Finally, we sought to develop a tool for evidence of concepts aiming to apply the methods which obtained better results in trials. The criteria adopted to define the methods were metrics cyclomatic complexity and total lines of code (LOC). Aprendizado computacional Fuzzy (inteligência artificial) Computational learning Fuzzy (artificial intelligence) Software engineering (analysis; tests)
636	O ensino de leitura literária nos anos iniciais do ensino fundamental: dimensões relativas à gestão e à estrutura da escola / Teaching of literary reading on primary school: dimensions related to management and structure of school Iracema Santos do Nascimento 25 October 2016 (has links) Esta tese resulta de pesquisa que teve como objetivo verificar e analisar as dimensões relativas à gestão e à estrutura da escola no ensino de leitura literária nos anos iniciais do ensino fundamental. Os dados empíricos foram coletados em uma escola da rede estadual paulista, na periferia da zona sul de São Paulo. Tendo a perspectiva sócio-histórica como base conceitual, partiu-se da concepção de educação como formação e atualização do ser humanohistórico por meio da apropriação da cultura (FREIRE, 2011a, 2011b; PARO, 2012a, 2012b, 2011, 2010). A linguagem verbal é compreendida como instrumento cultural, criado pelo ser humano em meio às necessidades de interlocução da convivência e do trabalho, constituidora do sujeito e do conhecimento (VIGOTSKI, 2009a, 2009b, 2007; BAKHTIN, 2014; SMOLKA, 2012, 2013; GERALDI, 2013, 2009). A leitura também é vista como constituidora de subjetividades pela interlocução entre sujeitos por meio da escrita; entendida como atividade de produção de sentidos pelo leitor, inserido no contexto linguístico e sociocultural mais amplo (CHARTIER, 2009; GOULEMOT, 2009; GERALDI, 2013, 2009). Tomada como prática social, influenciada por fatores econômicos, políticos, sociais e culturais (CHARTIER, 2009; LAJOLO e ZILBERMAN, 2003; ABREU, 1999), pressupõe-se que a leitura pode ser ensinada e aprendida na escola (JOLIBERT, 1994; CHARTIER, A-M., 2005, 2011; SOARES, 2006; REZENDE, 2013a, 2013b, 2012), com potencial de ampliação, transformação e ressignificação de repertórios culturais (HÉBRARD, 2009). Como resultados da pesquisa, foram identificadas cinco dimensões que devem estar conjugadas para garantir um trabalho pedagógico consistente de ensino da leitura literária ao longo de todo o ciclo dos anos iniciais: formação de professores; planejamento e gestão pedagógica; objetos de leitura e seus usos; avaliação; interlocução para a produção de sentidos. Verificou-se que, apesar de alguns avanços, essas cinco dimensões não são consideradas em seu conjunto no âmbito do sistema estadual de ensino e tampouco na escola. / This thesis is the result of a research that aimed to verify and analyze the dimensions related to management and structure of school regarding teaching of literary reading at primary level. The data were collected in public school located at south zone of São Paulo. From a sociohistorical perspective, education was conceived as formation of historical-human being through culture appropriation (FREIRE, 2011a, 2011b; PARO, 2012a, 2012b, 2011, 2010). Speech language was taken as a cultural tool, created by humans facing the needs of interaction for common life and work; it is also constituent of selves and knowledge (VIGOTSKI, 2009a, 2009b, 2007; BAKHTIN, 2014; SMOLKA, 2012, 2013; GERALDI, 2013, 2009). Reading is also seen as constituent of selves as interaction through written language; at the same time it is understood as activity of production of meaning: readers build meaning, situated on a broader linguistic and social context (CHARTIER, 2009; GOULEMOT, 2009; GERALDI, 2013, 2009). Reading is also a social practice, influenced by economic, political, social and cultural factors (CHARTIER, 2009; LAJOLO e ZILBERMAN, 2003; ABREU, 1999). As a social practice reading can be taught and learnt at school (JOLIBERT, 1994; CHARTIER, A-M., 2005, 2011; SOARES, 2006; REZENDE, 2013a, 2013b, 2012), helping to enlarge, change and reshape cultural background of learners (HÉBRARD, 2009). As result of the research, we identified five dimensions which should be put together to warranty a consistent pedagogical work of teaching literary reading throughout primary school: teachers training; pedagogical management and planning; reading objects and its uses; assessment of teaching and learning processes; interaction for production of meaning. Although some positive aspects were found, we verified that such five dimensions have not been considered as equal parts of the same project neither at state administrative level nor at school level. Anos iniciais Ensino e aprendizado Gestão e estrutura escolar Leitura literária Literary reading Management and structure of school Primary level Teaching and learning
637	Aprendizagem de m?quina em apoio a diagn?stico em ortopedia / Machine learning in support of medical diagnosis orthopedics Silva, Marcelo Cicero Ribeiro da 13 December 2016 (has links) Submitted by SBI Biblioteca Digital (sbi.bibliotecadigital@puc-campinas.edu.br) on 2017-02-01T12:15:41Z No. of bitstreams: 1 Marcelo Cicero Ribeiro da Silva.pdf: 2629636 bytes, checksum: 626dcdd3e190058ed959a36deb2c116f (MD5) / Made available in DSpace on 2017-02-01T12:15:41Z (GMT). No. of bitstreams: 1 Marcelo Cicero Ribeiro da Silva.pdf: 2629636 bytes, checksum: 626dcdd3e190058ed959a36deb2c116f (MD5) Previous issue date: 2016-12-13 / Pontif?cia Universidade Cat?lica de Campinas ? PUC Campinas / One of the major responsible to change in a competitive landscape is the steady progress of technology and communication (TIC). With the evolution of technology and 'machine learning', computers are already available to carry out learning in a sophisticated way, improving the prescriptions of medical diagnosis, generating a second opinion for the medical professional and thus, To provide a better service to the community. The objective of this research is to develop a computational model, supported by data mining using machine learning techniques and, using communication devices integrated with communication and information technologies, to provide efficient support for The medical diagnosis in the area of orthopedics.The proof of the concept of this proposal will be used besed on a public database in the branch of backbone and the specific objective will be assist the doctor in the discovery of the Diseases Olisthesis and Herniated disk. This application will work with the concept of Knowledge Discovery in Databases to achieve the desired result. This process will use the Data Mining that, through classification algorithms, can transform data into useful information to the support the medical professional in the elaboration of diagnosis. The research will explore and define, in the WEKA Data Mining tool, the most appropriate algorithm, among the several that already exist, that can offer the highest diagnostic accuracy and enable a mobile solution. The dynamics structured in this work should allow that system to be enriched for each new patient treated and, with this, the platform becomes more efficient and effective as it expands. It is expected that the consulted computational model can be configured as a second opinion in support of the diagnosis of the medical professional. The results were satisfactory obtaining an average accuracy index above 86%. Among the benefits it is believed that it will be possible to assist in the graduation of new professionals assisting them in the Medical Residency, and reducing problems in possible medical errors thus, increasing the efficiency during the attendance and saving time and money. / Um dos grandes respons?veis pela mudan?a deum panorama competidor ? o progresso constante da tecnologia da informa??o e comunica??o (TIC).A maior parte das dificuldades na tomada de decis?o ? a transforma??o de dados e informa??es em conhecimento, principalmente quando as bases de dados dizem respeito ? sa?de. Com a evolu??o da tecnologia e do ?aprendizado de m?quina?(machine learning), j? se disp?e de computadores capazes de realizar aprendizado de forma sofisticada, permitindo sua utiliza??o no aux?lio nas prescri??es de diagn?stico m?dico, gerando uma segunda opini?o para o profissional da medicina e contribuindo, assim, para uma melhor presta??o de servi?o ? comunidade. O objetivo da pesquisa relatada consiste em elaborar um modelo computacional, apoiado em minera??o de dados com uso de t?cnicas de aprendizado de m?quina, que, utilizando-se de dispositivos de comunica??o integrados ?s tecnologias de comunica??o e informa??o e que venha oferecer suporte eficiente para o diagn?stico m?dico na ?rea de ortopedia. A prova do conceito desta proposta utilizar? de uma base de dados p?blica na especialidade da ortopedia (coluna vertebral) e o objetivo espec?fico ser? o de auxiliar o m?dico na descoberta das doen?as Listese e H?rnia de Disco. Esta aplica??o trabalhou com o conceito de descoberta de conhecimento em bases de dados (Knowledge Discovery in Databases), para conseguir o resultado desejado. Esse processo a Minera??o de Dados que, por meio de algoritmos de classifica??o, poder? transformar dados em informa??es ?teis ao apoio do profissional m?dico na elabora??o do seu diagn?stico. A pesquisa ir? explorar e definir, na ferramenta de Data Mining WEKA, o algoritmo mais apropriado, dentre os v?rios j? existentes, que possa oferecer maior acur?cia no diagn?stico e que viabilize uma solu??o tipo mobile. A din?mica estruturada neste trabalho dever? permitir que o sistema seja enriquecido a cada novo paciente tratado e que, com isto, a plataforma se torne mais eficiente e eficaz ? medida que se amplie. Espera-se que o modelo computacional elaborado possa se configurar como uma segunda opini?o em apoio ao diagn?stico do profissional m?dico retornando o diagnostico do paciente. Os resultados obtidos foram satisfat?rios obtendo um ?ndice de acuracidade m?dia acima de 86%. Dentre os benef?cios acredita-se que ser? poss?vel auxiliar na forma??o de novos profissionais auxiliando-os na Resid?ncia M?dica, na redu??o de problemas decorrentes de erros m?dicos e, dessa forma, aumenta-se a efic?cia no atendimento com ganhos de tempo e dinheiro. CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
638	Algoritmo para indução de árvores de classificação para dados desbalanceados / Algorithm for induction of classification trees for unbalanced data Frizzarini, Cláudio 21 November 2013 (has links) As técnicas de mineração de dados, e mais especificamente de aprendizado de máquina, têm se popularizado enormemente nos últimos anos, passando a incorporar os Sistemas de Informação para Apoio à Decisão, Previsão de Eventos e Análise de Dados. Por exemplo, sistemas de apoio à decisão na área médica e ambientes de \\textit{Business Intelligence} fazem uso intensivo dessas técnicas. Algoritmos indutores de árvores de classificação, particularmente os algoritmos TDIDT (Top-Down Induction of Decision Trees), figuram entre as técnicas mais comuns de aprendizado supervisionado. Uma das vantagens desses algoritmos em relação a outros é que, uma vez construída e validada, a árvore tende a ser interpretada com relativa facilidade, sem a necessidade de conhecimento prévio sobre o algoritmo de construção. Todavia, são comuns problemas de classificação em que as frequências relativas das classes variam significativamente. Algoritmos baseados em minimização do erro global de classificação tendem a construir classificadores com baixas taxas de erro de classificação nas classes majoritárias e altas taxas de erro nas classes minoritárias. Esse fenômeno pode ser crítico quando as classes minoritárias representam eventos como a presença de uma doença grave (em um problema de diagnóstico médico) ou a inadimplência em um crédito concedido (em um problema de análise de crédito). Para tratar esse problema, diversos algoritmos TDIDT demandam a calibração de parâmetros {\\em ad-hoc} ou, na ausência de tais parâmetros, a adoção de métodos de balanceamento dos dados. As duas abordagens não apenas introduzem uma maior complexidade no uso das ferramentas de mineração de dados para usuários menos experientes, como também nem sempre estão disponíveis. Neste trabalho, propomos um novo algoritmo indutor de árvores de classificação para problemas com dados desbalanceados. Esse algoritmo, denominado atualmente DDBT (Dynamic Discriminant Bounds Tree), utiliza um critério de partição de nós que, ao invés de se basear em frequências absolutas de classes, compara as proporções das classes nos nós com as proporções do conjunto de treinamento original, buscando formar subconjuntos com maior discriminação de classes em relação ao conjunto de dados original. Para a rotulação de nós terminais, o algoritmo atribui a classe com maior prevalência relativa no nó em relação à prevalência no conjunto original. Essas características fornecem ao algoritmo a flexibilidade para o tratamento de conjuntos de dados com desbalanceamento de classes, resultando em um maior equilíbrio entre as taxas de erro em classificação de objetos entre as classes. / Data mining techniques and, particularly, machine learning methods, have become very popular in recent years. Many decision support information systems and business intelligence tools have incorporated and made intensive use of such techniques. Top-Down Induction of Decision Trees Algorithms (TDIDT) appear among the most popular tools for supervised learning. One of their advantages with respect to other methods is that a decision tree is frequently easy to be interpreted by the domain specialist, precluding the necessity of previous knowledge about the induction algorithms. On the other hand, several typical classification problems involve unbalanced data (heterogeneous class prevalence). In such cases, algorithms based on global error minimization tend to induce classifiers with low error rates over the high prevalence classes, but with high error rates on the low prevalence classes. This phenomenon may be critical when low prevalence classes represent rare or important events, like the presence of a severe disease or the default in a loan. In order to address this problem, several TDIDT algorithms require the calibration of {\\em ad-hoc} parameters, or even data balancing techniques. These approaches usually make data mining tools more complex for less expert users, if they are ever available. In this work, we propose a new TDIDT algorithm for problems involving unbalanced data. This algorithm, currently named DDBT (Dynamic Discriminant Bounds Tree), uses a node partition criterion which is not based on absolute class frequencies, but compares the prevalence of each class in the current node with those in the original training sample. For terminal nodes labeling, the algorithm assigns the class with maximum ration between the relative prevalence in the node and the original prevalence in the training sample. Such characteristics provide more flexibility for the treatment of unbalanced data-sets, yielding a higher equilibrium among the error rates in the classes. Aprendizado supervisionado Árvore de classificação Árvore de decisão Classification tree Dados desbalanceados Data mining Decision Tree Mineração de dados Supervised learning Unbalanced data
639	Identificação in silico de ncRNAs no organismo modelo Halobacterium salinarum NRC-1 / In Silico identification of non-coding RNAs in Halobacterium salinarum NRC-1 model archeon organism Fonseca, Marcos Abraão de Souza 25 April 2016 (has links) A regulação da expressão gênica ocorre como um fenômeno essencial nos processos celulares em resposta a dinamicidade mútua estabelecida entre um organismo e seu meio. Além dos elementos reguladores já conhecidos, como fatores de transcrição ou modificações pós-transcricionais, observa-se um crescente interesse no papel de regulação desempenhado por moléculas de RNA não codificadores (ncRNA), que podem atuar em vários níveis de processamento da informação biológica. Organismos modelos oferecem uma forma conveniente de pesquisa e diferentes grupos buscam direcionar seus estudos para um entendimento mais amplo no que se refere aos mecanismos celulares presentes nesses organismos. Apesar da existência de alguns elementos conhecidos para o organismo modelo Halobacterium salinarum, acreditamos que nem todos seus elementos de ncRNAs foram identificados. Nesse contexto, desenvolvemos uma análise in silico para a identificação de novos ncRNAs em H. salinarum NRC-1 e aplicamos metodologias para a predição de possíveis interações RNA-Proteína. Com base em uma pespectiva de integração de dados e diferentes metodologias existentes, modelos de Aprendizado de Máquina (AM) foram criados e utilizados para a definição de regiões candidatas a ncRNAs. De acordo com os resultados, 42 novos ncRNAs puderam ser identificados e possibilitaram completar o catálogo de genes ncRNAs de H. salinarum NRC-1 e aumentar o universo conhecido destes em 82%. A análise dos resultados obtidos por outras abordagens disponíveis para a identificação de ncRNAs corroboram com alguns dos candidatos sugeridos neste trabalho. Adicionalmente, foram aplicados e avaliados métodos, também baseados em AM, para a identificação de candidatos à interação com a proteína de interesse LSm, presente no organismo em estudo, no intuito de incluir uma possível caracterização funcional de ncRNAs. Os resultados alcançados na aplicação metodologias para a predição de interações RNA-Proteína não foram suficientes para a criação de um modelo com predições de alto grau de acurácia porém, contribuem como estudos preliminares e discussões para o desenvolvimento de outras estratégias. / The gene expression regulation occurs on different cell levels in response to dynamics established between an organism and its environment. In addition to the regulatory elements already known, for instance, transcription factors or post-translation modifications, there is growing interests in the regulatory role played by non-coding RNA molecules (ncRNA) whose functions can be performed on different level of biological information processing. Model organisms allow a convenient way to work on laboratory and different research groups aiming to guide their studies for a mutual and wide understanding of the cellular mechanisms present on these organisms. Although some ncRNAs elements have been found in Halobacterium salinarum model organism we believe that not enough is knowing about these genomic regions. In these context, an in silico analysis for ncRNAs identification and RNA-protein prediction approach were applied to H. salinarum NRC-1. Considering a data integration perspective and some available methodologies, several machine learning models was built and used to designate candidate ncRNAs genome regions. According to achieve results, 42 new ncRNAs could be identified, increasing 82% the total of known ncRNAs in H. salinarum NRC-1. Combing analysis with other available tools, it had been observed that some suggested candidates also was found with different methodologies and thus, it highlights the proposed results. Additionally, we developed and analyzed methods, also machine learning based, to predict ncRNAs candidates to interact with LSm protein, present on the interested model organism aiming a basic ncRNA characterization. The achieved results in this part was not satisfactory since the applied models were not substantially accurate predictions. However, we believe that these preliminary results can contribute with some discussions to new different approaches. Aprendizado de máquina Halobacterium salinarum Halobactrium salinarum Interação RNA-Proteína Machine learning Non-coding RNAs RNA-Protein interaction RNAs não-codificadores
640	O uso do Whatsapp como ferramenta para o desenvolvimento da habilidade comunicativa em inglês como língua estrangeira em um contexto de Blended Learning Severo, Suzan Severo de 09 January 2017 (has links) Submitted by Silvana Teresinha Dornelles Studzinski (sstudzinski) on 2017-03-15T15:54:50Z No. of bitstreams: 1 Suzan Severo de Severo_.pdf: 2197379 bytes, checksum: 9a2c7a9d65120c15d1f440355c9fd7c7 (MD5) / Made available in DSpace on 2017-03-15T15:54:50Z (GMT). No. of bitstreams: 1 Suzan Severo de Severo_.pdf: 2197379 bytes, checksum: 9a2c7a9d65120c15d1f440355c9fd7c7 (MD5) Previous issue date: 2017-01-09 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / PROSUP - Programa de Suporte à Pós-Gradução de Instituições de Ensino Particulares / Este estudo parte de um contexto de aprendizado misto ou b-learning, em que se experimentou o uso do WhatsApp, uma ferramenta comunicacional largamente utilizada na sociedade, para a promoção de diálogos espontâneos entre aprendizes de Inglês como LE, incentivando a prática da LE. Dentro de uma perspectiva sociocultural e considerando-se que a aprendizagem se dá através da mediação de artefatos socioculturais e na interação com outros sujeitos (VYGOTSKY, 1978), este trabalho objetiva compreender como se dá a mediação da aprendizagem através da ferramenta WhatsApp. Mais especificamente, pretendeu-se analisar a produção dos aprendizes de inglês como LE durante a interação na língua que aprendem através de grupos formados no WhatsApp, buscando compreender como se organizam as interações através do aplicativo e como elas poderiam contribuir para o aprendizado da LE. O resultado demonstrou que os aprendizes, na medida em que trocavam mensagens com seus colegas e com a professora, testavam hipóteses, percebiam lacunas em seu conhecimento e engajavam-se em análises metalinguísticas (SWAIN,1985,1995,2005). Além disso, através da interação, foi possível perceber que os aprendizes apoiavam uns aos outros e buscavam formas de expandir o conhecimento e manter-se no diálogo, seja através da pesquisa de palavras em dicionários, seja apoiando-se na primeira língua (L1) ou, ainda, fazendo uso de táticas conversacionais para a negociação de sentido (LONG, 1983, 1996), o que permitiu aos estudantes manterem-se engajados nas conversas e tanto pedir apoio quanto oferecer apoio no processo de produção e aprendizagem da LE. / This study was developed in a blended learning context in which there was an experiment on using WhatsApp, a largely used and well known tool for communication, as a means for fostering spontaneous dialogues among learners of English as a foreign language. Based on a sociocultural perspective and considering that learning happens through interaction mediated by sociocultural artifacts (Vygotsky, 1978), this work aims at understanding how the process of learning is mediated as students chat on WhatsApp. More specifically, it aims at analyzing students’ production of the foreign language as they interact using the language they learn through the group on WhatsApp and how it could, in some way, contribute with their learning process. Based on the data and the students’ opinions, it was found that WhatsApp can be an effective resource to engage students in producing the language they learn so that they have more opportunities for hypothesis testing, noticing gaps in their knowledge of the foreign language as well as engage them in metatalk (SWAIN,1985,1995,2005). Moreover, through their chatting, it was possible to notice that learners scaffolded each other and searched for means of maintaining themselves engaged in the dialogue by searching words in online dictionaries, using the first language as a support or using conversational tactics for negotiating meaning (LONG, 1983, 1996), what allowed students to get engaged in conversations and ile maintaining themselves engaged in conversations and both ask for and give support on the process of producing and learning the foreign language. Aprendizado de língua estrangeira Teoria sociocultural Blended Learning WhatsApp Language learning Sociocultural theory

Search results