321 |
Metodologia para a análise da qualidade de Web sites baseada em técnicas de aprendizado de máquina. / Methodology to analyze the quality of Web sites based in machini learning techniques.Heitor de Souza Ganzeli 14 March 2014 (has links)
A Web é a aplicação mais popular da Internet e, desde sua criação, gerou mudanças de diversas maneiras na vida das pessoas. Esse é um dos motivos que a transformou em objeto de estudo de diversas pesquisas de cunho social, tecnológico econômico e político. A metodologia descrita nesta dissertação pode ser entendida como uma extensão do projeto TIC Web, que foi desenvolvido como parceria entre o NIC.br, o escritório do W3C Brasil e o instituto InWeb para estudar características de qualidade da Web Brasileira. Nesse sentido, a presente metodologia possui o objetivo de automatizar análises de domínios e sites Web, principalmente com base nos resultados sobre a Web Governamental Brasileira obtidos pelo TIC Web. Ou seja, o presente trabalho se foca na definição e aplicação de metodologia baseada em técnicas de aprendizado de máquina para a automatização das análises de domínios Web, visando praticidade na execução da categorização de sites Web segundo critérios relacionados à qualidade percebida por seus usuários. Os tópicos aqui discutidos compreendem: a importância dos padrões abertos e elementos de desempenho para a determinação da qualidade de um site; fundamentos de aprendizado de máquina; o detalhamento das ferramentas utilizadas para coletar e extrair informações dos sites, bem como dos atributos e indicadores por elas adquiridos; a metodologia proposta, incluindo a descrição de diversos algoritmos utilizados; e, um caso de uso demonstrando sua aplicabilidade. Além disso, propõe-se como parte da metodologia de análise a utilização dos resultados de seus resultados para realizar a avaliação de sites segundo sua qualidade percebida. / The World Wide Web is the most popular application throughout the Internet and, since its creation, it has changed people\'s lives in lots of ways, hence, it has become subject to several social, technological, economical and political researches. The methodology described in the present text may be unterstood as an extension of the TIC Web project, which was developed by a partnership among NIC.br, Brazilian W3C office and the InWeb institute in order to study some quality related issues about the Brazilian Web. Accordingly, the methodology presented in this work aims to automate analyses of Web domains and sites, mainly based on the results over the Brazilian Governmental Web obtained by TIC Web. In other words, the present project focus on the definition and use of a methodology dependent on machine learning in order to automate the analyses of extracted data, having the goal of easing the classification of Web sites according to the quality perceived by their users. Some of the discussed topics are as follows: the importance of Open Standards and performance features to defy the quality of a site; basics of machine learning; details of the tool applied to extract Web sites data, as well as its acquired parameters and indicators; the proposed methodology, including the description of applied algorithms; and a use case evincing its applicability. Additionally, it is proposed, as part of the methodology, the utilization of the results obtained by the domain analysis to evaluate other websites in accordance to their perceived quality.
|
322 |
Seleção e controle do viés de aprendizado ativo / Selection and control of the active learning biasDavi Pereira dos Santos 22 February 2016 (has links)
A área de aprendizado de máquina passa por uma grande expansão em seu universo de aplicações. Algoritmos de indução de modelos preditivos têm sido responsáveis pela realização de tarefas que eram inviáveis ou consideradas exclusividade do campo de ação humano até recentemente. Contudo, ainda é necessária a supervisão humana durante a construção de conjuntos de treinamento, como é o caso da tarefa de classificação. Tal construção se dá por meio da rotulação manual de cada exemplo, atribuindo a ele pelo menos uma classe. Esse processo, por ser manual, pode ter um custo elevado se for necessário muitas vezes. Uma técnica sob investigação corrente, capaz de mitigar custos de rotulação, é o aprendizado ativo. Dado um orçamento limitado, o objetivo de uma estratégia de amostragem ativa é direcionar o esforço de treinamento para os exemplos essenciais. Existem diversas abordagens efetivas de selecionar ativamente os exemplos mais importantes para consulta ao supervisor. Entretanto, não é possível, sem incorrer em custos adicionais, testá-las de antemão quanto à sua efetividade numa dada aplicação. Ainda mais crítica é a necessidade de que seja escolhido um algoritmo de aprendizado para integrar a estratégia de aprendizado ativo antes que se disponha de um conjunto de treinamento completo. Para lidar com esses desafios, esta tese apresenta como principais contribuições: uma estratégia baseada na inibição do algoritmo de aprendizado nos momentos menos propícios ao seu funcionamento; e, a experimentação da seleção de algoritmos de aprendizado, estratégias ativas de consulta ou pares estratégia-algoritmo baseada em meta-aprendizado, visando a experimentação de formas de escolha antes e durante o processo de rotulação. A estratégia de amostragem proposta é demonstrada competitiva empiricamente. Adicionalmente, experimentos iniciais com meta-aprendizado indicam a possibilidade de sua aplicação em aprendizado ativo, embora tenha sido identificado que investigações mais extensivas e aprofundadas sejam necessárias para apurar sua real efetividade prática. Importantes contribuições metodológicas são descritas neste documento, incluindo uma análise frequentemente negligenciada pela literatura da área: o risco devido à variabilidade dos algoritmos. Por fim, são propostas as curvas e faixas de ranqueamento, capazes de sumarizar, num único gráfico, experimentos de uma grande coleção de conjuntos de dados. / The machine learning area undergoes a major expansion in its universe of applications. Algorithms for the induction of predictive models have made it possible to carry out tasks that were once considered unfeasible or restricted to be solved by humans. However, human supervision is still needed to build training sets, for instance, in the classification task. Such building is usually performed by manual labeling of each instance, providing it, at least, one class. This process has a high cost due to its manual nature. A current technique under research, able to mitigate labeling costs, is called active learning. The goal of an active learning strategy is to manage the training effort to focus on the most relevant instances, within a budget. Several effective sampling approaches having been proposed. However, when one needs to choose the proper strategy for a given problem, they are impossible to test beforehand without incurring into additional costs. Even more critical is the need to choose a learning algorithm to integrate the active learning strategy before the existence of a complete training set. This thesis presents two major contributions to cope with such challenges: a strategy based on the learning algorithm inhibition when it is prone to inaccurate predictions; and, an attempt to automatically select the learning algorithms, active querying strategies or pairs strategy-algorithm, based on meta-learning. This attempt tries to verify the feasibility of such kind of decision making before and during the learning process. The proposed sampling approach is empirically shown to be competitive. Additionally, meta-learning experiments show that it can be applied to active learning, although more a extensive investigation is still needed to assess its real practical effectivity. Important methodological contributions are made in this document, including an often neglected analysis in the literature of active learning: the risk due to the algorithms variability. A major methodological contribution, called ranking curves, is presented.
|
323 |
Projeto conceitual e construção de um protótipo de uma minimáquina para o corte de substratos de Alumina / Conceptual project and construction of a mini dicing prototy to cut Alumina substrateLuis Antonio Oliveira Araujo 16 September 2009 (has links)
O trabalho aborda o processo de corte de substrato cerâmico, estuda e propõe uma estratégia de projeto para a concepção e tomada de decisões de uma mini dicing saw. A tecnologia dos componentes eletrônicos modernos esta baseada no emprego de finos e estreitos substratos cerâmicos ou de silício. Uma das técnicas para a obtenção destas peças, faz uso da segmentação do substrato maior onde são depositadas as trilhas e os componentes de milhares de partes. O corte desses substratos, quando feito por meio abrasivos, emprega discos superabrasivos de espessura próxima a 0,2 mm e velocidades periféricas acima de 30 m/s. Nestas condições é exigido baixo ruído, alta precisão de giro e elevada velocidade rotacional, geralmente obtido através de mancais aerostáticos cerâmicos. O trabalho foi organizado em projeto conceitual e construção de um protótipo de uma dicing saw ou dicing machine. O protótipo admite peças com dimensões de até 100 x 100 mm podendo cortar até 5 mm de profundidade dependendo do diâmetro do disco de corte. O trabalho avalia condições de corte, como: velocidade de avanço de corte, desgaste e velocidade de rotação do disco abrasivo, profundidade de corte e a qualidade final do corte, como: trincas, lascas, linearidade do corte, características estas qualificadas e quantificadas por microscopia eletrônica de varredura (MEV) e perfilometria. Estudos preliminares de corte de blocos de Alumina foram realizados, detectando condições estáveis de produção na faixa de 5 a 13 mm/s. Menor desgaste do disco em baixas rotações e maiores esforços de corte em grandes profundidades de penetração e avanço do disco abrasivo. / This work studies the dicing process of ceramic parts and proposes a project strategy to concept and take decisions about configuration for a preliminary project and the construction of a dicing saw or dicing machine prototype. The technology used by modern electronic components is based on narrow and thin ceramic or silicon. One of the techniques to obtain these products is to dice a larger substrate using an abrasive blade to generate low damages and high productivity. The dicing abrasive process uses abrasive blades with thickness around 0,2 mm and peripherycal speeds of 30 m/s. On these conditions, low noise, high precision and high rotation is required, conditions generated by ceramic aerostatic spindles. This work is managed in preliminary project and construction of a dicing saw or dicing machine prototype. This prototype is able to cut substrates with square shape 100 x 100 mm and depth of 5 mm depending on the blade diameter. This work tests cutting conditions as: feed rate, blade wear, blade speed, and also test the die final quality as: chipping, cracking, dicing linearity. Quantity and quality characteristics were both verified by electronic microscopes and perfilometry. Preliminary studies about dicing ceramic parts detected stable production in 5 to 13 mm/s. Lower blade wear in lower rotations and higher cutting forces in higher cutting depth and feed rate.
|
324 |
Everyday visualization: discovering more about individuals / Everyday visualization : descobrindo mais sobre indivíduosPagno, Bruno Lorandi January 2018 (has links)
As pessoas estão ficando cada vez mais interessadas no uso de monitores de atividade. A quantidade de dados de indivíduos disponível está ajudando na expansão e desenvolvimento de novas aplicações e projetos de visualizações para ser usados em casa, em ciência (e.g. para entender melhor o comportamento de populações) ou em governos interessados em desenvolver cidades inteligentes. Nesse trabalho é apresentada uma visualização simples e intuitiva que permite a exploração de dados pessoais por pessoas comuns. Com foco em ajudar as pessoas a compreenderem a si mesmas melhor e perceber coisas novas sobre seus dados. A visualização construída neste projeto é baseada em metáforas de calendários, relógios e mapas, além de utilizar gráficos de barra para explorar dados crus. A exploração desses dados se dá pela interação entre essas visualizações. Para avaliar o produto do trabalho são apresentados dois casos de uso onde alguns usuários tiveram a oportunidade de observar e discutir suas informações de dois pontos de vista diferente: exploração de dados pessoais para auto-aperfeiçoamento e o uso do Everyday Visualization por cientistas da saúde. Em nenhum dos casos houve treinamento. As visualizações resultantes agregam diversas fontes de dados, indo além de outros trabalhos de visualização casual e pessoal. Os resultados promissores demonstram a viabilidade de tais técnicas para visualização de dados pessoais. / People are becoming increasingly more interested in the use of activity monitors and selfimprovement. The availability of individuals’ data is also pushing the development of new applications and data visualization projects to be used at home, in science (e.g. to better understand the behavior of populations) or for governments interested in developing intelligent cities. In this work, we present an easy and intuitive set of visualizations to allow the exploration of personal data by common people. We focus on helping people to know themselves better and to make sense of their own data. Our visualizations are based on the metaphors of calendars, clocks, and maps, as well as on the use of bar charts to explore raw data. Data exploration is therefore guaranteed by the interaction between them. In order to evaluate our work we present two use cases, where few users observe and discuss the data from different points of view: the exploration of personal data for self-improvement purposes, and the use of Everyday Visualization by health scientists. Both use cases were ran without any training session. The resulting visualization aggregates several different data sources, going beyond many of the personal and casual visualization works. The promising results achieved demonstrated the viability of the use of such techniques for personal data visualizations and sense making.
|
325 |
Uso de aprendizado supervisionado para análise de confiabilidade de dados de crowdsourcing sobre posicionamento de ônibus / Use of supervised learning to analyze reliability of crowdsourcing bus location dataDiego Vieira Neves 16 October 2018 (has links)
Pesquisadores de diversas áreas estão estudando o desenvolvimento do que chamamos de Cidades Inteligentes: a integração de Sistemas de Informação e Comunicação com tecnologias de Internet das Coisas para utilizar os recursos de uma cidade de forma mais inteligente. Um dos principais objetivos das cidades inteligentes é solucionar os problemas relacionados à mobilidade urbana, que afeta significativamente a qualidade de vida da população. Um problema observável nas grandes metrópoles é a qualidade dos seus serviços de transporte público, especialmente quando nos referimos ao modal ônibus. A falta de informações confiáveis, associada à baixa qualidade dos serviços de transporte coletivo disponibilizados, leva o usuário a não optar pela utilização desse recurso, o que agrava problemas urbanos sociais e ambientais. Para reverter esse cenário, as iniciativas em cidades inteligentes propõem o uso de Sistemas de Transportes Inteligentes que podem utilizar diversos sensores e equipamentos para coletar diferente tipos de dados referente aos serviços de transporte público. A captura e processamento desses dados permite, em tese, permite que o cidadão possa utilizar o transporte público com confiabilidade e previsibilidade. Contudo, esses dados podem ser insuficientes ou de baixa qualidade para uso em tempo real. Neste trabalho de mestrado investigamos o uso de dados obtidos via colaboração coletiva (crowdsourcing) como complemento dessas informações. Para mitigar as incertezas introduzidas pelo uso de crowdsourcing, este trabalho propõe a utilização de técnicas de aprendizado de máquina para criação de métodos de análise de confiabilidade dos dados coletados para o sistema de transporte público (por ônibus) do município de São Paulo. Para mitigar as incertezas introduzidas pelo uso de crowdsourcing, este trabalho propõe e compara o uso de diferentes técnicas de aprendizado de máquina para criar um modelo de análise de confiabilidade para os dados coletados, especializado no sistema de transporte coletivo (por ônibus) da cidade de São Paulo. Os resultados demostram, que os algoritmos de Árvore de Decisão e Gaussian Naive Bayes foram mais eficazes e eficientes na realização da atividade de classificação dos dados obtidos com crowdsourcing. O algoritmo de Árvore de Decisão, apresentou os melhores indicadores de desempenho em termos de acurácia (94,34\\%) e F-score (99\\%), e o segundo melhor tempo de execução (0,023074 segundo). Já o algoritmo de Gaussian Naive Bayes foi o mais eficiente, com tempo médio de execução de 0,003182 segundos e foi o quarto melhor resultado em termos de acurácia (98,18\\%) e F-score (97\\%) / Researchers from different areas are studying the development of what we call Smart Cities: integrating Information and Communication Systems with Internet of Things to use city resources more intelligently. A major objective of smart cities is to solve problems related to urban mobility that significantly affects the quality of life of the population. An observable problem in big cities is the quality of their public transport services, specifically when we refer to the bus modal. The lack of reliable information, associated with the poor quality of public transport services, encouraging the user to look for alternatives, which aggravates urban social and environmental problems. To reverse this scenario, smart cities initiatives propose the use Intelligent Transport Systems, that can use various sensors and equipment to collect several types of data on public transport services. The capture and processing of these data allows, in theory, citizens to use the public transport with reliability and predictability. However, this data can be insufficient or of poor quality for usage in real-time. This master\'s work investigates the use of crowdsourcing data as a complement to this information. To mitigate the uncertainties introduced by the use of crowdsourcing, this research proposes and compares the use of different machine learning techniques to create a reliability analysis model for the data collected that is specialized for use on public transport system (bus) in the city of São Paulo. The results show that the Decision Tree and Gaussian Naive Bayes algorithms are more effective and efficient in performing the classification activity of the data obtained with crowdsourcing. The Decision Tree algorithm presented the best performance indicators in terms of accuracy (94.34\\%) and F-score (99\\%), and the second best execution time (0.023074 seconds). The Gaussian Naive Bayes algorithm was the most efficient, with an average execution time of 0.003182 seconds and was the forth best result in terms of accuracy (98.18\\%) and F-score (97\\%)
|
326 |
"O framework de integração do sistema DISCOVER" / The Discover integration frameworkPrati, Ronaldo Cristiano 04 April 2003 (has links)
Talvez uma das maiores capacidades do ser humano seja a sua habilidade de aprender a partir de observações e transmitir o que aprendeu para outros humanos. Durante séculos, a humanidade vem tentado compreender o mundo em que vive e, a partir desse novo conhecimento adquirido, melhorar o mundo em que vive. O desenvolvimento da tecnologia colocou a descoberta de conhecimento em um momento ímpar na história da humanidade. Com os progressos da Ciência da Computação, e, em particular, da Inteligência Artificial - IA - e Aprendizado de Máquina -AM, hoje em dia é possível, a partir de métodos de inferência indutiva e utilizando um conjunto de exemplos, descobrir algum tipo de conhecimento implícito nesses exemplos. Entretanto, por ser uma área de pesquisa relativamente nova, e por envolver um processo tanto iterativo quanto interativo, atualmente existem poucas ferramentas que suportam eficientemente a descoberta de conhecimento a partir dos dados. Essa falta de ferramentas se agrava ainda mais no que se refere ao seu uso por pesquisadores em Aprendizado de Máquina e Aquisição de Conhecimento. Esses fatores, além do fato que algumas pesquisas em nosso Laboratório de Inteligência Computacional - LABIC - têm alguns componentes em comum, motivaram a elaboração do projeto Discover, que consiste em uma estratégia de trabalho em conjunto, envolvendo um conjunto de ferramentas que se integram e interajam, e que supram as necessidades de pesquisa dos integrantes do nosso laboratório. O Discover também pode ser utilizado como um campo de prova para desenvolver novas ferramentas e testar novas idéias. Como o Discover tem como principal finalidade o seu uso e extensão por pesquisadores, uma questão principal é que a arquitetura do projeto seja flexível o suficiente para permitir que novas pesquisas sejam englobadas e, simultaneamente, deve impor determinados padrões que permitam a integração eficiente de seus componentes. Neste trabalho, é proposto um framework de integração de componentes que tem como principal objetivo possibilitar a criação de um sistema computacional a partir das ferramentas desenvolvidas para serem utilizadas no projeto Discover. Esse framework compreende um mecanismo de adaptação de interface que cria uma camada (interface horizontal) sobre essas ferramentas, um poderoso mecanismo de metadados, que é utilizado para descrever tanto os componentes que implementam as funcionalidades do sistema quanto as configurações de experimentos criadas pelos usuário, que serão executadas pelo framework, e um ambiente de execução para essas configurações de experimentos. / One of human greatest capability is the ability to learn from observed instances of the world and to transmit what have been learnt to others. For thousands of years, we have tried to understand the world, and used the acquired knowledge to improve it. Nowadays, due to the progress in digital data acquisition and storage technology as well as significant progress in the field of Artificial Intelligence - AI, particularly Machine Learning - ML, it is possible to use inductive inference in huge databases in order to find, or discover, new knowledge from these data. The discipline concerned with this task has become known as Knowledge Discovery from Databases - KDD. However, this relatively new research area offers few tools that can efficiently be used to acquire knowledge from data. With these in mind, a group of researchers at the Computational Intelligence Laboratory - LABIC - is working on a system, called Discover, in order to help our research activities in KDD and ML. The aim of the system is to integrate ML algorithms mostly used by the community with the data and knowledge processing tools developed as the results of our work. The system can also be used as a workbench for new tools and ideas. As the main concern of the Discover is related to its use and extension by researches, an important question is related to the flexibility of its architecture. Furthermore, the Discover architecture should allow new tools be easily incorporated. Also, it should impose strong patterns to guarantee efficient component integration. In this work, we propose a component integration framework that aims the development of an integrated computational environment using the tools already implemented in the Discover project. The proposed component integration framework has been developed keeping in mind its future integration with new tools. This framework offers an interface adapter mechanism that creates a layer (horizontal interface) over these tools, a powerful metadata mechanism, which is used to describe both components implementing systems' functionalities and experiment configurations created by the user, and an environment that enables these experiment execution.
|
327 |
Modelos computacionais prognósticos de lesões traumáticas do plexo braquial em adultos / Prognostic computational models for traumatic brachial plexus injuries in adultsAbud, Luciana de Melo e 20 June 2018 (has links)
Estudos de prognóstico clínico consistem na predição do curso de uma doença em pacientes e são utilizados por profissionais da saúde com o intuito de aumentar as chances ou a qualidade de sua recuperação. Sob a perspectiva computacional, a criação de um modelo prognóstico clínico é um problema de classificação, cujo objetivo é identificar a qual classe (dentro de um conjunto de classes predefinidas) uma nova amostra pertence. Este projeto visa a criar modelos prognósticos de lesões traumáticas do plexo braquial, um conjunto de nervos que inervam os membros superiores, utilizando dados de pacientes adultos com esse tipo de lesão. Os dados são provenientes do Instituto de Neurologia Deolindo Couto (INDC) da Universidade Federal do Rio de Janeiro (UFRJ) e contêm dezenas de atributos clínicos coletados por meio de questionários eletrônicos. Com esses modelos prognósticos, deseja-se identificar de maneira automática os possíveis preditores do curso desse tipo de lesão. Árvores de decisão são classificadores frequentemente utilizados para criação de modelos prognósticos, por se tratarem de um modelo transparente, cujo resultado pode ser examinado e interpretado clinicamente. As Florestas Aleatórias, uma técnica que utiliza um conjunto de árvores de decisão para determinar o resultado final da classificação, podem aumentar significativamente a acurácia e a generalização dos modelos gerados, entretanto ainda são pouco utilizadas na criação de modelos prognósticos. Neste projeto, exploramos a utilização de florestas aleatórias nesse contexto, bem como a aplicação de métodos de interpretação de seus modelos gerados, uma vez que a transparência do modelo é um aspecto particularmente importante em domínios clínicos. A estimativa de generalização dos modelos resultantes foi feita por meio de métodos que viabilizam sua utilização sobre um número reduzido de instâncias, uma vez que os dados relativos ao prognóstico são provenientes de 44 pacientes do INDC. Além disso, adaptamos a técnica de florestas aleatórias para incluir a possível existência de valores faltantes, que é uma característica presente nos dados utilizados neste projeto. Foram criados quatro modelos prognósticos - um para cada objetivo de recuperação, sendo eles a ausência de dor e forças satisfatórias avaliadas sobre abdução do ombro, flexão do cotovelo e rotação externa no ombro. As acurácias dos modelos foram estimadas entre 77% e 88%, utilizando o método de validação cruzada leave-one-out. Esses modelos evoluirão com a inclusão de novos dados, provenientes da contínua chegada de novos pacientes em tratamento no INDC, e serão utilizados como parte de um sistema de apoio à decisão clínica, de forma a possibilitar a predição de recuperação de um paciente considerando suas características clínicas. / Studies of prognosis refer to the prediction of the course of a disease in patients and are employed by health professionals in order to improve patients\' recovery chances and quality. Under a computational perspective, the creation of a prognostic model is a classification task that aims to identify to which class (within a predefined set of classes) a new sample belongs. The goal of this project is the creation of prognostic models for traumatic injuries of the brachial plexus, a network of nerves that innervates the upper limbs, using data from adult patients with this kind of injury. The data come from the Neurology Institute Deolindo Couto (INDC) of Rio de Janeiro Federal University (UFRJ) and they are characterized by dozens of clinical features that are collected by means of electronic questionnaires. With the use of these prognostic models we intended to automatically identify possible predictors of the course of brachial plexus injuries. Decision trees are classifiers that are frequently used for the creation of prognostic models since they are a transparent technique that produces results that can be clinically examined and interpreted. Random Forests are a technique that uses a set of decision trees to determine the final classification results and can significantly improve model\'s accuracy and generalization, yet they are still not commonly used for the creation of prognostic models. In this project we explored the use of random forests for that purpose, as well as the use of interpretation methods for the resulting models, since model transparency is an important aspect in clinical domains. Model assessment was achieved by means of methods whose application over a small set of samples is suitable, since the available prognostic data refer to only 44 patients from INDC. Additionally, we adapted the random forests technique to include missing data, that are frequent among the data used in this project. Four prognostic models were created - one for each recovery goal, those being absence of pain and satisfactory strength evaluated over shoulder abduction, elbow flexion and external shoulder rotation. The models\' accuracies were estimated between 77% and 88%, calculated through the leave-one-out cross validation method. These models will evolve with the inclusion of new data from new patients that will arrive at the INDC and they will be used as part of a clinical decision support system, with the purpose of prediction of a patient\'s recovery considering his or her clinical characteristics.
|
328 |
Um estratégia para geração de seqüências de verificação para máquinas de estados finitos / A strategy for generating checking sequences for finite state machinesRibeiro, Paulo Henrique 09 December 2010 (has links)
O teste baseado em modelos tem como objetivo auxiliar a atividade de testes, gerando conjuntos de casos de teste a partir de modelos, como Máquinas de Estados Finitos (MEFs). Diversos métodos de geração de conjuntos de caso de teste têm sido propostos ao longo das últimas décadas, com algumas contribuições recentes. Dentre esses trabalhos, há os que geram seqüências de verificação que são conjuntos de caso de teste formados por uma única seqüência e que são capazes de detectar os defeitos de uma implementação cujo comportamento pode ser modelado a partir de uma MEF. Neste trabalho é proposto um algoritmo de geração de seqüências de verificação que tem a finalidade de gerar seqüências menores que as seqüências geradas pelos métodos existentes. O algoritmo, que é baseado na técnica de algoritmos genéticos e nas condições de suficiência para a completude de casos de teste, consiste basicamente em criar novas seqüências a partir de seqüências menores. Por meio de mutações, novas seqüências são geradas pelo algoritmo. As condições de suficiência são utilizadas para determinar quais seqüências geradas são seqüências de verificação. Também são apresentados neste trabalho os estudos experimentais realizados para determinar o comportamento do algoritmo diante de diferentes contextos / Model-based testing aims at aiding the testing activity, generating test cases from models such as Finite State Machines (FSM). Several test cases generation methods have been proposed along the last decades, with some recent contributions. Among these works, there are those that generate checking sequences, which are test cases formed by a single sequence and which are capable of detecting faults in an implementation whose behavior can be modeled as an FSM. This work proposes a checking sequences generation algorithm which aims at generating sequences smaller than the sequences generated by existing methods. The algorithm, which is based on the genetic algorithms technique and sufficient conditions for completeness of test cases, basically consists of creating new sequences from small sequences. Through mutations, new sequences are generated by the algorithm. The suffcient conditions are used to determine which sequences are checking sequences. Experimental studies are presented in this work to determine the behavior of the algorithm on different contexts
|
329 |
Um filtro iterativo utilizando árvores de decisão / An Iterative Decision Tree Threshold FilterPicchi Netto, Oscar 24 September 2013 (has links)
Usar algoritmos de Aprendizado de Máquina é um dos modos ecientes de extrair as informações de grandes bases biológicas. Sabendo-se que a quantidade de dados que são coletados cresce a cada dia, o uso de alguma técnica de seleção de atributos eficiente é, em alguns casos, essencial não só para otimizar o tempo do algoritmo de Aprendizado da Máquina a ser aplicado posteriormente como também para reduzir os dados, de forma que possa ser possível testá-los, por exemplo, em uma bancada de laboratório em algumas situações específicas. O objetivo deste estudo é propor uma abordagem utilizando árvores de decisão em um filtro iterativo, visando auxiliar na extração de informação de grande bases biológicas. Pois, com uma base de menor dimensionalidade, um especialista humano pode entender melhor ou ainda utilizar um algoritmo de Aprendizado de Máquina de forma mais eficaz. O filtro proposto pode utilizar qualquer classificador com um seletor de atributos embutido e qualquer métrica pode ser utilizada para determinar se o atributo deve ser escolhido. Foi fixado, neste estudo, o algoritmo utilizado como J48 e a área embaixo da curva ROC (AUC) como métrica. Em experimentos utilizando diversas bases de dados biomédicas, o filtro proposto foi analisado e sua capacidade de compressão e desempenho foram avaliados em cinco diferentes paradigmas de aprendizado de máquina, utilizando dois limiares diferentes para a métrica escolhida. O melhor limiar obteve uma capacidade de compressão de cerca de 50% dos dados em geral e 99.4% em bases de baixa densidade, geralmente grandes bases. Os valores AUC obtidos pelo filtro quando comparados com cinco algoritmos de paradigmas de aprendizado diferentes mostraram um desempenho melhor em quatro das cinco situações avaliadas. O filtro proposto foi depois analisado e comparado com outros seletores de atributos da literatura e o indutor sozinho. Quanto ao tempo gasto pelo filtro em relação aos outros ele se apresentou no mesmo patamar de 3 dos 4 seletores testados. Quando comparado em relação ao AUC o filtro proposto se mostrou robusto nos cinco indutores analisados, não apresentando nenhuma diferença significativa em nenhum dos cenários testados. Em relação aos indutores, o filtro apresentou um desempenho melhor, mesmo que não significante, em 4 dos 5 indutores. / Using Machine Learning algorithms is an eficient way to extract information from large biological databases. But, in some cases, the amount of data is huge that using an eficient featured subset selection is, in some cases, essencial not only to optimize the learning time but also to reduce the amount of data, allowing, for example, a test in a laboratory workbench. The objective of this study is to propose an approach using decision trees in a iterative filter. The filter helps information extraction from large biological databases, since in a database with few dimensions a human specialist can understand it better or can use Machine Learning algorithms in a more efective way. The proposed lter can use any classier with embed featured subset selection and can use any performance metric to determine which attribute must be chosen. In this study, we have fixed the algorithm used within the filter as J48 and AUC was used as metric for performance evaluation. In experiments using biomedical databases, the proposed filter was analyzed and its compression capacity and performance were tested. In five diferent Machine Learning paradigms, using two diferent thresholds for the chosen metric. The best threshold was capable of reducing around 50% of the data using all databases and 99.4% on the small density bases, usually high dimensional databases. AUC values for the filter when compared with the five algorithm got a better performance in four of five tested situations. The proposed filter then was tested against others featured subset selectors from the literature, and against the inducer alone. Analyzing time the proposed lter is in the same level as 3 of 4 of the tested selectors. When tested for AUC the proposed selector shows itself robust in the five inducers tested, not showing any signicant diference in all tested scenarios. Against the inducers alone our filter showed a better performance, even not signicant, in 4 of the 5 inducers.
|
330 |
Uso de aprendizado supervisionado para análise de confiabilidade de dados de crowdsourcing sobre posicionamento de ônibus / Use of supervised learning to analyze reliability of crowdsourcing bus location dataNeves, Diego Vieira 16 October 2018 (has links)
Pesquisadores de diversas áreas estão estudando o desenvolvimento do que chamamos de Cidades Inteligentes: a integração de Sistemas de Informação e Comunicação com tecnologias de Internet das Coisas para utilizar os recursos de uma cidade de forma mais inteligente. Um dos principais objetivos das cidades inteligentes é solucionar os problemas relacionados à mobilidade urbana, que afeta significativamente a qualidade de vida da população. Um problema observável nas grandes metrópoles é a qualidade dos seus serviços de transporte público, especialmente quando nos referimos ao modal ônibus. A falta de informações confiáveis, associada à baixa qualidade dos serviços de transporte coletivo disponibilizados, leva o usuário a não optar pela utilização desse recurso, o que agrava problemas urbanos sociais e ambientais. Para reverter esse cenário, as iniciativas em cidades inteligentes propõem o uso de Sistemas de Transportes Inteligentes que podem utilizar diversos sensores e equipamentos para coletar diferente tipos de dados referente aos serviços de transporte público. A captura e processamento desses dados permite, em tese, permite que o cidadão possa utilizar o transporte público com confiabilidade e previsibilidade. Contudo, esses dados podem ser insuficientes ou de baixa qualidade para uso em tempo real. Neste trabalho de mestrado investigamos o uso de dados obtidos via colaboração coletiva (crowdsourcing) como complemento dessas informações. Para mitigar as incertezas introduzidas pelo uso de crowdsourcing, este trabalho propõe a utilização de técnicas de aprendizado de máquina para criação de métodos de análise de confiabilidade dos dados coletados para o sistema de transporte público (por ônibus) do município de São Paulo. Para mitigar as incertezas introduzidas pelo uso de crowdsourcing, este trabalho propõe e compara o uso de diferentes técnicas de aprendizado de máquina para criar um modelo de análise de confiabilidade para os dados coletados, especializado no sistema de transporte coletivo (por ônibus) da cidade de São Paulo. Os resultados demostram, que os algoritmos de Árvore de Decisão e Gaussian Naive Bayes foram mais eficazes e eficientes na realização da atividade de classificação dos dados obtidos com crowdsourcing. O algoritmo de Árvore de Decisão, apresentou os melhores indicadores de desempenho em termos de acurácia (94,34\\%) e F-score (99\\%), e o segundo melhor tempo de execução (0,023074 segundo). Já o algoritmo de Gaussian Naive Bayes foi o mais eficiente, com tempo médio de execução de 0,003182 segundos e foi o quarto melhor resultado em termos de acurácia (98,18\\%) e F-score (97\\%) / Researchers from different areas are studying the development of what we call Smart Cities: integrating Information and Communication Systems with Internet of Things to use city resources more intelligently. A major objective of smart cities is to solve problems related to urban mobility that significantly affects the quality of life of the population. An observable problem in big cities is the quality of their public transport services, specifically when we refer to the bus modal. The lack of reliable information, associated with the poor quality of public transport services, encouraging the user to look for alternatives, which aggravates urban social and environmental problems. To reverse this scenario, smart cities initiatives propose the use Intelligent Transport Systems, that can use various sensors and equipment to collect several types of data on public transport services. The capture and processing of these data allows, in theory, citizens to use the public transport with reliability and predictability. However, this data can be insufficient or of poor quality for usage in real-time. This master\'s work investigates the use of crowdsourcing data as a complement to this information. To mitigate the uncertainties introduced by the use of crowdsourcing, this research proposes and compares the use of different machine learning techniques to create a reliability analysis model for the data collected that is specialized for use on public transport system (bus) in the city of São Paulo. The results show that the Decision Tree and Gaussian Naive Bayes algorithms are more effective and efficient in performing the classification activity of the data obtained with crowdsourcing. The Decision Tree algorithm presented the best performance indicators in terms of accuracy (94.34\\%) and F-score (99\\%), and the second best execution time (0.023074 seconds). The Gaussian Naive Bayes algorithm was the most efficient, with an average execution time of 0.003182 seconds and was the forth best result in terms of accuracy (98.18\\%) and F-score (97\\%)
|
Page generated in 0.0429 seconds