Global ETD Search

21	Revisitando o problema de classificação de padrões na presença de outliers usando técnicas de regressão robusta / Revisiting the problem of pattern classification in the presence of outliers using robust regression techniques Barros, Ana Luiza Bessa de Paula January 2013 (has links) BARROS, A. L. B. P. Revisitando o problema de classificação de padrões na presença de outliers usando técnicas de regressão robusta. 2013. 132 f. Tese (Doutorado em Engenharia de Teleinformática) - Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2013. / Submitted by Marlene Sousa (mmarlene@ufc.br) on 2014-04-03T16:37:19Z No. of bitstreams: 1 2013_tese_albpbarros.pdf: 1388726 bytes, checksum: 538397168fecf8499a0d2f56c55e7ca9 (MD5) / Approved for entry into archive by Marlene Sousa(mmarlene@ufc.br) on 2014-05-07T19:09:33Z (GMT) No. of bitstreams: 1 2013_tese_albpbarros.pdf: 1388726 bytes, checksum: 538397168fecf8499a0d2f56c55e7ca9 (MD5) / Made available in DSpace on 2014-05-07T19:09:33Z (GMT). No. of bitstreams: 1 2013_tese_albpbarros.pdf: 1388726 bytes, checksum: 538397168fecf8499a0d2f56c55e7ca9 (MD5) Previous issue date: 2013 / This thesis addresses the problem of data classiﬁcation when they are contaminated with atypical patterns. These patterns, generally called outliers, are omnipresent in real-world multi- variate data sets, but their a priori detection (i.e. before training the classiﬁer) is a difﬁcult task to perform. As a result, the most common approach is the reactive one, in which one suspects of the presence of outliers in the data only after a previously trained classiﬁer has achieved a low performance. Several strategies can then be carried out to improve the performance of the classiﬁer, such as to choose a more computationally powerful classiﬁer and/or to remove the de- tected outliers from data, eliminating those patterns which are difﬁcult to categorize properly. Whatever the strategy adopted, the presence of outliers will always require more attention and care during the design of a pattern classiﬁer. Bearing these difﬁculties in mind, this thesis revi- sits concepts and techniques from the theory of robust regression, in particular those related to M-estimation, adapting them to the design of pattern classiﬁers which are able to automatically handle outliers. This adaptation leads to the proposal of robust versions of two pattern classi- ﬁers widely used in the literature, namely, least squares classiﬁer (LSC) and extreme learning machine (ELM). Through a comprehensive set of computer experiments using synthetic and real-world data, it is shown that the proposed robust classiﬁers consistently outperform their original versions. / Nesta tese, aborda-se o problema de classiﬁcação de dados que estão contaminados com pa- drões atípicos. Tais padrões, genericamente chamados de outliers, são onipresentes em conjunto de dados multivariados reais, porém sua detecção a priori (i.e antes de treinar um classiﬁcador) é uma tarefa de difícil realização. Como conseqüência, uma abordagem reativa, em que se desconﬁa da presença de outliers somente após um classiﬁcador previamente treinado apresen- tar baixo desempenho, é a mais comum. Várias estratégias podem então ser levadas a cabo a ﬁm de melhorar o desempenho do classiﬁcador, dentre elas escolher um classiﬁcador mais poderoso computacionalmente ou promover uma limpeza dos dados, eliminando aqueles pa- drões difíceis de categorizar corretamente. Qualquer que seja a estratégia adotada, a presença de outliers sempre irá requerer maior atenção e cuidado durante o projeto de um classiﬁcador de padrões. Tendo estas diﬁculdades em mente, nesta tese são revisitados conceitos e técni- cas provenientes da teoria de regressão robusta, em particular aqueles relacionados à estimação M, adaptando-os ao projeto de classiﬁcadores de padrões capazes de lidar automaticamente com outliers. Esta adaptação leva à proposição de versões robustas de dois classiﬁcadores de padrões amplamente utilizados na literatura, a saber, o classiﬁcador linear dos mínimos qua- drados (least squares classiﬁer, LSC) e a máquina de aprendizado extremo (extreme learning machine, ELM). Através de uma ampla gama de experimentos computacionais, usando dados sintéticos e reais, mostra-se que as versões robustas dos classiﬁcadores supracitados apresentam desempenho consistentemente superior aos das versões originais. Teleinformática Reconhecimento de padrões Proteção de dados
22	Técnicas multilineares em reconhecimento facial / Multilinear technics in face recognition Sena, Emanuel Dario Rodrigues 07 November 2014 (has links) SENA, E. D. R. Técnicas multilineares em reconhecimento facial. 2014. 77 f. Dissertação (Mestrado em Engenharia de Teleinformática) - Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2014. / Submitted by Marlene Sousa (mmarlene@ufc.br) on 2015-02-12T17:11:46Z No. of bitstreams: 1 2014_dis_edrsena.pdf: 858896 bytes, checksum: f934617e0c123b479858e1a2ff40193a (MD5) / Approved for entry into archive by Marlene Sousa(mmarlene@ufc.br) on 2015-02-12T17:12:06Z (GMT) No. of bitstreams: 1 2014_dis_edrsena.pdf: 858896 bytes, checksum: f934617e0c123b479858e1a2ff40193a (MD5) / Made available in DSpace on 2015-02-12T17:12:06Z (GMT). No. of bitstreams: 1 2014_dis_edrsena.pdf: 858896 bytes, checksum: f934617e0c123b479858e1a2ff40193a (MD5) Previous issue date: 2014-11-07 / In this dissertation, the face recognition problem is investigated from the standpoint of multilinear algebra, more specifically the tensor decomposition, and by making use of Gabor wavelets. The feature extraction occurs in two stages: first the Gabor wavelets are applied holistically in feature selection; Secondly facial images are modeled as a higher-order tensor according to the multimodal factors present. Then, the HOSVD is applied to separate the multimodal factors of the images. The proposed facial recognition approach exhibits higher average success rate and stability when there is variation in the various multimodal factors such as facial position, lighting condition and facial expression. We also propose a systematic way to perform cross-validation on tensor models to estimate the error rate in face recognition systems that explore the nature of the multimodal ensemble. Through the random partitioning of data organized as a tensor, the mode-n cross-validation provides folds as subtensors extracted of the desired mode, featuring a stratified method and susceptible to repetition of cross-validation with different partitioning. / Nesta dissertação o problema de reconhecimento facial é investigado do ponto de vista da álgebra multilinear, mais especificamente por meio de decomposições tensoriais fazendo uso das wavelets de Gabor. A extração de características ocorre em dois estágios: primeiramente as wavelets de Gabor são aplicadas de maneira holística na seleção de características; em segundo as imagens faciais são modeladas como um tensor de ordem superior de acordo com o fatores multimodais presentes. Com isso aplicamos a decomposição tensorial Higher Order Singular Value Decomposition (HOSVD) para separar os fatores que influenciam na formação das imagens. O método de reconhecimento facial proposto possui uma alta taxa de acerto e estabilidade quando há variação nos diversos fatores multimodais, tais como, posição facial, condição de iluminação e expressão facial. Propomos ainda uma maneira sistemática para realização da validação cruzada em modelos tensoriais para estimação da taxa de erro em sistemas de reconhecimento facial que exploram a natureza multilinear do conjunto de imagens. Através do particionamento aleatório dos dados organizado como um tensor, a validação cruzada modo-n proporciona a criação de folds extraindo subtensores no modo desejado, caracterizando um método estratificado e susceptível a repetições da validação cruzada com diferentes particionamentos. Teleinformática Álgebra multilinear Reconhecimento de padrões
23	Um Sistema de visão computacional para classificação da qualidade do couro caprino / A Computer vision system for classification of quality goat leather Santos Filho, Edmilson Queiroz dos 08 August 2013 (has links) SANTOS FILHO. E. Q. Um Sistema de visão computacional para classificação da qualidade do couro caprino. 2013. 85 f. Dissertação (Mestrado em Engenharia de Teleinformática) - Centro de Tecnologia, Universidade Federal do Ceará, Fortaleza, 2013. / Submitted by Marlene Sousa (mmarlene@ufc.br) on 2015-02-27T19:00:53Z No. of bitstreams: 1 2013_dis_eqsantosfilho.pdf: 4685351 bytes, checksum: 54b73c3fbf463604705094bd650b2cdd (MD5) / Approved for entry into archive by Marlene Sousa(mmarlene@ufc.br) on 2015-03-04T16:51:14Z (GMT) No. of bitstreams: 1 2013_dis_eqsantosfilho.pdf: 4685351 bytes, checksum: 54b73c3fbf463604705094bd650b2cdd (MD5) / Made available in DSpace on 2015-03-04T16:51:14Z (GMT). No. of bitstreams: 1 2013_dis_eqsantosfilho.pdf: 4685351 bytes, checksum: 54b73c3fbf463604705094bd650b2cdd (MD5) Previous issue date: 2013-08-08 / An important economic alternative for the semi-arid region of Brazil is the goat/sheep farming. Besides milk and meat, goat/sheep skins are much appreciated in the manufacturing of fine artifacts (e.g. shoes, bags & purses, wall ets, and jackets). However, due to the extensive mode of raising/breeding and the informality of slaughtering, sheep/goat farmers deliver to industry skin pieces with different types and levels of defects. Then, at the industry, specialized workers have to classify/discriminate the skin pieces according to their qualities. This handmade work is time - consuming and extremely dependent on the experience of the employee in charge of the skin - quality discrimination. Even the same employee may produce different classifications if he/she is asked to reclassify the skin lot. Thus, in order to handle these problems, in this paper we report the first results of a computer vision based system aiming at classifying automatically the quality of goat/sheep skin pieces. For this purpose, we compare the performances of statistica l and neural network classifiers using several feature extraction techniques, such as Column - Variance (VAR), Haar wavelet transform (HAAR), Non - Negative Matrix Factorization (NMF), Principal Component Analysis (PCA) and Gray Level Co - occurence Matrices (GL CM). We also implemented the reject option in the evaluated classifiers. Reject option is a technique used do improve classifier's reliability in decision support systems. It consists in withholding the automatic classification of an item, if the decision is considered not sufficiently reliable. The rejected item is then handled by a different classifier or by a human expert. By means of an in - depth analysis of the results, it was possible to observe that, without the reject option mechanism, the VAR, NMF a nd HAAR techniques achieved the best performances when associated with the ELM and SVM classifiers. When the reject option mechanism was present, it was observed a considerable improvement of the classification rates, at the expenses of relatively high rej ection rates. It was also possible to observe that, for the evaluated classifiers, the HAAR and GLCM techniques were less affected by the use of the reject option mechanism in comparison to the results achieved for the case without reject option / Uma alternativa econômica importante para a região semi-árida do Brasil é a criação de ovinos e caprinos. Além de leite e carne de caprinos/ovinos, as peles são muito apreciadas na fabricação de artefatos finos (por exemplo, sapatos, bolsas, carteiras e casacos). No entanto, devido ao modo extensivo de criação/reprodução e informalidade do abate, as peles de ovinos/caprinos são entregues ao curtume com diferentes tipos e níveis de defeitos. Na indústria, trabalhadores especializados têm a tarefa de classificar/discriminar as peles de acordo com a qualidade das mesmas. Este trabalho é artesanal, demorado e extremamente dependente da experiência do funcionário responsável pela discriminação da qualidade da pele. O mesmo funcionário pode produzir diferentes classificações se ele/ela tiver que reclassificar o lote de pele. Assim, a fim de lidar com esses problemas, neste trabalho, apresentam-se os primeiros resultados de um sistema baseado em visão computacional cujo objetivo é classificar automaticamente a qualidade da pele de caprinos/ovinos. Para isso, comparamos os desempenhos de classificadores estatísticos e neurais utilizando diversas técnicas de extração de características, tais como a Variância das colunas (VAR), Transformada Wavelet de Haar (HAAR), Fatoração em Matrizes Não-Negativas (NMF), Análise de Componentes Principais (PCA) e Matrizes de Co-ocorrência de níveis de cinza (GLCM). Também foram implementados mecanismos de opção de rejeição nos classificadores avaliados. Opção de rejeição é uma técnica usada para aumentar a confiabilidade do classificador em sistemas de apoio à tomada de decisão, que consiste em reter a classificação automática de um item, caso a decisão não seja considerada suficientemente confiável. Já com a utilização da opção de rejeição, de uma forma geral, foi possível observar uma considerável melhora nas taxas de acerto dos classificadores avaliados, às expensas de uma taxa de rejeição relativamente alta. Também foi possível observar que, para os classificadores analisados, os extratores HAAR e GLCM foram menos sensíveis à aplicação da opção de rejeição, em comparação com os resultados obtidos para o caso sem opção de rejeição. Teleinformática Reconhecimento de padrões Redes neurais
24	Modelo de Aprendizado Incremental Baseado em Uma Rede Neural com Arquitetura Adaptativa CIARELLI, P. M. 12 December 2012 (has links) Made available in DSpace on 2016-08-29T15:32:43Z (GMT). No. of bitstreams: 1 tese_2753_Patrick_tese.pdf: 6162584 bytes, checksum: a94d478a04680143f35c1eb308769c46 (MD5) Previous issue date: 2012-12-12 / Este trabalho apresenta uma abordagem baseada em Redes Neurais Artificiais para problemas de classificação multi-rotulada. Em particular, foi empregada uma versão modificada da Rede Neural Probabilística para tratar de tais problemas. Em experimentos realizados em várias bases de dados conhecidas na literatura, a Rede Neural Probabilística proposta apresentou um desempenho comparável, e algumas vezes até superior, a outros algoritmos especializados neste tipo de problema. Como o foco principal deste trabalho foi o estudo de estratégias para classificação automática de texto de atividades econômicas, foram realizados também experimentos utilizando uma base de dados de atividades econômicas. No entanto, diferente das bases de dados utilizadas anteriormente, esta base de dados apresenta um número extenso de categorias e poucas amostras de treino por categoria, o que aumenta o grau de dificuldade deste problema. Nos experimentos realizados foram utilizados a Rede Neural Probabilística proposta, o classificador k-Vizinhos mais Próximos Multi-rotulado, e um Algoritmo Genético para otimização dos parâmetros dos mesmos. Nas métricas utilizadas para avaliação de desempenho, a Rede Neural Probabilística mostrou resultados superiores e comparáveis aos resultados obtidos pelo k-Vizinhos mais Próximos Multi-rotulado, mostrando que a abordagem utilizada neste trabalho é promissora. Redes neurais (Computção) Reconhecimento de padrões
25	Desenvolvimento de uma abordagem para o reconhecimento de gestos manuais dinâmicos e estáticos. Escobedo Cárdenas, Edwin Jonathan January 2015 (has links) Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto. / Submitted by Oliveira Flávia (flavia@sisbin.ufop.br) on 2015-10-20T16:44:07Z No. of bitstreams: 2 license_rdf: 21174 bytes, checksum: b98541e59f955f816d2d78f2222e44c8 (MD5) DISSERTAÇÃO_DesenvolvimentoAbordagemReconhecimento.pdf: 9631210 bytes, checksum: b858c7551bb89d16b01138519d6a070d (MD5) / Approved for entry into archive by Gracilene Carvalho (gracilene@sisbin.ufop.br) on 2015-10-26T13:01:04Z (GMT) No. of bitstreams: 2 license_rdf: 21174 bytes, checksum: b98541e59f955f816d2d78f2222e44c8 (MD5) DISSERTAÇÃO_DesenvolvimentoAbordagemReconhecimento.pdf: 9631210 bytes, checksum: b858c7551bb89d16b01138519d6a070d (MD5) / Made available in DSpace on 2015-10-26T13:01:04Z (GMT). No. of bitstreams: 2 license_rdf: 21174 bytes, checksum: b98541e59f955f816d2d78f2222e44c8 (MD5) DISSERTAÇÃO_DesenvolvimentoAbordagemReconhecimento.pdf: 9631210 bytes, checksum: b858c7551bb89d16b01138519d6a070d (MD5) Previous issue date: 2015 / Durante os últimos anos, têm sido desenvolvidas diversas abordagens para o reconhecimento de gestos manuais, tanto estáticos como dinâmicos. Todas com o objetivo de melhorar a interação homem-computador. Muitas dessas abordagens, inicialmente baseados nas informações de intensidade, não fornecem dados suficientes para uma boa caracterização. Devido ao avanço da tecnologia, novos dispositivos estão surgindo como é o caso do sensor Kinect o qual, além da informação de intensidade, provê as informações de profundidade e posições das articulações do corpo. Dessa maneira, obtém-se uma maior vantagem no desenvolvimento de um modelo para reconhecimento de gestos, pois ajuda reduzindo alguns processos complexos como é o caso da segmentação e localização da mão. Contudo as novas informações de profundidade e posição podem também ser usadas para a geração de novas características e melhorar as taxas de reconhecimento. Nesta dissertação apresentamos dois modelos para o reconhecimento de gestos, tanto estáticos como dinâmicos, usando as informações de intensidade e profundidade (RGBD), além da informação das posições das principais articulações do corpo. No modelo para reconhecer gestos estáticos, usou-se a informação de profundidade, propondo um método baseado na representação da mão em uma nuvem de pontos. Logo, usando a teoria de cossenos de direção, gerou-se um vetor de Histogramas de Magnitudes Acumuladas, o qual representa as novas características locais da mão. Finalmente, usando o classificador SVM (Support Vector Machine), geraram-se resultados superiores a outros modelos da literatura, sendo o melhor resultado de 99.21% de acurácia media. No modelo para reconhecer gestos dinâmicos, usou-se a informação das posições da mão para gerar a trajetória do gesto e propor um algoritmo de extração de quadros principais, evitando assim o uso reiterado de técnicas invariáveis ao tempo como os Hidden Markov Models (HMM) ou Dinamyc Time Warping (DTW). Depois, geraram-se três vetores: o vetor de informação espacial VSI , o vetor de informação temporal VTI e o vetor de mudanças da posição da mão VHC, os quais representam as características globais do gesto. Também, o descritor local SIFT foi usado nas imagens de intensidade e profundidade para obter características das mãos. A partir dessas características, foram gerados atributos de nível médio usando a técnica Bag-of-Words (BoW), gerando o vetor de características locais. Esse modelo foi testado usando o classificador SVM (Support Vector Machine) usando três bases de dados diferentes, gerando resultados superiores a outros modelos da literatura em cada caso (100%, 88.38% e 98.28%). _______________________________________________________________________________________ / ABSTRACT: During the last years, different approaches have been developed for hand gestures recognition, both static and dynamic. All with the goal of improving the human-computer interaction. Many of these approaches, initially based on the intensity information, do not provide sufficient data for a good characterization. Due to advancement in technology, new devices are emerging such as the Kinect sensor which, in addition to intensity information, provides information and depth positions of the joints of the body. Thus, we obtain a greater advantage in developing a model for gesture recognition, it helps reduce some complex processes such as the segmentation and hand location. However the new depth and position information can also be used for new features generation and improved recognition rates. In this thesis we present two models for gesture recognition, both static and dynamic, using the intensity and depth of information (RGB-D), and the positions information of the main joints of the body. In the model to recognize static gestures, was used the depth information, proposing a method based on hand representation in a point cloud. Thus, using the theory of direction cosines, was generated a Accumulated Magnitude Histogram vector, which represents the new hand local characteristics. Finally, using the SVM classifier (Support Vector Machine ), the results are superior results to other models in the literature, the average accuracy best result was 99.21%. In the model for recognizing dynamic gestures, was used information from the hand positions to generate the trajectory of gesture and propose a key frames extraction algorithm, avoiding the repeated use of invariable techniques to time as the Hidden Markov Models (HMM) or Dinamyc Time Warping (DTW). Then, three vectors were generated: the spatial information vectorVSI , the temporal information vector VTI and the vector of hand position changes VHC , which represent global gesture features. Also, the local descriptor SIfT was used in the intensity and depth images for the hands characteristics. As from these characteristics, were generated mid-level attributes using the technique Bag-of-Words (BoW), generating the local characteristics vector. This model was tested using the SVM classifier (Support Vector Machine) using three different databases, generating superior results to other published models in each case (100%, 88.38% and 98.28%). Reconhecimento de padrões Gestos Linguagem corporal
26	Reconhecimento de padrões usando indexação recursiva Souza, João Artur de January 1999 (has links) Tese (Doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico. / Made available in DSpace on 2012-10-18T15:05:44Z (GMT). No. of bitstreams: 1 144135.pdf: 1096536 bytes, checksum: db201ad898c7ae6cc4b3e5b8ea600b22 (MD5) Teses Reconhecimento de padrões Modelos matematicos
27	Segmentação binível de imagens usando entropia difusa bidimensional e distribuição da orientação de gradiente dos pixels / Oliveira, Luiz Hermano Costa de January 1999 (has links) Dissertação (Mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. / Made available in DSpace on 2012-10-19T01:10:56Z (GMT). No. of bitstreams: 0Bitstream added on 2016-01-09T01:27:38Z : No. of bitstreams: 1 142816.pdf: 17476136 bytes, checksum: 39b1dff2f5388fc084f232d284d07797 (MD5) Teses Entropia Teses Reconhecimento de padrões
28	Avaliação de técnicas para o reconhecimento de pessoas pela forma de andar (Gait Recognition) Nunes, Rodrigo Alves 04 July 2011 (has links) Resumo: A possibilidade de uso da forma de andar de seres humanos como característica biométrica para a identificação de indivíduos é o foco de estudo deste trabalho. Além de apresentar vantagens em relação a outras biometrias, como o reconhecimento por face, impressão digital ou íris, o reconhecimento de pessoas pela forma de andar possibilita a extração de características biométricas á distância de forma não invasiva, e não necessita de imagens de alta resolução. O presente trabalho apresenta um estudo das principais e atuais abordagens de reconhecimento de pessoas pela forma de andar, livres de modelos (model-free). Foram exploradas as principais bases de dados utilizadas atualmente assim como os métodos estado da arte. Cada uma das bases apresenta diferentes variações nos ambientes das ímagens (interno ou externo), tipo de superficie, tipo de calçado, ângulos de câmera e a variação de datas de gravação das sequências. Dessa forma, pode ser medido qual a influência de cada uma destas variações no processo de reconhecimento de pessoas pela forma de andar. São apresentadas em detalhes as etapas de funcionamento das abordagens de reconhecimento definidas como baseline, silhuetas médias, vetores de largura e vetores de massa. Modificações na abordagem de silhuetas médias foram propostas e os resultados obtidos são discutidos em detalhes. Após a análise de qualidade das silhuetas extraídas da USF Database, foi efetuada a classificação de uma parcela das silhuetas da base de acordo com a presença de erros de segmentação. Por meio dessa classificação são apresentadas as taxas de reconhecimento obtidas após a remoção de cada tipo de erro da base, de forma a poder avaliar a influência destes erros nos resultados dos métodos implementados. Teses Marcha humana Reconhecimento de padrões
29	Segmentação facial e detecção de características faciais em imagens de profundidade Segundo, Maurício Pamplona 29 June 2011 (has links) Resumo: Neste trabalho apresentamos uma abordagem para segmentação facial e detecção de características faciais em imagens de profundidade. O nosso objetivo foi o desenvolvimento de um processo automático para ser incluído em um sistema de reconhecimento facial utilizando somente a informação de profundidade como entrada. Para isto, a nossa abordagem de segmentação combina detecção de borda, agrupamento de regiões e análise de forma para extrair a região da face; e a nossa abordagem para detecção de características faciais combina classificação de curvatura de superfícies e curvas de relevo para encontrar pontos característicos no nariz e nos olhos. Os experimentos foram realizados utilizando as duas versões disponíveis da base Face Recognition Grand Challenge e a base BU-3DFE, buscando validar as nossas abordagens e as suas vantagens para o reconhecimento facial. Apresentamos uma análise da precisão das abordagens propostas para a segmentação e detecção de características, e comparamos os nossos resultados com outros trabalhos do estado-da-arte, publicados na literatura. Além disso, realizamos uma avaliacão da influência da segmentacão no econhecimento facial e também da melhoria obtida quando as características detectadas são aplicadas para auxiliar o reconhecimento facial em imagens contendo express˜oes faciais. Teses Face - Reconhecimento de padrões Imagem
30	A tuning approach based on evolutionary algorithm and data sampling for boosting performance of mapreduce programs Kepe, Tiago Rodrigo January 2013 (has links) Orientador : Prof. Dr. Eduardo C. de Almeida / Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 25/08/2014 / Inclui referências / Resumo: O software de processamento de dados Apache Hadoop está introduzido em um ambiente complexo composto de enormes cluster de máquinas, grandes conjuntos de dados e vários programas de processamento. Administrar tal ambiente demanda tempo, é dispendioso e requer usuários experts. Por isso, falta de conhecimento pode ocasionar falhas de configurações degradando a performance do cluster de processamento. Realmente, usuários gastam muito tempo configurando o ambiente em vez de focar na análise dos dados. Para resolver questões de má configuração nós propomos uma solução, cujo objetivo é ajustar parâmetros de desempenho de programas executados sobre o Hadoop em ambientes Big Data. Para alcançar isto, nosso mecanismo de ajuste de desempenho inspira-se em duas ideias-chave: (1) um algoritmo evolucionário para gerar e testar novas configurações de jobs, e (2) amostragem de dados para reduzir o custo do processo de ajuste de desempenho. A partir dessas ideias desenvolvemos um framework para testar configurações usuais de programas e obter uma nova configuração mais ajustada ao estado atual do ambiente. Resultados experimentais mostram ganho na performance de jobs comparado com as configurações padrão e _regras de ouro_ do Hadoop. Além disso, os experimentos comprovam a acurácia da nossa solução no que se refere ao custo para obter uma melhor configuração e a qualidade da configuração alcançada. Palavras chaves: Big Data, MapReduce, Hadoop, Ajuste / Abstract: The Apache Hadoop data processing software is immersed in a complex environment composed of huge machine clusters, large data sets, and several processing jobs. Managing a Hadoop environment is time consuming, toilsome and requires expert users. Thus, lack of knowledge may entail miscongurations degrading the cluster performance. Indeed, users spend a lot of time tuning the system instead of focusing on data analysis. To address misconguration issues we propose a solution implemented on top of Hadoop. The goal is presenting a tuning mechanism for Hadoop jobs on Big Data environments. To achieve this, our tuning mechanism is inspired by two key ideas: (1) an evolutionary algorithm to generate and test new job congurations, and (2) data sampling to reduce the cost of the tuning process. From these ideas we developed a framework for testing usual job congurations and get a new conguration suitable to the current state of the environment. Experimental results show gains in job performance against the Hadoop's default conguration and the rules of thumb. Besides, the experiments prove the accuracy of our solution which is the relation between the cost to obtain a better conguration and the quality of the conguration reached. Keywords: Big Data, MapReduce, Hadoop, Tuning Sistemas de reconhecimento de padrões Ciência da computação

Search results