Spelling suggestions: "subject:"[een] SVM"" "subject:"[enn] SVM""
41 |
Técnicas de processamento de imagens para localização e reconhecimento de faces / Image processing techniques for faces location and recognitionOsvaldo Cesar Pinheiro de Almeida 01 December 2006 (has links)
A biometria é a ciência que estuda a mensuração dos seres vivos. Muitos trabalhos exploram as características dos seres humanos tais como, impressão digital, íris e face, a fim de desenvolver sistemas biométricos, utilizados em diversas aplicações (monitoramento de segurança, computação ubíqua, robótica). O reconhecimento de faces é uma das técnicas biométricas mais investigadas, por ser bastante intuitiva e menos invasiva que as demais. Alguns trabalhos envolvendo essa técnica se preocupam apenas em localizar a face de um indivíduo (fazer a contagem de pessoas), enquanto outros tentam identificá-lo a partir de uma imagem. Este trabalho propõe uma abordagem capaz de identificar faces a partir de quadros de vídeo e, posteriormente, reconhecê-las por meio de técnicas de análise de imagens. Pode-se dividir o trabalho em dois módulos principais: (1) - Localização e rastreamento de faces em uma seqüência de imagens ( frames), além de separar a região rastreada da imagem; (2) - Reconhecimento de faces, identificando a qual pessoa pertence. Para a primeira etapa foi implementado um sistema de análise de movimento (baseado em subtração de quadros) que possibilitou localizar, rastrear e captar imagens da face de um indivíduo usando uma câmera de vídeo. Para a segunda etapa foram implementados os módulos de redução de informações (técnica Principal Component Analysis - PCA), de extração de características (transformada wavelet de Gabor), e o de classificação e identificação de face (distância Euclidiana e Support Vector Machine - SVM). Utilizando-se duas bases de dados de faces (FERET e uma própria - Própria), foram realizados testes para avaliar o sistema de reconhecimento implementado. Os resultados encontrados foram satisfatórios, atingindo 91,92% e 100,00% de taxa de acertos para as bases FERET e Própria, respectivamente. / Biometry is the science of measuring and analyzing biomedical data. Many works in this field have explored the characteristics of human beings, such as digital fingerprints, iris, and face to develop biometric systems, employed in various aplications (security monitoring, ubiquitous computation, robotic). Face identification and recognition are very apealing biometric techniques, as it it intuitive and less invasive than others. Many works in this field are only concerned with locating the face of an individual (for counting purposes), while others try to identify people from faces. The objective of this work is to develop a biometric system that could identify and recognize faces. The work can be divided into two major stages: (1) Locate and track in a sequence of images (frames), as well as separating the tracked region from the image; (2) Recognize a face as belonging to a certain individual. In the former, faces are captured from frames of a video camera by a motion analysis system (based on substraction of frames), capable of finding, tracking and croping faces from images of individuals. The later, consists of elements for data reductions (Principal Component Analysis - PCA), feature extraction (Gabor wavelets) and face classification (Euclidean distance and Support Vector Machine - SVM). Two faces databases have been used: FERET and a \"home-made\" one. Tests have been undertaken so as to assess the system\'s recognition capabilities. The experiments have shown that the technique exhibited a satisfactory performance, with success rates of 91.97% and 100% for the FERET and the \"home-made\" databases, respectively.
|
42 |
SVM-based algorithms for aligning ontologies using literaturexu, wei January 2008 (has links)
<p>Ontologies is one of the key techniques used in Semantic Web establishment. Nowadays,many ontologies have been developed and it is critical to understand the relationships between the terms of the ontologies, i.e. we need to align the ontologies.</p><p>This thesis deals with an approach for finding relationships between ontologies using literature by classifying documents related to terms in the ontologies.</p><p> </p><p>In this project the general method from [1] is used, but in the classifier generation part, a brand new classifier based on SVMs algorithm is implemented by LPU and SVM<em><sup>light</sup></em>. We evaluate our approach and compare it to previous approaches.</p>
|
43 |
SVM Multiclasses, Théorie et ApplicationsGuermeur, Yann 28 November 2007 (has links) (PDF)
Les machines à vecteurs support (SVM) sont des modèles de l'apprentissage automatique qui font actuellement l'objet de nombreux travaux de recherche, ceci pour deux raisons principales : d'une part, <br />leurs performances constituent l'état de l'art dans de multiples domaines<br />de la reconnaissance des formes, d'autre part, elles possèdent des propriétés statistiques remarquables. Le premier modèle de SVM proposé par Vapnik et ses co-auteurs calcule des dichotomies. Il peut être utilisé pour effectuer des tâches de discrimination à catégories multiples, dans le cadre de l'application de méthodes de décomposition. Des SVM multi-classes ont également été proposées dans la littérature, parmi lesquelles nous distinguons celles qui s'appuient sur un modèle affine multivarié, que nous nommons M-SVM. Ce mémoire se présente comme une étude synthétique de la discrimination à catégories multiples au moyen de SVM. Il se concentre plus particulièrement sur l'analyse des M-SVM.<br /><br />Le chapitre deux est consacré à la description des SVM multi-classes,<br />à leur mise en oeuvre et à l'analyse de leurs performances. Nous présentons successivement le cadre théorique de leur étude, les différents modèles, une étude théorique de leurs performances en généralisation, leur programmation ainsi que les différentes méthodes de sélection de modèle qui leur sont dédiées. Le chapitre trois décrit une application de la M-SVM de Weston et Watkins en biologie structurale prédictive. Le problème traité est la prédiction de la structure secondaire des protéines globulaires.
|
44 |
Schnelle Identifizierung von oralen Actinomyces-Arten des subgingivalen Biofilms mittels MALDI-TOF-MSBorgmann, Toralf Harald 25 November 2015 (has links) (PDF)
Aktinomyzeten sind ein Teil der residenten Flora des menschlichen Verdauungstraktes, des Urogenitalsystems und der Haut. Die zeitraubende Isolation und Identifikation der Aktinomyzeten durch konventionelle Methoden stellt sich häufig als sehr schwierig dar. In den letzten Jahren hat sich jedoch die Matrix-unterstützte Laser-Desorption/Ionisation-Flugzeit-Massenspektrometrie (MALDI-TOF-MS) als Alternative zu etablierten Verfahren entwickelt und stellt heutzutage eine schnelle und simple Methode zur Bakterienidentifikation dar. Unsere Studie untersucht den Nutzen dieser Methode für eine schnelle und zuverlässige Identifizierung von oralen Aktinomyzeten, die aus dem subgingivalen Biofilm parodontal erkrankter Patienten isoliert wurden. In dieser Studie wurden elf verschiedene Referenzstämme aus den Stammsammlungen ATCC und DSMZ und 674 klinische Stämme untersucht. Alle Stämme wurden durch biochemische Methoden vorab identifiziert und anschließend ausgehend von den erhobenen MALDI-TOF-MS-Daten durch Ähnlichkeitsanalysen und Klassifikationsmethoden identifiziert und klassifiziert. Der Genotyp der Referenzstämme und von 232 klinischen Stämmen wurde durch Sequenzierung der 16S rDNA bestimmt. Die Sequenzierung bestätigte die Identifizierung der Referenzstämme. Diese und die zweifelsfrei durch 16S rDNA Sequenzierung identifizierten Aktinomyzeten wurden verwendet, um eine MALDI-TOF-MS-Datenbank zu erstellen. Methoden der Klassifikation wurden angewandt, um eine Differenzierung und Identifikation zu ermöglichen. Unsere Ergebnisse zeigen, dass eine Kombination aus Datenerhebung mittels MALDI-TOF-MS und deren Verarbeitung mittels SVM-Algorithmen eine gute Möglichkeit für die Identifikation und Differenzierung von oralen Aktinomyzeten darstellt.
|
45 |
Multi Criteria Mapping Based on SVM and Clustering MethodsDiddikadi, Abhishek 09 November 2015 (has links) (PDF)
There are many more ways to automate the application process like using some commercial software’s that are used in big organizations to scan bills and forms, but this application is only for the static frames or formats. In our application, we are trying to automate the non-static frames as the study certificate we get are from different counties with different universities. Each and every university have there one format of certificates, so we try developing a very new application that can commonly work for all the frames or formats. As we observe many applicants are from same university which have a common format of the certificate, if we implement this type of tools, then we can analyze this sort of certificates in a simple way within very less time. To make this process more accurate we try implementing SVM and Clustering methods. With these methods we can accurately map courses in certificates to ASE study path if not to exclude list. A grade calculation is done for courses which are mapped to an ASE list by separating the data for both labs and courses in it. At the end, we try to award some points, which includes points from ASE related courses, work experience, specialization certificates and German language skills. Finally, these points are provided to the chair to select the applicant for master course ASE.
|
46 |
Estudo de níveis de ozônio troposférico usando métodos de estatística univariada e multivariada para duas localidades da cidade do Rio de Janeiro / Tropospheric ozone level study using uni and multivariate statistical approach for two locations of Rio de Janeiro cityGabriela Corrêa Gama de Oliveira 20 February 2013 (has links)
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Com cada vez mais intenso desenvolvimento urbano e industrial, atualmente um desafio fundamental é eliminar ou reduzir o impacto causado pelas emissões de poluentes para a atmosfera. No ano de 2012, o Rio de Janeiro sediou a Rio +20, a Conferência das Nações Unidas sobre Desenvolvimento Sustentável, onde representantes de todo o mundo participaram. Na época, entre outros assuntos foram discutidos a economia verde e o desenvolvimento sustentável. O O3 troposférico apresenta-se como uma variável extremamente importante devido ao seu forte impacto ambiental, e conhecer o comportamento dos parâmetros que afetam a qualidade do ar de uma região, é útil para prever cenários. A química das ciências atmosféricas e meteorologia são altamente não lineares e, assim, as previsões de parâmetros de qualidade do ar são difíceis de serem determinadas. A qualidade do ar depende de emissões, de meteorologia e topografia. Os dados observados foram o dióxido de nitrogênio (NO2), monóxido de nitrogênio (NO), óxidos de nitrogênio (NOx), monóxido de carbono (CO), ozônio (O3), velocidade escalar vento (VEV), radiação solar global (RSG), temperatura (TEM), umidade relativa (UR) e foram coletados através da estação móvel de monitoramento da Secretaria do Meio Ambiente (SMAC) do Rio de Janeiro em dois locais na área metropolitana, na Pontifícia Universidade Católica (PUC-Rio) e na Universidade do Estado do Rio de Janeiro (UERJ) no ano de 2011 e 2012. Este estudo teve três objetivos: (1) analisar o comportamento das variáveis, utilizando o método de análise de componentes principais (PCA) de análise exploratória, (2) propor previsões de níveis de O3 a partir de poluentes primários e de fatores meteorológicos, comparando a eficácia dos métodos não lineares, como as redes neurais artificiais (ANN) e regressão por máquina de vetor de suporte (SVM-R), a partir de poluentes primários e de fatores meteorológicos e, finalmente, (3) realizar método de classificação de dados usando a classificação por máquina de vetor suporte (SVM-C). A técnica PCA mostrou que, para conjunto de dados da PUC as variáveis NO, NOx e VEV obtiveram um impacto maior sobre a concentração de O3 e o conjunto de dados da UERJ teve a TEM e a RSG como as variáveis mais importantes. Os resultados das técnicas de regressão não linear ANN e SVM obtidos foram muito próximos e aceitáveis para o conjunto de dados da UERJ apresentando coeficiente de determinação (R2) para a validação, 0,9122 e 0,9152 e Raiz Quadrada do Erro Médio Quadrático (RMECV) 7,66 e 7,85, respectivamente. Quanto aos conjuntos de dados PUC e PUC+UERJ, ambas as técnicas, obtiveram resultados menos satisfatórios. Para estes conjuntos de dados, a SVM mostrou resultados ligeiramente superiores, e PCA, SVM e ANN demonstraram sua robustez apresentando-se como ferramentas úteis para a compreensão, classificação e previsão de cenários da qualidade do ar / With increasingly intense urban and industrial development, currently a key challenge is to eliminate or reduce the impact caused by emissions of pollutants into the atmosphere. In the year 2012, the Rio de Janeiro hosted the Rio +20, the United Nations Conference about Sustainable Development, where representatives from around the world participated. At the time, among other issues discussed were the green economy and sustainable development. The tropospheric O3 presents itself as an extremely crucial variable due to its strong environmental impact, and knowing the behavior of the parameters that affect the air quality of a region, is useful for predicting scenarios. The chemistry of atmospheric sciences and meteorology are highly nonlinear and thus the forecasts of air quality parameters are hard to be determined. Air quality depends on emissions, meteorology and topography. The observed data were Nitrogen Dioxide (NO2), Nitrogen Monoxide (NO), Nitrogen Oxides (NOx), Carbon Monoxide (CO), Ozone (O3), Scalar Wind Speed (VEV), Global Solar Radiation (RSG), Temperature (TEM), Relative Humidity (UR) and collected through the mobile station monitoring the Secretaria do Meio Ambiente (SMAC) of Rio de Janeiro City in two places in the metropolitan area at Pontíficia Universidade Católica (PUC-Rio) and the Universidade do Estado do Rio de Janeiro (UERJ) at years 2011 and 2012. This study had three objectives: (1) to analyze the behavior of the variables, using the method of principal components analysis (PCA) of exploratory analysis; (2) propose forecasts of O3 levels from primary pollutants and meteorological factors, comparing the effectiveness of nonlinear methods like as artificial neural networks (ANN) and support vector machine regression (SVM-R), from primary pollutants and meteorological factors and finally, (3) perform data classification method using support vector machine classification (SVM-C). The PCA technique showed that for PUC dataset, variables NO, NOx and VSV have a greater impact on the concentration of O3 and the UERJ data set had the temperature (TEM) and Global Solar Radiation (RSG) as the most important variables. The results from the nonlinear regression techniques ANN and SVM obtained were very closely and acceptable to UERJ dataset presenting coefficient of determination (R2) for validation, 0.9122 and 0.9152 and Root Mean Square Error (RMECV) 7.66 and 7.85, respectively. As for the PUC and PUC + UERJ datasets, both techniques, obtained less satisfactory results. For these datasets, the SVM proved results slightly higher, and PCA, SVM and ANN had demonstrated their robustness presenting themselves as useful tools for understanding, classification and prediction scenarios for air quality
|
47 |
Estudo de níveis de ozônio troposférico usando métodos de estatística univariada e multivariada para duas localidades da cidade do Rio de Janeiro / Tropospheric ozone level study using uni and multivariate statistical approach for two locations of Rio de Janeiro cityGabriela Corrêa Gama de Oliveira 20 February 2013 (has links)
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Com cada vez mais intenso desenvolvimento urbano e industrial, atualmente um desafio fundamental é eliminar ou reduzir o impacto causado pelas emissões de poluentes para a atmosfera. No ano de 2012, o Rio de Janeiro sediou a Rio +20, a Conferência das Nações Unidas sobre Desenvolvimento Sustentável, onde representantes de todo o mundo participaram. Na época, entre outros assuntos foram discutidos a economia verde e o desenvolvimento sustentável. O O3 troposférico apresenta-se como uma variável extremamente importante devido ao seu forte impacto ambiental, e conhecer o comportamento dos parâmetros que afetam a qualidade do ar de uma região, é útil para prever cenários. A química das ciências atmosféricas e meteorologia são altamente não lineares e, assim, as previsões de parâmetros de qualidade do ar são difíceis de serem determinadas. A qualidade do ar depende de emissões, de meteorologia e topografia. Os dados observados foram o dióxido de nitrogênio (NO2), monóxido de nitrogênio (NO), óxidos de nitrogênio (NOx), monóxido de carbono (CO), ozônio (O3), velocidade escalar vento (VEV), radiação solar global (RSG), temperatura (TEM), umidade relativa (UR) e foram coletados através da estação móvel de monitoramento da Secretaria do Meio Ambiente (SMAC) do Rio de Janeiro em dois locais na área metropolitana, na Pontifícia Universidade Católica (PUC-Rio) e na Universidade do Estado do Rio de Janeiro (UERJ) no ano de 2011 e 2012. Este estudo teve três objetivos: (1) analisar o comportamento das variáveis, utilizando o método de análise de componentes principais (PCA) de análise exploratória, (2) propor previsões de níveis de O3 a partir de poluentes primários e de fatores meteorológicos, comparando a eficácia dos métodos não lineares, como as redes neurais artificiais (ANN) e regressão por máquina de vetor de suporte (SVM-R), a partir de poluentes primários e de fatores meteorológicos e, finalmente, (3) realizar método de classificação de dados usando a classificação por máquina de vetor suporte (SVM-C). A técnica PCA mostrou que, para conjunto de dados da PUC as variáveis NO, NOx e VEV obtiveram um impacto maior sobre a concentração de O3 e o conjunto de dados da UERJ teve a TEM e a RSG como as variáveis mais importantes. Os resultados das técnicas de regressão não linear ANN e SVM obtidos foram muito próximos e aceitáveis para o conjunto de dados da UERJ apresentando coeficiente de determinação (R2) para a validação, 0,9122 e 0,9152 e Raiz Quadrada do Erro Médio Quadrático (RMECV) 7,66 e 7,85, respectivamente. Quanto aos conjuntos de dados PUC e PUC+UERJ, ambas as técnicas, obtiveram resultados menos satisfatórios. Para estes conjuntos de dados, a SVM mostrou resultados ligeiramente superiores, e PCA, SVM e ANN demonstraram sua robustez apresentando-se como ferramentas úteis para a compreensão, classificação e previsão de cenários da qualidade do ar / With increasingly intense urban and industrial development, currently a key challenge is to eliminate or reduce the impact caused by emissions of pollutants into the atmosphere. In the year 2012, the Rio de Janeiro hosted the Rio +20, the United Nations Conference about Sustainable Development, where representatives from around the world participated. At the time, among other issues discussed were the green economy and sustainable development. The tropospheric O3 presents itself as an extremely crucial variable due to its strong environmental impact, and knowing the behavior of the parameters that affect the air quality of a region, is useful for predicting scenarios. The chemistry of atmospheric sciences and meteorology are highly nonlinear and thus the forecasts of air quality parameters are hard to be determined. Air quality depends on emissions, meteorology and topography. The observed data were Nitrogen Dioxide (NO2), Nitrogen Monoxide (NO), Nitrogen Oxides (NOx), Carbon Monoxide (CO), Ozone (O3), Scalar Wind Speed (VEV), Global Solar Radiation (RSG), Temperature (TEM), Relative Humidity (UR) and collected through the mobile station monitoring the Secretaria do Meio Ambiente (SMAC) of Rio de Janeiro City in two places in the metropolitan area at Pontíficia Universidade Católica (PUC-Rio) and the Universidade do Estado do Rio de Janeiro (UERJ) at years 2011 and 2012. This study had three objectives: (1) to analyze the behavior of the variables, using the method of principal components analysis (PCA) of exploratory analysis; (2) propose forecasts of O3 levels from primary pollutants and meteorological factors, comparing the effectiveness of nonlinear methods like as artificial neural networks (ANN) and support vector machine regression (SVM-R), from primary pollutants and meteorological factors and finally, (3) perform data classification method using support vector machine classification (SVM-C). The PCA technique showed that for PUC dataset, variables NO, NOx and VSV have a greater impact on the concentration of O3 and the UERJ data set had the temperature (TEM) and Global Solar Radiation (RSG) as the most important variables. The results from the nonlinear regression techniques ANN and SVM obtained were very closely and acceptable to UERJ dataset presenting coefficient of determination (R2) for validation, 0.9122 and 0.9152 and Root Mean Square Error (RMECV) 7.66 and 7.85, respectively. As for the PUC and PUC + UERJ datasets, both techniques, obtained less satisfactory results. For these datasets, the SVM proved results slightly higher, and PCA, SVM and ANN had demonstrated their robustness presenting themselves as useful tools for understanding, classification and prediction scenarios for air quality
|
48 |
SVM-based algorithms for aligning ontologies using literatureXu, Wei January 2008 (has links)
Ontologies is one of the key techniques used in Semantic Web establishment. Nowadays,many ontologies have been developed and it is critical to understand the relationships between the terms of the ontologies, i.e. we need to align the ontologies. This thesis deals with an approach for finding relationships between ontologies using literature by classifying documents related to terms in the ontologies. In this project the general method from [1] is used, but in the classifier generation part, a brand new classifier based on SVMs algorithm is implemented by LPU and SVMlight. We evaluate our approach and compare it to previous approaches.
|
49 |
Comparação entre maquinas de vetores de suporte por minimos quadrados (LS-SVM) e metodos lineares para transferencia de calibração / Comparison between Least-Square support vector machines and linear methods for calibration transferMaretto, Danilo Althmann 27 February 2007 (has links)
Orientador: Ronei Jesus Popi / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Quimica / Made available in DSpace on 2018-08-10T12:11:57Z (GMT). No. of bitstreams: 1
Maretto_DaniloAlthmann_M.pdf: 2490749 bytes, checksum: 2efe474693fb82f366c9c3c06974de92 (MD5)
Previous issue date: 2007 / Resumo: Este trabalho teve como objetivo comparar os métodos lineares de calibração "mínimos quadrados parciais" (PLS) e "padronização direta por partes" (PDS) e um método não-linear "máquina de vetores de suporte por mínimos quadrados" (LS-SVM) na transferência de calibração para modelos de calibração multivariada onde se determinou porcentagem de etanol em cachaça a cinco temperaturas diferentes e para modelos onde se determinou a porcentagem de proteína e gordura em ração para cães em três diferentes granulometrias através de espectroscopia na região do infravermelho próximo. Foram preparadas 50 amostras de cachaça entre 20,86 e 46,48% v/v através de diluição com água Milli-Q ou adição de etanol P.A. (Merck) à cachaça original. A porcentagem alcoólica foi obtida através de um densímetro digital Anton Paar DMA 4500 e os espectros a 5 temperaturas diferentes (15, 20, 25, 30 e 35ºC) foram obtidos na faixa de 850 a 1050 nm em um equipamento Agilent 8453. Um total de 38 amostras de ração moídas foi fornecido pela empresa Nutron Alimentos Ltda a qual realizou testes padrão para determinação de porcentagem de proteína e gordura nas mesmas. As amostras foram então peneiradas, sendo divididas em 3 grupos com tamanhos de partícula diferentes. Os espectros foram obtidos para todos os grupos de partículas de todas as amostras na faixa de 1000 a 2400 nm em um equipamento Varian Cary 5G. Foram feitas quatro propostas diferentes para se fazer a transferência de calibração para cada uma das três aplicações (determinação do teor de etanol em cachaça, e do teor de proteína e gordura em ração). Na grande maioria delas o LS-SVM foi quem apresentou modelos mais bem ajustados / Abstract: The aim of this work was to compare the linear methods of calibration ¿Partial Least Squares¿ (PLS) and ¿Piece-wise Direct Standardization¿ (PDS) and a nonlinear method ¿Least-Squares Support Vector Machines¿ (LS-SVM) on calibration transfer to multivariate calibration models to the determination of alcoholic grade in cachaça in five different temperatures and to determination of protein and fat content in dog food in three different particule sizes by using near infrared spectroscopy. It has been prepared 50 cachaça samples between 20.86 and 46.48% v/v through dilution with Milli-Q water or adding etanol P.A.(Merck) to the original cachaça. The alcoholic grade has been obtained through a Anton Paar DMA 4500 digital densimeter and the spectra in five different temperatures (15, 20, 25, 30 and 35ºC) has been obtained between 850 and 1050 nm in a Agilent 8453 equipament. The 38 grinded dog food samples were supplied by Nutron Alimentos Ltda wich has realized the standard tests to determination of protein and fat mass porcentage in them. The samples have been bolted, been divided in three groups with different particle sizes. The spectra have been obtained to all the particle groups of all samples between 100 and 24000 nm in a Varian Cary 5G equipament. It has been done four different proposals to do the calibration transfer to each one of the three applications (etanol grade in cachaça, and protein and fat in dog food). In the most of them LS-SVM has gotten better adjusted models / Mestrado / Quimica Analitica / Mestre em Química
|
50 |
APLICAÇÃO DE MÁQUINAS DE VETORES DE SUPORTE NA INVESTIGAÇÃO DA ATIVIDADE GÊNICA DO CÂNCER DE COLO DE INTESTINOVieira, Sylvio Andre Garcia 30 March 2011 (has links)
Made available in DSpace on 2018-06-27T18:56:04Z (GMT). No. of bitstreams: 3
Sylvio Andre Garcia Vieira.pdf: 1367551 bytes, checksum: ca3f0ae13708a71ab3e4688f6bed15d7 (MD5)
Sylvio Andre Garcia Vieira.pdf.txt: 115433 bytes, checksum: a82140f08dc158348e6d5247bd62e71b (MD5)
Sylvio Andre Garcia Vieira.pdf.jpg: 3561 bytes, checksum: dba9926977a76649dac476531896ca64 (MD5)
Previous issue date: 2011-03-30 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Data mining is the process of discovering patterns correlated with the various existing data in a database.GEO is a public biological database, maintained by NCBI, where they sought information relating to thirty-two patients of colorectal adenoma,with readings from the probes concerning the expression of genes,extracted RNA.The data deposited in biological banks alone do not produce useful information, and therefore, were selected respecting various factors such as the reliability of the information collected, the amount of information present in the greatest number of probes, and finally filtered by reading higher expression. After the database and be treated with the selected genes was then applied to the R tool with the SVM in order to identify this small set of genes, the possibility of their association with the presence of adenoma of the colon of the intestine.
From the results obtained by classifying the data it was noticed that the characteristics of the genes are distinct and that the activity varies greatly from gene to gene. However, this occurs in a standardized manner, allowing the algorithm could identify these patterns and suggest their involvement in the adenoma / A mineração de dados é o processo de descoberta de padrões correlacionados entre os diversos dados existentes em uma base. O GEO é uma base de dados biológicos público, mantido pelo NCBI, onde se buscou as informações referentes a trinta e dois pacientes de Adenoma de colo de intestino, com leituras da expressão de sondas referentes aos genes, extraídas do RNA. Os dados depositados em bancos biológicos, por si só, não produzem informação útil, e por isto, foram selecionados respeitando diversos fatores, como a confiabilidade da informação colhida, a quantidade de informações presentes no maior numero de sondas, e finalmente filtrados pela leitura de maior expressão. Após a base de dados ser tratada e com os genes selecionados, foi então aplicada a ferramenta R com o classificador SVM com o objetivo de identificar, neste pequeno conjunto de genes, a possibilidade de associação deles com a presença do adenoma de colo de intestino.
A partir dos resultados obtidos através da classificação dos dados percebeu-se que as características dos genes são bem distintas e que a atividade varia bastante de gene para gene. Porém, isto ocorre de forma padronizada, o que permitiu que o algoritmo pudesse identificar estes padrões e sugerir sua participação no processo do adenoma
|
Page generated in 0.0422 seconds