Global ETD Search

141	Abordagens de seleção de variáveis para classificação e regressão em química analítica / Feature selection approaches for classification and regression in analytical chemistry Soares, Felipe January 2017 (has links) A utilização de técnicas analíticas para classificação de produtos ou predição de propriedades químicas tem se mostrado de especial interesse tanto na indústria quanto na academia. Através da análise da concentração elementar, ou de técnicas de espectroscopia, é possível obter-se um grande número de informações sobre as amostras em análise. Contudo, o elevado número de variáveis disponíveis (comprimentos de onda, ou elementos químicos, por exemplo) pode prejudicar a acurácia dos modelos gerados, necessitando da utilização de técnicas para seleção das variáveis mais relevantes com vistas a tornar os modelos mais robustos. Esta dissertação propõe métodos para seleção de variáveis em química analítica com propósito de classificação de produtos e predição via regressão de propriedades químicas. Para tal, inicialmente propõe-se um método de seleção de intervalos não equidistantes de comprimentos de onda em espectroscopia para classificação de combustíveis, o qual baseia-se na distância entre espectros médios de duas classes distintas; os intervalos são então utilizados em técnicas de classificação.Ao ser aplicado em dois bancos de dados de espectroscopia, o método foi capaz de reduzir o número de variáveis utilizadas para somente 23,19% e 4,95% das variáveis originais, diminuindo o erro de 13,90% para 11,63% e de 4,71% para 1,21%. Em seguida é apresentado um método para seleção dos elementos mais relevantes para classificação de vinhos provenientes de quatro países da América do Sul, baseado nos parâmetros da análise discriminante linear. O método possibilitou atingir acurácia média de 99,9% retendo em média 6,82 elementos químicos, sendo que a melhor acurácia média atingida utilizando todos os 45 elementos disponíveis foi de 91,2%. Por fim, utiliza-se o algoritmo support vector regression – recursive feature elimination (SVR-RFE) para seleção dos comprimentos de onda mais importantes na regressão por vetores de suporte. Ao serem aplicado em 12 bancos de dados juntamente com outros métodos de seleção e regressão, o SVR e o SVR-RFE obtiveram os melhores resultados em 8 deles, sendo que o SVR-RFE foi significativamente superior dentre os algoritmos de seleção. A aplicação dos métodos deseleção de variáveis propostos na presente dissertação possibilitou a realização de classificações e regressões mais robustas, bem como a redução do número de variáveis retidas nos modelos. / The use of analytical techniques in product classification or chemical properties estimation has been of great interest in both industry and academy. The employment of spectroscopy techniques, or through elemental analysis, provides a great amount of information about the samples being analyzed. However, the large number of features (e.g.: wavelengths or chemical elements) included in the models may jeopardize the accuracy, urging the employment of feature selection techniques to identify the most relevant features, producing more robust models. This dissertation presents feature selection methods focused on analytical chemistry, aiming at product classification and chemical property estimation (regression). For that matter, the first proposed method aims at identifying the most relevant wavelength intervals for fuel classification based on the distance between the average spectra of the two classes being analyzed. The identified intervals are then used as input for classifiers. When applied to two spectroscopy datasets, the proposed framework reduced the number of features to just 23.19% and 4.95% of the original ones, also reducing the misclassification error to 4.71% and 1.21%. Next, a method for identifying the most important elements for wine classification is presented, which is based on the parameters from linear discriminant analysis and aims at classifying wine samples produced in four south American countries. The method achieved average accuracy of 99.9% retaining average 8.82 chemical elements; the best accuracy using all 45 available chemical elements was 91.2%. Finally, the use of the support vector regression – recursive feature elimination (SVR-RFE) algorithm is proposed to identify the most relevant wavelengths for support vector regression. The proposed framework was applied to 12 datasets with other feature selection approaches and regression algorithms. SVR and SVR-RFE achieved the best results in 8 out of 12 datasets; SVR-RFE when compared to other feature selection algorithms proved have significantly better performance. The employment of the proposed feature selection methodsin this dissertation yield more robust classifiers and regression models, also reducing the number of features needed to produce accurate results. Vinho : Classificação Química analítica Espectroscopia Combustíveis : Classificação Feature selection Classification Regression Analytical chemistry Spectroscopy Elemental analysis
142	Machine Learning Methods for Biosignature Discovery January 2012 (has links) abstract: Alzheimer's Disease (AD) is the most common form of dementia observed in elderly patients and has significant social-economic impact. There are many initiatives which aim to capture leading causes of AD. Several genetic, imaging, and biochemical markers are being explored to monitor progression of AD and explore treatment and detection options. The primary focus of this thesis is to identify key biomarkers to understand the pathogenesis and prognosis of Alzheimer's Disease. Feature selection is the process of finding a subset of relevant features to develop efficient and robust learning models. It is an active research topic in diverse areas such as computer vision, bioinformatics, information retrieval, chemical informatics, and computational finance. In this work, state of the art feature selection algorithms, such as Student's t-test, Relief-F, Information Gain, Gini Index, Chi-Square, Fisher Kernel Score, Kruskal-Wallis, Minimum Redundancy Maximum Relevance, and Sparse Logistic regression with Stability Selection have been extensively exploited to identify informative features for AD using data from Alzheimer's Disease Neuroimaging Initiative (ADNI). An integrative approach which uses blood plasma protein, Magnetic Resonance Imaging, and psychometric assessment scores biomarkers has been explored. This work also analyzes the techniques to handle unbalanced data and evaluate the efficacy of sampling techniques. Performance of feature selection algorithm is evaluated using the relevance of derived features and the predictive power of the algorithm using Random Forest and Support Vector Machine classifiers. Performance metrics such as Accuracy, Sensitivity and Specificity, and area under the Receiver Operating Characteristic curve (AUC) have been used for evaluation. The feature selection algorithms best suited to analyze AD proteomics data have been proposed. The key biomarkers distinguishing healthy and AD patients, Mild Cognitive Impairment (MCI) converters and non-converters, and healthy and MCI patients have been identified. / Dissertation/Thesis / M.S. Computer Science 2012 Computer science Alzheimer's Disease Feature Selection Machine Learning Sparse Logistic Regression Stability Selection
143	Characterization of Coronary Atherosclerotic Plaques by Dual Energy Computed Tomography January 2013 (has links) abstract: Coronary heart disease (CHD) is the most prevalent cause of death worldwide. Atherosclerosis which is the condition of plaque buildup on the inside of the coronary artery wall is the main cause of CHD. Rupture of unstable atherosclerotic coronary plaque is known to be the cause of acute coronary syndrome. The composition of plaque is important for detection of plaque vulnerability. Due to prognostic importance of early stage identification, non-invasive assessment of plaque characterization is necessary. Computed tomography (CT) has emerged as a non-invasive alternative to coronary angiography. Recently, dual energy CT (DECT) coronary angiography has been performed clinically. DECT scanners use two different X-ray energies in order to determine the energy dependency of tissue attenuation values for each voxel. They generate virtual monochromatic energy images, as well as material basis pair images. The characterization of plaque components by DECT is still an active research topic since overlap between the CT attenuations measured in plaque components and contrast material shows that the single mean density might not be an appropriate measure for characterization. This dissertation proposes feature extraction, feature selection and learning strategies for supervised characterization of coronary atherosclerotic plaques. In my first study, I proposed an approach for calcium quantification in contrast-enhanced examinations of the coronary arteries, potentially eliminating the need for an extra non-contrast X-ray acquisition. The ambiguity of separation of calcium from contrast material was solved by using virtual non-contrast images. Additional attenuation data provided by DECT provides valuable information for separation of lipid from fibrous plaque since the change of their attenuation as the energy level changes is different. My second study proposed these as the input to supervised learners for a more precise classification of lipid and fibrous plaques. My last study aimed at automatic segmentation of coronary arteries characterizing plaque components and lumen on contrast enhanced monochromatic X-ray images. This required extraction of features from regions of interests. This study proposed feature extraction strategies and selection of important ones. The results show that supervised learning on the proposed features provides promising results for automatic characterization of coronary atherosclerotic plaques by DECT. / Dissertation/Thesis / Ph.D. Bioengineering 2013 Biomedical engineering Atherosclerosis Dual Energy Computed Tomography feature extraction feature selection
144	Feature selection of EEG-signal data for cognitive load Persson, Isac January 2017 (has links) Safely operating a vehicle requires the full attention of the driver. Should the driver lose focus as a result of performing other tasks simultaneously, there could be disastrous outcomes. To gain insight into a driver’s mental state, the cognitive load experienced by the driver can be investigated. Measuring cognitive load can be done in numerous ways, one popular approach is the use of Electroencephalography (EEG). A lot of the data that can be extracted from EEG-signals, are redundant or irrelevant when trying to classify cognitive load. This thesis focuses on identifying EEG-features relevant to the classification of cognitive load experienced by drivers, through the use of feature selection algorithms. An experimental approach was utilized where three feature selection algorithms (ReliefF, BSS/WSS and BIRS) were applied to the available datasets. The feature subsets produced by the algorithms achieved higher classification accuracies compared to the use of all features. The best performing subset was generated by the ReliefF algorithm which achieved an accuracy of 66%. However, several other unique subsets achieved comparable results, therefore no single feature subset could be identified as most relevant for classification of cognitive load experienced by drivers. To conclude, the proposed approach could not identify features which could be used to confidently predict a driver’s mental state. / Vehicle Driver Monitoring (VDM) Feature selection cognitive load EEG-signal data Computer Sciences Datavetenskap (datalogi)
145	台股股利完全填權息關鍵影響因素之研究 / The key influencing factors of Taiwan stock price successfully remaining previous price after dividend payment 陳人豪, Chen, Jen Hao Unknown Date (has links) 本研究以台灣50與中型100成分股為對象，運用資料探勘特徵選取技術，分析影響股票完全填權息成功之關鍵因素，並依此關鍵因素建構一個完全填權息預測模型，最後比較研究結果與過去研究之異同。本研究完全填權息預測模型的建構過程分為五階段：(1)定義完全填權息之股票：運用TEJ資料庫抓到的歷史股價資料與股利資訊，計算除權息前與除權息後股價，標註完全填權息和未完全填權息二個類別。(2)影響填權息相關因素：根據過去文獻所發現，影響短期填權息行情超額報酬的因素，以及影響股價的基本面因素，蒐集與股利相關的指標與基本分析中所用的公開財務報表資料。(3)特徵選取分析：利用循序前進搜尋（SFS）結合分類演算法，整合與計算所有影響因素資料，藉此找出關鍵的影響因素。(4)預測模型建立：根據特徵選取之結果資料，使用Weka軟體進行資料探勘支持向量機和決策樹分類模型訓練。(5)模型準確性比較與分析：本研究所建構之模型可協助存股型投資者，判斷可領取高股息且無股價損失之股票，提供投資人選股參考。 / In this study, we use the Feature Selection Method for Data Mining to analyze the key factors that may affect the rate of the stock price successfully remaining previous price after dividend payment among stocks of 50 largest companies and 100 medium-sized companies in Taiwan. Based on these key factors, we construct a forecasting model for stocks with the 100% flat stock price. Finally, We try to find out the similarities and differences between the current study and past research. In this study, the construction of a forecasting model for stocks with the 100% flat stock price is divided into five stages: (1) Defining stocks with the 100% flat stock price: Marking stocks with the 100% flat stock price and the non-100% flat stock price on historical stock data and dividend information captured by the TEJ database; (2) Relevant Factors Affecting increase in the stock price after dividend payment: According to the factors found in the past literature that may affect excess returns from short-term increase in the stock price after dividend payment and the fundamental factors affecting the stock price, we are able to collect indexes related to dividends and public financial statements for basic analysis. (3) Feature Selection Analysis: By using the Sequential Forward Selection (SFS) method and the classification algorithm, all influencing factors are integrated and calculated to find out the key influencing factors; (4) The Establishment of the Prediction Model: According to the results of feature selection, we use the Weka software to conduct data mining and train the classification model based on support vector machines and decision trees. (5) Comparison and Analysis on Accuracy of the Model: The model constructed in this study can help stock-holding investors determine stocks with high dividends without loss of the stock price and provide reference for investors in stock selection. 股利資料探勘特徵選取 Dividend Data mining Feature selection
146	Seleção supervisionada de características por ranking para processar consultas por similaridade em imagens médicas / Supervised feature selection by ranking to process similarity queries in medical images Gabriel Efrain Humpire Mamani 05 December 2012 (has links) Obter uma representação sucinta e representativa de imagens médicas é um desafio que tem sido perseguido por pesquisadores da área de processamento de imagens médicas com o propósito de apoiar o diagnóstico auxiliado por computador (Computer Aided Diagnosis - CAD). Os sistemas CAD utilizam algoritmos de extração de características para representar imagens, assim, diferentes extratores podem ser avaliados. No entanto, as imagens médicas contêm estruturas internas que são importantes para a identificação de tecidos, órgãos, malformações ou doenças. É usual que um grande número de características sejam extraídas das imagens, porém esse fato que poderia ser benéfico, pode na realidade prejudicar o processo de indexação e recuperação das imagens com problemas como a maldição da dimensionalidade. Assim, precisa-se selecionar as características mais relevantes para tornar o processo mais eficiente e eficaz. Esse trabalho desenvolveu o método de seleção supervisionada de características FSCoMS (Feature Selection based on Compactness Measure from Scatterplots) para obter o ranking das características, contemplando assim, o que é necessário para o tipo de imagens médicas sob análise. Dessa forma, produziu-se vetores de características mais enxutos e eficientes para responder consultas por similaridade. Adicionalmente, foi desenvolvido o extrator de características k-Gabor que extrai características por níveis de cinza, ressaltando estruturas internas das imagens médicas. Os experimentos realizados foram feitos com quatro bases de imagens médicas do mundo real, onde o k-Gabor sobressai pelo desempenho na recuperação por similaridade de imagens médicas, enquanto o FSCoMS reduz a redundância das características para obter um vetor de características menor do que os métodos de seleção de características convencionais e ainda com um maior desempenho em recuperação de imagens / Obtaining a representative and succinct description of medical images is a challenge that has been pursued by researchers in the area of medical image processing to support Computer-Aided Diagnosis (CAD). CAD systems use feature extraction algorithms to represent images. Thus, different extractors can be evaluated. However, medical images contain important internal structures that allow identifying tissues, organs, deformations and diseases. It is usual that a large number of features are extracted the images. Nevertheless, what appears to be beneficial actually impairs the process of indexing and retrieval of images, revealing problems such as the curse of dimensionality. Thus, it is necessary to select the most relevant features to make the process more efficient and effective. This dissertation developed a supervised feature selection method called FSCoMS (Feature Selection based on Compactness Measure from Scatterplots) in order to obtain a ranking of features, suitable for medical image analysis. Our method FSCoMS had generated shorter and efficient feature vectors to answer similarity queries. Additionally, the k-Gabor feature extractor was developed, which extracts features by gray levels, highlighting internal structures of medical images. The experiments performed were performed on four real world medical datasets. Results have shown that the k-Gabor boosts the retrieval performance, whereas the FSCoMS reduces the subsets redundancy to produce a more compact feature vector than the conventional feature selection methods and even with a higher performance in image retrieval CAD CBIR Extração de características Seleção de características CAD CBIR Feature extraction Feature selection
147	Um modelo neural de aprimoramento progressivo para redução de dimensionalidade / A Progressive Enhancement Neural Model for dimensionality reduction Camargo, Sandro da Silva January 2010 (has links) Nas últimas décadas, avanços em tecnologias de geração, coleta e armazenamento de dados têm contribuído para aumentar o tamanho dos bancos de dados nas diversas áreas de conhecimento humano. Este aumento verifica-se não somente em relação à quantidade de amostras de dados, mas principalmente em relação à quantidade de características descrevendo cada amostra. A adição de características causa acréscimo de dimensões no espaço matemático, conduzindo ao crescimento exponencial do hipervolume dos dados, problema denominado “maldição da dimensionalidade”. A maldição da dimensionalidade tem sido um problema rotineiro para cientistas que, a fim de compreender e explicar determinados fenômenos, têm se deparado com a necessidade de encontrar estruturas significativas ocultas, de baixa dimensão, dentro de dados de alta dimensão. Este processo denomina-se redução de dimensionalidade dos dados (RDD). Do ponto de vista computacional, a conseqüência natural da RDD é uma diminuição do espaço de busca de hipóteses, melhorando o desempenho e simplificando os resultados da modelagem de conhecimento em sistemas autônomos de aprendizado. Dentre as técnicas utilizadas atualmente em sistemas autônomos de aprendizado, as redes neurais artificiais (RNAs) têm se tornado particularmente atrativas para modelagem de sistemas complexos, principalmente quando a modelagem é difícil ou quando a dinâmica do sistema não permite o controle on-line. Apesar de serem uma poderosa técnica, as RNAs têm seu desempenho afetado pela maldição da dimensionalidade. Quando a dimensão do espaço de entradas é alta, as RNAs podem utilizar boa parte de seus recursos para representar porções irrelevantes do espaço de busca, dificultando o aprendizado. Embora as RNAs, assim como outras técnicas de aprendizado de máquina, consigam identificar características mais informativas para um processo de modelagem, a utilização de técnicas de RDD frequentemente melhora os resultados do processo de aprendizado. Este trabalho propõe um wrapper que implementa um modelo neural de aprimoramento progressivo para RDD em sistemas autônomos de aprendizado supervisionado visando otimizar o processo de modelagem. Para validar o modelo neural de aprimoramento progressivo, foram realizados experimentos com bancos de dados privados e de repositórios públicos de diferentes domínios de conhecimento. A capacidade de generalização dos modelos criados é avaliada por meio de técnicas de validação cruzada. Os resultados obtidos demonstram que o modelo neural de aprimoramento progressivo consegue identificar características mais informativas, permitindo a RDD, e tornando possível criar modelos mais simples e mais precisos. A implementação da abordagem e os experimentos foram realizados no ambiente Matlab, utilizando o toolbox de RNAs. / In recent decades, advances on data generation, collection and storing technologies have contributed to increase databases size in different knowledge areas. This increase is seen not only regarding samples amount, but mainly regarding dimensionality, i.e. the amount of features describing each sample. Features adding causes dimension increasing in mathematical space, leading to an exponential growth of data hypervolume. This problem is called “the curse of dimensionality”. The curse of dimensionality has been a routine problem for scientists, that in order to understand and explain some phenomena, have faced with the demand to find meaningful low dimensional structures hidden in high dimensional search spaces. This process is called data dimensionality reduction (DDR). From computational viewpoint, DDR natural consequence is a reduction of hypothesis search space, improving performance and simplifying the knowledge modeling results in autonomous learning systems. Among currently used techniques in autonomous learning systems, artificial neural networks (ANNs) have becoming particularly attractive to model complex systems, when modeling is hard or when system dynamics does not allow on-line control. Despite ANN being a powerful tool, their performance is affected by the curse of dimensionality. When input space dimension is high, ANNs can use a significant part of their resources to represent irrelevant parts of input space making learning process harder. Although ANNs, and other machine learning techniques, can identify more informative features for a modeling process, DDR techniques often improve learning results. This thesis proposes a wrapper which implements a Progressive Enhancement Neural Model to DDR in supervised autonomous learning systems in order to optimize the modeling process. To validate the proposed approach, experiments were performed with private and public databases, from different knowledge domains. The generalization ability of developed models is evaluated by means of cross validation techniques. Obtained results demonstrate that the proposed approach can identify more informative features, allowing DDR, and becoming possible to create simpler and more accurate models. The implementation of the proposed approach and related experiments were performed in Matlab Environment, using ANNs toolbox. Redes neurais Inteligência artificial Heurística Lógica modal Heuristics Wrapper Dimensionality reduction Feature selection Neural modeling
148	Identifying Kinship Cues from Facial Images VIEIRA, Tiago Figueiredo 08 November 2013 (has links) Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-04-17T13:23:49Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) TESE Tiago Figueiredo Vieira.compressed.pdf: 2116364 bytes, checksum: b3851944ff7105bff9fdcd050d5d4f86 (MD5) / Made available in DSpace on 2015-04-17T13:23:49Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) TESE Tiago Figueiredo Vieira.compressed.pdf: 2116364 bytes, checksum: b3851944ff7105bff9fdcd050d5d4f86 (MD5) Previous issue date: 2013-11-08 / A investigação da face humana é comum em análise de padrões/ processamento de imagens. Abordagens tradicionais são a identificação e a verificação mas muitas outras estão surgindo, como estimativa de idade, análise de similaridade, atratividade e o reconhecimento de parentesco. Apesar deste último possuir diversas possíveis aplicações, poucos trabalhos foram apresentados até então. Esta tese apresenta um algoritmo apto a discriminar entre irmãos e não irmãos, baseado nas imagens das suas faces. Um grande desafio foi lidar com a falta de um benchmark em análise de parentesco e, por esta razão, uma base de imagens de alta qualidade de pares de irmãos foi coletada. Isto é uma contribuição relevante à comunidade científica e foi particularmente útil para evitar possíveis problemas devido a imagens de baixa qualidade e condições não-controladas de aquisição de bases de dados heterogêneas usadas em outros trabalhos. Baseado nessas imagens, vários classificadores foram construídos usando técnicas baseadas na extração de características e holística para investigar quais variáveis são mais eficientes para distinguir parentes. As características foram primeiramente testadas individualmente e então as informações mais significantes da face foram fornecidas a um algoritmo único. O classificador de irmãos superou a performance de humanos que avaliaram a mesma base de dados. Adicionalmente, a boa capacidade de distinção do algorimo foi testado aplicando-o a uma base de dados de baixa qualidade coletada da Internet. O conhecimento obtido da análise de irmãos levou ao desenvolvimento de um algoritmo similar capaz de distinguir pares pai-filho de indivíduos não relacionados. Os resultados obtidos possuem impactos na recuperação e anotação automática de bases de dados, ciência forense, pesquisa genealógica e na busca de familiares perdidos.----------------------------------------------------------------------------------------------- The investigation of human face images is ubiquitous in pattern analysis/ image processing research. Traditional approaches are related to face identification and verification but, several other areas are emerging, like age/ expression estimation, analysis of facial similarity and attractiveness and automatic kinship recognition. Despite the fact that the latter could have applications in fields such as image retrieval and annotation, little work in this area has been presented so far. This thesis presents an algorithm able to discriminate between siblings and unrelated individuals, based on their face images. In this context, a great challenge was to deal with the lack of a benchmark in kinship analysis, and for this reason, a high-quality dataset of images of siblings’ pairs was collected. This is a relevant contribution to the research community and is particularly useful to avoid potential problems due to low quality pictures and uncontrolled imaging conditions of heterogeneous datasets used in previous researches. The database includes frontal, profile, expressionless and smiling faces of siblings pairs. Based on these images, various classifiers were constructed using feature-based and holistic techniques to investigate which data are more effective for discriminating siblings from non-siblings. The features were first tested individually and then the most significant face data were supplied to a unique algorithm. The siblings classifier has been found to outperform human raters on all datasets. Also, the good discrimination capabilities of the algorithm is tested by applying the classifiers to a low quality database of images collected from the Internet in a cross-database experiment. The knowledge acquired from the analysis of siblings fostered a similar algorithm able to discriminating parent-child pairs from unrelated individuals. The results obtained in this thesis have impact in image retrieval and annotation, forensics, genealogical research and finding missing family members. Kinship Verification Support Vector Machines Feature Selection Verificação de Parentesco Máquinas de Vetores de Suporte Seleção de Características
149	Detecção e classificação de lesões em imagens de mamografia usando classificadores SVM, wavelets morfológicas e seleção de atributos ROCHA, Arthur Diego Dias 22 February 2016 (has links) Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2016-09-20T13:30:20Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) ArthurDiegoDiasRocha.pdf: 4681451 bytes, checksum: 976cd7abe56f828ff55cbd595fdc6c6f (MD5) / Made available in DSpace on 2016-09-20T13:30:21Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) ArthurDiegoDiasRocha.pdf: 4681451 bytes, checksum: 976cd7abe56f828ff55cbd595fdc6c6f (MD5) Previous issue date: 2016-02-22 / FACEPE / O c^ancer de mama e o mais comum entre as mulheres no mundo e no Brasil, depois do de pele n~ao melanoma. De acordo com o Instituto Nacional de C^ancer, em 2013 foram registradas 14.388 mortes devido a esta mol estia. O c^ancer de mama e uma preocupa c~ao n~ao somente nacional, mas mundial. O m etodo utilizado para a sua detec c~ao e a mamogra a, que e uma t ecnica de imagem que utiliza a emiss~ao Raios-X incidentes na mama e capta a parte da radia c~ao n~ao absorvida pelos tecidos mam arios. A mamogra a e um exame de dif cil an alise pelo motivo de, em muitos casos, a densidade tecidual do tumor ser bastante parecida com a densidade de alguns tecidos saud aveis da mama. Uma abordagem interessante e a utiliza c~ao de t ecnicas computadorizadas de aux lio ao diagn ostico, ou seja, ferramentas baseadas em processamento de imagens e intelig^encia computacional projetadas para o apoio ao pro ssional radiologista. Estudos pr evios demonstram que considerar a domin^ancia tecidual mam aria nas ferramentas computacionais de apoio ao diagn ostico melhora consideravelmente as taxas de acerto. Para este trabalho, e proposta a constru c~ao de um sistema de classi ca c~ao de tumores de mama baseado descritores de Zernike como um descritor de forma das les~oes de mama, associado as m aquinas de vetor de suporte como classi cador. S~ao comparadas diferentes t ecnicas de sele c~ao de atributos com o objetivo de reduzir o custo computacional do sistema, mas sempre levando em conta a necessidade de se manter altas taxas de acerto, j a que isto pode re etir em erros de diagn ostico de c^ancer de mama. Atrav es dos dados analisados, e notado que a t ecnica linear de an alise de componentes principais (aliada a transformada de wavelets morfol ogica como etapa de pr e-processamento) se mostrou uma otima t ecnica para realiza c~ao de redu c~ao de atributos com um menor impacto nas taxas de acerto do sistema de apoio ao diagn ostico do c^ancer de mama, onde s~ao obtidas taxas de m edias de redu c~ao de acerto em torno de 2% (uma queda m edia de aproximadamente 95% para 93%), onde a redu c~ao do tamanho do vetor de atributos e de cerca de 64% (dentre os diferentes tipos de tecido, s~ao selecionados de 70 a 89 atributos do total de 224). / Breast cancer is one of the most common type of cancer among women. According to Brazil's national institute of cancer, in 2013 it was registered 14,388 deaths due to this disease. Breast cancer is not only a national but worldwide concern. The most used method to its detection is mammography which is an image technique that uses X ray emission and measures the non-absorbed radiation by the breast internal tissues. Mammography is a hard to analyze image exam, mainly because in many cases tumor's density is much alike some of the healthy tissues' density. An interesting approach is the use of computeraided techniques for diagnosis, meaning the use of image processing and computational intelligence tools designed to support and aid radiologists in their tasks. Previous studies show that considering the di erent types of breast tissue dominance improves considerably the rate of correct classi cation by these computational tools. It is proposed for this work the development of a breast tumor classi cation system based on Zernike descriptors as shape descriptors of these breast lesions along with support vector machines as machine learning algorithms for classi cation. Some feature selection techniques are compared for reducing the whole system computational cost but always taking into consideration that the classi cation rates must be kept as high as possible. Of the techniques studied in this work, principal components analysis along with morphological wavelet transform for image preprocessing has shown itself as a great technique for feature reduction with lesser impact on classi cation rates. It was achieved a mean 2% loss in those rates (from about 95% to 93% as mean values) with a mean feature reduction of about 64% (in the range of 70 to 89 features from 224). monografia Sele ção de Atributos Câsncer de Mama Processamento de Imagem Mammography Feature Selection Breast Cancer Image Processing
150	Detecção e classificação de lesões em imagens de mamografia usando classificadores SVM, wavelets morfológicas e seleção de atributos ROCHA, Arthur Diego Dias 22 February 2016 (has links) Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2016-09-20T13:43:15Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) ArthurDiegoDiasRocha.pdf: 4681451 bytes, checksum: 976cd7abe56f828ff55cbd595fdc6c6f (MD5) / Made available in DSpace on 2016-09-20T13:43:15Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) ArthurDiegoDiasRocha.pdf: 4681451 bytes, checksum: 976cd7abe56f828ff55cbd595fdc6c6f (MD5) Previous issue date: 2016-02-22 / FACEPE / O c^ancer de mama e o mais comum entre as mulheres no mundo e no Brasil, depois do de pele n~ao melanoma. De acordo com o Instituto Nacional de C^ancer, em 2013 foram registradas 14.388 mortes devido a esta mol estia. O c^ancer de mama e uma preocupa c~ao n~ao somente nacional, mas mundial. O m etodo utilizado para a sua detec c~ao e a mamogra a, que e uma t ecnica de imagem que utiliza a emiss~ao Raios-X incidentes na mama e capta a parte da radia c~ao n~ao absorvida pelos tecidos mam arios. A mamogra a e um exame de dif cil an alise pelo motivo de, em muitos casos, a densidade tecidual do tumor ser bastante parecida com a densidade de alguns tecidos saud aveis da mama. Uma abordagem interessante e a utiliza c~ao de t ecnicas computadorizadas de aux lio ao diagn ostico, ou seja, ferramentas baseadas em processamento de imagens e intelig^encia computacional projetadas para o apoio ao pro ssional radiologista. Estudos pr evios demonstram que considerar a domin^ancia tecidual mam aria nas ferramentas computacionais de apoio ao diagn ostico melhora consideravelmente as taxas de acerto. Para este trabalho, e proposta a constru c~ao de um sistema de classi ca c~ao de tumores de mama baseado descritores de Zernike como um descritor de forma das les~oes de mama, associado as m aquinas de vetor de suporte como classi cador. S~ao comparadas diferentes t ecnicas de sele c~ao de atributos com o objetivo de reduzir o custo computacional do sistema, mas sempre levando em conta a necessidade de se manter altas taxas de acerto, j a que isto pode re etir em erros de diagn ostico de c^ancer de mama. Atrav es dos dados analisados, e notado que a t ecnica linear de an alise de componentes principais (aliada a transformada de wavelets morfol ogica como etapa de pr e-processamento) se mostrou uma otima t ecnica para realiza c~ao de redu c~ao de atributos com um menor impacto nas taxas de acerto do sistema de apoio ao diagn ostico do c^ancer de mama, onde s~ao obtidas taxas de m edias de redu c~ao de acerto em torno de 2% (uma queda m edia de aproximadamente 95% para 93%), onde a redu c~ao do tamanho do vetor de atributos e de cerca de 64% (dentre os diferentes tipos de tecido, s~ao selecionados de 70 a 89 atributos do total de 224). / Breast cancer is one of the most common type of cancer among women. According to Brazil's national institute of cancer, in 2013 it was registered 14,388 deaths due to this disease. Breast cancer is not only a national but worldwide concern. The most used method to its detection is mammography which is an image technique that uses X ray emission and measures the non-absorbed radiation by the breast internal tissues. Mammography is a hard to analyze image exam, mainly because in many cases tumor's density is much alike some of the healthy tissues' density. An interesting approach is the use of computeraided techniques for diagnosis, meaning the use of image processing and computational intelligence tools designed to support and aid radiologists in their tasks. Previous studies show that considering the di erent types of breast tissue dominance improves considerably the rate of correct classi cation by these computational tools. It is proposed for this work the development of a breast tumor classi cation system based on Zernike descriptors as shape descriptors of these breast lesions along with support vector machines as machine learning algorithms for classi cation. Some feature selection techniques are compared for reducing the whole system computational cost but always taking into consideration that the classi cation rates must be kept as high as possible. Of the techniques studied in this work, principal components analysis along with morphological wavelet transform for image preprocessing has shown itself as a great technique for feature reduction with lesser impact on classi cation rates. It was achieved a mean 2% loss in those rates (from about 95% to 93% as mean values) with a mean feature reduction of about 64% (in the range of 70 to 89 features from 224). Mamografia Seleção de Atributos Câncer de Mama Processamento de Imagem Mammography Feature Selection Breast Cancer Image Processing

Search results