Global ETD Search

1	Akgorithmes biostatistiques pour les données omiques en oncologie - Application à l'étude du nombre de copies d'ADN à partir des expériences de microarray Hupé, Philippe 14 November 2008 (has links) (PDF) Le cancer est une cause principale de décès et d'importants eorts doivent être réalisés pour vaincre la maladie. La technologie des microarrays est un puissant outil de recherche en oncologie pour comprendre les mécanismes de la progression tumorale qui est due à une perturbation de la régulation des gènes. Par conséquent, l'étude de leur niveau d'expression dans les tumeurs offre une perspective pour comprendre les mécanismes biologiques de la maladie et identier de nouveaux facteurs pronostiques et prédictifs qui aideront le clinicien à choisir la thérapie de chaque patients. Par ailleurs, les tumeurs présentent un changement du nombre de copies d'ADN dont la quantication est aussi possible par microarray. L'utilisation des données de microarray nécessite un traitement statistique approprié permettant de transformer les données brutes en données interprétables biologiquement et cliniquement. Ainsi, nous avons développé des méthodes statistiques qui visent à normaliser et extraire l'information biologique issue des microarrays dédiés à l'étude du nombre de copies d'ADN des tumeurs. Nos méthodes ont permis la caractérisation des tumeurs de haut-risque métastatique dans le mélanome uvéal. Par ailleurs, un des enjeux de l'analyse biostatistique des données de microarrays consiste en l'analyse intégrée de différents types de prols moléculaires. Ainsi, une méthode statistique qui combine les données d'expression de gènes et du nombre de copie d'ADN obtenues par microarrays a été développée dans un contexte de classication supervisée. Les propriétés statistiques de la méthode ont été étudiées et ses performances estimées sur des données simulées et réelles. [MATH] Mathematics nombre de copies d'ADN Microarray Classication supervisée Biostatistiques Oncologie
2	Um estudo empírico sobre classificação de símbolos matemáticos manuscritos / An empirical study on handwritten mathematical symbol classication Oliveira, Marcelo Valentim de 25 August 2014 (has links) Um importante problema na área de reconhecimento de padrões é o reconhecimento de textos manuscritos. O problema de reconhecimento de expressões matemáticas manuscritas é um caso particular, que vem sendo tratado por décadas. Esse problema é considerado desafiador devido à grande quantidade de possíveis tipos de símbolos, às variações intrínsecas da escrita, e ao complexo arranjo bidimensional dos símbolos na expressão. Neste trabalho adotamos o problema de reconhecimento de símbolos matemáticos manuscritos para realizar um estudo empírico sobre o comportamento de classificadores multi-classes. Examinamos métodos básicos de aprendizado para classificação multi-classe, especialmente as abordagens um-contra-todos e todos-contra-todos de decomposição de um problema multi-classe em problemas de classificação binária. Para decompor o problema em subproblemas menores, propomos também uma abordagem que utiliza uma árvore de decisão para dividir hierarquicamente o conjunto de dados, de modo que cada subconjunto resultante corresponda a um problema mais simples de classificação. Esses métodos são examinados usando-se como classificador base os modelos de classificação vizinhos-mais-próximos e máquinas de suporte vetorial (usando a abordagem um-contra-todos para combinar os classificadores binários). Para classificação, os símbolos são representados por um conjunto de características conhecido na literatura por HBF49 e que foi proposto recentemente especificamente para problemas de reconhecimento de símbolos on-line. Experimentos foram realizados para avaliar a acurácia dos classificadores, o desempenho dos classificadores para número crescente de classes, tempos de treinamento e teste, e uso de diferentes sub-conjuntos de características. Este trabalho inclui uma descrição dos fundamentos utilizados, detalhes do pré-processamento e extração de características para representação dos símbolos, e uma exposição e discussão sobre o estudo empírico realizado. Os dados adicionais que foram coletados para os experimentos serão publicamente disponibilizados. / An important problem in the eld of Pattern Recognition is handwriting recognition. The problem of handwritten mathematical expression recognition is a particular case that is being studied since decades. This is considered a challenging problem due to the large number of possible mathematical symbols, the intrinsic variation of handwriting, and the complex 2D arrangement of symbols within expressions. In this work we adopt the problem of recognition of online mathematical symbols in order to perform an empirical study on the behavior of multi-class classiers. We examine basic methods for multi-class classification, specially the one-versus-all and all-versus-all approaches for decomposing multi-class problems into a set of binary classification problems. To decompose the problem into smaller ones, we also propose an approach that uses a decision tree to hierarchically divide the whole dataset into subsets, in such a way that each subset corresponds to a simpler classification problem. These methods are examined using the k-nearest-neighbor and, accompanied by the oneversus-all approach, the support vector machine models as base classiers. For classification, symbols are represented through a set of features known in the literature as HBF49 and which has been proposed recently specially for the problem of recognition of online symbols. Experiments were performed in order to evaluate classier accuracy, the performance of the classiers as the number of classes are increased, training and testing time, and the use of dierent subsets of the whole set of features. This work includes a description of the needed background, details of the pre-processing and feature extraction techniques for symbol representation, and an exposition and discussion of the empirical studies performed. The data additionally collected for the experiments will be made publicly available. classicação multi-classe decomposição hierárquica escrita manuscrita grande número de classes hierarquical decomposition large classication problems mathematical symbols multiclass classication on-line handwriting símbolos matemáticos
3	Um estudo empírico sobre classificação de símbolos matemáticos manuscritos / An empirical study on handwritten mathematical symbol classication Marcelo Valentim de Oliveira 25 August 2014 (has links) Um importante problema na área de reconhecimento de padrões é o reconhecimento de textos manuscritos. O problema de reconhecimento de expressões matemáticas manuscritas é um caso particular, que vem sendo tratado por décadas. Esse problema é considerado desafiador devido à grande quantidade de possíveis tipos de símbolos, às variações intrínsecas da escrita, e ao complexo arranjo bidimensional dos símbolos na expressão. Neste trabalho adotamos o problema de reconhecimento de símbolos matemáticos manuscritos para realizar um estudo empírico sobre o comportamento de classificadores multi-classes. Examinamos métodos básicos de aprendizado para classificação multi-classe, especialmente as abordagens um-contra-todos e todos-contra-todos de decomposição de um problema multi-classe em problemas de classificação binária. Para decompor o problema em subproblemas menores, propomos também uma abordagem que utiliza uma árvore de decisão para dividir hierarquicamente o conjunto de dados, de modo que cada subconjunto resultante corresponda a um problema mais simples de classificação. Esses métodos são examinados usando-se como classificador base os modelos de classificação vizinhos-mais-próximos e máquinas de suporte vetorial (usando a abordagem um-contra-todos para combinar os classificadores binários). Para classificação, os símbolos são representados por um conjunto de características conhecido na literatura por HBF49 e que foi proposto recentemente especificamente para problemas de reconhecimento de símbolos on-line. Experimentos foram realizados para avaliar a acurácia dos classificadores, o desempenho dos classificadores para número crescente de classes, tempos de treinamento e teste, e uso de diferentes sub-conjuntos de características. Este trabalho inclui uma descrição dos fundamentos utilizados, detalhes do pré-processamento e extração de características para representação dos símbolos, e uma exposição e discussão sobre o estudo empírico realizado. Os dados adicionais que foram coletados para os experimentos serão publicamente disponibilizados. / An important problem in the eld of Pattern Recognition is handwriting recognition. The problem of handwritten mathematical expression recognition is a particular case that is being studied since decades. This is considered a challenging problem due to the large number of possible mathematical symbols, the intrinsic variation of handwriting, and the complex 2D arrangement of symbols within expressions. In this work we adopt the problem of recognition of online mathematical symbols in order to perform an empirical study on the behavior of multi-class classiers. We examine basic methods for multi-class classification, specially the one-versus-all and all-versus-all approaches for decomposing multi-class problems into a set of binary classification problems. To decompose the problem into smaller ones, we also propose an approach that uses a decision tree to hierarchically divide the whole dataset into subsets, in such a way that each subset corresponds to a simpler classification problem. These methods are examined using the k-nearest-neighbor and, accompanied by the oneversus-all approach, the support vector machine models as base classiers. For classification, symbols are represented through a set of features known in the literature as HBF49 and which has been proposed recently specially for the problem of recognition of online symbols. Experiments were performed in order to evaluate classier accuracy, the performance of the classiers as the number of classes are increased, training and testing time, and the use of dierent subsets of the whole set of features. This work includes a description of the needed background, details of the pre-processing and feature extraction techniques for symbol representation, and an exposition and discussion of the empirical studies performed. The data additionally collected for the experiments will be made publicly available. classicação multi-classe decomposição hierárquica escrita manuscrita grande número de classes símbolos matemáticos hierarquical decomposition large classication problems mathematical symbols multiclass classication on-line handwriting
4	Extração de informações de narrativas clínicas / Clinical reports information retrieval Oleynik, Michel 02 October 2013 (has links) Narrativas clínicas são normalmente escritas em linguagem natural devido a seu poder descritivo e facilidade de comunicação entre os especialistas. Processar esses dados para fins de descoberta de conhecimento e coleta de estatísticas exige técnicas de extração de informações, com alguns resultados já apresentados na literatura para o domínio jornalístico, mas ainda raras no domínio médico. O presente trabalho visa desenvolver um classificador de laudos de anatomia patológica que seja capaz de inferir a topografia e a morfologia de um câncer na Classificação Internacional de Doenças para Oncologia (CID-O). Dados fornecidos pelo A.C. Camargo Cancer Center em São Paulo foram utilizados para treinamento e validação. Técnicas de processamento de linguagem natural (PLN) aliadas a classificadores bayesianos foram exploradas na busca de qualidade da recuperação da informação, avaliada por meio da medida-F2. Valores acima de 74% para o grupo topográfico e de 61% para o grupo morfológico são relatados, com pequena contribuição das técnicas de PLN e suavização. Os resultados corroboram trabalhos similares e demonstram a necessidade de retreinamento das ferramentas de PLN no domínio médico. / Clinical reports are usually written in natural language due to its descriptive power and ease of communication among specialists. Processing data for knowledge discovery and statistical analysis requires information retrieval techniques, already established for newswire texts, but still rare in the medical subdomain. The present work aims at developing an automated classifier of pathology reports, which should be able to infer the topography and the morphology classes of a cancer using codes of the International Classification of Diseases for Oncology (ICD-O). Data provided by the A.C. Camargo Cancer Center located in Sao Paulo was used for training and validation. Techniques of natural language processing (NLP) and Bayes classifiers were used in search for information retrieval quality, evaluated by F2-score. Measures upper than 74% in the topographic group and 61% in the morphologic group are reported, with small contribution from NLP or smoothing techniques. The results agree with similar studies and show that a retraining of NLP tools in the medical domain is necessary. classificação de texto laudos de anatomia patológica natural language processing pathology reports processamento de linguagem natural text classication
5	Classification paramétrique robuste partiellement supervisée en reconnaissance des formes Saint-Jean, Christophe 17 December 2001 (has links) (PDF) L'apprentissage est une étape importante d'un processus de reconnaissance des formes pour<br />la décision. On distingue généralement l'approche supervisée de l'approche non supervisée suivant<br />que l'on dispose ou non d'une expertise des données. Dans ce travail, nous étudions le cas<br />intermédiaire d'une classification semi-supervisée où l'on dispose d'un ensemble mixte de données<br />numériques.<br />Certains éléments à traiter diffèrent du modèle a priori supposé des données et peuvent perturber<br />le processus d'apprentissage. Les méthodes robustes de classification visent à limiter l'influence<br />de ces données aberrantes soit en les modélisant explicitement, soit en utilisant des estimateurs<br />robustes. La première partie de ce travail nous a permis d'étudier la notion de robustesse à<br />travers divers algorithmes de classification. Un intérêt particulier est porté à l'utilisation des<br />M-estimateurs de Huber dans le cadre de l'estimation par le principe du maximum de vraisemblance.<br />La seconde partie de cette étude est consacrée à l'état de l'art des principales méthodes de<br />classification semi-supervisée. Nous montrons que celles-ci reposent sur la modification de la<br />fonctionnelle réalisant la classification en introduisant un terme d'accord avec la mesure d'appartenance<br />fixée par l'expert.<br />Sur la base de ces deux domaines, nous proposons un algorithme robuste de classification partiellement<br />supervisée introduisant une option de rejet. Les classes sont modélisées par un mélange<br />de deux composantes dont les paramètres sont estimées par un calcul itératif robuste. Le rejet<br />est effectué par une fonction d'affectation produisant une classe additionnelle dédiée aux points<br />aberrants. Les résultats obtenus sur divers jeux de données artificiels et réels nous ont permis de<br />valider notre approche. Classication automatique Robustesse Semi-supervision Algorithme EM Rejet
6	Classificação One-Class para predição de adaptação de espécies em ambientes desconhecidos Salmazzo, Natália January 2016 (has links) Orientadora: Profa. Dra. Debora Maria Rossi de Medeiros / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2016. / O crescente aumento da exploração do meio ambiente e da biodiversidade faz com que seja necessário preservar os recursos naturais para evitar escassez e reduzir os impactos ambientais. Utilizando dados de distribuição geográfica de espécies combinados com características ambientais e, é possível gerar modelos de distribuição geográfica de espécies. Esses modelos podem ser aplicados na solução de diversos problemas relacionados à manutenção da biodiversidade e preservação das espécies, por exemplo, como auxiliar na dentição de politicas publica e cenários para o uso sustentável do meio ambiente, estudar o potencial de crescimento e proliferação de espécies invasoras, e avaliar os impactos das mudanças climáticas na biodiversidade. Este trabalho propõe um método para a geração de modelos de distribuição de espécies através da aplicação de conceitos de aprendizado de maquina adaptados para a resolução de problemas de uma classe. Os modelos gerados possibilitam a localização de áreas com características similares ao habitat natural das espécies e, dessa forma, contribuem para a sua preservação. Para avaliar a sua acácia, o método proposto foi aplicado em uma base de dados real e algumas bases de Benchmark, e comparado com uma versão do algoritmo Suporta Vector Machies, para dados com uma única classe. O SVM é um dos algoritmos mais aplicados na modelagem de distribuição de espécies e esta disponível em algumas das soluções mais utilizados pelos pesquisadores da área, como o Openmodeller 1 e o Biodiversityr2, avaliação para outras situações, como bases de dados que incluam dados de ausência de espécies bases de dados com um maior numeram de exemplos, os resultados são promissores e indicam que o aprofundamento da pesquisa nessa área pode ter impacto relevante para a modelagem de distribuição de espécies, portanto oferece uma base solida para avaliação. Os resultados mostraram que o método proposto é vi Avel e competitivo. Em muitos casos, como para dados possíveis de serem separados linearmente, o novo método apresentou resultados superiores aos do SVM. Embora ainda seja necessário estender a sua avaliação para outras situações, como bases de dados que incluam dados de ausência de espécies e bases de dados com um maior numeram de exemplos, os resultados são promissores e indicam que o aprofundamento da pesquisa nessa área pode ter impacto relevante para a modelagem de distribuição de espécies. / The increasing exploitation of the environment and biodiversity makes it necessary to preserve the natural resources to avoid scarcity and reduce environmental impacts. Using geographical species distribution data combined with environmental and ecological characteristics, geographical species distribution models can be generated. These models can be applied in solving various problems related to the maintenance of biodiversity and species conservation, such as an aid in the denition of public policies and scenarios for sustainable use of the environment, study the potential for growth and proliferation of invasive species, and assess the impacts of climate change on biodiversity. This work proposes a method for generating geographical species distribution models by applying Machine Learning concepts adapted to solving one-class problems. The generated models enable the identication of areas with similar characteristics to the natural habitat of the species and therefore contribute to its preservation. To evaluate its eectiveness, the proposed method was applied to a real database and some benchmark bases, and compared with a version of the Support Vector Machines algorithm, for one-class classication . The SVM is one of the most applied algorithms for species distribution modelling and is available in some of the solutions most used by researchers in this eld, such as openModeller 3 and BiodiversityR 4. Therefore, it provides a solid base for evaluation. The results showed that the proposed method is viable and competitive. In many cases, such as when the data can be linearly separable, the results obtained by applying the new method were better than those of SVM. Although additional research is necessary to evaluate the method in dierent situations, such as by using databases that include species absence data and databases with a large number of examples, the results are promising and indicate that further research in this area could have a relevant impact to the species distribution modelling technique. CLASSIFICAÇÃO ONE-CLASS K-MEANS ECOOCC ONE-CLASS CLASSICATION
7	A Computer Aided Detection System for Cerebral Microbleeds in Brain MRI / A Computer Aided Detection System for Cerebral Microbleeds in Brain MRI Asl, Babak Ghafary January 2012 (has links) Advances in MR technology have improved the potential for visualization of small lesions in brain images. This has resulted in the opportunity to detect cerebral microbleeds (CMBs), small hemorrhages in the brain that are known to be associated with risk of ischemic stroke and intracerebral bleeding. Currently, no computerized method is available for fully- or semi-automated detection of CMBs. In this paper, we propose a CAD system for the detection of CMBs to speed up visual analysis in population-based studies. Our method consists of three steps: (i) skull-stripping (ii) initial candidate selection (iii) reduction of false-positives using a two layer classi cation and (iv) determining the anatomical location of CMBs. The training and test sets consist of 156 subjects (448 CMBs) and 81 subjects (183 CMBs), respectively. The geometrical, intensity-based and local image descriptor features were used in the classi cation steps. The training and test sets consist of 156 subjects (448 CMBs) and 81 subjects (183 CMBs), respectively. The sensitivity for CMB detection was 90% with, on average, 4 false-positives per subject. Brain MRI cerebral microbleeds classication computer aided diagnosis. Computer Sciences Datavetenskap (datalogi) Signal Processing Signalbehandling
8	Adaptive Region-Based Approaches for Cellular Segmentation of Bright-Field Microscopy Images Ahmady Phoulady, Hady 11 May 2017 (has links) Microscopy image processing is an emerging and quickly growing field in medical imaging research area. Recent advancements in technology including higher computation power, larger and cheaper storage modules, and more efficient and faster data acquisition devices such as whole-slide imaging scanners contributed to the recent microscopy image processing research advancement. Most of the methods in this research area either focus on automatically process images and make it easier for pathologists to direct their focus on the important regions in the image, or they aim to automate the whole job of experts including processing and classifying images or tissues that leads to disease diagnosis. This dissertation is consisted of four different frameworks to process microscopy images. All of them include methods for segmentation either as the whole suggested framework or the initial part of the framework for future feature extraction and classification. Specifically, the first proposed framework is a general segmentation method that works on histology images from different tissues and segments relatively solid nuclei in the image, and the next three frameworks work on cervical microscopy images, segmenting cervical nuclei/cells. Two of these frameworks focus on cervical tissue segmentation and classification using histology images and the last framework is a comprehensive segmentation framework that segments overlapping cervical cells in cervical cytology Pap smear images. One of the several commonalities among these frameworks is that they all work at the region level and use different region features to segment regions and later either expand, split or refine the segmented regions to produce the final segmentation output. Moreover, all proposed frameworks work relatively much faster than other methods on the same datasets. Finally, proving ground truth for datasets to be used in the training phase of microscopy image processing algorithms is relatively time-consuming, complicated and costly. Therefore, I designed the frameworks in such a way that they set most (if not all) of the parameters adaptively based on each image that is being processed at the time. All of the included frameworks either do not depend on training datasets at all (first three of the four discussed frameworks) or need very small training datasets to learn or set a few parameters. Medical Image Processing Nucleus Detection Classication Machine Learning Computer-Aided Diagnosis Computer Engineering Computer Sciences
9	Extração de informações de narrativas clínicas / Clinical reports information retrieval Michel Oleynik 02 October 2013 (has links) Narrativas clínicas são normalmente escritas em linguagem natural devido a seu poder descritivo e facilidade de comunicação entre os especialistas. Processar esses dados para fins de descoberta de conhecimento e coleta de estatísticas exige técnicas de extração de informações, com alguns resultados já apresentados na literatura para o domínio jornalístico, mas ainda raras no domínio médico. O presente trabalho visa desenvolver um classificador de laudos de anatomia patológica que seja capaz de inferir a topografia e a morfologia de um câncer na Classificação Internacional de Doenças para Oncologia (CID-O). Dados fornecidos pelo A.C. Camargo Cancer Center em São Paulo foram utilizados para treinamento e validação. Técnicas de processamento de linguagem natural (PLN) aliadas a classificadores bayesianos foram exploradas na busca de qualidade da recuperação da informação, avaliada por meio da medida-F2. Valores acima de 74% para o grupo topográfico e de 61% para o grupo morfológico são relatados, com pequena contribuição das técnicas de PLN e suavização. Os resultados corroboram trabalhos similares e demonstram a necessidade de retreinamento das ferramentas de PLN no domínio médico. / Clinical reports are usually written in natural language due to its descriptive power and ease of communication among specialists. Processing data for knowledge discovery and statistical analysis requires information retrieval techniques, already established for newswire texts, but still rare in the medical subdomain. The present work aims at developing an automated classifier of pathology reports, which should be able to infer the topography and the morphology classes of a cancer using codes of the International Classification of Diseases for Oncology (ICD-O). Data provided by the A.C. Camargo Cancer Center located in Sao Paulo was used for training and validation. Techniques of natural language processing (NLP) and Bayes classifiers were used in search for information retrieval quality, evaluated by F2-score. Measures upper than 74% in the topographic group and 61% in the morphologic group are reported, with small contribution from NLP or smoothing techniques. The results agree with similar studies and show that a retraining of NLP tools in the medical domain is necessary. classificação de texto laudos de anatomia patológica processamento de linguagem natural natural language processing pathology reports text classication
10	Extraction d'information `a partir de documents Web multilingues : une approche d'analyses structurelles Nguyen, Tuan Dang 25 September 2006 (has links) (PDF) Les ressources d'information multilingues sur le Web sont devenues de plus en plus des objets d'études importantes pour différents domaines intervenant au traitement de l'information. Néanmoins, nous constatons que la structure des ressources multilingues est très peu explorée par rapport à l'abondance des méthodes de traitement automatique des langues naturelles. Dans cette thèse, nous abordons l'aspect multilinguisme dans un contexte de catégorisation des sites Web multilingues. Nous apportons quelques connaissances expérimentales portant sur la représentation de documents multilingues, la modélisation des données en une structure homogène, la qualité de la recherche d'information dans un contexte multilingues et enfin sur les notions de frontière et de centre de gravité pour départager des langues dominantes sans puiser dans des connaissances linguistiques. [INFO:INFO_OH] Computer Science/Other Apprentissage automatique Catégorisation Classication Extraction<br />d'information Fouille de textes Fouille de Web Multilinguisme

Search results