Spelling suggestions: "subject:"semilabeled samples"" "subject:"mislabeled samples""
1 |
Estudo sobre o uso de informações espectrais e de contexto espacial na ponderação de amostras semi-rotuladasGrondona, Atilio Efrain Bica January 2011 (has links)
Esta dissertação aborda o problema da utilização de classificadores paramétricos em dados de alta dimensionalidade. As vantagens trazidas pelos dados em alta dimensionalidade são bem conhecidas. Classes que são muito semelhantes podem, não obstante, ser separadas com um alto grau de acurácia desde que a classificação dos dados seja realizada em um espaço de alta dimensionalidade e que as matrizes de covariância das classes difiram significativamente. Sistemas sensores capazes de adquirir dados de imagem em alta dimensionalidade (dados de imagens hiperespectrais) foram, em parte, desenvolvidos para tirar proveito dessa condição. Nas condições do mundo real, no entanto, temos de enfrentar o problema de estimar um grande número de parâmetros, geralmente, com um número limitado de amostras. Amostras de treinamento são geralmente caras e demoradas para adquirir. Diferentes abordagens para resolver ou, pelo menos, atenuar este problema tem sido um tópico de investigação por parte da comunidade internacional em sensoriamento remoto. Entre outras, uma possível abordagem que tem sido proposta na literatura consiste em aumentar o número de amostras pela adição de amostras semi-rotuladas ao processo de estimação dos parâmetros do classificador. A metodologia investigada nesta dissertação segue esta abordagem geral. O foco principal deste estudo consiste em investigar uma abordagem para estimar os pesos a serem associados às amostras semi-rotuladas. A abordagem proposta inclui duas etapas. Na primeira, as estimativas iniciais para os pesos são realizadas de forma interativa, por meio da utilização de informações espectrais somente. Em uma segunda etapa, os pesos estimados são refinados por meio de informações de contexto espacial. A metodologia proposta é avaliada através de experimentos que fazem uso de dados de imagens hiperespectrais AVIRIS. Os resultados são apresentados e discutidos. Sugestões para futuras pesquisas neste tópico também são apresentados. / This dissertation deals with the problem of using parametric classifiers in high dimensional data settings. The advantages brought by high dimensional data are well known. Classes that are very similar can nonetheless be separated with a high degree of accuracy provided that the classification is performed in high dimensional data settings and that the classes’ covariance matrices differ significantly. Sensor system capable of acquiring high dimensional image data (hyperspectral image data) were in part developed to take advantage of this condition. In real world conditions, however, we have to face the problem of estimating a resulting large number of parameters with a generally limited number of samples. Training samples are usually expensive and time consuming to acquire. Different approaches to solve or at least mitigate this problem have been a topic of investigation by the international community in remote sensing. Among others, one possible approach that has been proposed in the literature consists in increasing the number of samples by adding semilabeled samples to the process of estimating the classifier’s parameters. The methodology investigated in this dissertation follows this general approach. The main focus in this study consists in investigating an approach to estimate the weights to be associated with the semilabeled samples. The proposed approach includes two steps. In the first one, initial estimates for the weights are performed in an iterative way, by making use of spectral information only. In a second step, the estimated weights are further adjusted by means of spatial context information. The proposed methodology is evaluated by experiments making use of AVIRIS hyperspectral image data. The results are presented and discussed. Suggestions for further research in this topic are also presented.
|
2 |
Estudo sobre o uso de informações espectrais e de contexto espacial na ponderação de amostras semi-rotuladasGrondona, Atilio Efrain Bica January 2011 (has links)
Esta dissertação aborda o problema da utilização de classificadores paramétricos em dados de alta dimensionalidade. As vantagens trazidas pelos dados em alta dimensionalidade são bem conhecidas. Classes que são muito semelhantes podem, não obstante, ser separadas com um alto grau de acurácia desde que a classificação dos dados seja realizada em um espaço de alta dimensionalidade e que as matrizes de covariância das classes difiram significativamente. Sistemas sensores capazes de adquirir dados de imagem em alta dimensionalidade (dados de imagens hiperespectrais) foram, em parte, desenvolvidos para tirar proveito dessa condição. Nas condições do mundo real, no entanto, temos de enfrentar o problema de estimar um grande número de parâmetros, geralmente, com um número limitado de amostras. Amostras de treinamento são geralmente caras e demoradas para adquirir. Diferentes abordagens para resolver ou, pelo menos, atenuar este problema tem sido um tópico de investigação por parte da comunidade internacional em sensoriamento remoto. Entre outras, uma possível abordagem que tem sido proposta na literatura consiste em aumentar o número de amostras pela adição de amostras semi-rotuladas ao processo de estimação dos parâmetros do classificador. A metodologia investigada nesta dissertação segue esta abordagem geral. O foco principal deste estudo consiste em investigar uma abordagem para estimar os pesos a serem associados às amostras semi-rotuladas. A abordagem proposta inclui duas etapas. Na primeira, as estimativas iniciais para os pesos são realizadas de forma interativa, por meio da utilização de informações espectrais somente. Em uma segunda etapa, os pesos estimados são refinados por meio de informações de contexto espacial. A metodologia proposta é avaliada através de experimentos que fazem uso de dados de imagens hiperespectrais AVIRIS. Os resultados são apresentados e discutidos. Sugestões para futuras pesquisas neste tópico também são apresentados. / This dissertation deals with the problem of using parametric classifiers in high dimensional data settings. The advantages brought by high dimensional data are well known. Classes that are very similar can nonetheless be separated with a high degree of accuracy provided that the classification is performed in high dimensional data settings and that the classes’ covariance matrices differ significantly. Sensor system capable of acquiring high dimensional image data (hyperspectral image data) were in part developed to take advantage of this condition. In real world conditions, however, we have to face the problem of estimating a resulting large number of parameters with a generally limited number of samples. Training samples are usually expensive and time consuming to acquire. Different approaches to solve or at least mitigate this problem have been a topic of investigation by the international community in remote sensing. Among others, one possible approach that has been proposed in the literature consists in increasing the number of samples by adding semilabeled samples to the process of estimating the classifier’s parameters. The methodology investigated in this dissertation follows this general approach. The main focus in this study consists in investigating an approach to estimate the weights to be associated with the semilabeled samples. The proposed approach includes two steps. In the first one, initial estimates for the weights are performed in an iterative way, by making use of spectral information only. In a second step, the estimated weights are further adjusted by means of spatial context information. The proposed methodology is evaluated by experiments making use of AVIRIS hyperspectral image data. The results are presented and discussed. Suggestions for further research in this topic are also presented.
|
3 |
Estudo sobre o uso de informações espectrais e de contexto espacial na ponderação de amostras semi-rotuladasGrondona, Atilio Efrain Bica January 2011 (has links)
Esta dissertação aborda o problema da utilização de classificadores paramétricos em dados de alta dimensionalidade. As vantagens trazidas pelos dados em alta dimensionalidade são bem conhecidas. Classes que são muito semelhantes podem, não obstante, ser separadas com um alto grau de acurácia desde que a classificação dos dados seja realizada em um espaço de alta dimensionalidade e que as matrizes de covariância das classes difiram significativamente. Sistemas sensores capazes de adquirir dados de imagem em alta dimensionalidade (dados de imagens hiperespectrais) foram, em parte, desenvolvidos para tirar proveito dessa condição. Nas condições do mundo real, no entanto, temos de enfrentar o problema de estimar um grande número de parâmetros, geralmente, com um número limitado de amostras. Amostras de treinamento são geralmente caras e demoradas para adquirir. Diferentes abordagens para resolver ou, pelo menos, atenuar este problema tem sido um tópico de investigação por parte da comunidade internacional em sensoriamento remoto. Entre outras, uma possível abordagem que tem sido proposta na literatura consiste em aumentar o número de amostras pela adição de amostras semi-rotuladas ao processo de estimação dos parâmetros do classificador. A metodologia investigada nesta dissertação segue esta abordagem geral. O foco principal deste estudo consiste em investigar uma abordagem para estimar os pesos a serem associados às amostras semi-rotuladas. A abordagem proposta inclui duas etapas. Na primeira, as estimativas iniciais para os pesos são realizadas de forma interativa, por meio da utilização de informações espectrais somente. Em uma segunda etapa, os pesos estimados são refinados por meio de informações de contexto espacial. A metodologia proposta é avaliada através de experimentos que fazem uso de dados de imagens hiperespectrais AVIRIS. Os resultados são apresentados e discutidos. Sugestões para futuras pesquisas neste tópico também são apresentados. / This dissertation deals with the problem of using parametric classifiers in high dimensional data settings. The advantages brought by high dimensional data are well known. Classes that are very similar can nonetheless be separated with a high degree of accuracy provided that the classification is performed in high dimensional data settings and that the classes’ covariance matrices differ significantly. Sensor system capable of acquiring high dimensional image data (hyperspectral image data) were in part developed to take advantage of this condition. In real world conditions, however, we have to face the problem of estimating a resulting large number of parameters with a generally limited number of samples. Training samples are usually expensive and time consuming to acquire. Different approaches to solve or at least mitigate this problem have been a topic of investigation by the international community in remote sensing. Among others, one possible approach that has been proposed in the literature consists in increasing the number of samples by adding semilabeled samples to the process of estimating the classifier’s parameters. The methodology investigated in this dissertation follows this general approach. The main focus in this study consists in investigating an approach to estimate the weights to be associated with the semilabeled samples. The proposed approach includes two steps. In the first one, initial estimates for the weights are performed in an iterative way, by making use of spectral information only. In a second step, the estimated weights are further adjusted by means of spatial context information. The proposed methodology is evaluated by experiments making use of AVIRIS hyperspectral image data. The results are presented and discussed. Suggestions for further research in this topic are also presented.
|
4 |
Classificação de dados imagens em alta dimensionalidade, empregando amostras semi-rotuladas e estimadores para as probabilidades a priori / Classification of high dimensionality image data, using semilabeled samples and estimation of the a priori probabilitiesLiczbinski, Celso Antonio January 2007 (has links)
Em cenas naturais, ocorrem com certa freqüência classes espectralmente muito similares, isto é, os vetores média são muito próximos. Em situações como esta dados de baixa dimensionalidade (LandSat-TM, Spot) não permitem uma classificação acurada da cena. Por outro lado, sabe-se que dados em alta dimensionalidade tornam possível a separação destas classes, desde que as matrizes covariância sejam suficientemente distintas. Neste caso, o problema de natureza prática que surge é o da estimação dos parâmetros que caracterizam a distribuição de cada classe. Na medida em que a dimensionalidade dos dados cresce, aumenta o número de parâmetros a serem estimados, especialmente na matriz covariância. Contudo, é sabido que, no mundo real, a quantidade de amostras de treinamento disponíveis, é freqüentemente muito limitada, ocasionando problemas na estimação dos parâmetros necessários ao classificador, degradando, portanto a acurácia do processo de classificação, na medida em que a dimensionalidade dos dados aumenta. O Efeito de Hughes, como é chamado este fenômeno, já é bem conhecido no meio científico, e estudos vêm sendo realizados com o objetivo de mitigar este efeito. Entre as alternativas propostas com a finalidade de mitigar o Efeito de Hughes, encontram-se as técnicas que utilizam amostras não rotuladas e amostras semi-rotuladas para minimizar o problema do tamanho reduzido das amostras de treinamento. Deste modo, técnicas que utilizam amostras semi-rotuladas, tornamse um tópico interessante de estudo, bem como o comportamento destas técnicas em ambientes de dados de imagens digitais de alta dimensionalidade em sensoriamento remoto, como por exemplo, os dados fornecidos pelo sensor AVIRIS. Neste estudo foi dado prosseguimento à metodologia investigada por Lemos (2003), o qual implementou a utilização de amostras semi-rotuladas para fins de estimação dos parâmetros do classificador Máxima Verossimilhança Gaussiana (MVG). A contribuição do presente trabalho consistiu na inclusão de uma etapa adicional, introduzindo a estimação das probabilidades a priori P( wi) referentes às classes envolvidas para utilização no classificador MVG. Desta forma, utilizando-se funções de decisão mais ajustadas à realidade da cena analisada, obteve-se resultados mais acurados no processo de classificação. Os resultados atestaram que com um número limitado de amostras de treinamento, técnicas que utilizam algoritmos adaptativos, mostram-se eficientes em reduzir o Efeito de Hughes. Apesar deste Efeito, quanto à acurácia, em todos os casos o modelo quadrático mostrou-se eficiente através do algoritmo adaptativo. A conclusão principal desta dissertação é que o método do algoritmo adaptativo é útil no processo de classificação de imagens com dados em alta dimensionalidade e classes com características espectrais muito próximas. / In natural scenes there are some cases in which some of the land-cover classes involved are spectrally very similar, i.e., their first order statistics are nearly identical. In these cases, the more traditional sensor systems such as Landsat-TM and Spot, among others usually result in a thematic image low in accuracy. On the other hand, it is well known that high-dimensional image data allows for the separation of classes that are spectrally very similar, provided that their second-order statistics differ significantly. The classification of high-dimensional image data, however, poses some new problems such as the estimation of the parameters in a parametric classifier. As the data dimensionality increases, so does the number of parameters to be estimated, particularly in the covariance matrix. In real cases, however, the number of training samples available is usually limited preventing therefore a reliable estimation of the parameters required by the classifier. The paucity of training samples results in a low accuracy for the thematic image which becomes more noticeable as the data dimensionality increases. This condition is known as the Hughes Phenomenon. Different approaches to mitigate the Hughes Phenomenon investigated by many authors have been reported in the literature. Among the possible alternatives that have been proposed, the so called semi-labeled samples has shown some promising results in the classification of remote sensing high dimensional image data, such as AVIRIS data. In this dissertation the approach proposed by Lemos (2003) is further investigated to increase the reliability in the estimation of the parameters required by the Gaussian Maximum Likelihood (GML) classifier. In this dissertation, we propose a methodology to estimate the a priory probabilities P( i) required by the GMV classifier. It is expected that a more realistic estimation of the values for the a priory probabilities well help to increase the accuracy of the thematic image produced by the GML classifier. The experiments performed in this study have shown an increase in the accuracy of the thematic image, suggesting the adequacy of the proposed methodology.
|
5 |
Classificação de dados imagens em alta dimensionalidade, empregando amostras semi-rotuladas e estimadores para as probabilidades a priori / Classification of high dimensionality image data, using semilabeled samples and estimation of the a priori probabilitiesLiczbinski, Celso Antonio January 2007 (has links)
Em cenas naturais, ocorrem com certa freqüência classes espectralmente muito similares, isto é, os vetores média são muito próximos. Em situações como esta dados de baixa dimensionalidade (LandSat-TM, Spot) não permitem uma classificação acurada da cena. Por outro lado, sabe-se que dados em alta dimensionalidade tornam possível a separação destas classes, desde que as matrizes covariância sejam suficientemente distintas. Neste caso, o problema de natureza prática que surge é o da estimação dos parâmetros que caracterizam a distribuição de cada classe. Na medida em que a dimensionalidade dos dados cresce, aumenta o número de parâmetros a serem estimados, especialmente na matriz covariância. Contudo, é sabido que, no mundo real, a quantidade de amostras de treinamento disponíveis, é freqüentemente muito limitada, ocasionando problemas na estimação dos parâmetros necessários ao classificador, degradando, portanto a acurácia do processo de classificação, na medida em que a dimensionalidade dos dados aumenta. O Efeito de Hughes, como é chamado este fenômeno, já é bem conhecido no meio científico, e estudos vêm sendo realizados com o objetivo de mitigar este efeito. Entre as alternativas propostas com a finalidade de mitigar o Efeito de Hughes, encontram-se as técnicas que utilizam amostras não rotuladas e amostras semi-rotuladas para minimizar o problema do tamanho reduzido das amostras de treinamento. Deste modo, técnicas que utilizam amostras semi-rotuladas, tornamse um tópico interessante de estudo, bem como o comportamento destas técnicas em ambientes de dados de imagens digitais de alta dimensionalidade em sensoriamento remoto, como por exemplo, os dados fornecidos pelo sensor AVIRIS. Neste estudo foi dado prosseguimento à metodologia investigada por Lemos (2003), o qual implementou a utilização de amostras semi-rotuladas para fins de estimação dos parâmetros do classificador Máxima Verossimilhança Gaussiana (MVG). A contribuição do presente trabalho consistiu na inclusão de uma etapa adicional, introduzindo a estimação das probabilidades a priori P( wi) referentes às classes envolvidas para utilização no classificador MVG. Desta forma, utilizando-se funções de decisão mais ajustadas à realidade da cena analisada, obteve-se resultados mais acurados no processo de classificação. Os resultados atestaram que com um número limitado de amostras de treinamento, técnicas que utilizam algoritmos adaptativos, mostram-se eficientes em reduzir o Efeito de Hughes. Apesar deste Efeito, quanto à acurácia, em todos os casos o modelo quadrático mostrou-se eficiente através do algoritmo adaptativo. A conclusão principal desta dissertação é que o método do algoritmo adaptativo é útil no processo de classificação de imagens com dados em alta dimensionalidade e classes com características espectrais muito próximas. / In natural scenes there are some cases in which some of the land-cover classes involved are spectrally very similar, i.e., their first order statistics are nearly identical. In these cases, the more traditional sensor systems such as Landsat-TM and Spot, among others usually result in a thematic image low in accuracy. On the other hand, it is well known that high-dimensional image data allows for the separation of classes that are spectrally very similar, provided that their second-order statistics differ significantly. The classification of high-dimensional image data, however, poses some new problems such as the estimation of the parameters in a parametric classifier. As the data dimensionality increases, so does the number of parameters to be estimated, particularly in the covariance matrix. In real cases, however, the number of training samples available is usually limited preventing therefore a reliable estimation of the parameters required by the classifier. The paucity of training samples results in a low accuracy for the thematic image which becomes more noticeable as the data dimensionality increases. This condition is known as the Hughes Phenomenon. Different approaches to mitigate the Hughes Phenomenon investigated by many authors have been reported in the literature. Among the possible alternatives that have been proposed, the so called semi-labeled samples has shown some promising results in the classification of remote sensing high dimensional image data, such as AVIRIS data. In this dissertation the approach proposed by Lemos (2003) is further investigated to increase the reliability in the estimation of the parameters required by the Gaussian Maximum Likelihood (GML) classifier. In this dissertation, we propose a methodology to estimate the a priory probabilities P( i) required by the GMV classifier. It is expected that a more realistic estimation of the values for the a priory probabilities well help to increase the accuracy of the thematic image produced by the GML classifier. The experiments performed in this study have shown an increase in the accuracy of the thematic image, suggesting the adequacy of the proposed methodology.
|
6 |
Classificação de dados imagens em alta dimensionalidade, empregando amostras semi-rotuladas e estimadores para as probabilidades a priori / Classification of high dimensionality image data, using semilabeled samples and estimation of the a priori probabilitiesLiczbinski, Celso Antonio January 2007 (has links)
Em cenas naturais, ocorrem com certa freqüência classes espectralmente muito similares, isto é, os vetores média são muito próximos. Em situações como esta dados de baixa dimensionalidade (LandSat-TM, Spot) não permitem uma classificação acurada da cena. Por outro lado, sabe-se que dados em alta dimensionalidade tornam possível a separação destas classes, desde que as matrizes covariância sejam suficientemente distintas. Neste caso, o problema de natureza prática que surge é o da estimação dos parâmetros que caracterizam a distribuição de cada classe. Na medida em que a dimensionalidade dos dados cresce, aumenta o número de parâmetros a serem estimados, especialmente na matriz covariância. Contudo, é sabido que, no mundo real, a quantidade de amostras de treinamento disponíveis, é freqüentemente muito limitada, ocasionando problemas na estimação dos parâmetros necessários ao classificador, degradando, portanto a acurácia do processo de classificação, na medida em que a dimensionalidade dos dados aumenta. O Efeito de Hughes, como é chamado este fenômeno, já é bem conhecido no meio científico, e estudos vêm sendo realizados com o objetivo de mitigar este efeito. Entre as alternativas propostas com a finalidade de mitigar o Efeito de Hughes, encontram-se as técnicas que utilizam amostras não rotuladas e amostras semi-rotuladas para minimizar o problema do tamanho reduzido das amostras de treinamento. Deste modo, técnicas que utilizam amostras semi-rotuladas, tornamse um tópico interessante de estudo, bem como o comportamento destas técnicas em ambientes de dados de imagens digitais de alta dimensionalidade em sensoriamento remoto, como por exemplo, os dados fornecidos pelo sensor AVIRIS. Neste estudo foi dado prosseguimento à metodologia investigada por Lemos (2003), o qual implementou a utilização de amostras semi-rotuladas para fins de estimação dos parâmetros do classificador Máxima Verossimilhança Gaussiana (MVG). A contribuição do presente trabalho consistiu na inclusão de uma etapa adicional, introduzindo a estimação das probabilidades a priori P( wi) referentes às classes envolvidas para utilização no classificador MVG. Desta forma, utilizando-se funções de decisão mais ajustadas à realidade da cena analisada, obteve-se resultados mais acurados no processo de classificação. Os resultados atestaram que com um número limitado de amostras de treinamento, técnicas que utilizam algoritmos adaptativos, mostram-se eficientes em reduzir o Efeito de Hughes. Apesar deste Efeito, quanto à acurácia, em todos os casos o modelo quadrático mostrou-se eficiente através do algoritmo adaptativo. A conclusão principal desta dissertação é que o método do algoritmo adaptativo é útil no processo de classificação de imagens com dados em alta dimensionalidade e classes com características espectrais muito próximas. / In natural scenes there are some cases in which some of the land-cover classes involved are spectrally very similar, i.e., their first order statistics are nearly identical. In these cases, the more traditional sensor systems such as Landsat-TM and Spot, among others usually result in a thematic image low in accuracy. On the other hand, it is well known that high-dimensional image data allows for the separation of classes that are spectrally very similar, provided that their second-order statistics differ significantly. The classification of high-dimensional image data, however, poses some new problems such as the estimation of the parameters in a parametric classifier. As the data dimensionality increases, so does the number of parameters to be estimated, particularly in the covariance matrix. In real cases, however, the number of training samples available is usually limited preventing therefore a reliable estimation of the parameters required by the classifier. The paucity of training samples results in a low accuracy for the thematic image which becomes more noticeable as the data dimensionality increases. This condition is known as the Hughes Phenomenon. Different approaches to mitigate the Hughes Phenomenon investigated by many authors have been reported in the literature. Among the possible alternatives that have been proposed, the so called semi-labeled samples has shown some promising results in the classification of remote sensing high dimensional image data, such as AVIRIS data. In this dissertation the approach proposed by Lemos (2003) is further investigated to increase the reliability in the estimation of the parameters required by the Gaussian Maximum Likelihood (GML) classifier. In this dissertation, we propose a methodology to estimate the a priory probabilities P( i) required by the GMV classifier. It is expected that a more realistic estimation of the values for the a priory probabilities well help to increase the accuracy of the thematic image produced by the GML classifier. The experiments performed in this study have shown an increase in the accuracy of the thematic image, suggesting the adequacy of the proposed methodology.
|
Page generated in 0.0724 seconds