Spelling suggestions: "subject:"análise dde regressão logística"" "subject:"análise dee regressão logística""
11 |
FITOSSOCIOLOGIA DE COMUNIDADES ARBÓREAS EM SAVANAS DO BRASIL CENTRAL / PHYTOSOCIOLOGY OF THE ARBOREAL COMMUNITIES IN SAVANNAS FROM CENTRAL BRAZILFinger, Zenesio 11 February 2008 (has links)
These studies were undertaken in the state of Mato Grosso, Brazil, in the area of Chapada dos Guimarães and Baixada Cuiabana, which are constituted of a high plateau and a big low plain, respectively, being limited to two areas covered by vegetation with a savannic physiognomy, type Cerrado stricto sensu. Considering the hypothesis that the knowledge both of the biotic and abiotic components of the scenery and their interrelations allows a better understanding of the environmental dynamic, this dissertation had as objectives to characterize the savanna communities' arboreal stratum floristically and phytosociologically, concerning their richness, phytosociological structures and diversity; to identify floristic groupings through varied statistical techniques, representing them by dendrograms; to select species which are really able to make discrimination among the groups; to obtain some discriminant functions to allow classification and reclassification of specimen units, in the groups, to which they have more probability of belonging; to analyze and to characterize the obtained groups; to determine the patterns of distribution of the species of trees by the analysis of correlations of environmental variables with the distribution of the species and plots in the communities being studied; to determine the similarity indexes among the floristic groups and to compare themselves and, finally, to test methods of assorted statistical analysis for application in studies of vegetable communities. Data of vegetation were obtained by the method of multiple plots, with size of 20 X 20 m (400 m2), randomly disposed in each one of the areas being studied. 82 plots were randomly installed. In each one of the 82 patternless units, the circumferences of all the arboreal plants with perimeter to 0,30 m from the level of the soil (PAB) larger or equal to 15,7 cm (DAB 5,0 cm) and the total height of the plants were obtained. In the core of each plot, for determination of the chemical and textural variables of the soil, simple samples of superficial soil were collected (0-30 cm depth). Species were organized according to the families recognized by Angiosperm Phylogeny Group II. The sampling sufficiency was obtained based on the analysis of the curve of the collector. Phytosociological parameters were calculated for each formed group, with the purpose of characterizing them phytosociologically. Having as variables the Index of Covering Value (IVC) of the species, the classification was accomplished by the TWINSPAN (Two-Way Indicator Species Analysis) method, regarding the plots, with the objective of classifying them in floristic groups. The diversity was determined by the Shannon-Wienner and the Simpson Index. The discriminant analysis was undertaken through the STEPWISE method. Considering the matrix of presence and absence of the species in the groups, the floristic similarity was calculated among the groups by the Sorensen Index. To evaluate the hypothesis of the correlation existence between the distribution of the species and environmental variables, the canonical correspondence analysis was accomplished (CCA). The test of permutation of Monte Carlo was applied to verify the importance of the correlations between the emerging distribution patterns of the species and the environmental variables in final CCA. To determine the responsible environmental factors for the distribution of the species, the analysis of regression logistics was used. The Forward Stepwise (Wald) method was used for the sequential selection of the variables. By the species-area curve, it could be observed that, from the plot 75 (30.000 m2 out of the area used as sample), the curve is stabilized with the occurrence of 114 species in the 82 studied plots, distributed between 81 genera and 36 botanical families. The families better represented were Fabaceae, Myrtaceae and Vochysiaceae. The alpha diversity from the arboreal vegetation found in the area being studied was of 4,033 considering the Shannon-Wiener Index and of 0,975 considering the Simpson Index, representing a great floristic diversity. The divisions generated
by the classification through the TWINSPAN method separated the plots into four groups: Group 1 Myrcia albo-tomentosa Camb. Association; Group 2 Pterodon emarginatus Vog. Association ; Group 3 Curatella americana L. Association; and Group 4 Qualea multiflora Mart. Association. In the discriminant analysis, 100% of the plots were classified correctly in the Groups 1, 2, 3 and 4, indicating precision of the grouping technique used. The largest similarity could be observed in the Groups 2 and 3, whose Sorensen Index was close to 1 (0,7310). In the four floristic groups, Fabaceae, Myrtaceae, Vochysiaceae, Annonaceae and Apocynaceae families were the most representative floristically in terms of genera and species. In CCA the correlations of the environmental variables with the first ordination axis were, in decreasing order of absolute values, saturation for aluminum, altitude s.n.m., saturation of bases, saturation for magnesium, relationship magnesium/potassium, saturation for hydrogen, potassium tenor, pH(H2O) and relationship calcium/potassium. The saturation for calcium variable presented very weak correlation with the first axis, however, with the second ordination axis, it was very strong. In the diagram of ordination of the plots, the four floristic groups were discriminated in sections different from the diagram, reinforcing their visualization as much defined habitats and with composition of particular species, resulting in clear separation of the four soil classes previously identified. The logistic regression analysis was useful to prove the results obtained from CCA, concerning the environmental variables which determined the distribution of the indicative species of the floristic groups in the studied communities. / Estes estudos foram desenvolvidos no estado de Mato Grosso, Brasil, na região de Chapada dos Guimarães e Baixada Cuiabana, que compreendem, respectivamente, um alto platô e uma grande planície baixa, restringindo-se a duas áreas cobertas por vegetação com fisionomia savânica do tipo Cerrado stricto sensu. Partindo-se da hipótese de que o conhecimento tanto dos componentes bióticos e abióticos da paisagem como de suas inter-relações permite um melhor entendimento da dinâmica ambiental, o presente estudo teve como objetivos caracterizar o estrato arbóreo das comunidades de savana estudadas, florística e fitossociologicamente, quanto a riqueza, estrutura fitossociológica e diversidade; identificar agrupamentos florísticos, por meio de técnicas estatísticas multivariadas, representando-os por meio de dendrograma; selecionar espécies com poder real de discriminação entre os grupos; obter funções discriminantes que permitam classificar e reclassificar unidades amostrais, nos grupos, para os quais têm maior probabilidade de pertencerem; analisar e caracterizar os grupos obtidos; determinar os padrões de distribuição das espécies de árvores, por meio da análise de correlações de variáveis ambientais com a distribuição das espécies e parcelas nas comunidades estudadas; determinar os índices de similaridade entre os grupos florísticos obtidos e compará-los; e testar métodos de análise estatística multivariada para aplicação em estudos de comunidades vegetais. Os dados da vegetação foram obtidos empregando-se o método de parcelas múltiplas, com tamanho de 20 X 20 m (400 m2), dispostas aleatoriamente em cada uma das áreas de estudos. Foram instaladas aleatoriamente 82 parcelas. Em cada uma das 82 unidades amostrais, foram obtidas as circunferências de todos as plantas arbóreas com perímetro a 0,30 m do nível do solo (PAB) maior ou igual a 15,7 cm (DAB 5,0 cm), e a altura total das plantas. No centro de cada parcela, para determinação das variáveis químicas e texturais do solo, coletaram-se amostras simples de solo superficial (0-30 cm de profundidade). As espécies foram organizadas de acordo com as famílias reconhecidas pelo Angiosperm Phylogeny Group II. A suficiência de amostragem foi obtida com base na análise da curva do coletor. Os parâmetros fitossociológicos foram calculados para cada grupo formado, com a finalidade de caracterizá-los fitossociológicamente. Tendo como variáveis o Índice de Valor de Cobertura (IVC) das espécies, foi realizada a classificação, por meio do método TWINSPAN (Two-Way Indicator Species Analisys), com relação às parcelas, com o objetivo de classificá-las em grupos florísticos. A diversidade foi determinada por meio do Índice de Shannon-Wienner e de Simpson. Realizou-se a análise discriminante por meio do método STEPWISE. A partir da matriz de presença e ausência das espécies nos grupos, foi calculada a similaridade florística entre os grupos, por meio do Índice de Sorensen. Para avaliar a hipótese da existência de correlação entre a distribuição das espécies e variáveis ambientais, foi realizada a análise de correspondência canônica (CCA). Foi aplicado o teste de permutação de Monte Carlo para verificar a significância das correlações entre os padrões de distribuição emergentes das espécies e as variáveis ambientais na CCA final. Para determinar os fatores ambientais responsáveis pela distribuição das espécies, foi utilizada a análise de regressão logística. À seleção seqüencial das variáveis foi utilizado o método Forward Stepwise (Wald). Pela curva espécie-área, pode-se observar que, a partir da parcela 75 (30.000 m2 da área amostrada), a curva estabiliza-se com a ocorrência de 114 espécies nas 82 parcelas estudadas, distribuídas entre 81 gêneros e 36 famílias botânicas. As famílias mais bem representadas foram Fabaceae, Myrtaceae e Vochysiaceae. A diversidade alfa da vegetação arbórea encontrada na área estudada foi de 4,033 pelo índice de Shannon-Wiener e de 0,975 pelo de Simpson, indicando alta diversidade florística. As divisões geradas pela classificação por meio do método TWINSPAN separaram as parcelas em quatro grupos. Grupo 1 - Associação Myrcia albo-tomentosa Camb.; Grupo 2 - Associação Pterodon emarginatus Vog.; Grupo 3 - Associação Curatella americana L.; e Grupo 4 - Associação Qualea multiflora Mart.. Na análise discriminante, observou-se que 100% das parcelas foram classificadas corretamente nos grupos 1, 2, 3 e 4, indicando precisão da técnica de agrupamento utilizada. A maior similaridade se deu entre os grupos 2 e 3, cujo índice de Sorensen foi próximo de 1 (0,7310). Nos quatro grupos florísticos obtidos, as famílias Fabaceae, Myrtaceae, Vochysiaceae, Annonaceae e Apocynaceae foram as mais representativas florísticamente em número de gêneros e espécies. Na CCA, as correlações das variáveis ambientais com o primeiro eixo de ordenação foram, em ordem decrescente de valores absolutos, saturação por alumínio, altitude s.n.m., saturação de bases, saturação por magnésio, relação magnésio/potássio, saturação por hidrogênio, teor de potássio, pH(H2O) e relação cálcio/potássio. A variável saturação por cálcio apresentou correlação muito fraca com o primeiro eixo, entretanto, com o segundo eixo de ordenação, foi muito forte. No diagrama de ordenação das parcelas, os quatro grupos florísticos foram discriminados em setores diferentes do diagrama, reforçando a visualização dos mesmos como hábitats bem definidos e com composição de espécies particular, resultando em clara separação das quatro classes de solo identificadas previamente. A análise de regressão logística comprovou os resultados obtidos da CCA, em relação às variáveis ambientais que determinaram a distribuição das espécies indicadoras dos grupos florísticos nas comunidades estudadas.
|
12 |
Modelos de classificação : aplicações no setor bancário / Classification models : applications in banking sectorCaetano, Mateus, 1983- 02 June 2015 (has links)
Orientadores: Antonio Carlos Moretti, Márcia Aparecida Gomes Ruggiero / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matemática Estatística e Computação Científica / Made available in DSpace on 2018-08-26T18:03:59Z (GMT). No. of bitstreams: 1
Caetano_Mateus_M.pdf: 1249293 bytes, checksum: f8adb755363291250261872ea756f58c (MD5)
Previous issue date: 2015 / Resumo: Técnicas para solucionar problemas de classificação têm aplicações em diversas áreas, como concessão de crédito, reconhecimento de imagens, detecção de SPAM, entre outras. É uma área de intensa pesquisa, para a qual diversos métodos foram e continuam sendo desenvolvidos. Dado que não há um método que apresente o melhor desempenho para qualquer tipo de aplicação, diferentes métodos precisam ser comparados para que possamos encontrar o melhor ajuste para cada aplicação em particular. Neste trabalho estudamos seis diferentes métodos aplicados em problemas de classificação supervisionada (onde há uma resposta conhecida para o treinamento do modelo): Regressão Logística, Árvore de Decisão, Naive Bayes, KNN (k-Nearest Neighbors), Redes Neurais e Support Vector Machine. Aplicamos os métodos em três conjuntos de dados referentes à problemas de concessão de crédito e seleção de clientes para campanha de marketing bancário. Realizamos o pré-processamento dos dados para lidar com observações faltantes e classes desbalanceadas. Utilizamos técnicas de particionamento do conjunto de dados e diversas métricas, como acurácia, F1 e curva ROC, com o objetivo de avaliar os desempenhos dos métodos/técnicas. Comparamos, para cada problema, o desempenho dos diferentes métodos considerando as métricas selecionadas. Os resultados obtidos pelos melhores modelos de cada aplicação foram compatíveis com outros estudos que utilizaram os mesmos bancos de dados / Abstract: Techniques for classification problems have applications on many areas, such as credit risk evaluation, image recognition, SPAM detection, among others. It is an area of intense research, for which many methods were and continue to be developed. Given that there is not a method whose performance is better across any type of problems, different methods need to be compared in order to select the one that provides the best adjustment for each application in particular. In this work, we studied six different methods applied to supervised classification problems (when there is a known response for the model training): Logistic Regression, Decision Tree, Naive Bayes, KNN (k-Nearest Neighbors), Neural Networks and Support Vector Machine. We applied these methods on three data sets related to credit evaluation and customer selection for a banking marketing campaign. We made the data pre-processing to cope with missing data and unbalanced classes. We used data partitioning techniques and several metrics, as accuracy, F1 and ROC curve, in order to evaluate the methods/techniques performances. We compared, for each problem, the performances of the different methods using the selected metrics. The results obtained for the best models on each application were comparable to other studies that have used the same data sources / Mestrado / Matematica Aplicada / Mestra em Matemática Aplicada
|
Page generated in 0.0904 seconds