Global ETD Search

61	Algoritmo evolutivo multi-objetivo em tabelas para seleção de variáveis em classificação multivariada / Multi-objective evolutionary algorithm on tables for variable selection in multivariate classification Ribeiro, Lucas de Almeida 29 October 2014 (has links) Submitted by Luanna Matias (lua_matias@yahoo.com.br) on 2015-04-01T14:19:27Z No. of bitstreams: 2 Dissertação - Lucas de Almeida Ribeiro - 2014.pdf: 6237054 bytes, checksum: 085446421b01a7e7b9174daf3da9b192 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Luanna Matias (lua_matias@yahoo.com.br) on 2015-04-01T15:19:35Z (GMT) No. of bitstreams: 2 Dissertação - Lucas de Almeida Ribeiro - 2014.pdf: 6237054 bytes, checksum: 085446421b01a7e7b9174daf3da9b192 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2015-04-01T15:19:35Z (GMT). No. of bitstreams: 2 Dissertação - Lucas de Almeida Ribeiro - 2014.pdf: 6237054 bytes, checksum: 085446421b01a7e7b9174daf3da9b192 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Previous issue date: 2014-10-29 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / This work proposes the use of multi-objective evolutionary algorithm on tables (AEMT) for variable selection in classification problems, using linear discriminant analysis. The proposed algorithm aims to find minimal subsets of the original variables, robust classifiers that model without significant loss in classification ability. The results of the classifiers modeled by the solutions found by this algorithm are compared in this work to those found by mono-objective formulations (such as PLS, APS and own implementations of a Simple Genetic Algorithm) and multi-objective formulations (such as the simple genetic algorithm multi -objective - MULTI-GA - and the NSGA II). As a case study, the algorithm was applied in the selection of spectral variables for classification by linear discriminant analysis (LDA) of samples of biodiesel / diesel. The results showed that the evolutionary formulations are solutions with a smaller number of variables (on average) and a better error rate (average) and compared to the PLS APS. The formulation of the AEMT proposal with the fitness functions: medium risk classification, number of selected variables and number of correlated variables in the model, found solutions with a lower average errors found by the NSGA II and the MULTI-GA, and also a smaller number of variables compared to the multi-GA. Regarding the sensitivity to noise the solution found by AEMT was less sensitive than other formulations compared, showing that the AEMT is more robust classifiers. Finally shows the separation regions of classes, based on the dispersion of samples, depending on the selected one of the solutions AEMT, it is noted that it is possible to determine variables of regions split from the selected variables. / Este trabalho propõe o uso do algoritmo evolutivo multi-objetivo em tabelas (AEMT) para a seleção de variáveis em problemas de classificação, por meio de análise discriminante linear. O algoritmo proposto busca encontrar subconjuntos mínimos, das variáveis originais, que modelem classificadores robustos, sem perda significativa na capacidade de classificação. Os resultados dos classificadores modelados pelas soluções encontradas por este algoritmo são comparadas, neste trabalho, às encontradas por formulações mono-objetivo (como o PLS, o APS e implementações próprias de um Algoritmo Genético Simples) e formulações multi-objetivos (como algoritmo genético multi-objetivo simples - MULTI-GA - e o NSGA II). Como estudo de caso, o algoritmo foi aplicado na seleção de variáveis espectrais, para a classificação por análise discriminante linear (LDA - Linear Discriminant Analysis), de amostras de biodiesel/diesel. Os resultados obtidos mostraram que as formulações evolutivas encontram soluções com um menor número de variáveis (em média) e uma melhor taxa de erros (média) se comparadas ao PLS e o APS. A formulação do AEMT proposta com as funções de aptidão: risco médio de classificação, número de variáveis selecionadas e quantidade de variáveis correlacionadas presentes no modelo, encontrou soluções com uma média de erros inferior as encontradas pelo NSGA II e pelo MULTI-GA, e também uma menor quantidade de variáveis se comparado ao MULTI-GA. Em relação à sensibilidade a ruídos a solução encontrada pelo AEMT se mostrou menos sensível que as outras formulações comparadas, mostrando assim que o AEMT encontra classificadores mais robustos. Por fim, são apresentadas as regiões de separação das classes, com base na dispersão das amostras, em função das variáveis selecionadas por uma das soluções do AEMT, nota-se que é possível determinar regiões de separação a partir das variáveis selecionadas. Seleção de variáveis Classificação multivariada Análise discriminante linear Variable selection Multivariate classification Linear discriminant analysis
62	Análise de crédito com segmentação da carteira, modelos de análise discriminante, regressão logística e classification and regression trees (CART) / Análise de crédito com segmentação da carteira, modelos de análise discriminante, regressão logística e classification and regression trees (CART) Santos, Ernani Possato dos 14 August 2015 (has links) Made available in DSpace on 2016-03-15T19:32:56Z (GMT). No. of bitstreams: 1 Ernani Possato dos Santosprot.pdf: 2286270 bytes, checksum: 96bb14c147c5baa96f3ae6ca868056d6 (MD5) Previous issue date: 2015-08-14 / The credit claims to be one of the most important tools to trigger and move the economic wheel. Once it is well used it will bring benefits on a large scale to society; although if it is used without any balance it might bring loss to the banks, companies, to governments and also to the population. In relation to this context it becomes fundamental to evaluate models of credit capable of anticipating processses of default with an adequate degree of accuracy so as to avoid or at least to reduce the risk of credit. This study also aims to evaluate three credit risk models, being two parametric models, discriminating analysis and logistic regression, and one non-parametric, decision tree, aiming to check the accuracy of them, before and after the segmentation of such sample through the criteria of costumer s size. This research relates to an applied study about Industry BASE. / O crédito se configura em uma das mais importantes ferramentas para alavancar negócios e girar a roda da economia. Se bem utilizado, trará benefícios em larga escala à sociedade, porém, se utilizado sem equilíbrio, poderá trazer prejuízos, também em larga escala, a bancos, a empresas, aos governos e aos cidadãos. Em função deste contexto, é precípuo avaliar modelos de crédito capazes de prever, com grau adequado de acurácia, processos de default, a fim de se evitar ou, pelo menos, reduzir o risco de crédito. Este estudo tem como finalidade avaliar três modelos de análise do risco de crédito, sendo dois modelos paramétricos, análise discriminante e regressão logística, e um não-paramétrico, árvore de decisão, em que se avaliou a acurácia destes modelos, antes e após a segmentação da amostra desta pesquisa por meio do critério de porte dos clientes. Esta pesquisa se refere a um estudo aplicado sobre a Indústria BASE. crédito risco de crédito análise discriminante regressão logística árvore de decisão segmentação credit credit risk discriminating analysis logistic regression decision tree segmentation
63	Regressão logística e análise discriminante na predição da recuperação de portfólios de créditos do tipo non-performing loans / Logistic regression and discriminant analysis in prediction of the recovery of non-performing loans credits portfolio Silva, Priscila Cristina 23 February 2017 (has links) Submitted by Nadir Basilio (nadirsb@uninove.br) on 2017-08-04T21:33:38Z No. of bitstreams: 1 Priscila Cristina Silva.pdf: 2177666 bytes, checksum: a8d3c5290664fa16f138371def86fcdd (MD5) / Made available in DSpace on 2017-08-04T21:33:38Z (GMT). No. of bitstreams: 1 Priscila Cristina Silva.pdf: 2177666 bytes, checksum: a8d3c5290664fa16f138371def86fcdd (MD5) Previous issue date: 2017-02-23 / Customers with credit agreement in arrears for more than 90 days are characterized as non-performing loans and cause concerns in credit companies because the lack of guarantee of discharge debtor's amount. To treat this type of customer are applied collection scoring models that have as main objective to predict those debtors who have propensity to honor their debts, that is, this model focuses on credit recovery. Models based on statistical prediction techniques can be applied to the recovery of these credits, such as logistic regression and discriminant analysis. Therefore, the aim of this paper was to apply logistic regression and discriminant analysis models in predicting the recovery of non-performing loans credit portfolios. The database used was provided by the company Serasa Experian and contains a sample of ten thousand customers with twenty independent variables and a variable binary response (dependent) indicating whether or not the defaulting customer paid their debt. The sample was divided into training, validation and test and the models cited in the objective were applied individually. Then, two new logistic regression models and discriminant analysis were implemented from the outputs of the individually implemented models. The both models applied individually as the new models had generally good performance form, highlighting the new model of discriminant analysis that got correct classification of percentage higher than the new logistic regression model. It was concluded, then, based on the results that the models are a good option for predicting the credit portfolio recovery. / Os clientes que possuem contrato de crédito em atraso há mais de 90 dias são caracterizados como non-performing loans e preocupam as instituições financeiras fornecedoras de crédito pela falta de garantia da quitação desse montante devedor. Para tratar este tipo de cliente são aplicados modelos de collection scoring que têm como principal objetivo predizer aqueles devedores que possuem propensão em quitar suas dívidas, ou seja, esse modelo busca a recuperação de crédito. Modelos baseados em técnicas estatísticas de predição podem ser aplicados na recuperação como a regressão logística e a análise discriminante. Deste modo, o objetivo deste trabalho foi aplicar os modelos de regressão logística e análise discriminante na predição da recuperação de portfólios de crédito do tipo non-performing loans. A base de dados utilizada foi cedida pela empresa Serasa Experian e contém uma amostra de dez mil indivíduos com vinte variáveis independentes e uma variável resposta (dependente) binária indicando se o cliente inadimplente pagou ou não sua dívida. A amostra foi dividida em treinamento, validação e teste e foram aplicados os modelos citados de forma individual. Em seguida, dois novos modelos de regressão logística e análise discriminante foram implementados a partir das saídas (outputs) dos modelos aplicados individualmente. Com base nos resultados, tanto os modelos aplicados individualmente quanto os novos modelos apresentaram bom desempenho, com destaque para o novo modelo de análise discriminante que apresentou um percentual de classificações corretas superior ao novo modelo de regressão logística. Concluiu-se, então, que os modelos são uma boa opção para predição da recuperação de portfólios de crédito do tipo non-performing loans. collection scoring non-performing loans regressão logística análise discriminante recuperação de portfólios de crédito collection scoring non-performing loans logistic regression discriminant analysis credit portfolio recovery ENGENHARIAS::ENGENHARIA DE PRODUCAO
64	Análise hiperespectral de folhas de Brachiaria brizantha cv. Marandú submetidas a doses crescentes de nitrogênio / Hyperspectral analysis of Brachiaria brizantha cv. Marandú leaves under contrasting nitrogen levels Takushi, Mitsuhiko Reinaldo Hashioka 14 February 2019 (has links) O sensoriamento remoto é uma estratégia que pode ajudar no monitoramento da qualidade das pastagens. Objetivou-se com esse estudo analisar a resposta espectral das folhas de Brachiaria brizantha cv. Marandú, adubada com doses crescentes de ureia, para diferenciar e predizer teores foliares de nitrogênio (TFN). Os tratamentos foram distribuídos em blocos ao acaso (DBC), composto por quatro blocos e quatro tratamentos, totalizando 16 parcelas. Foram utilizadas doses crescentes de adubação com ureia: 0, 25, 50, 75 kg de N/ha/corte. Ao longo do experimento foram realizadas 7 coletas, sendo coletadas 8 folhas por parcela. Essas folhas foram submetidas à análise hiperespectral e posterior análise química do teor de nitrogênio. Ao analisar a resposta espectral das folhas, observou-se diferenças estatísticas entre os tratamentos na região do visível em todas as coletas, com ênfase na região de 550 nm (verde). Por meio de análise discriminante linear (LDA) realizada para cada coleta, os centróides gerados por todos os tratamentos apresentaram diferenças significativas, com exceção do LD1 nas coletas 6 e 7 que não apresentou distinção entre os tratamentos de 50 e 75 kg de N/ha/corte, e LD2 na coleta 5 que não apresentou distinção entre os tratamentos de 0 e 50 kg de N/ha/corte. As equações de regressão multivariada obtidas pelo método de quadrados mínimos parciais (PLSR), geraram valores razoáveis a bons de R2 (0,53 a 0,83) na predição dos TFN, onde os comprimentos de onda com maior peso nessas regressões estão na região do red edge (715 a 720 nm). Por fim, ao testar a performance de alguns Índices de Vegetação da literatura, as coletas 4, 6 e 7 apresentaram bons coeficientes de determinação (R2) que variaram de 0,65 a 0,73; uma característica em comum nos índices que melhor estimaram os TFN é a presença de comprimentos de ondas que fazem parte da região do red edge. / Remote sensing is a set of techniques that can help to monitor pasture quality. The object of this study is to analyze the spectral response from Brachiaria brizantha cv. Marandú leaves, under contrasting nitrogen levels, to differentiate and predict leaf nitrogen content. The treatments were set in a Randomized Block Design, composed of four blocks and four treatments, totaling 16 plots. Increasing doses of urea fertilization were used: 0, 25, 50, 75 kg N/ha/mowing. During the experiment, 7 data collections were performed, and 8 leaves per plot were extracted for each data collection. These leaves were submitted to hyperspectral data extraction and subsequent chemical analysis to quantify the nitrogen content. When analyzing the spectral pattern of the leaves, statistical differences among samples with different nitrogen levels were noticeable in the visible range of the spectrum in all the collections, with emphasis on the 550 nm region (green). Through linear discriminant analysis (LDA), performed for each collection, the generated centroids by the samples of each nitrogen level presented significant differences, except for LD1 in collections 6 and 7, which did not present a distinction between treatments of 50 and 75 kg of N/ha/mowing, and LD2 in collection 5 that did not distinguish between treatments of 0 and 50 kg of N/ha/mowing. The partial least square regression (PLSR) method generated reasonable to good values of R2 (0.53 to 0.83) for the prediction of leaf nitrogen content, where the wavelengths with the highest coefficient in these models are in the red edge region of the spectrum (715 to 720 nm). Finally, when testing the performance of some Vegetation Indexes from literature, collections 4, 6 and 7 presented good determination coefficients (R2) ranging from 0.65 to 0.73; a common feature in the indexes that best estimate the nitrogen content is the presence of wavelengths from the red edge region of the spectrum. Análise discriminante linear Índice de vegetação Leaf nitrogen content Linear discriminant analysis Nitrogen prediction Partial least square regression Predição de nitrogênio Teor foliar de nitrogênio Vegetation index
65	Taxonomia integrativa de espécies, com fêmeas morfologicamente similares, do gênero Psychodopygus (Diptera, Psychodidae), Série Chagasi, registradas no Brasil / Integrative taxonomy of morphologically indistinguishable species of the genus Psychodopygus (Diptera, Psychodidae), Chagasi series, registered in Brazil Godoy, Rodrigo Espíndola 25 June 2018 (has links) Introdução. A identificação dos flebotomíneos baseia-se principalmente na morfologia do adulto, o que pode ser problemático quando as espécies são morfologicamente muito semelhantes. Psychodopygus é um gênero de flebotomíneos de grande interesse em saúde pública devido ao papel de algumas espécies na veiculação de Leishmania spp. no Brasil. No entanto, este gênero inclui espécies com fêmeas morfologicamente indistinguíveis que pertencem à Série Chagasi, sendo elas: P. chagasi, P. complexus, P. squamiventris maripaensis, P. squamiventris squamiventris e P. wellcomei. Objetivos. Investigar a possibilidade de distinguir essas espécies por meio de análises morfométrica e molecular, além de produzir uma distribuição geográfica atualizada para o grupo analisando a probabilidade de ocorrência das espécies através da análise de modelagem de nicho ecológico. Material e Métodos. Foi realizada a análise discriminante na morfometria geométrica (cabeça e asa) e linear, morfologia (usando microscopia óptica e eletrônica de varredura) e a análise do citocromo c oxidase subunidade 1 (COI), avaliando-se um total de 752 espécimes (460 fêmeas e 292 machos) dos seguintes estados Amapá, Amazonas, Ceará, Mato Grosso, Pará, Rondônia, Roraima e Tocantins. Mapas de distribuição foram produzidos através de dados obtidos do material analisado e de revisão bibliográfica. Resultados. A análise discriminante usando caracteres morfométricos lineares mostrou-se capaz de diferenciar todas as espécies, exceto P. complexus, que apresentou 2,2% de erro de identificação. A morfometria geométrica das asas foi incapaz de separar completamente as espécies através da conformação, mas o tamanho do centróide dos espécimes fêmeas falhou apenas em distinguir P. complexus de P. s. maripaensis. Por outro lado, a morfometria geométrica das cabeças foi capaz de distinguir todas as espécies com grande eficiência ao usar tanto a forma como o tamanho do centróide. A análise morfológica revelou que a coloração torácica, principalmente do pronoto e do pós-noto, pode ser usada para separar as cinco espécies em três grupos: P. chagasi, P. wellcomei / P. complexus e P. s. mariapaensis / P. s. squamiventris. Os resultados da análise de DNA Barcoding, mostraram um agrupamento semelhante ao observado na morfologia; embora os espécimes de P. wellcomei do estado do Ceará mostrem uma grande distância genética da população do estado do Pará, evidenciando que essa espécie possa representar um complexo. Quanto à microscopia eletrônica de varredura, foram avaliadas detalhadamente as estruturas das antenas, tórax e genitália masculina. Salientamos que no anepímero (tórax) foi observada uma escama tipo \"raquete\" modificada apenas em Psychodopygus s. squamiventris. A revisão da distribuição geográfica mostrou que as espécies possuem uma distribuição cis-andina, ocorrendo principalmente no bioma Amazônico. A nítida separação de algumas espécies pelo rio Amazonas, sugere que o surgimento do grupo ocorreu no período que se estende da orogênese dos Andes até a formação deste rio. Conclusões. O estudo possibilitou diferenciar completamente as fêmeas das cinco espécies da Série Chagasi utilizando o conjunto de dados obtidos por morfometria linear e geométrica e análises morfológicas e também apresentar novos caracteres morfológicos e padrões distribucionais que facilitarão a identificação de machos e fêmeas dessas espécies. / Introduction. The identification of sand flies is mainly based on adult morphology, which can be problematic when species are morphologically very similar. Psychodopygus is one of the sand fly genera of great interest in public health, due to the role of some species in the transmission of Leishmania spp. in Brazil. However, this genus includes species with morphologically indistinguishable females that belong to the Chagasi series, which includes: P. chagasi, P. complexus, P. squamiventris maripaensis, P. squamiventris squamiventris and P. wellcomei. Objectives. To investigate the possibility of distinguishing among these species by means of morphometric and molecular analyses in addition to producing an updated geographical distribution for the group, analyzing the probability of the occurrence of the species by the analysis of ecological niche modeling. Material and methods. The analyses of the cytochrome c oxidase subunit 1 (COI), geometrical (head and wing) and of linear morphometry and morphology (using optical microscopy and scanning electron microscopy) were carried out using a total of 752 specimens (460 females and 292 males) from the following states: Amapá, Amazonas, Ceará, Mato Grosso, Pará, Rondônia, Roraima e Tocantins. Distribution maps were produced on the basis of data obtained from the material analyzed and a bibliographical review. Results. The discriminant analysis using linear morphometric characters was able to differentiate among all the species, except for P. complexus, which presented a 2.2% error of identification. The geometric morphometry of the wings was unable to completely separate the species by means of the shape analyses, but the centroid size of the female specimens only failed to distinguish P. complexus from P. s. maripaensis. Otherwise, the geometric morphometry of the heads was sufficient to distinguish all the species with great efficiency, when using both the head-shape and the centroid size. The morphological analysis revealed that the thoracic coloration, mainly of the pronotum and the post-notum, can be used to separate the five species into three groups: P. chagasi, P. wellcomei / P. complexus, P. s. mariapaensis / P. s. squamiventris. The results of the Barcoding DNA analyses showed a cluster similar to that observed in the morphology; however, P. wellcomei specimens from the Ceará population showed a great genetic distance from the population of Pará, evidencing that this species may represent a complex. As for the scanning electron microscopy, the structures of the antennae, thorax and male genitalia were evaluated in detail. In the anepimerum (thorax) a modified \"racket\"-type scale was observed only in Psychodopygus s. squamiventris. The review of the geographical distribution showed that the species have a cis-Andean distribution, occurring mainly in the Amazonian biome. The separation of some species from the others by the Amazon river suggests that the appearance of the Chagasi series occurred in the period from the orogenesis of the Andes to the formation of this river. Conclusions. The results clearly differentiate the females of the five species of the Chagasi series using the data set of linear and geometric morphometry and morphological analyses, providing new morphological and distributional data that will facilitate the identification of the males and females of this group. Análise Discriminante Chagasi Series Distribution Citocromo C Oxidase Subunidade 1 Cytochrome C Oxidase Subunit 1 Discriminant Analyses Distribuição da Série Chagasi Ecological Niche Modelling Flebotomíneos Linear and Geometric Morphometry Modelagem de Nicho Ecológico Morfometria Linear e Geométrica Padrão de Pigmentação Pigmentation Pattern Sand Fly
66	Expressão de grupos de genes como marcadores moleculares preditivos de resposta à quimioterapia neoadjuvante com doxorrubicina e ciclofosfamida em pacientes com câncer de mama / Expression of gene groups as predictive molecular markers response to neoadjuvant chemotherapy with doxorubicin and cyclophosphamide in breast cancer patients Barros Filho, Mateus de Camargo 16 June 2009 (has links) Pacientes com câncer de mama localmente avançado são submetidas à quimioterapia neoadjuvante na tentativa de reduzir a dimensão do tumor e aumentar a possibilidade da realização de uma cirurgia conservadora. Nosso grupo identificou previamente através da tecnologia de cDNA microarray, trios de genes, incluindo BZRP, CLPTM1, MTSS1, NOTCH1, NUP210, PRSS11, RPL37A, SMYD2 e XLHSRF-1, cuja expressão era capaz de predizer a resposta à quimioterapia neoadjuvante com doxorrubicina e ciclofosfamida em pacientes com câncer de mama. No presente estudo, avaliamos se a expressão destes genes é reprodutível na identificação de pacientes responsivas e não-responsivas através de RT-PCR em tempo real, que representa uma técnica mais acessível. Avaliamos inicialmente amostras de 28 pacientes anteriormente estudadas (grupo de validação técnica = 23 responsivas e cinco não-responsivas) e a seguir um grupo de 14 novas pacientes (grupo de validação biológica = 11 responsivas e três não-responsivas). Dentre os trios de genes inicialmente identificados, a expressão de RPL37A + XLHSRF-1 + NOTCH1 e RPL37A + XLHSRF-1 + NUP210 classificou corretamente 86% (24/28) das amostras do grupo de validação técnica e 71% (10/14) das amostras do grupo de validação biológica, através de análise de classificação discriminante. Desse modo, esses trios não demonstraram a mesma precisão em comparação com resultados de cDNA microarray. Uma nova análise combinatória foi realizada na procura do melhor modelo preditivo utilizando valores de expressão obtidos por RT-PCR em tempo real. Identificamos então um novo trio, composto pelos genes RPL37A, SMYD2 e MTSS1, cuja expressão classificou corretamente 93% das amostras do grupo de validação técnica (22/23 responsivas e 4/5 não-responsivas) e 79% do grupo de validação biológica (8/11 responsivas e 3/3 não-responsivas). Portanto, o teste apresentou 88% de sensibilidade e especificidade em detectar pacientes responsivas para o total de amostras analisadas. Ao verificarmos o poder de classificação do mesmo grupo de genes, utilizando os valores de expressão pela análise de cDNA microarray, observamos um resultado semelhante (91% de sensibilidade e especificidade em reconhecer as amostras responsivas). Dessa forma, demonstramos que o perfil de expressão gênica obtido com cDNA microarray é reprodutível através do uso de RT-PCR em tempo real. Um estudo integrando um maior número de pacientes e uma plataforma de cDNA microarray mais abrangente pode auxiliar na identificação de um modelo preditivo baseado em grupos de genes mais acurado para antever a resposta ao tratamento com quimioterapia baseada em doxorrubicina. / Patients with locally advanced breast cancer are submitted to primary chemotherapy as an attempt to reduce tumor dimension and increase breast conserving surgery rates. Our group has previously identified through cDNA microarray technology gene trios, including BZRP, CLPTM1, MTSS1, NOTCH1, NUP210, PRSS11, RPL37A, SMYD2 and XLHSRF-1, whose expression was capable of predicting response to neoadjuvant chemotherapy with doxorubicin and cyclophosphamide in breast cancer patients. In the current study, it was evaluated whether expression of these genes is reproducible in the identification of responsive and non-responsive patients by real time RT-PCR, which represents a more accessible technique. We initially evaluated samples from 28 patients earlier studied (technical validation group = 23 responsive and 5 non-responsive) and subsequent to a new 14 patients set (biological validation group = 11 responsive and three non-responsive). Among the initially identified gene trios, RPL37A + XLHSRF-1 + NOTCH1 and RPL37A + XLHSRF-1 + NUP210 expression correctly classify 86% (24/28) samples from the technical validation group and 71% (10/14) samples from the biological validation group, through discriminant classification analysis. Therefore, these trios didnt demonstrate the same precision as compared with cDNA microarray results. A new combinatorial analysis was also performed in search of the best predictive model using real time RT-PCR expression values. A new trio was identified, represented by RPL37A, SMYD2 and MTSS1 genes, whose expression correctly classified 93% samples from technical validation group (22/23 responsive and 4/5 non-responsive) and 79% samples from biological validation group (8/11 responsive samples and 3/3 non-responsive samples). Therefore, the test presented 88% sensibility and specificity in identifying responsive patients for all samples analyzed. By means of verifying the classification strength of the same gene group, using cDNA microarray expression values, we observed a similar result (91% sensibility and specificity in recognizing responsive samples). Thus, we demonstrated that gene expression profile obtained by cDNA microarray is reproducible through real time RT-PCR. A study integrating a larger number of patients and a more comprehensive cDNA microarray platform may help the identification of a more accurate predictive model based on gene groups to foresee response to doxorubicin-based chemotherapy treatment. Análise discriminante Breast neoplasms Discriminant analysis Doxorrubicina Doxorubicin Drug resistance Expressão gênica Gene expression Neoadjuvant therapy Neoplasias da mama Resistência a medicamentos Terapia neoadjuvante
67	Classificação de lesões em mamografias por análise de componentes independentes, análise discriminante linear e máquina de vetor de suporte / Classification of injuries in the Mamogram by Components of Independent Review, Analysis Discriminant Linear and Vector Machine, Support DUARTE, Daniel Duarte 25 February 2008 (has links) Submitted by Rosivalda Pereira (mrs.pereira@ufma.br) on 2017-08-14T18:15:08Z No. of bitstreams: 1 DanielCosta.pdf: 1087754 bytes, checksum: ada5f863f42efd8298fff788c37bded3 (MD5) / Made available in DSpace on 2017-08-14T18:15:08Z (GMT). No. of bitstreams: 1 DanielCosta.pdf: 1087754 bytes, checksum: ada5f863f42efd8298fff788c37bded3 (MD5) Previous issue date: 2008-02-25 / Female breast cancer is the major cause of death in western countries. Efforts in Computer Vision have been made in order to add improve the diagnostic accuracy by radiologists. In this work, we present a methodology that uses independent component analysis (ICA) along with support vector machine (SVM) and linear discriminant analysis (LDA) to distinguish between mass or non-mass and benign or malign tissues from mammograms. As a result, it was found that: LDA reaches 90,11% of accuracy to discriminante between mass or non-mass and 95,38% to discriminate between benign or malignant tissues in DDSM database and in mini-MIAS database we obtained 85% to discriminate between mass or non-mass and 92% of accuracy to discriminate between benign or malignant tissues; SVM reaches 99,55% of accuracy to discriminate between mass or non-mass and the same percentage to discriminate between benign or malignat tissues in DDSM database whereas, and in MIAS database it was obtained 98% to discriminate between mass or non-mass and 100% to discriminate between benign or malignant tissues. / Câncer de mama feminino é o câncer que mais causa morte nos países ocidentais. Esforços em processamento de imagens foram feitos para melhorar a precisão dos diagnósticos por radiologistas. Neste trabalho, nós apresentamos uma metodologia que usa análise de componentes independentes (ICA) junto com análise discriminante linear (LDA) e máquina de vetor de suporte (SVM) para distinguir as imagens entre nódulos ou não-nódulos e os tecidos em benignos ou malignos. Como resultado, obteve-se com LDA 90,11% de acurácia na discriminação entre nódulo ou não-nódulo e 95,38% na discriminação de tecidos benignos ou malignos na base de dados DDSM. Na base de dados mini- MIAS, obteve-se 85% e 92% na discriminação entre nódulos ou não-nódulos e tecidos benignos ou malignos respectivamente. Com SVM, alcançou-se uma taxa de até 99,55% na discriminação de nódulos ou não-nódulos e a mesma porcentagem na discriminação entre tecidos benignos ou malignos na base de dados DDSM enquanto que na base de dados mini-MIAS, obteve-se 98% e até 100% na discriminação de nódulos ou não-nódulos e tecidos benignos ou malignos, respectivamente. Máquinas de vetor de suporte Mamografias Diagnóstico auxiliado por computador Análise discriminante linear Análise de componentes independentes Análise de componentes principais Principal component analysis Independent component analysis Linear discriminant analysis Computer aided diagnosis Mammogram Support vector machine Engenharia Biomédica
68	FITOSSOCIOLOGIA DE COMUNIDADES ARBÓREAS EM SAVANAS DO BRASIL CENTRAL / PHYTOSOCIOLOGY OF THE ARBOREAL COMMUNITIES IN SAVANNAS FROM CENTRAL BRAZIL Finger, Zenesio 11 February 2008 (has links) These studies were undertaken in the state of Mato Grosso, Brazil, in the area of Chapada dos Guimarães and Baixada Cuiabana, which are constituted of a high plateau and a big low plain, respectively, being limited to two areas covered by vegetation with a savannic physiognomy, type Cerrado stricto sensu. Considering the hypothesis that the knowledge both of the biotic and abiotic components of the scenery and their interrelations allows a better understanding of the environmental dynamic, this dissertation had as objectives to characterize the savanna communities' arboreal stratum floristically and phytosociologically, concerning their richness, phytosociological structures and diversity; to identify floristic groupings through varied statistical techniques, representing them by dendrograms; to select species which are really able to make discrimination among the groups; to obtain some discriminant functions to allow classification and reclassification of specimen units, in the groups, to which they have more probability of belonging; to analyze and to characterize the obtained groups; to determine the patterns of distribution of the species of trees by the analysis of correlations of environmental variables with the distribution of the species and plots in the communities being studied; to determine the similarity indexes among the floristic groups and to compare themselves and, finally, to test methods of assorted statistical analysis for application in studies of vegetable communities. Data of vegetation were obtained by the method of multiple plots, with size of 20 X 20 m (400 m2), randomly disposed in each one of the areas being studied. 82 plots were randomly installed. In each one of the 82 patternless units, the circumferences of all the arboreal plants with perimeter to 0,30 m from the level of the soil (PAB) larger or equal to 15,7 cm (DAB 5,0 cm) and the total height of the plants were obtained. In the core of each plot, for determination of the chemical and textural variables of the soil, simple samples of superficial soil were collected (0-30 cm depth). Species were organized according to the families recognized by Angiosperm Phylogeny Group II. The sampling sufficiency was obtained based on the analysis of the curve of the collector. Phytosociological parameters were calculated for each formed group, with the purpose of characterizing them phytosociologically. Having as variables the Index of Covering Value (IVC) of the species, the classification was accomplished by the TWINSPAN (Two-Way Indicator Species Analysis) method, regarding the plots, with the objective of classifying them in floristic groups. The diversity was determined by the Shannon-Wienner and the Simpson Index. The discriminant analysis was undertaken through the STEPWISE method. Considering the matrix of presence and absence of the species in the groups, the floristic similarity was calculated among the groups by the Sorensen Index. To evaluate the hypothesis of the correlation existence between the distribution of the species and environmental variables, the canonical correspondence analysis was accomplished (CCA). The test of permutation of Monte Carlo was applied to verify the importance of the correlations between the emerging distribution patterns of the species and the environmental variables in final CCA. To determine the responsible environmental factors for the distribution of the species, the analysis of regression logistics was used. The Forward Stepwise (Wald) method was used for the sequential selection of the variables. By the species-area curve, it could be observed that, from the plot 75 (30.000 m2 out of the area used as sample), the curve is stabilized with the occurrence of 114 species in the 82 studied plots, distributed between 81 genera and 36 botanical families. The families better represented were Fabaceae, Myrtaceae and Vochysiaceae. The alpha diversity from the arboreal vegetation found in the area being studied was of 4,033 considering the Shannon-Wiener Index and of 0,975 considering the Simpson Index, representing a great floristic diversity. The divisions generated by the classification through the TWINSPAN method separated the plots into four groups: Group 1 Myrcia albo-tomentosa Camb. Association; Group 2 Pterodon emarginatus Vog. Association ; Group 3 Curatella americana L. Association; and Group 4 Qualea multiflora Mart. Association. In the discriminant analysis, 100% of the plots were classified correctly in the Groups 1, 2, 3 and 4, indicating precision of the grouping technique used. The largest similarity could be observed in the Groups 2 and 3, whose Sorensen Index was close to 1 (0,7310). In the four floristic groups, Fabaceae, Myrtaceae, Vochysiaceae, Annonaceae and Apocynaceae families were the most representative floristically in terms of genera and species. In CCA the correlations of the environmental variables with the first ordination axis were, in decreasing order of absolute values, saturation for aluminum, altitude s.n.m., saturation of bases, saturation for magnesium, relationship magnesium/potassium, saturation for hydrogen, potassium tenor, pH(H2O) and relationship calcium/potassium. The saturation for calcium variable presented very weak correlation with the first axis, however, with the second ordination axis, it was very strong. In the diagram of ordination of the plots, the four floristic groups were discriminated in sections different from the diagram, reinforcing their visualization as much defined habitats and with composition of particular species, resulting in clear separation of the four soil classes previously identified. The logistic regression analysis was useful to prove the results obtained from CCA, concerning the environmental variables which determined the distribution of the indicative species of the floristic groups in the studied communities. / Estes estudos foram desenvolvidos no estado de Mato Grosso, Brasil, na região de Chapada dos Guimarães e Baixada Cuiabana, que compreendem, respectivamente, um alto platô e uma grande planície baixa, restringindo-se a duas áreas cobertas por vegetação com fisionomia savânica do tipo Cerrado stricto sensu. Partindo-se da hipótese de que o conhecimento tanto dos componentes bióticos e abióticos da paisagem como de suas inter-relações permite um melhor entendimento da dinâmica ambiental, o presente estudo teve como objetivos caracterizar o estrato arbóreo das comunidades de savana estudadas, florística e fitossociologicamente, quanto a riqueza, estrutura fitossociológica e diversidade; identificar agrupamentos florísticos, por meio de técnicas estatísticas multivariadas, representando-os por meio de dendrograma; selecionar espécies com poder real de discriminação entre os grupos; obter funções discriminantes que permitam classificar e reclassificar unidades amostrais, nos grupos, para os quais têm maior probabilidade de pertencerem; analisar e caracterizar os grupos obtidos; determinar os padrões de distribuição das espécies de árvores, por meio da análise de correlações de variáveis ambientais com a distribuição das espécies e parcelas nas comunidades estudadas; determinar os índices de similaridade entre os grupos florísticos obtidos e compará-los; e testar métodos de análise estatística multivariada para aplicação em estudos de comunidades vegetais. Os dados da vegetação foram obtidos empregando-se o método de parcelas múltiplas, com tamanho de 20 X 20 m (400 m2), dispostas aleatoriamente em cada uma das áreas de estudos. Foram instaladas aleatoriamente 82 parcelas. Em cada uma das 82 unidades amostrais, foram obtidas as circunferências de todos as plantas arbóreas com perímetro a 0,30 m do nível do solo (PAB) maior ou igual a 15,7 cm (DAB  5,0 cm), e a altura total das plantas. No centro de cada parcela, para determinação das variáveis químicas e texturais do solo, coletaram-se amostras simples de solo superficial (0-30 cm de profundidade). As espécies foram organizadas de acordo com as famílias reconhecidas pelo Angiosperm Phylogeny Group II. A suficiência de amostragem foi obtida com base na análise da curva do coletor. Os parâmetros fitossociológicos foram calculados para cada grupo formado, com a finalidade de caracterizá-los fitossociológicamente. Tendo como variáveis o Índice de Valor de Cobertura (IVC) das espécies, foi realizada a classificação, por meio do método TWINSPAN (Two-Way Indicator Species Analisys), com relação às parcelas, com o objetivo de classificá-las em grupos florísticos. A diversidade foi determinada por meio do Índice de Shannon-Wienner e de Simpson. Realizou-se a análise discriminante por meio do método STEPWISE. A partir da matriz de presença e ausência das espécies nos grupos, foi calculada a similaridade florística entre os grupos, por meio do Índice de Sorensen. Para avaliar a hipótese da existência de correlação entre a distribuição das espécies e variáveis ambientais, foi realizada a análise de correspondência canônica (CCA). Foi aplicado o teste de permutação de Monte Carlo para verificar a significância das correlações entre os padrões de distribuição emergentes das espécies e as variáveis ambientais na CCA final. Para determinar os fatores ambientais responsáveis pela distribuição das espécies, foi utilizada a análise de regressão logística. À seleção seqüencial das variáveis foi utilizado o método Forward Stepwise (Wald). Pela curva espécie-área, pode-se observar que, a partir da parcela 75 (30.000 m2 da área amostrada), a curva estabiliza-se com a ocorrência de 114 espécies nas 82 parcelas estudadas, distribuídas entre 81 gêneros e 36 famílias botânicas. As famílias mais bem representadas foram Fabaceae, Myrtaceae e Vochysiaceae. A diversidade alfa da vegetação arbórea encontrada na área estudada foi de 4,033 pelo índice de Shannon-Wiener e de 0,975 pelo de Simpson, indicando alta diversidade florística. As divisões geradas pela classificação por meio do método TWINSPAN separaram as parcelas em quatro grupos. Grupo 1 - Associação Myrcia albo-tomentosa Camb.; Grupo 2 - Associação Pterodon emarginatus Vog.; Grupo 3 - Associação Curatella americana L.; e Grupo 4 - Associação Qualea multiflora Mart.. Na análise discriminante, observou-se que 100% das parcelas foram classificadas corretamente nos grupos 1, 2, 3 e 4, indicando precisão da técnica de agrupamento utilizada. A maior similaridade se deu entre os grupos 2 e 3, cujo índice de Sorensen foi próximo de 1 (0,7310). Nos quatro grupos florísticos obtidos, as famílias Fabaceae, Myrtaceae, Vochysiaceae, Annonaceae e Apocynaceae foram as mais representativas florísticamente em número de gêneros e espécies. Na CCA, as correlações das variáveis ambientais com o primeiro eixo de ordenação foram, em ordem decrescente de valores absolutos, saturação por alumínio, altitude s.n.m., saturação de bases, saturação por magnésio, relação magnésio/potássio, saturação por hidrogênio, teor de potássio, pH(H2O) e relação cálcio/potássio. A variável saturação por cálcio apresentou correlação muito fraca com o primeiro eixo, entretanto, com o segundo eixo de ordenação, foi muito forte. No diagrama de ordenação das parcelas, os quatro grupos florísticos foram discriminados em setores diferentes do diagrama, reforçando a visualização dos mesmos como hábitats bem definidos e com composição de espécies particular, resultando em clara separação das quatro classes de solo identificadas previamente. A análise de regressão logística comprovou os resultados obtidos da CCA, em relação às variáveis ambientais que determinaram a distribuição das espécies indicadoras dos grupos florísticos nas comunidades estudadas. Cerrado Fitossociologia Método TWINSPAN Análise discriminante Diagramas de ordenação Análise de regressão logística Cerrado Phytosociology TWINSPAN method Discriminant analysis Canonical correspondence analysis (CCA) Ordination diagrams Logistic regression analysis
69	Estudo de expansões assintóticas, avaliação numérica de momentos das distribuições beta generalizadas, aplicações em modelos de regressão e análise discriminante BRITO, Rejane dos Santos 20 March 2009 (has links) Submitted by (ana.araujo@ufrpe.br) on 2016-08-10T13:00:13Z No. of bitstreams: 1 Rejane dos Santos Brito.pdf: 1642561 bytes, checksum: 084711a62c79f703133a032643c8d19f (MD5) / Made available in DSpace on 2016-08-10T13:00:13Z (GMT). No. of bitstreams: 1 Rejane dos Santos Brito.pdf: 1642561 bytes, checksum: 084711a62c79f703133a032643c8d19f (MD5) Previous issue date: 2009-03-20 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / We make a review about Edgeworth, Lugannani-Rice, Daniels and Cordeiro-Ferrari asymptotic approximations. We use the Cordeiro-Ferrari asymptotic approximation to approximate the gamma distribution G(m;f ) by the exponential distribution with mean a. In a further application, based on the statistical proposed by them, we approximate the t-Student distribution with n degrees of freedom using the normal standard distribution. Moreover, we realize a study about the functionalities of the beta generalized distributions. We obtain moments of the generalized beta distributions using the Lauricella and Kampé de Fériet generalized functions. Beyond this, we propose a new generalized beta distribution called beta power. Finally, we realize some applications in regression models by logistic regression and further more using discriminant analysis. / Inicialmente, realiza-se uma revisão literária sobre as expansões assintóticas de Daniels, Edgeworth, Lugannani-Rice e Cordeiro-Ferrari. Mediante uso da expansão de Cordeiro- Ferrari, torna-se possível realizar um estudo correspondente a aproximação da distribuição gama G(m;f ) em função da distribuição exponencial com média a. E, ainda, numa outra aplicação, faz-se a aproximação da distribuição t-Student com n graus de liberdade em função da distribuição normal padrão. Além disso, apresenta-se um estudo correspondente às funcionalidades das distribuições beta generalizadas e, ainda, a obtenção dos momentos das distribuições beta generalizadas mediante as funções de Lauricella e generalizada de Kampé de Fériet. Propõe-se, ainda, a generalização da distribuição power como sendo uma nova distribuição beta generalizada. Por fim, realizam-se algumas aplicações em modelos de regressão, mediante regressão logística, bem como em modelos de análise discriminante. Distribuições beta generalizadas Aproximação ponto de sela Distribuição beta power Regressão logística Análise discriminante Generalized Beta Distribution Saddle Point Approximation Beta Power Distribution Logistic Regression Discriminant Analysis
70	Análise de insolvência empresarial : uma abordagem financeira fundamentalista com aplicação do método estatístico multivariado e da técnica discriminante / ANÁLISE DE INSOLVÊNCIA EMPRESARIAL: UMA ABORDAGEM FINANCEIRA COM APLICAÇÃO DO MÉTODO FUNDAMENTALISTA MULTIVARIADO ESTATÍSTICO DA TÉCNICA E DISCRIMINANTE Mateus, Regis Santos 24 May 2010 (has links) The insolvency business represents an excellent subject for a wide and diverse range of economic agents and may be the result of complex internal and external factors to the company. Considering these factors, it is assumed the assumption that fundamental analysis fulfills an important role in addressing these issues, whether in character microeconomic or macroeconomic context. In order to investigate the influence and behavior of these factors, identified from the macroeconomic, sectoral, and the fundamentals of companies, we use the statistical method and technique of multivariate discriminant analysis. The main restrictive assumption concerns the relevance of including variables other than those normally used in forecasting models of corporate insolvency. The investigation process is delimited as follows: in spatial terms of specificity and covers large companies with a designation of SA (corporation) a publicly traded operating in Brazil. The time frame considered the year 2008 and covers the macroeconomic and microeconomic variables. And as research design considers the observational study in conjunction with the application of multivariate statistical method and by the statistical technique of discriminant analysis. Given the various studies related to prediction of bankruptcy that are very similar to this research, probably the significance of financial ratios representing the predictor variables normally used in the discriminant model variables and distinctly included in this analysis is relatively similar, where the statistical significance of each of these variables is coherent and consistent in the analysis of insolvency of Brazilian companies. / A insolvência empresarial representa um tema relevante para um conjunto amplo e diversificado de agentes econômicos e pode ser resultado de um complexo de fatores internos e externos à empresa. Tendo em vista estes fatores, assume-se o pressuposto de que a análise fundamentalista cumpre papel relevante ao tratar destes aspectos, sejam eles em caráter microeconômico ou num contexto macroeconômico. No intuito de investigar a influência e o comportamento destes fatores, identificados a partir das variáveis macroeconômicas, setoriais e dos fundamentos das empresas, utiliza-se o método estatístico multivariado e a técnica de análise discriminante. A principal hipótese restritiva se refere à relevância da inclusão de variáveis distintas das normalmente utilizadas em modelos de previsão de insolvência empresarial. O processo de investigação delimita-se da seguinte forma: em termos espaciais e de especificidade, abrange empresas de grande porte com denominação de S.A. (Sociedade Anônima) de capital aberto atuantes no Brasil. A delimitação temporal considera o ano de 2008 e engloba as variáveis macroeconômicas e microeconômicas. E como delineamento de pesquisa considera-se o estudo observacional em conjunto com a aplicação do método estatístico multivariado e mediante a técnica estatística de análise discriminante. Diante dos vários estudos ligados à previsão de insolvência que em muito se assemelham a esta pesquisa, provavelmente a relevância dos índices financeiros que representam as variáveis preditoras normalmente utilizadas no modelo discriminante e as variáveis distintamente incluídas nesta análise seja relativamente semelhante, onde a significância estatística de cada uma destas variáveis seja coerente e consistente no processo de análise de insolvência de empresas brasileiras. Insolvência Variável macroeconômica Setorial Microeconômica Análise fundamentalista Análise multivariada Análise discriminante Insolvency Variable macroeconomic Sectoral Microeconomic Fundamental analysis Multivariate analysis Discriminant analysis

Search results