Global ETD Search

31	Classificação automatica e analise de dados por redes neurais auto-organizaveis Costa, Jose Alfredo Ferreira 16 December 1999 (has links) Orientador: Marcio Luiz de Andrade Netto / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-25T20:20:48Z (GMT). No. of bitstreams: 1 Costa_JoseAlfredoFerreira_D.pdf: 26064111 bytes, checksum: 45919f0230fa64ef69e0d07ea0363d6c (MD5) Previous issue date: 1999 / Resumo: Esta tese apresenta extensões ao modelo básico de rede neural auto-organizável, a rede de Kohonen (SOM), viabilizando seu uso como ferramenta de análise de agrupamentos. O SOM define, via treinamento não supervisionado, um mapeamento de um espaço p-dimensional contínuo para um conjunto discreto de vetores referência, ou neurônios, geralmente dispostos na forma de uma matriz. Cada neurônio tem a mesma dimensão do espaço de entrada, p, e o objetivo principal do treinamento é reduzir imensionalidade ao mesmo tempo em que tenta-se preservar, ao máximo, a topologia do espaço de entrada. O algoritmo SL-SOM (Self-Labeling SOM) foi desenvolvido com o objetivo de particionar e rotular automaticamente um SOM treinado, baseando-se no gradiente dos p componentes, cuja informação é apresentada na Umatrix. Usa-se algoritmos de processamento de imagem para segmentar a U-matrix e o resultado são regiões conectadas de neurônios codificados sob o mesmo rótulo. Tais regiões definem no espaço de atributos geometrias complexas e não paramétricas, possibilitando também a classificação de novas amostras. A extensão do SL-SOM tem por objetivo descobrir e representar subclasses. O TS-SLSOM (Tree-Structured Self-Labeling SOM) gera sub-redes para cada região rotulada de neurônios na forma de uma árvore dinâmica. Não se especifica a priori o número de sub-redes para uma dada rede, e os parâmetros de cada sub-rede são funções dos parâmetros da rede 'pai', e do subconjunto de dados que será usado para treiná-Ia. Sub-redes que não apresentam subpartições são excluídas, e o conjunto de dados referente àquela sub-rede fica representado apenas pela região rotulada de neurônios na rede 'pai'. Arranjos de neurônios do SOM de dimensões elevadas não são usados na prática por que o objetivo principal do SOM na atualidade é a visualização dos dados. Com a automação da descoberta de conhecimento e relacionamentos entre dados descritas pelo SL-SOM e TSSL- SOM, pode-se usar um arranjo dimensão igualou menor que a dimensão do espaço de entrada, e fazer com que apenas os resultados finais sejam mostrados, na forma de subgrupos de dados, o relacionamento entre os subgrupos, etc. A principal motivação para o uso do SOM p-dimensional é a manutenção da topologia que geralmente é perdida quando diminuímos a dimensionalidade via mapeamento de um espaço p-dimensional para um espaço de menor dimensão. Define-se o U-array como uma extensão da U-matrix e propõe-se métodos de análise baseados nos métodos de segmentação utilizados em redes de dimensão I ou 2. Comparações de resultados para vários conjuntos de dados são efetuados em relação ao SOM convencional, ou alguns de seus variantes, e por métodos estatísticos e heurísticos para descoberta de agrupamentos, sendo o principal deles, o método de misturas de densidades de probabilidades usando o algoritmo Expectation Maximization. As aplicações dos resultados desta tese são inúmeras. Pode-se aplicar técnicas de análise de dados em qualquer área do conhecimento humano que possa coletar informações. Com a disponibilidade crescente de instrumentação eletrônica capacitando aplicações diversas adquirirem dados e armazená-los em computadores, ou mesmo a imensa massa de dados e informações não estruturadas na internet, ferramentas como as descritas nesta tese, com certeza, farão parte de softwares em um futuro não distante / Abstract: This thesis presents extensions to the most used self-organizing neural network model, the Kohonen network (SOM), enabling its usage as an effective tool for cluster analysis. The SOM network defines, via unsupervised learning, a mapping of a continuos p-dimensional space to a set of model vectors, or neurons, usually arranged as a 2-D array. Each neuron has the same dimension of the input space, p, and the main objective is dimensionality reduction while trying to preserve as much as possible the topology of the input space. The SL-SOM (Self-Labeling SOM) algorithm was developed for automatically partitioning and labeling a trained SOM network. It uses information of the p component gradient (distances) which is presented in the U-matrix. By using image processing algorithms, the obtained results are labeled and connected regions of neurons. Each region defines, in the input space, complex and nonparametric geometries which approximately describe the shape of the clusters. Classification of new objects can be performed using the established regions and the nearest neighbor rule. An extension of the SL-SOM algorithm aims to enhance the clustering process, enabling to discover sub-clusters. The TS-SL-SOM (Tree-Structured Self-Labeling SOM) algorithm generates a child network for each labeled region of the root network, and so on. The process can be seen as generation of a dynamic tree, where each node is a whole network, and which is data-driven. It is not necessary to specify the number of sub-networks for a given network in a given height of the tree. The parameters of the child network are functions of the parameters of the father network and of the subgroup of data used to train that network. A pruning strategy cuts sub-networks (leave nodes) which do not present further partitions. High dimension output SOM networks are not frequently used because the main application of SOM is visualization of data in a form of display. With the automation of knowledge discovery and data relations by the SL-SOM and TS-SL-SOM algorithms, we can use output dimensions higher than 2 and analyze only the final results, i.e., number of clusters and their components, relationships between groups, etc. The main advantage of using high dimension output SOMs is that topology preservation is usually lost when mapping a higher input space to a lower output space. The U-array is defined as an extension of the U-matrix and methods are proposed for its segmentation in a similar fashion of those presented in the SL-SOM algorithm. The thesis also presents results of the methods for synthetic and real data sets, and some comparisons with conventional clustering approachés, such as k-means and mixtures of probability density functions with the Expectation Maximization algorithm. Applications of the methods presented in this thesis are numerous. Virtually any area which possess data could be a candidate for using some kind of mapping and thus using any of these methods. With the increasingly availability of masses of data elsewhere, in applications ranging from business to scientific tasks, or even the immense mass of unstructured data available in the internet, and decreasingly cost of memory and computers, tools as the ones presented in this thesis will be important parts of softwares in a near future / Doutorado / Doutor em Engenharia Elétrica Sistemas de reconhecimento de padrões Análise por agrupamento Redes neurais (Computação) Inteligência artificial
32	Orientação produtiva na agropecuaria brasileira : uma analise comparativa entre 1970 e 1985, com base nas mesorregiões homogeneas Almeida, Luis Carlos Ferreira de 06 July 1995 (has links) Orientador: João Luiz Cardoso / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agricola / Made available in DSpace on 2018-07-20T10:54:15Z (GMT). No. of bitstreams: 1 Almeida_LuisCarlosFerreirade_M.pdf: 3019157 bytes, checksum: 7f09198cfa4bf65f309236228c258f20 (MD5) Previous issue date: 1995 / Resumo: o presente trabalho tem o objetivo principal de analisar a orientação produtiva da atividade agropecuária. tomando-se como base as Mesorregiões Geográficas do Brasil. De modo específico. busca-se estudar as possiveis mudanças ocoródas na agropecuáóa de 1970 para 1985. utilizando-se inclusive a formação de grupos de mesorregiões relativamente homogêneos. Os dados são provenientes dos Censos Agropecuáóos de 1970 e 1985 (da FIBGE) e se referem a 88 mesorregiões geográficas. Foram elaboradas 24 vaóáveis relacionadas a: estrutura fundiáóa. estrutura da produção. nivel tecnol6gico e indicadores s6cio-econômicos (com dados sobre pessoal ocupado). Além de análises descritivas foram utilizados os métodos de análise fatorial em componentes principais e a classificação automática hierárquica. Foram então constituidos 6 grupos de mesorregiões para 1970 e 5 grupos para 1985. Através da comparação dos dados dos Censos Agropecuáóos de 1970, 1975, 1980 e 1985 foi possivel constatar que houve reversão do dinamismo da agropecuáóa no periodo 1980/85. Várias atividades que vinham apresentando crescimento acentuado desde 1970 até 1980 mudam as tendências em 1980/85, chegando em alguns casos a voltar aos mesmos patamares de 1970. Os métodos empregados deixam claro a ocorrência de diversas particulaódades importantes, embora as caracteristicas gerais dos grupos de mesorregiões não mostrassem mudanças muito acentuadas quando efetuada a comparação entre os periodos / Mestrado / Planejamento e Produção Agropecuaria / Mestre em Engenharia Civil Planejamento agrícola Planejamento da produção Agropecuaria Análise de componentes principais Análise por agrupamento
33	Estratificação de florestas de eucalipto com base na forma do fuste das árvores Santos, Jeangelis Silva 28 November 2014 (has links) Made available in DSpace on 2016-08-29T15:37:10Z (GMT). No. of bitstreams: 1 tese_8325_Dissertacao_Jeangelis.pdf: 1337655 bytes, checksum: 22014242540a6c4b7c62551dd6929b42 (MD5) Previous issue date: 2014-11-28 / O inventário florestal é o principal método para a obtenção de informações quantitativas e qualitativas sobre as florestas. Entretanto, ao se trabalhar com grandes áreas, há o inconveniente das variáveis analisadas apresentarem grande heterogeneidade, sendo necessário adotar uma maior intensidade amostral. Nestes casos, uma alternativa para a realização dos inventários florestais é a estratificação da área em subpopulações mais homogêneas quanto a variável de interesse, garantindo estimativas mais precisas com uma menor intensidade amostral. Com isso, este estudo teve como objetivo realizar a estratificação de florestas de eucalipto considerando variáveis que descrevem a forma do fuste. Para tanto, foi utilizada uma base de dados contendo informações de 47.770ha de povoamentos de clones do gênero Eucalyptus.Osplantios são compostos porquatorze clones plantados sobtrês diferentes regimes de manejo (alto fuste, dividido em áreas de implantação e reforma, e talhadia) e quatro espaçamentos de plantios (6, 9, 10 e 16m2 de área útil por planta), com idades variando de quatroa seis anos. Inicialmente, foi realizada a estratificação da área, gerando um total de quarenta estratos, nos quais foram realizados a cubagem rigorosa e os inventários florestais. Em seguida, foram aplicados os métodos de agrupamento por similaridade de perfil, análise de componentes principais, classes de quociente de forma, classes de fator de forma artificial e redes neurais artificiais, gerando novos estratos de amostragem.A título de comparação, também foram consideradas amostragem sem estratificação, a estratificação completa (40 estratos iniciais), estratificação considerando a idade e o espaçamento, e estratificação apenas pela idade.Em seguida, foi realizado o cálculo dos estimadores populacionais para o inventário florestal, considerando cada método de estratificação apresentado, bem como o custo de realização do inventário florestal e cubagem rigorosa. Dentre os métodos propostos para estratificação dos povoamentos, os que apresentaram melhores resultados, quanto a precisão, foi o agrupamento porredes neurais artificiais e o agrupamento porclasses de quociente de forma (K0,5H). Em relação aos custos, o método de agrupamento por redes neurais artificiais também obteve melhores resultados, seguido pelo agrupamento pelo método da similaridade de perfis. Analisando conjuntamente precisão e custo, dentre todos os métodos avaliados, a utilização de redes neurais artificiais se mostrou a alternativa mais eficiente para a estratificação de florestas. Palavras-chave:Amostragem estratificada, inventário florestal, redes neurais artificiais. / The forest inventory is the main method to obtain quantitative and qualitative information on forests. However, when working with large areas, there is the inconvenience of the variables present great heterogeneity, being necessary to adopt a higher sampling intensity. In these cases, an alternative for the realization of forest inventories is the stratification of the area in more homogeneous subpopulations as the variable of interest, ensuring more accurate estimates with a lower sampling intensity. This study aimed to stratify eucalyptus forests considering variables that describe bole form. For this purpose, we used a database containing information of 47.770 ha with clonal Eucalyptus stands. The stands consisted of fourteen clones with three different management regimes (high forest, divided into areas of first and second rotations, and coppice) and four spacings (6, 9, 10 and 16 m2 per plant), aged four to six years. Initially the area stratification was performed, yielding forty strata, in which were performed the scaling and forest inventories. Then, were applied the clustering methods of profile similarity, principal component analysis, class of form quotient, class of form factor and artificial neural networks, generating new sampling strata. For comparison, were also considered sampling without stratification, the complete stratification (40 initial strata), stratification considering the age and spacing and stratification by age only. Then was conducted the calculation of population estimators for forest inventory considering each stratification method presented, as well as the cost of conducting a forest inventory and scaling. Among the methods proposed to stratify the stands, the ones that showed the best results in accuracy, was the clustering by artificial neural networks and clustering by class of form quotient (K0,5H). Regarding costs, the clustering method by artificial neural networks has also achieved best results, followed by clustering by profile similarity method. 8 By analyzing precision and cost, among all methods, the use of artificial neural networks proved to be the most efficient alternative to the stratification of forests Levantamentos florestais Amostragem (Estatística) Análise por agrupamento Inteligência artificial Redes neurais (Computação) Mensuração florestal 630
34	Análise de Algoritmos de Agrupamento para Base de Dados Textuais / Analysis of the Clustering Algorithms for the Databases Luiz Gonzaga Paula de Almeida 31 August 2008 (has links) O volume crescente de textos digitalmente armazenados torna necessária a construção de ferramentas computacionais que permitam a organização e o acesso eficaz e eficiente à informação e ao conhecimento nele contidos. No campo do conhecimento da biomedicina este problema se torna extremamente relevante, pois a maior parte do conhecimento gerado é formalizada através de artigos científicos e é necessário que o acesso a estes seja o mais fácil e rápido possível. A área de pesquisa conhecida como Mineração de Textos (do inglês Text Mining), se propõe a enfrentar este problema ao procurar identificar novas informações e conhecimentos até então desconhecidos, em bases de dados textuais. Uma de suas tarefas é a descoberta de grupos de textos correlatos em base de dados textuais e esse problema é conhecido como agrupamento de textos (do inglês Text Clustering). Para este fim, a representação das bases de dados textuais comumente utilizada no agrupamento de textos é o Modelo Espaço-vetorial, no qual cada texto é representado por um vetor de características, que são as freqüências das palavras ou termos que nele ocorrem. O conjunto de vetores forma uma matriz denominada de documento-termo, que é esparsa e de alta dimensionalidade. Para atenuar os problemas decorrentes dessas características, normalmente é selecionado um subconjunto de termos, construindo-se assim uma nova matriz documento-termo com um número reduzido de dimensões que é então utilizada nos algoritmos de agrupamento. Este trabalho se desdobra em: i) introdução e implementação de dois algoritmos para seleção de termos e ii) avaliação dos algoritmos k-means, espectral e de particionamento de grafos, em cinco base de dados de textos previamente classificadas. As bases de dados são pré-processadas através de métodos descritos na literatura, produzindo-se as matrizes documento-termo. Os resultados indicam que os algoritmos de seleção propostos, para a redução das matrizes documento-termo, melhoram o desempenho dos algoritmos de agrupamento avaliados. Os algoritmos k-means e espectral têm um desempenho superior ao algoritmos de particionamento de grafos no agrupamento de bases de dados textuais, com ou sem a seleção de características. / The increasing amount of digitally stored texts makes necessary the development of computational tools to allow the access of information and knowledge in an efficient and efficacious manner. This problem is extremely relevant in biomedicine research, since most of the generated knowledge is translated into scientific articles and it is necessary to have the most easy and fast access. The research field known as Text Mining deals with the problem of identifying new information and knowledge in text databases. One of its tasks is to find in databases groups of texts that are correlated, an issue known as text clustering. To allow clustering, text databases must be transformed into the commonly used Vector Space Model, in which texts are represented by vectors composed by the frequency of occurrence of words and terms present in the databases. The set of vectors composing a matrix named document-term is usually sparse with high dimension. Normally, to attenuate the problems caused by these features, a subset of terms is selected, thus giving rise a new document-term matrix with reduced dimensions, which is then used by clustering algorithms. This work presents two algorithms for terms selection and the evaluation of clustering algorithms: k-means, spectral and graph portioning, in five pre-classified databases. The databases were pre-processed by previously described methods. The results indicate that the term selection algorithms implemented increased the performance of the clustering algorithms used and that the k-means and spectral algorithms outperformed the graph portioning. Análise por agrupamento COMPUTABILIDADE E MODELOS DE COMPUTACAO Seleção de características Mineração de textos Clustering analysis Feature selection Text mining COMPUTABILIDADE E MODELOS DE COMPUTACAO
35	ASAClu: selecionando clusters diversos e relevantes / ASAClu: selecting diverse and relevant cluster Almeida, João Luís Baptista de 12 December 2016 (has links) Submitted by Milena Rubi (milenarubi@ufscar.br) on 2017-06-01T14:49:32Z No. of bitstreams: 1 ALMEIDA_Joao_Luis_2016.pdf: 13657258 bytes, checksum: b3cd9343dca74172bcfacefc51527822 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-06-01T14:49:44Z (GMT) No. of bitstreams: 1 ALMEIDA_Joao_Luis_2016.pdf: 13657258 bytes, checksum: b3cd9343dca74172bcfacefc51527822 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-06-01T14:49:51Z (GMT) No. of bitstreams: 1 ALMEIDA_Joao_Luis_2016.pdf: 13657258 bytes, checksum: b3cd9343dca74172bcfacefc51527822 (MD5) / Made available in DSpace on 2017-06-01T14:49:58Z (GMT). No. of bitstreams: 1 ALMEIDA_Joao_Luis_2016.pdf: 13657258 bytes, checksum: b3cd9343dca74172bcfacefc51527822 (MD5) Previous issue date: 2016-12-12 / Não recebi financiamento / No clustering algorithm is guaranteed to find actual groups in any dataset. To deal with this problem, many techniques apply various clustering algorithms to a dataset, generating a set of partitions and assessing them to select the most appropriated ones. The problem in selecting partitions is that redundancy can be seen inside partitions, as the same cluster can appear in different partitions. Also, one can underestimate the quality of a cluster, assessing only the quality of a partition. For these reasons, a new selection strategy named ASAClu is aimed at selecting a relevant and diverse subset of clusters instead of partitions, given an initial collection. / Nenhum algoritmo de agrupamento garante encontrar grupos reais em qualquer conjunto de dados. Para lidar com esse problema, muitas técnicas aplicam vários algoritmos de agrupamento a um conjunto de dados, gerando um conjunto de partições e avaliando-as para selecionar as mais apropriadas. O problema na seleção de partições é que a redundância pode ser vista dentro de partições, como o mesmo cluster pode aparecer em diferentes partições. Além disso, pode-se subestimar a qualidade de um clusters, avaliando apenas a qualidade de uma partição. Neste trabalho, é proposta uma nova estratégia de seleção chamada ASAClu, que visa selecionar um subconjunto relevante e diverso de cluster em vez de partições, dada uma coleção inicial. Cluster (Sistema de computador) Análise por agrupamento Cluster analysis Clustering
36	Relação entre atributos do solo e da planta e a resposta espectral da cana-de-açucar / Relationship between soil and plant attributes and the spectral response of the sugarcane plantation Lourenço, Leonardo Sene de 21 February 2005 (has links) Orientador: Mara de Andrade Marinho Weill / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agricola / Made available in DSpace on 2018-08-05T13:28:12Z (GMT). No. of bitstreams: 1 Lourenco_LeonardoSenede_M.pdf: 607870 bytes, checksum: fe4db0d68393c2258c9d6605c0faa233 (MD5) Previous issue date: 2005 / Resumo: O desenvolvimento de sensores orbitais de alta resolução espacial e espectral e a perspectiva de maior periodicidade na obtenção de imagens tem incentivado a aplicação crescente de técnicas de sensoriamento remoto no estudo de características espectrais das culturas relacionadas com seu potencial de produção. Os chamados índices de vegetação têm sido utilizados como critérios para estimar a resposta espectral da cultura e, indiretamente, sua produtividade. A resposta espectral é uma medida do vigor vegetativo da cultura, sendo afetada por fatores ambientais, do manejo e da planta. O presente estudo teve por objetivo central estudar a influência de atributos do solo e da planta na variação da resposta espectral da cultura da cana-de-açúcar, medida por meio do índice de vegetação da diferença normalizada (NDVI), aplicando métodos estatísticos uni e multivariados. O estudo foi realizado em um talhão de produção comercial de cana-de-açúcar de cerca de 26 ha, no município de Araras (SP), entre as coordenadas 47º19¿02¿ e 47º19¿26¿ W e 22º21¿53¿ e 22º22¿12¿ S. A lavoura foi implantada em setembro de 1997 com a variedade SP80-1842, precoce, de hábito decumbente e acamamento regular. O delineamento amostral constou de uma grade regular, composta por 67 pontos amostrais georreferenciados e espaçados de 50 m nas direções X e Y, de onde foram extraídas amostras de solo (camadas 0- 30 cm e 30-60 cm) e foliares. As amostras de solo foram extraídas em setembro de 2000 e de 2001, logo após a colheita. As amostras foliares foram extraídas durante a fase de desenvolvimento vegetativo da cultura, no mês de janeiro de 2001 e de 2002. Os anos agrícolas estudados correspondem ao 4º (2000/01) e 5º (2001/02) cortes. Foram avaliados atributos granulométricos e de fertilidade do solo e os teores foliares de macro e micronutrientes (variáveis preditoras). O índice de vegetação NDVI (variável predita) foi calculado a partir de imagens LANDSAT 7, sensor ETM+, obtidas em duas épocas durante a fase de desenvolvimento vegetativo da cultura. Para análise da influência da variação dos atributos edáficos e foliares na variação observada no NDVI foram empregados os métodos estatísticos referidos por análise exploratória, análise de agrupamentos, análise de componentes principais e análise de regressão linear múltipla, adotando-se o método stepwise para seleção de variáveis e ajuste dos modelos. Foram ajustados dois modelos de regressão linear múltipla. O modelo de regressão ajustado aos dados de 2000/01 explicou 30,8% da variação observada da resposta espectral em função da matéria orgânica (M.O., 0-30 cm) e dos teores foliares de fósforo (P, Planta) e de ferro (Fe, Planta). A inclusão desses atributos no modelo pode ser interpretada no caso da matéria orgânica pela similaridade com o NDVI, conforme resultado da análise de agrupamento; no caso do ferro por sua representatividade como integrante do 1º componente principal, e no caso do fósforo por sua baixa correlação com os demais atributos analisados, conforme indicado pela análise exploratória. O modelo de regressão ajustado aos dados de 2001/02 explicou 29,8% da variação observada da resposta espectral em função dos teores de cobre (Cu) e ferro (Fe) na camada 0-30 cm e do teor de enxofre (S-SO4) na camada 30-60 cm. Interpreta-se a inclusão desses atributos no modelo no caso do enxofre por sua representatividade como integrante do 1º componente principal e do ferro como integrante do 3º componente. No caso do cobre, sua inclusão deve estar baseada na média correlação com a resposta espectral (NDVI) e baixa correlação com os demais atributos do modelo, de acordo com os dados da análise exploratória. Os resultados obtidos permitiram comprovar a hipótese do trabalho. Parte da variação observada da resposta espectral na área de estudo pôde ser explicada pela variação de atributos do solo (fator de produção) e da planta. No entanto, entende-se que a capacidade de explicação dos modelos poderia ter sido maior caso tivessem sido incluídas na análise outras variáveis, sobretudo climáticas, bem como, variáveis edáficas que permitissem avaliar o efeito de fatores como compactação e resistência à penetração, tendo em vista se tratar de solos argilosos e muito argilosos / Abstract: The development of multispectral sensors with high spatial and spectral resolutions and the perspective of greater regularity in the attainment of the images have stimulated the increasing application of the remote sensing techniques in the study of spectral response patterns of the crops relating with their potential of production. The spectral response pattern is a measure of the vegetative vigor of a crop, being affected by genotype, management and environmental factors. The main objective of the present research was to study the influence of selected soil and plant attributes in the observed variation of the spectral response pattern of the sugarcane crop, measured by means of the normalized difference vegetation index (NDVI), applying multivariate statistics methods. The study was developed in a commercial area (26 ha) of sugarcane production in Araras (SP), between the coordinates 47º19'02 "and 47º19'26" W and 22º21'53"and 22º22'12" S. The crop was installed in September/1997 with the variety SP80-1842. The experimental delineation was a regular grid, composed by 67 points of sampling, georeferenced, and spaced of 50 m in the X and Y directions, from where had been extracted the plant (leaves) and the soil samples (0-30 cm and 30-60 cm). The soil samples were extracted in September (2000 and 2001), after the harvest. The plants were sampled during the phase of vegetative development of the crop, in January (2001 and 2002). The attributes evaluated were grain sized and fertility attributes (soils) and nutrient contents in leaves (plant). The vegetation index NDVI was calculated from LANDSAT 7, sensor ETM+ images. The statistics methods of analysis have included exploratory analysis, cluster analysis, principal component analysis (PCA), and multiple regression analysis, using the stepwise criterion for selection of the variables and model adjustment. Two linear multiple regression models have been adjusted. The first model (2001/02) could explain 30,8% of the observed variation of NDVI as a function of the soil organic matter (M.O., 0-30 cm) and of the phosphorus (P, Plant) and of the iron (Fe, Plant) contents in leaves. The inclusion of these attributes in the model can be interpreted with basis on the case of the soil organic matter for its similarity with the NDVI, as indicated by cluster analysis. In the case of the iron content its inclusion could be interpreted for its significance as integrant of the first component in PCA, and in the case of the P content with basis on its low correlation with the all others attributes, as indicated for the exploratory analysis. The second regression model (2001/02) could explain 29,8% of the observed variation of NDVI as a function of soil contents of copper (Cu) and iron (Fe) in the first layer (0-30 cm) and the sulphur content (S-SO4) in the second layer (30-60 cm). The inclusion of these attributes in the second model can be interpreted in the case of the S-SO4 content according its significance as integrant of first component in PCA, and the iron content according its significance as integrant of third component in PCA. In the case of copper, its inclusion must be explained with basis in its average correlation with the NDVI and small correlation with the all other attributes of the model, as indicated for the exploratory analysis. The results have permitted to accept the hypothesis of the work. Part of the observed variation of the spectral response pattern in the study area could be explained by the local variation of some soil (production factor) and plant attributes. However, that the capacity of explanation of the two adjusted models could have been better if another variables, in particular the ones related with climate and soil hardness, have been included in the analysis / Mestrado / Planejamento e Desenvolvimento Rural Sustentável / Mestre em Engenharia Agrícola Vegetação - Mapeamento Análise de regressão Análise por agrupamento Análise de componentes principais Vegetation index Multiple regression model Cluster analysis Principal component analysis
37	Análise de indicadores socioeconômicos para avaliação de impactos da cana-de-açúcar nos principais estados produtores / Use of socioeconomic indicators for the assessment of sugarcane impacts in the major producing states Celis Torres, Laura Jimena del Pilar, 1986- 24 August 2018 (has links) Orientadores: Arnaldo Cesar da Silva Walter, Michelle Cristina Araújo Picoli / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Mecânica / Made available in DSpace on 2018-08-24T01:53:10Z (GMT). No. of bitstreams: 1 CelisTorres_LauraJimenadelPilar_M.pdf: 2012741 bytes, checksum: 2390e3157804be716a5d5a38316ada71 (MD5) Previous issue date: 2013 / Resumo: O presente trabalho tem como objetivo principal aprimorar os procedimentos metodológicos anteriormente propostos e que permitem a análise da qualidade de vida em municípios nos quais a atividade canavieira é relevante. O procedimento é baseado em indicadores socioeconômicos censitários e foi aplicado para quatro dos principais estados produtores de cana-de-açúcar do Brasil: Alagoas, Goiás, Paraná e São Paulo, no período de 1970 a 2000. Para isso, primeiramente foram coletados dados dos indicadores socioeconômicos e da localização de usinas e destilarias sucroalcooleiras instaladas nos estados, para os anos estudados. Em seguida, os municípios de cada estado foram classificados em dois grupos: com e sem significativa produção de cana-de-açúcar, assim como os municípios com significativa produção de cana foram sub-classificados em municípios com e sem presença de usinas sucroalcooleiras. Foi então realizada uma comparação dos indicadores socioeconômicos entre esses grupos e foi observado que o grupo de municípios canavieiros apresenta, em média, melhores indicadores socioeconômicos do que o grupo de municípios não canavieiros para os quatro estados. Da comparação do grupo de municípios com e sem usinas, observou-se que, em geral, não há diferenças significativas dos indicadores socioeconômicos, ao nível de 5% de significância. Foi também analisada a evolução do conjunto de indicadores, durante os anos estudados, comparando-se os coeficientes angulares das retas de regressão ajustadas para cada grupo (municípios canavieiros e não canavieiros) e testando-se a existência de diferenças significativas na forma como evoluíram os indicadores. O resultado indica que a vantagem dos municípios canavieiros sobre os não canavieiros tende a diminuir com o passar do tempo. Com o objetivo de se conhecer as razões de existência de municípios canavieiros com melhores e piores indicadores socioeconômicos, foi utilizada a Análise de Cluster para separar de forma não tendenciosa os municípios em grupos de melhores e piores indicadores. Em seguida, for empregada a metodologia de Análise Discriminante. Ao contrário do esperado, os resultados indicam que a diversificação da atividade econômica não explica a existência de municípios com melhores indicadores socioeconômicos / Abstract: This work has as main objective to improve the methodological procedures previously proposed which allow the analysis of quality of life in municipalities where the sugarcane activity is relevant. This procedure is based on socioeconomic indicators and it was applied to four of the through census socioeconomic indicators for four major producing states of sugarcane in Brazil: Alagoas, Goiás, Paraná and São Paulo, from 1970 until 2000. To accomplish this, it was first collected data of the socioeconomic indicators and location of sugarcane mills and distilleries installed in states and in for the years studied. Then, the counties of each state were classified into two groups: with and without significant production of sugarcane. Likewise, municipalities with significant sugarcane production were sub-classified into: municipalities with and without the presence of sugarcane mills Therefore, it was carried out a comparison of the socioeconomic indicators amongst these those groups and it was observed that the sugarcane producing municipalities showed, on average, better higher socioeconomic indicators than the group of non-producing municipalities for the four states. Comparing the group of municipalities with and without distilleries, it was observed that, in general, there are no significant differences in the socioeconomic indicators, at the 5% level of significance. It was also analyzed the evolution of the set of indicators over the years studied, comparing the slopes of regression lines fitted for each group (sugarcane producing and non-producing municipalities) and testing for the existence of significant differences in how the indicators have evolved. The result indicated indicates that the advantage of the sugarcane producing municipalities over non-producing tends to decrease over time. The result indicates that the advantage of the sugarcane producing municipalities over non-producing tends to decrease over time. In order to know the reasons for the existence of sugar cane municipalities with the highest and lowest socioeconomic indicators, it was used Cluster Analysis to separate in a non-biased way municipalities in groups of highest and lowest indicators. Then, the methodology is employed Discriminant Analysis. Contrary to expectations, the results indicate that the diversification of economic activity does not explain the existence of cities with higher socioeconomic indicators / Mestrado / Planejamento de Sistemas Energeticos / Mestra em Planejamento de Sistemas Energéticos indicadores socio economicos Cana-de-açúcar Análise por agrupamento Análise discriminante Socioeconomic indicators Sugarcane Cluster analysis Discriminant analysis
38	Análise de algoritmos de agrupamento para base de dados textuais / Analysis of the clustering algorithms for the databases Almeida, Luiz Gonzaga Paula de 31 August 2008 (has links) Made available in DSpace on 2015-03-04T18:50:55Z (GMT). No. of bitstreams: 1 DissertacaoLuizGonzaga.pdf: 3514446 bytes, checksum: 517d9c7b241b2bd9c799c807d6eac037 (MD5) Previous issue date: 2008-08-31 / The increasing amount of digitally stored texts makes necessary the development of computational tools to allow the access of information and knowledge in an efficient and efficacious manner. This problem is extremely relevant in biomedicine research, since most of the generated knowledge is translated into scientific articles and it is necessary to have the most easy and fast access. The research field known as Text Mining deals with the problem of identifying new information and knowledge in text databases. One of its tasks is to find in databases groups of texts that are correlated, an issue known as text clustering. To allow clustering, text databases must be transformed into the commonly used Vector Space Model, in which texts are represented by vectors composed by the frequency of occurrence of words and terms present in the databases. The set of vectors composing a matrix named document-term is usually sparse with high dimension. Normally, to attenuate the problems caused by these features, a subset of terms is selected, thus giving rise a new document-term matrix with reduced dimensions, which is then used by clustering algorithms. This work presents two algorithms for terms selection and the evaluation of clustering algorithms: k-means, spectral and graph portioning, in five pre-classified databases. The databases were pre-processed by previously described methods. The results indicate that the term selection algorithms implemented increased the performance of the clustering algorithms used and that the k-means and spectral algorithms outperformed the graph portioning. / O volume crescente de textos digitalmente armazenados torna necessária a construção de ferramentas computacionais que permitam a organização e o acesso eficaz e eficiente à informação e ao conhecimento nele contidos. No campo do conhecimento da biomedicina este problema se torna extremamente relevante, pois a maior parte do conhecimento gerado é formalizada através de artigos científicos e é necessário que o acesso a estes seja o mais fácil e rápido possível. A área de pesquisa conhecida como Mineração de Textos (do inglês Text Mining), se propõe a enfrentar este problema ao procurar identificar novas informações e conhecimentos até então desconhecidos, em bases de dados textuais. Uma de suas tarefas é a descoberta de grupos de textos correlatos em base de dados textuais e esse problema é conhecido como agrupamento de textos (do inglês Text Clustering). Para este fim, a representação das bases de dados textuais comumente utilizada no agrupamento de textos é o Modelo Espaço-vetorial, no qual cada texto é representado por um vetor de características, que são as freqüências das palavras ou termos que nele ocorrem. O conjunto de vetores forma uma matriz denominada de documento-termo, que é esparsa e de alta dimensionalidade. Para atenuar os problemas decorrentes dessas características, normalmente é selecionado um subconjunto de termos, construindo-se assim uma nova matriz documento-termo com um número reduzido de dimensões que é então utilizada nos algoritmos de agrupamento. Este trabalho se desdobra em: i) introdução e implementação de dois algoritmos para seleção de termos e ii) avaliação dos algoritmos k-means, espectral e de particionamento de grafos, em cinco base de dados de textos previamente classificadas. As bases de dados são pré-processadas através de métodos descritos na literatura, produzindo-se as matrizes documento-termo. Os resultados indicam que os algoritmos de seleção propostos, para a redução das matrizes documento-termo, melhoram o desempenho dos algoritmos de agrupamento avaliados. Os algoritmos k-means e espectral têm um desempenho superior ao algoritmos de particionamento de grafos no agrupamento de bases de dados textuais, com ou sem a seleção de características. Análise por agrupamento Seleção de características Mineração de textos Clustering analysis Feature selection Text mining
39	Análise de cluster para determinação dos fatores associados às alterações da composição corporal em pacientes com doença inflamatória intestinal Gondo, Fernanda Futino. January 2019 (has links) Orientador: Sérgio Alberto Rupp de Paiva / Resumo: A Doença Inflamatória Intestinal (DII) apresenta curso variável. O tratamento adequado da fase aguda pode levar à remissão clínica da doença, cujo seguimento ocorre ambulatorialmente. Nesta condição, os pacientes mantêm hábito de vida normal e alguns ainda permanecem com inflamação. Esta situação de doença e estilo de vida pode interferir na composição corporal e no estado nutricional dos pacientes. Doença de Crohn (DC) e Retocolite Ulcerativa (RCU) são doenças heterogêneas em diversos aspectos, dentre eles na composição corporal e no estado nutricional. O objetivo do estudo foi avaliar clusters relacionados à variação do estado nutricional na DIl. Foi realizado estudo transversal com pacientes com DII, submetidos a avaliação clínica (Crohn’s Disease Activity Index (CDAI), escore de Mayo e uso de medicações), nutricional (recordatório de 24 horas, International Physical Activity Questionnaire (IPAQ), peso, estatura, Índice de Massa Corporal (IMC), absorciometria por raios-X de dupla energia (DEXA), análise de bioimpedância elétrica (BIA), força de preensão manual, teste de caminhada de 6 minutos) e laboratorial (hemoglobina (Hb), hematócrito (Ht), Proteína C Reativa (PCR), velocidade de hemossedimentação (VHS), albumina). Com base nestes parâmetros, foram diagnosticados com Desnutrição (Global Leadership Initiative on Malnutrition, GLIM) e Sarcopenia (European Working Group on Sacopenia in Older People 2, EWGSOP2). Foram realizados testes estatísticos descritivos por meio do ... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: Inflammatory Bowel Disease (IBD) presents a variable course. Adequate treatment of the acute phase may lead to clinical remission of the disease, which is followed in the outpatient clinic. In this condition, patients maintain normal life habit and some still remain with inflammation. Both disease and lifestyle situation may interfere with the body composition and nutritional status of the patients. Crohn's disease (CD) and ulcerative colitis (UC) are heterogeneous diseases in several aspects, including body composition and nutritional status. The aim of the study was to evaluate clusters related to the variation of the nutritional status in IBD. A cross-sectional study was performed with IBD patients, by clinical (Crohn's Disease Activity Index (CDAI), Mayo score and medications), nutritional (24-hour recall, International Physical Activity Questionnaire (IPAQ), weight, stature, Body Mass Index (BMI), dual energy X-ray absorptiometry (DEXA), electrical bioimpedance (BIA), handgrip force, 6-minute walk test) and laboratorial evaluation (hemoglobin (Hb), hematocrit (Ht), C-Reactive Protein (CRP), erythrocyte sedimentation rate (ESR), albumin). Based on these parameters, were diagnosed Malnutrition (Global Leadership Initiative on Malnutrition (GLIM) and Sarcopenia (European Working Group on Sacopenia in Older People 2, EWGSOP2). Descriptive statistical tests were performed by mean ± standard deviation for numerical variables with normal or median distribution and quartiles (Q1... (Complete abstract click electronic access below) / Doutor Composição corporal. Análise por agrupamento. Desnutrição. Músculo esquelético. Doenças inflamatórias intestinais. inflammatory bowel diseases Músculo esquelético. malnutrition cluster analysis body composition
40	Finanças comportamentais : um estudo sobre o perfil do investidor, o senso de autocontrole e o grau de confiança nas decisões de investimentos no mercado de ações Diniz, Fabricio Bernardes 29 August 2013 (has links) Made available in DSpace on 2016-12-23T13:44:56Z (GMT). No. of bitstreams: 1 Fabricio Bernardes Diniz.pdf: 1968324 bytes, checksum: a414358e7137c6dc9de7be80d0bcadb4 (MD5) Previous issue date: 2013-08-29 / Nas mais diversas áreas de negócios, é comum que um gestor busque conhecer o perfil de seus clientes para oferecer produtos e serviços mais adequados às necessidades desses clientes. Os gestores que atuam no mercado financeiro utilizam um instrumento para identificar o perfil do investidor e ao mesmo tempo adequar a oferta de produtos e serviços financeiros em conformidade com a capacidade e a propensão de assumir riscos desse investidor, sobretudo daquele inserido no contexto do mercado de ações. Esse instrumento, apesar de não ser padrão, segue recomendações de órgãos reguladores e de associações de entidades do mercado de capitais (no Brasil, a Anbima - Associação Brasileira das Entidades dos Mercados Financeiro e de Capitais). Esses instrumentos utilizam, para a avaliação do perfil de risco, fatores como situação financeira do investidor, objetivo do investimento, horizonte de tempo para obtenção de resultados, tolerância ao risco e experiência em investimentos de risco. Não consideram fatores comportamentais que segundo a teoria, podem afetar a propensão a assumir riscos. Dentre esses fatores estão o senso de autocontrole, que ocasiona uma percepção distorcida de controle sobre os resultados esperados, e o grau de autoconfiança que no extremo pode levar ao excesso de confiança ou excesso de otimismo quanto a resultados esperados. Sendo assim, por meio de uma pesquisa realizada com 59 clientes de uma corretora de ações, o presente estudo se propôs a avaliar se o perfil de risco do investidor calculado segundo recomendações de órgãos reguladores do mercado financeiro, afeta o senso de autocontrole e o grau de confiança dos investidores em suas decisões de investimentos no mercado de ações. E avaliar se é possível segmentar os investidores de acordo com características pessoais e fatores que compõem o seu perfil de risco de forma a mais bem caracterizá-los quanto a riscos assumidos e retornos obtidos em seus investimentos em mercados de risco. Buscou identificar quais fatores que compõem a avaliação do perfil de risco são mais relevantes para discriminar os investidores segundo suas características pessoais e sua propensão a assumir riscos. A partir de uma análise de conglomerados (cluster analysis) o estudo identificou três grupos distintos de investidores com diferentes níveis de conhecimento e experiência de investimentos no mercado de ações e relacionou esses grupos a riscos assumidos e retornos alcançados em seus investimentos / In several areas of business, it is common that a manager seeks to know the profile of their customers to offer products and services best suited to the needs of these customers. The managers who work in the financial market using a tool to identify the profile of the investor and at the same time adjust the supply of financial products and services in accordance with the capacity and willingness to take risks that investors, especially from that seen in the context of the stock market . This instrument, although not standard, following recommendations of regulatory bodies and associations of the capital market (in Brazil, Anbima - Brazilian Association of Financial and Capital). These instruments use for the evaluation of the risk profile, factors such as the investor s financial situation, investment objective, time horizon for achieving results, risk tolerance and investment experience of risk. Do not consider behavioral factors which according to theory, may affect the propensity to take risks. These factors include the sense of self, which leads to a distorted perception of control over outcomes, and the degree of confidence that in the end can lead to overconfidence or over-optimism about the expected results. Thus, through a survey of 59 customers of a stockbroker, the present study was to evaluate whether the risk profile of the investor calculated according to recommendations from regulatory agencies in the financial market, affects the sense of self and the degree of confidence of investors in their investment decisions in the stock market. And assess whether it is possible to target investors according to personal characteristics and factors that comprise its risk profile in order to better characterize them as the risks taken and returns from their investments in risky markets. Sought to identify factors that make up the assessment of the risk profile are most relevant for discriminating investors according to their personal characteristics and their propensity to take risks. From a cluster analysis (cluster analysis) the study identified three distinct groups of investors with different levels of knowledge and investment experience in the stock market and related groups such the risks assumed and achieved returns on their investments Investidores (Finanças) Confiança Controle financeiro Finanças pessoais Risco (Economia) Lucros Análise por agrupamento Analysis of investor profile (API) Overconfidence Sense of self Risk Return Cluster analysis Administração

Search results