Global ETD Search

51	"Redução de dimensionalidade utilizando entropia condicional média aplicada a problemas de bioinformática e de processamento de imagens" / Dimensionality reduction using mean conditional entropy applied for bioinformatics and image processing problems David Correa Martins Junior 22 September 2004 (has links) Redução de dimensionalidade é um problema muito importante da área de reconhecimento de padrões com aplicação em diversos campos do conhecimento. Dentre as técnicas de redução de dimensionalidade, a de seleção de características foi o principal foco desta pesquisa. De uma forma geral, a maioria dos métodos de redução de dimensionalidade presentes na literatura costumam privilegiar casos nos quais os dados sejam linearmente separáveis e só existam duas classes distintas. No intuito de tratar casos mais genéricos, este trabalho propõe uma função critério, baseada em sólidos princípios de teoria estatística como entropia e informação mútua, a ser embutida nos algoritmos de seleção de características existentes. A proposta dessa abordagem é tornar possível classificar os dados, linearmente separáveis ou não, em duas ou mais classes levando em conta um pequeno subespaço de características. Alguns resultados com dados sintéticos e dados reais foram obtidos confirmando a utilidade dessa técnica. Este trabalho tratou dois problemas de bioinformática. O primeiro trata de distinguir dois fenômenos biológicos através de seleção de um subconjunto apropriado de genes. Foi estudada uma técnica de seleção de genes fortes utilizando máquinas de suporte vetorial (MSV) que já vinha sendo aplicada para este fim em dados de SAGE do genoma humano. Grande parte dos genes fortes encontrados por esta técnica para distinguir tumores de cérebro (glioblastoma e astrocytoma), foram validados pela metodologia apresentada neste trabalho. O segundo problema que foi tratado neste trabalho é o de identificação de redes de regulação gênica, utilizando a metodologia proposta, em dados produzidos pelo trabalho de DeRisi et al sobre microarray do genoma do Plasmodium falciparum, agente causador da malária, durante as 48 horas de seu ciclo de vida. O presente texto apresenta evidências de que a utilização da entropia condicional média para estimar redes genéticas probabilísticas (PGN) pode ser uma abordagem bastante promissora nesse tipo de aplicação. No contexto de processamento de imagens, tal técnica pôde ser aplicada com sucesso em obter W-operadores minimais para realização de filtragem de imagens e reconhecimento de texturas. / Dimensionality reduction is a very important pattern recognition problem with many applications. Among the dimensionality reduction techniques, feature selection was the main focus of this research. In general, most dimensionality reduction methods that may be found in the literature privilegiate cases in which the data is linearly separable and with only two distinct classes. Aiming at covering more generic cases, this work proposes a criterion function, based on the statistical theory principles of entropy and mutual information, to be embedded in the existing feature selection algorithms. This approach allows to classify the data, linearly separable or not, in two or more classes, taking into account a small feature subspace. Results with synthetic and real data were obtained corroborating the utility of this technique. This work addressed two bioinformatics problems. The first is about distinguishing two biological fenomena through the selection of an appropriate subset of genes. We studied a strong genes selection technique using support vector machines (SVM) which has been applied to SAGE data of human genome. Most of the strong genes found by this technique to distinguish brain tumors (glioblastoma and astrocytoma) were validated by the proposed methodology presented in this work. The second problem covered in this work is the identification of genetic network regulation, using our proposed methodology, from data produced by work of DeRisi et al about microarray of the Plasmodium falciparum genome, malaria agent, during 48 hours of its life cycle. This text presents evidences that using mean conditional entropy to estimate a probabilistic genetic network (PGN) may be very promising. In the image processing context, it is shown that this technique can be applied to obtain minimal W-operators that perform image filtering and texture recognition. entropia condicional redes gênicas probabilísticas redução de dimensionalidade seleção de características W-operadores conditional entropy dimensionality reduction feature selection probabilistic genetic networks W-operators
52	Consciência fonológica: dimensionalidade e precisão de classificação do risco/não risco de dificuldade de leitura e de escrita Henriques, Flávia Guimarães 23 February 2016 (has links) Submitted by Renata Lopes (renatasil82@gmail.com) on 2016-04-12T17:18:39Z No. of bitstreams: 1 flaviaguimaraeshenriques.pdf: 667239 bytes, checksum: 5b93224cd56ee8b6710aabff2fcc94a4 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2016-04-24T03:31:32Z (GMT) No. of bitstreams: 1 flaviaguimaraeshenriques.pdf: 667239 bytes, checksum: 5b93224cd56ee8b6710aabff2fcc94a4 (MD5) / Made available in DSpace on 2016-04-24T03:31:32Z (GMT). No. of bitstreams: 1 flaviaguimaraeshenriques.pdf: 667239 bytes, checksum: 5b93224cd56ee8b6710aabff2fcc94a4 (MD5) Previous issue date: 2016-02-23 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Os objetivos do presente estudo foram: 1) realizar uma revisão da literatura dos estudos que investigaram a precisão com que medidas de consciência fonológica (CF) classificam indivíduos como estando em risco ou não estando em risco de apresentar dificuldade de leitura/escrita; 2) avaliar a dimensionalidade da CF em falantes do português brasileiro; e 3) verificar a precisão de classificação do risco/não risco de dificuldade de leitura/escrita de diferentes medidas de CF. Os resultados da revisão da literatura evidenciaram, de uma forma geral, que as diferentes medidas de CF, quando analisadas isoladamente foram ruins ou razoáveis em classificar as crianças como em risco/sem risco de dificuldade de leitura/escrita. Duzentas e treze crianças foram avaliadas através de diferentes tarefas de CF quando estavam no último ano da Educação Infantil e, aproximadamente, um ano depois, foram avaliadas através de uma medida de leitura e uma medida de escrita. Resultados de Análises Fatoriais evidenciaram que as diferentes medidas de CF avaliam um construto predominantemente unidimensional e análises da curva ROC indicaram que duas medidas compostas de CF mostraram-se razoáveis para classificar as crianças como tendo ou não tendo risco de dificuldade de leitura ou de escrita, apresentando áreas sob a curva em torno de 0,75. / The aims of this study were: 1) to present a literature review of studies about the precision of phonological awareness measures to classify individuals as being or not at risk of presenting difficulties in reading or writing; 2) to evaluate the dimensionality of phonological awareness in Brazilian Portuguese speakers; and 3) to verify the classification accuracy of the risk/no risk of difficulty in reading and writing from different measures of phonological awareness. In general, among the reviewed studies, phonological awareness measures varied from poor to reasonable in reading/writing risk classification accuracy. Two hundred and thirteen Brazilian Portuguese speaking children took part on the present study. They were evaluated through different phonological awareness tasks in the last year of early childhood education. Nine months later, they were evaluated through a reading measure and a writing measure. Factorial Analysis results showed that the different phonological awareness measures index a single construct. Concerning the ROC curve analysis, two composite measures of phonological awareness proved reasonable to discriminate children in the groups with and without difficulty in reading/writing, presenting AUCs around 0,75. CNPQ::CIENCIAS HUMANAS::PSICOLOGIA Dimensionalidade Consciência fonológica Dificuldade de leitura e escrita Rastreamento Precisão de classificação Dimensionality Phonological awareness Reading and writing difficulty Screening Classification accuracy
53	Decomposição baseada em modelo de problemas de otimização de projeto utilizando redução de dimensionalidade e redes complexas Cardoso, Alexandre Cançado 16 September 2016 (has links) Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-03-07T15:01:41Z No. of bitstreams: 1 alexandrecancadocardoso.pdf: 3207141 bytes, checksum: 46de44194b8a9a99093ecb73f332eacd (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-03-07T15:07:15Z (GMT) No. of bitstreams: 1 alexandrecancadocardoso.pdf: 3207141 bytes, checksum: 46de44194b8a9a99093ecb73f332eacd (MD5) / Made available in DSpace on 2017-03-07T15:07:15Z (GMT). No. of bitstreams: 1 alexandrecancadocardoso.pdf: 3207141 bytes, checksum: 46de44194b8a9a99093ecb73f332eacd (MD5) Previous issue date: 2016-09-16 / A estratégia de dividir para conquistar é comum a diversos ramos de atuação, indo do projeto de algoritmos à politica e sociologia. Em engenharia, é utilizada, dentre outras aplicações, para auxiliar na resolução de problemas de criação de um projeto (general desing problems) ou de um projeto ótimo (optimal design problems) de sistemas grandes, complexos ou multidisciplinares. O presente, trabalho apresenta um método para divisão, decomposição destes problemas em sub-problemas menores a partir de informação apenas do seu modelo (model-based decomposition). Onde a extração dos padrões de relação entre as variáveis, funções, simulações e demais elementos do modelo é realizada através de algoritmos de aprendizado não supervisionado em duas etapas. Primeiramente, o espaço dimensional é reduzido a fim de ressaltar as relações mais significativas, e em seguida utiliza-se a técnica de detecção de comunidade oriunda da área de redes complexas ou técnicas de agrupamento para identificação dos sub-problemas. Por fim, o método é aplicado a problemas de otimização de projeto encontrados na literatura de engenharia estrutural e mecânica. Os sub-problemas obtidos são avaliados segundo critérios comparativos e qualitativos. / The divide and conquer strategy is common to many fields of activity, ranging from the algorithms design to politics and sociology. In engineering, it is used, among other applications, to assist in solving general design problems or optimal design problems of large, complex or multidisciplinary systems. The present work presents a method for splitting, decomposition of these problems into smaller sub-problems using only information from its model (model-based decomposition). Where the pattern extraction of relationships between variables, functions, simulations and other model elements is performed using unsupervised learning algorithms in two steps. First, the dimensional space is reduced in order to highlight the most significant relationships, and then we use the community detection technique coming from complex networks area and clustering techniques to identify the sub-problems. Finally, the method is applied to design optimization problems encountered in structural and mechanical engineering literature. The obtained sub-problems are evaluated against comparative and qualitative criteria. CNPQ::CIENCIAS EXATAS E DA TERRA Otimização de projeto Decomposição baseada em modelo Redução de dimensionalidade Detecção de comunidades Design optimization Model-based decomposition Dimensionality reduction Community detection
54	Efeitos das bordas sobre as propriedades eletrônicas do grafeno no regime Hall quântico / Edge effects on the electronic properties of graphene in the quantum Hall regime Solis Lerma, Daniel Alejandro, 1991- 09 April 2015 (has links) Orientadores: Ana Luiza Cardoso Pereira, Luiz Eduardo Moreira Carvalho de Oliveira / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Física Gleb Wataghin / Made available in DSpace on 2018-08-28T09:45:49Z (GMT). No. of bitstreams: 1 SolisLerma_DanielAlejandro_M.pdf: 11339360 bytes, checksum: 0efee568f2b70411f8fcb14075392b26 (MD5) Previous issue date: 2015 / Resumo: Neste trabalho foram estudados os efeitos de bordas com terminações perfeitamente definidas de uma rede de grafeno no regime Hall quântico sobre as propriedades eletrônicas deste sistema. O problema foi abordado com uso da aproximação tight-binding incluindo os efeitos do campo magnético e desordem no modelo. Estudou-se primeiramente o efeito das bordas nos níveis de energia do sistema, em espectros tipo borboleta de Hofstadter. Então o foco foi analisar as propriedades de localização eletrônica dos estados de borda, e as particularidades da distribuição das funções de onda nestes casos. Para investigar os estados de borda e determinar, para cada um dos estados eletrônicos, o quanto da função de onda encontra-se localizada nas bordas, foi criada uma quantidade nomeada Edge Fraction, denida como a somatória das amplitudes da função de onda na região das bordas, que numa aproximação semiclássica foi aqui considerada como a região delimitada por uma distância 2'B das bordas, onde 'B é o comprimento magnético. Com o uso do Edge Fraction, analisando-se as contribuições armchair e zigzag separadamente, em redes de grafeno quadradas, encontrou-se que há regiões de energia onde as funções de onda claramente cam mais localizadas num determinado tipo de borda. Este comportamento presume-se que é produto da competição que existe entre os potenciais devidos à presença de bordas e desordem no sistema, que evidenciam-se também no espectro de energia tipo borboleta de Hofstadter. Os resultados obtidos contribuem para o entendimento das propriedades de localização em redes de grafeno com bordas / Abstract: In this work the effects of sharp edges in the electronic properties of graphene lattices in the quantum Hall regime were studied. The problem was addressed using the tight-binding approximation including the effects of the magnetic eld and disorder in the model. It was studied at rst the effect of the edges in the energy levels of the system, through Hofstadter's buttery-like spectrum. Then we focused on analysing the localization properties of edge states and the particularities of the wave function distributions for these cases. To investigate the edge states and to determine, for each electronic state, how much of the wave function is localized at the edges, it was created a quantity called Edge Fraction. This quantity was dened as the probability density sum in the edge region, which in a semi-classical approximation, was considered here as the region limited by a distance 2'B from the edges, where 'B is the magnetic length. Using the Edge Fraction and analysing the contributions of armchair and zigzag edges separately, in squared lattices, it was found that there are energy regions where the wave functions are clearly more localized in a specic edge type. This behaviour is believed to be a result of the competition between the potential due to the presence of the edge and the potential due to the disorder in the system, which are also present in the Hofstadter energy spectrum. The results obtained contribute to the understanding of the localization properties of graphene lattices with edges / Mestrado / Física / Mestre em Física / 1247644 / CAPES Regime Hall Sistemas de baixa dimensionalidade Níveis de Landau Localização eletrônica Estados de borda Hall regime Low dimensional electron systems Landau levels Electronic localization Edge states
55	Data mining in large sets of complex data / Mineração de dados em grande conjuntos de dados complexos Robson Leonardo Ferreira Cordeiro 29 August 2011 (has links) Due to the increasing amount and complexity of the data stored in the enterprises\' databases, the task of knowledge discovery is nowadays vital to support strategic decisions. However, the mining techniques used in the process usually have high computational costs that come from the need to explore several alternative solutions, in different combinations, to obtain the desired knowledge. The most common mining tasks include data classification, labeling and clustering, outlier detection and missing data prediction. Traditionally, the data are represented by numerical or categorical attributes in a table that describes one element in each tuple. Although the same tasks applied to traditional data are also necessary for more complex data, such as images, graphs, audio and long texts, the complexity and the computational costs associated to handling large amounts of these complex data increase considerably, making most of the existing techniques impractical. Therefore, especial data mining techniques for this kind of data need to be developed. This Ph.D. work focuses on the development of new data mining techniques for large sets of complex data, especially for the task of clustering, tightly associated to other data mining tasks that are performed together. Specifically, this Doctoral dissertation presents three novel, fast and scalable data mining algorithms well-suited to analyze large sets of complex data: the method Halite for correlation clustering; the method BoW for clustering Terabyte-scale datasets; and the method QMAS for labeling and summarization. Our algorithms were evaluated on real, very large datasets with up to billions of complex elements, and they always presented highly accurate results, being at least one order of magnitude faster than the fastest related works in almost all cases. The real data used come from the following applications: automatic breast cancer diagnosis, satellite imagery analysis, and graph mining on a large web graph crawled by Yahoo! and also on the graph with all users and their connections from the Twitter social network. Such results indicate that our algorithms allow the development of real time applications that, potentially, could not be developed without this Ph.D. work, like a software to aid on the fly the diagnosis process in a worldwide Healthcare Information System, or a system to look for deforestation within the Amazon Rainforest in real time / O crescimento em quantidade e complexidade dos dados armazenados nas organizações torna a extração de conhecimento utilizando técnicas de mineração uma tarefa ao mesmo tempo fundamental para aproveitar bem esses dados na tomada de decisões estratégicas e de alto custo computacional. O custo vem da necessidade de se explorar uma grande quantidade de casos de estudo, em diferentes combinações, para se obter o conhecimento desejado. Tradicionalmente, os dados a explorar são representados como atributos numéricos ou categóricos em uma tabela, que descreve em cada tupla um caso de teste do conjunto sob análise. Embora as mesmas tarefas desenvolvidas para dados tradicionais sejam também necessárias para dados mais complexos, como imagens, grafos, áudio e textos longos, a complexidade das análises e o custo computacional envolvidos aumentam significativamente, inviabilizando a maioria das técnicas de análise atuais quando aplicadas a grandes quantidades desses dados complexos. Assim, técnicas de mineração especiais devem ser desenvolvidas. Este Trabalho de Doutorado visa a criação de novas técnicas de mineração para grandes bases de dados complexos. Especificamente, foram desenvolvidas duas novas técnicas de agrupamento e uma nova técnica de rotulação e sumarização que são rápidas, escaláveis e bem adequadas à análise de grandes bases de dados complexos. As técnicas propostas foram avaliadas para a análise de bases de dados reais, em escala de Terabytes de dados, contendo até bilhões de objetos complexos, e elas sempre apresentaram resultados de alta qualidade, sendo em quase todos os casos pelo menos uma ordem de magnitude mais rápidas do que os trabalhos relacionados mais eficientes. Os dados reais utilizados vêm das seguintes aplicações: diagnóstico automático de câncer de mama, análise de imagens de satélites, e mineração de grafos aplicada a um grande grafo da web coletado pelo Yahoo! e também a um grafo com todos os usuários da rede social Twitter e suas conexões. Tais resultados indicam que nossos algoritmos permitem a criação de aplicações em tempo real que, potencialmente, não poderiam ser desenvolvidas sem a existência deste Trabalho de Doutorado, como por exemplo, um sistema em escala global para o auxílio ao diagnóstico médico em tempo real, ou um sistema para a busca por áreas de desmatamento na Floresta Amazônica em tempo real Agrupamento de correlação Dados de média à alta dimensionalidade MapReduce Rotulação e sumarização Correlation clustering Labeling and summarization MapReduce Moderante-to-high dimensionality data Terabyte-scale data mining
56	Sobre coleções e aspectos de centralidade em dados multidimensionais / On collections and centrality aspects of multidimensional data Oliveira, Douglas Cedrim 14 June 2016 (has links) A análise de dados multidimensionais tem sido por muitos anos tópico de contínua investigação e uma das razões se deve ao fato desse tipo de dados ser encontrado em diversas áreas da ciência. Uma tarefa comum ao se analisar esse tipo de dados é a investigação de padrões pela interação em projeções multidimensionais dos dados para o espaço visual. O entendimento da relação entre as características do conjunto de dados (dataset) e a técnica utilizada para se obter uma representação visual desse dataset é de fundamental importância uma vez que esse entendimento pode fornecer uma melhor intuição a respeito do que se esperar da projeção. Por isso motivado, no presente trabalho investiga-se alguns aspectos de centralidade dos dados em dois cenários distintos: coleções de documentos com grafos de coautoria; dados multidimensionais mais gerais. No primeiro cenário, o dado multidimensional que representa os documentos possui informações mais específicas, o que possibilita a combinação de diferentes aspectos para analisá-los de forma sumarizada, bem como a noção de centralidade e relevância dentro da coleção. Isso é levado em consideração para propor uma metáfora visual combinada que possibilite a exploração de toda a coleção, bem como de documentos individuais. No segundo cenário, de dados multidimensionais gerais, assume-se que tais informações não estão disponíveis. Ainda assim, utilizando um conceito de estatística não-paramétrica, deno- minado funções de profundidade de dados (data-depth functions), é feita a avaliação da ação de técnicas de projeção multidimensionais sobre os dados, possibilitando entender como suas medidas de profundidade (centralidade) foram alteradas ao longo do processo, definindo uma também medida de qualidade para projeções. / Analysis of multidimensional data has been for many years a topic of continuous research and one of the reasons is such kind of data can be found on several different areas of science. A common task analyzing such data is to investigate patterns by interacting with spatializations of the data onto the visual space. Understanding the relation between underlying dataset characteristics and the technique used to provide a visual representation of such dataset is of fundamental importance since it can provide a better intuition on what to expect from the spatialization. Motivated by this, in this work we investigate some aspects of centrality on the data in two different scenarios: document collection with co-authorship graphs; general multidimensional data. In the first scenario, the multidimensional data which encodes the documents is much more information specific, meaning it makes possible to combine different aspects such as a summarized analysis, as well as the centrality and relevance notions among the documents in the collection. In order to propose a combined visual metaphor, this is taken into account make possible the visual exploration of the whole document collection as well as individual document analysis. In the second case, of general multidimensional data, there is an assumption that such additional information is not available. Nevertheless, using the concept of data-depth functions from non-parametric statistics it is analyzed the action of multidimensional projection techniques on the data, during the projection process, in order to make possible to understand how depth measures computed in the data have been modified along the process, which also defines a quality measure for multidimensional projections. Data-depth fuctions Dimensionality reduction Estatística não-paramétrica Funções de profundidade de dados Information visualization Medidas de qualidade Multidimensional projection Non-parametric statistics Nuvens de palavras Projeção multidimensional Quality measures Redução de dimensionalidade Text visualization Visualização da informação Visualização de texto Word clouds
57	Emprego de técnicas de análise exploratória de dados utilizados em Química Medicinal / Use of different techniques for exploratory data analysis in Medicinal Chemistry Gertrudes, Jadson Castro 10 September 2013 (has links) Pesquisas na área de Química Medicinal têm direcionado esforços na busca por métodos que acelerem o processo de descoberta de novos medicamentos. Dentre as diversas etapas relacionadas ao longo do processo de descoberta de substâncias bioativas está a análise das relações entre a estrutura química e a atividade biológica de compostos. Neste processo, os pesquisadores da área de Química Medicinal analisam conjuntos de dados que são caracterizados pela alta dimensionalidade e baixo número de observações. Dentro desse contexto, o presente trabalho apresenta uma abordagem computacional que visa contribuir para a análise de dados químicos e, consequentemente, a descoberta de novos medicamentos para o tratamento de doenças crônicas. As abordagens de análise exploratória de dados, utilizadas neste trabalho, combinam técnicas de redução de dimensionalidade e de agrupamento para detecção de estruturas naturais que reflitam a atividade biológica dos compostos analisados. Dentre as diversas técnicas existentes para a redução de dimensionalidade, são discutidas o escore de Fisher, a análise de componentes principais e a análise de componentes principais esparsas. Quanto aos algoritmos de aprendizado, são avaliados o k-médias, fuzzy c-médias e modelo de misturas ICA aperfeiçoado. No desenvolvimento deste trabalho foram utilizados quatro conjuntos de dados, contendo informações de substâncias bioativas, sendo que dois conjuntos foram relacionados ao tratamento da diabetes mellitus e da síndrome metabólica, o terceiro conjunto relacionado a doenças cardiovasculares e o último conjunto apresenta substâncias que podem ser utilizadas no tratamento do câncer. Nos experimentos realizados, os resultados alcançados sugerem a utilização das técnicas de redução de dimensionalidade juntamente com os algoritmos não supervisionados para a tarefa de agrupamento dos dados químicos, uma vez que nesses experimentos foi possível descrever níveis de atividade biológica dos compostos estudados. Portanto, é possível concluir que as técnicas de redução de dimensionalidade e de agrupamento podem possivelmente ser utilizadas como guias no processo de descoberta e desenvolvimento de novos compostos na área de Química Medicinal. / Researches in Medicinal Chemistry\'s area have focused on the search of methods that accelerate the process of drug discovery. Among several steps related to the process of discovery of bioactive substances there is the analysis of the relationships between chemical structure and biological activity of compounds. In this process, researchers of medicinal chemistry analyze data sets that are characterized by high dimensionality and small number of observations. Within this context, this work presents a computational approach that aims to contribute to the analysis of chemical data and, consequently, the discovery of new drugs for the treatment of chronic diseases. Approaches used in exploratory data analysis, employed in this work, combine techniques of dimensionality reduction and clustering for detecting natural structures that reflect the biological activity of the analyzed compounds. Among several existing techniques for dimensionality reduction, we have focused the Fisher\'s score, principal component analysis and sparse principal component analysis. For the clustering procedure, this study evaluated k-means, fuzzy c-means and enhanced ICA mixture model. In order to perform experiments, we used four data sets, containing information of bioactive substances. Two sets are related to the treatment of diabetes mellitus and metabolic syndrome, the third set is related to cardiovascular disease and the latter set has substances that can be used in cancer treatment. In the experiments, the obtained results suggest the use of dimensionality reduction techniques along with clustering algorithms for the task of clustering chemical data, since from these experiments, it was possible to describe different levels of biological activity of the studied compounds. Therefore, we conclude that the techniques of dimensionality reduction and clustering can be used as guides in the process of discovery and development of new compounds in the field of Medicinal Chemistry Agrupamento de dados Análise de componentes principais Clustering Dimensionality reduction Principal component analysis Redução de dimensionalidade Seleção de variáveis Sparse principal component analysis Structure activity relationship Variable selection
58	Um estudo sobre o papel de medidas de similaridade em visualização de coleções de documentos / A study on the role of similarity measures in visual text analytics Salazar, Frizzi Alejandra San Roman 27 September 2012 (has links) Técnicas de visualização de informação, tais como as que utilizam posicionamento de pontos baseado na similaridade do conteúdo, são utilizadas para criar representações visuais de dados que evidenciem certos padrões. Essas técnicas são sensíveis à qualidade dos dados, a qual, por sua vez, depende de uma etapa de pré-processamento muito influente. Esta etapa envolve a limpeza do texto e, em alguns casos, a detecção de termos e seus pesos, bem como a definição de uma função de (dis)similaridade. Poucos são os estudos realizados sobre como esses cálculos de (dis)similaridade afetam a qualidade das representações visuais geradas para dados textuais. Este trabalho apresenta um estudo sobre o papel das diferentes medidas de (dis)similaridade entre pares de textos na geração de mapas visuais. Nos concentramos principalmente em dois tipos de funções de distância, aquelas computadas a partir da representação vetorial do texto (Vector Space Model (VSM)) e em medidas de comparação direta de strings textuais. Comparamos o efeito na geração de mapas visuais com técnicas de posicionamento de pontos, utilizando as duas abordagens. Para isso, foram utilizadas medidas objetivas para comparar a qualidade visual dos mapas, tais como Neighborhood Hit (NH) e Coeficiente de Silhueta (CS). Descobrimos que ambas as abordagens têm pontos a favor, mas de forma geral, o VSM apresentou melhores resultados quanto à discriminação de classes. Porém, a VSM convencional não é incremental, ou seja, novas adições à coleção forçam o recálculo do espaço de dados e das dissimilaridades anteriormente computadas. Nesse sentido, um novo modelo incremental baseado no VSM (Incremental Vector Space Model (iVSM)) foi considerado em nossos estudos comparativos. O iVSM apresentou os melhores resultados quantitativos e qualitativos em diversas configurações testadas. Os resultados da avaliação são apresentados e recomendações sobre a aplicação de diferentes medidas de similaridade de texto em tarefas de análise visual, são oferecidas / Information visualization techniques, such as similarity based point placement, are used for generating of visual data representation that evidence some patterns. These techniques are sensitive to data quality, which depends of a very influential preprocessing step. This step involves cleaning the text and in some cases, detecting terms and their weights, as well as definiting a (dis)similarity function. There are few studies on how these (dis)similarity calculations aect the quality of visual representations for textual data. This work presents a study on the role of the various (dis)similarity measures in generating visual maps. We focus primarily on two types of distance functions, those based on vector representations of the text (Vector Space Model (VSM)) and measures obtained from direct comparison of text strings, comparing the effect on the visual maps obtained with point placement techniques with the two approaches. For this, objective measures were employed to compare the visual quality of the generated maps, such as the Neighborhood Hit and Silhouette Coefficient. We found that both approaches have strengths, but in general, the VSM showed better results as far as class discrimination is concerned. However, the conventional VSM is not incremental, i.e., new additions to the collection force the recalculation of the data space and dissimilarities previously computed. Thus, a new model based on incremental VSM (Incremental Vector Space Model (iVSM)) has been also considered in our comparative studies. iVSM showed the best quantitative and qualitative results in several of the configurations considered. The evaluation results are presented and recommendations on the application of different similarity measures for text analysis tasks visually are provided Análise visual de textos Mineração visual de textos Modelo espaço vetorial Vector space model Visual text analytics Visual text mining
59	Sobre coleções e aspectos de centralidade em dados multidimensionais / On collections and centrality aspects of multidimensional data Douglas Cedrim Oliveira 14 June 2016 (has links) A análise de dados multidimensionais tem sido por muitos anos tópico de contínua investigação e uma das razões se deve ao fato desse tipo de dados ser encontrado em diversas áreas da ciência. Uma tarefa comum ao se analisar esse tipo de dados é a investigação de padrões pela interação em projeções multidimensionais dos dados para o espaço visual. O entendimento da relação entre as características do conjunto de dados (dataset) e a técnica utilizada para se obter uma representação visual desse dataset é de fundamental importância uma vez que esse entendimento pode fornecer uma melhor intuição a respeito do que se esperar da projeção. Por isso motivado, no presente trabalho investiga-se alguns aspectos de centralidade dos dados em dois cenários distintos: coleções de documentos com grafos de coautoria; dados multidimensionais mais gerais. No primeiro cenário, o dado multidimensional que representa os documentos possui informações mais específicas, o que possibilita a combinação de diferentes aspectos para analisá-los de forma sumarizada, bem como a noção de centralidade e relevância dentro da coleção. Isso é levado em consideração para propor uma metáfora visual combinada que possibilite a exploração de toda a coleção, bem como de documentos individuais. No segundo cenário, de dados multidimensionais gerais, assume-se que tais informações não estão disponíveis. Ainda assim, utilizando um conceito de estatística não-paramétrica, deno- minado funções de profundidade de dados (data-depth functions), é feita a avaliação da ação de técnicas de projeção multidimensionais sobre os dados, possibilitando entender como suas medidas de profundidade (centralidade) foram alteradas ao longo do processo, definindo uma também medida de qualidade para projeções. / Analysis of multidimensional data has been for many years a topic of continuous research and one of the reasons is such kind of data can be found on several different areas of science. A common task analyzing such data is to investigate patterns by interacting with spatializations of the data onto the visual space. Understanding the relation between underlying dataset characteristics and the technique used to provide a visual representation of such dataset is of fundamental importance since it can provide a better intuition on what to expect from the spatialization. Motivated by this, in this work we investigate some aspects of centrality on the data in two different scenarios: document collection with co-authorship graphs; general multidimensional data. In the first scenario, the multidimensional data which encodes the documents is much more information specific, meaning it makes possible to combine different aspects such as a summarized analysis, as well as the centrality and relevance notions among the documents in the collection. In order to propose a combined visual metaphor, this is taken into account make possible the visual exploration of the whole document collection as well as individual document analysis. In the second case, of general multidimensional data, there is an assumption that such additional information is not available. Nevertheless, using the concept of data-depth functions from non-parametric statistics it is analyzed the action of multidimensional projection techniques on the data, during the projection process, in order to make possible to understand how depth measures computed in the data have been modified along the process, which also defines a quality measure for multidimensional projections. Estatística não-paramétrica Funções de profundidade de dados Medidas de qualidade Nuvens de palavras Projeção multidimensional Redução de dimensionalidade Visualização da informação Visualização de texto Data-depth fuctions Dimensionality reduction Information visualization Multidimensional projection Non-parametric statistics Quality measures Text visualization Word clouds
60	Evid?ncias de Validade da PSS-10 e PSS- 14: Estudo com An?lise Fatorial e de Rede. / Evidence of Validity of PSS-10 and PSS-14: Study with Factorial and Network Analysis. Neves, Aline da Silva Boschi Martins 26 February 2018 (has links) Submitted by SBI Biblioteca Digital (sbi.bibliotecadigital@puc-campinas.edu.br) on 2018-05-04T18:39:57Z No. of bitstreams: 1 ALINE DA SILVA BOSCHI MARTINS NEVES.pdf: 1713644 bytes, checksum: f8d45029bc62915e3c5e77690c011494 (MD5) / Made available in DSpace on 2018-05-04T18:39:57Z (GMT). No. of bitstreams: 1 ALINE DA SILVA BOSCHI MARTINS NEVES.pdf: 1713644 bytes, checksum: f8d45029bc62915e3c5e77690c011494 (MD5) Previous issue date: 2018-02-26 / Stress is one of the constructs emphasized when evaluating the health-disease process. However, because it is a latent variable, specific instruments are needed to measure it. The Perceived Stress Scale (PSS) is an instrument that has been used to assess the perception of stress in the last month. Despite numerous validations in several countries, their psychometric properties have not been consensual. The main objective of this work was to investigate the internal structure of the PSS-10 and PSS-14 versions, through exploratory factorial (AFE) and network analysis. Thus, two studies were carried out: in Study I, PSS-10 and PSS-14 were analyzed through AFE and, in study II, the scales were analyzed through network analysis. We used: a) the PSS-10 with a sample composed of 686 participants, being 175 (27.3%) men and 466 (72.7%) women (n = 641), with a mean age of 33.9 SD = 11.3) years, ranging from 18 to 73 (n = 632); and (b) the PSS-14 was answered by 690 participants, of which 304 (44.1%) were men and 386 (55.9.7%) were women, with a mean age of 34.72 (SD = 12, 56), with a range of 18 to 65. In both analyzes, the psychometric properties of PSS-10 and PSS-14 were shown to be reliable and confirmed the two-dimensional structure of distress and coping. Also, the network analysis allowed to explore the PSS in the Brazilian context, allowing new association patterns to emerge from the analyzed samples. And, even AFE being a widely used technique in the construction and evaluation of psychometric tests, network analysis has shown to be a promising and much more comprehensive tool at the level of the symptom, accommodating the numerous processes of psychological constructions. In this study, the network analysis showed how the perception of control influences the outcome of stress. Thus, in addition to providing evidence of validity of the PSS-10 and PSS-14, this study demonstrated how much the network analysis has to contribute in the psychology and health area. / O estresse ? um dos construtos enfatizados quando se avalia o processo sa?de- doen?a. No entanto, por ser uma vari?vel latente, instrumentos espec?ficos s?o necess?rios para mensur?-lo. A Escala de Estresse Percebido (Perceived Stress Scale - PSS) ? um instrumento que tem sido utilizado para avaliar a percep??o do estresse no ?ltimo m?s. Apesar de in?meras valida??es em diversos pa?ses, suas propriedades psicom?tricas n?o t?m sido consensuais. O objetivo principal deste trabalho foi investigar a estrutura interna das vers?es PSS-10 e PSS-14, por meio de an?lise fatorial explorat?ria (AFE) e de rede. Assim, dois estudos foram realizados: no Estudo I, a PSS-10 e a PSS-14 foram analisadas atrav?s da AFE e, no estudo II, analisaram-se as escalas por meio da an?lise de rede. Foram utilizadas: a) a PSS-10 com uma amostra composta por 686 participantes, sendo 175 (27,3%) homens e 466 (72,7%) mulheres (n = 641), com m?dia de idade de 33,9 (SD = 11,3) anos, com amplitude de 18 a 73 (n = 632); e b) a PSS-14 que foi respondida por 690 participantes, dos quais 304 (44,1%) s?o homens e 386 (55,9,7%), mulheres, com m?dia de idade de 34,72 (SD = 12,56) anos, com amplitude de 18 a 65. Nas duas an?lises, as propriedades psicom?tricas da PSS-10 e PSS-14 demonstraram-se confi?veis e confirmaram a estrutura bidimensional de distress e coping. Ainda, a an?lise de rede permitiu explorar a PSS no contexto brasileiro, permitindo que novos padr?es de associa??o emergissem das amostras analisadas. E, mesmo a AFE sendo t?cnica muito utilizada na constru??o e avalia??o de testes psicom?tricos, a an?lise de rede demonstra ser uma ferramenta promissora e muito mais abrangente no n?vel do sintoma, acomodando os numerosos processos das constru??es psicol?gicas. Neste estudo, a an?lise de rede evidenciou o quanto a percep??o de controle influencia no desfecho do estresse. Assim, al?m de fornecer evid?ncias de validade da PSS-10 e PSS-14, este estudo demonstrou o quanto ? an?lise de rede tem a contribuir no ?mbito da psicologia e na ?rea da sa?de. CNPQ::CIENCIAS HUMANAS::PSICOLOGIA

Search results