Global ETD Search

11	Desenvolvimento de modelos dinâmicos para a formação de clusters aplicados em dados biológicos / Developing dynamical systems for data clustering applied to biological data Antonio Paulo Galdeano Damiance Junior 16 October 2006 (has links) Com o advento da tecnologia de microarray, uma grande quantidade de dados de expressão gênica encontra-se disponível. Após a extração das taxas de expressão dos genes, técnicas de formação de clusters são utilizadas para a análise dos dados. Diante da diversidade do conhecimento que pode ser extraído dos dados de expressão gênica, existe a necessidade de diferentes técnicas de formação de clusters. O modelo dinâmico desenvolvido em (Zhao et. al. 2003a) apresenta diversas características interessantes para o problema de formação de clusters, entre as quais podemos citar: a não necessidade de fornecer o número de cluster, a propriedade de multi-escala, serem altamente paralelos e, principalmente, permitirem a inserção de regras e mecanismos mais complexos para a formação dos clusters. Todavia, este modelo apresenta dificuldades em determinar clusters de formato e tamanho arbitrários, além de não realizar a clusterização hierárquica, sendo estas duas características desejáveis para uma técnica de clusterização. Neste trabalho, foram desenvolvidas três técnicas para superar as limitações do modelo dinâmico proposto em (Zhao et. al. 2003a). O Modelo1, o qual é uma simplificação do modelo dinâmico original, porém mais eficiente. O Modelo2, que a partir da inserção de um novo conjunto de elementos no modelo dinâmico, permite a formação de clusters de formato e tamanho arbitrário. E um algoritmo para a clusterização hierárquica que utiliza o Modelo1 como bloco de construção. Os modelos desenvolvidos foram aplicados em dados biológicos, segmentando imagens de microarray e auxiliando na análise do conjunto expressão de genes de St. Jude Leukemia. / With the advent of microarray technology, a large amount of gene expression data is now available. Clustering is the computational technique usually employed to analyze and explore the data produced by microarrays. Due to the variety of information that can be extracted from the expression data, many clustering techniques with different approaches are needed. In the work proposed by (Zhao et. al. 2003a), the dynamical model for data clustering has several interesting features to the clustering task: the number of clusters does not need to be known, the multi-scale property, high parallelism, and it is flexible to use more complex rules while clustering the data. However, two desirable features for clustering techniques are not present: the ability to detect different clusters sizes and shapes, and a hierarchical representation of the clusters. This project presents three techniques, overcoming the restrictions of the dynamical model proposed by (Zhao et. al. 2003a). The first technique, called Model1, is more effective than the original model and was obtained simplifying it. The second technique, called Model2, is capable of detecting different clusters sizes and shapes. The third technique consists in a hierarchical algorithm that uses Model1 as a building block. The techniques here developed were used with biological data. Microarray image segmentation was performed and the St. Jude Leukemia gene expression data was analyzed and explored. Auto-organização Clusterização de dados Expressão de genes Modelos dinâmicos Data clustering Dynamical model Gene expression Self-organizing
12	Clusterização de dados utilizando técnicas de redes complexas e computação bioinspirada / Data clustering based on complex network community detection Tatyana Bitencourt Soares de Oliveira 25 February 2008 (has links) A Clusterização de dados em grupos oferece uma maneira de entender e extrair informações relevantes de grandes conjuntos de dados. A abordagem em relação a aspectos como a representação dos dados e medida de similaridade entre clusters, e a necessidade de ajuste de parâmetros iniciais são as principais diferenças entre os algoritmos de clusterização, influenciando na qualidade da divisão dos clusters. O uso cada vez mais comum de grandes conjuntos de dados aliado à possibilidade de melhoria das técnicas já existentes tornam a clusterização de dados uma área de pesquisa que permite inovações em diferentes campos. Nesse trabalho é feita uma revisão dos métodos de clusterização já existentes, e é descrito um novo método de clusterização de dados baseado na identificação de comunidades em redes complexas e modelos computacionais inspirados biologicamente. A técnica de clusterização proposta é composta por duas etapas: formação da rede usando os dados de entrada; e particionamento dessa rede para obtenção dos clusters. Nessa última etapa, a técnica de otimização por nuvens de partículas é utilizada a fim de identificar os clusters na rede, resultando em um algoritmo de clusterização hierárquico divisivo. Resultados experimentais revelaram como características do método proposto a capacidade de detecção de clusters de formas arbitrárias e a representação de clusters com diferentes níveis de refinamento. / DAta clustering is an important technique to understand and to extract relevant information in large datasets. Data representation and similarity measure adopted, and the need to adjust initial parameters, are the main differences among clustering algorithms, interfering on clusters quality. The crescent use of large datasets and the possibility to improve existing techniques make data clustering a research area that allows innovation in different fields. In this work is made a review of existing data clustering methods, and it is proposed a new data clustering technique based on community dectection on complex networks and bioinspired models. The proposed technique is composed by two steps: network formation to represent input data; and network partitioning to identify clusters. In the last step, particle swarm optimization technique is used to detect clusters, resulting in an hierarchical clustering algorithm. Experimental results reveal two main features of the algorithm: the ability to detect clusters in arbitrary shapes and the ability to generate clusters with different refinement degrees Clusterização de dados Computação bioinspirada Redes complexas Bio-inspired computing Complex network Data clustering
13	Desenvolvimento de algoritmo de clusterização para calorímetro frontal do experimento ALICE no LHC / Development of clustering algorithm for foward calorimeter in the ALICE experiment at the LHC Danilo Anacleto Arruda da Silva 22 September 2014 (has links) O Grande Colisor de Hádrons (Large Hadron Collider - LHC) é um acelerador de prótons e íons pesados localizado no CERN (Conseil Européen pour la Recherche Nucléaire). Em um de seus experimentos, ALICE (A Large Ion Collider Experiment ), está sendo projetado um detector dedicado a explorar os aspectos únicos de colisões núcleo-núcleo. A principal finalidade do ALICE é estudar a formação de um novo estado da matéria, o plasma de quarks e glúon. Para isto devem-se ter medidas precisas de hádrons, elétrons, múons e fótons produzidos em colisões chumbo-chumbo. Assim está sendo proposto um calorímetro frontal (Foward Calorimeter - FoCal) como um upgrade para o ALICE. A função deste calorímetro é o estudo das funções de distribuição de pártons (Partons distribuction Functions - PDF) no regime de pequenos valores do x de Bjorken. Nesta região é esperado que estas PDFs tenham um comportamento não linear devido ao processo de saturação de glúons. Para o estudo desta região é necessária a medida de fótons diretos produzidos na colisão. Estes, por sua vez, ficam mascarados pelo fundo de fótons provenientes do decaimento de píon, o que leva a uma necessidade de suas identificações. Com isto surge a oportunidade para a utilização do método de clusterização que é uma ferramenta de mineração de dados. Este trabalho contribuiu para o desenvolvimento inicial de um algoritmo de clusterização para o calorímetro FoCal. / The Large Hadron Collider (LHC) is a CERN\'s accelerator that collides protons and heavy ions. One of its experiments, ALICE, is building a new detector to explore new aspects of heavy ions collisions. The Alice\'s main goal is to study the formation of quark-gluon plasma (QGP). To do that it\'s necessary to get accurate data on hadrons, electrons, muons and gammas created in lead-lead collision. So, to accomplish that a new calorimeter is in study to scan the foward region of experiment, the Foward Calorimeter (FoCal). It\'s proposed to study Parton Distribution Functions (PDFs) in a regime of very small Bjorken-x, where it is expected that the PDFs evolve non-linearly due to the high gluon densities, a phenomena referred to as gluon saturation.But to do that it\'s required to measure the direct gammas created on collision. These fotons are blended on by fotons descendant of pion. So there\'s a need to separate it from the direct gammas. One way to solve this problem is to use clustering methods (a type of mining data algorithm). This work helped on early stages of development that clustering algorithm. Calorimetria Física de alta energia Métodos de clusterização Calorimetry Clustering method Color glass condensate High energy physics
14	Desambiguação automática de substantivos em corpus do português brasileiro / Word sense disambiguation in Brazilian Portuguese corpus Silva, Viviane Santos da 19 August 2016 (has links) O fenômeno da ambiguidade lexical foi o tópico central desta pesquisa, especialmente no que diz respeito às relações entre acepções de formas gráficas ambíguas e aos padrões de distribuição de acepções de palavras polissêmicas na língua, isto é, de palavras cujas acepções são semanticamente relacionadas. Este trabalho situa-se como uma proposta de interface entre explorações computacionais da ambiguidade lexical, especificamente de processamento de linguagem natural, e investigações de cunho teórico sobre o fenômeno do significado lexical. Partimos das noções de polissemia e de homonímia como correspondentes, respectivamente, ao caso de uma palavra com múltiplas acepções relacionadas e ao de duas (ou mais) palavras cujas formas gráficas coincidem, mas que apresentam acepções não relacionadas sincronicamente. Como objetivo último deste estudo, pretendia-se confirmar se as palavras mais polissêmicas teriam acepções menos uniformemente distribuídas no corpus, apresentando acepções predominantes, que ocorreriam com maior frequência. Para analisar esses aspectos, implementamos um algoritmo de desambiguação lexical, uma versão adaptada do algoritmo de Lesk (Lesk, 1986; Jurafsky & Martin, 2000), escolhido com base nos recursos linguísticos disponíveis para o português. Tendo como hipótese a noção de que palavras mais frequentes na língua tenderiam a ser mais polissêmicas, selecionamos do corpus (Mac-Morpho) aquelas com maiores ocorrências. Considerando-se o interesse em palavras de conteúdo e em casos de ambiguidade mais estritamente em nível semântico, optamos por realizar os testes apresentados neste trabalho apenas para substantivos. Os resultados obtidos com o algoritmo de desambiguação que implementamos superaram o método baseline baseado na heurística da acepção mais frequente: obtivemos 63% de acertos contra 50% do baseline para o total dos dados desambiguados. Esses resultados foram obtidos através do procedimento de desambiguação de pseudo-palavras (formadas ao acaso), utilizado em casos em que não se tem à disposição corpora semanticamente anotados. No entanto, em razão da dependência de inventários fixos de acepções oriundos de dicionários, pesquisamos maneiras alternativas de categorizar as acepções de uma palavra. Tomando como base o trabalho de Sproat & VanSanten (2001), implementamos um método que permite atribuir valores numéricos que atestam o quanto uma palavra se afastou da monossemia dentro de um determinado corpus. Essa medida, cunhada pelos autores do trabalho original como índice de polissemia, baseia-se no agrupamento de palavras co-ocorrentes à palavra-alvo da desambiguação de acordo com suas similaridades contextuais. Propusemos, neste trabalho, o uso de uma segunda medida, mencionada pelos autores apenas como um exemplo das aplicações potenciais do método a serem exploradas: a clusterização de co-ocorrentes com base em similaridades de contextos de uso. Essa segunda medida é obtida de forma que se possa verificar a proximidade entre acepções e a quantidade de acepções que uma palavra exibe no corpus. Alguns aspectos apontados nos resultados indicam o potencial do método de clusterização: os agrupamentos de co-ocorrentes obtidos são ponderados, ressaltando os grupos mais proeminentes de vizinhos da palavra-alvo; o fato de que os agrupamentos aproximam-se uns dos outros por medidas de similaridade contextual, o que pode servir para distinguir tendências homonímicas ou polissêmicas. Como exemplo, temos os clusters obtidos para a palavra produção: um relativo à ideia de produção literária e outro relativo à de produção agrícola. Esses dois clusters apresentaram distanciamento considerável, situando-se na faixa do que seria considerado um caso de polissemia, e apresentaram ambos pesos significativos, isto é, foram compostos por palavras mais relevantes. Identificamos três fatores principais que limitaram as análises a partir dos dados obtidos: o viés político-jornalístico do corpus que utilizamos (Mac-Morpho) e a necessidade de serem feitos mais testes variando os parâmetros de seleção de coocorrentes, uma vez que os parâmetros que utilizamos devem variar para outros corpora e, especialmente, pelo fato de termos realizados poucos testes para definir quais valores utilizaríamos para esses parâmetro, que são decisivos para a quantidade de palavras co-ocorrentes relevantes para os contextos de uso da palavra-alvo. Considerando-se tanto as vantagens quanto as limitações que observamos a partir dos resultados da clusterização, planejamos delinear um método sincrônico (que prescinde da documentação histórica das palavras) e computacional que permita distinguir casos de polissemia e de homonímia de forma mais sistemática e abrangendo uma maior quantidade de dados. Entendemos que um método dessa natureza pode ser de grade valia para os estudos do significado no nível lexical, permitindo o estabelecimento de um método objetivo e baseado em dados de uso da língua que vão além de exemplos pontuais. / The phenomenon of lexical ambiguity was the central topic of this research, especially with regard to relations between meanings of ambiguous graphic forms, and to patterns of distribution of the meanings of polysemous words in the language, that is, of words whose meanings are semantically related. This work is set on the interface between computational explorations of lexical ambiguity, specifically natural language processing, and theoretical investigations on the nature of research on the lexical meaning phenomenon. We assume the notions of polysemy and homonymy as corresponding, respectively, to the case of a word with multiple related meanings, and two (or more) words whose graphic forms coincide, but have unrelated meanings. The ultimate goal of this study was to confirm that the most polysemous words have meanings less evenly distributed in the corpus, with predominant meanings which occur more frequently. To examine these aspects, we implemented a word sense disambiguation algorithm, an adapted version of Lesk algorithm (Lesk, 1986; Jurafsky & Martin, 2000), chosen on the basis of the availability of language resources in Portuguese. From the hypothesis that the most frequent words in the language tend to be more polysemic, we selected from the corpus (Mac-Morpho) those words with the highest number occurrences. Considering our interest in content words and in cases of ambiguity more strictly to the semantic level, we decided to conduct the tests presented in this research only for nouns. The results obtained with the disambiguation algorithm implemented surpassed those of the baseline method based on the heuristics of the most frequent sense: we obtained 63% accuracy against 50% of baseline for all the disambiguated data. These results were obtained with the disambiguation procedure of pseudowords (formed at random), which used in cases where semantically annotated corpora are not available. However, due to the dependence of this disambiguation method on fixed inventories of meanings from dictionaries, we searched for alternative ways of categorizing the meanings of a word. Based on the work of Sproat & VanSanten (2001), we implemented a method for assigning numerical values that indicate how much one word is away from monosemy within a certain corpus. This measure, named by the authors of the original work as polysemy index, groups co-occurring words of the target noun according to their contextual similarities. We proposed in this paper the use of a second measure, mentioned by the authors as an example of the potential applications of the method to be explored: the clustering of the co-occurrent words based on their similarities of contexts of use. This second measurement is obtained so as to show the closeness of meanings and the amount of meanings that a word displays in the corpus. Some aspects pointed out in the results indicate the potential of the clustering method: the obtained co-occurring clusters are weighted, highlighting the most prominent groups of neighbors of the target word; the fact that the clusters aproximate from each other to each other on the basis of contextual similarity measures, which can be used to distinguish homonymic from polysemic trends. As an example, we have the clusters obtained for the word production, one referring to the idea of literary production, and the other referring to the notion of agricultural production. These two clusters exhibited considerable distance, standing in the range of what would be considered a case of polysemy, and both showed significant weights, that is, were composed of significant and distintictive words. We identified three main factors that have limited the analysis of the data: the political-journalistic bias of the corpus we use (Mac-Morpho) and the need for further testing by varying the selection parameters of relevant cooccurent words, since the parameters used shall vary for other corpora, and especially because of the fact that we conducted only a few tests to determine the values for these parameters, which are decisive for the amount of relevant co-occurring words for the target word. Considering both the advantages and the limitations we observe from the results of the clusterization method, we plan to design a synchronous (which dispenses with the historical documentation of the words) and, computational method to distinguish cases of polysemy and homonymy more systematically and covering a larger amount of data. We understand that a method of this nature can be invaluable for studies of the meaning on the lexical level, allowing the establishment of an objective method based on language usage data and, that goes beyond specific examples. Clusterização de contextos de palavras Computational Linguistics Desambiguação Lexical automática Linguística computacional Medidas de polissemia Polysemy index Word sense Disambiguation Word senses clusterization
15	Melhorando o desempenho da técnica de clusterização hierárquica single linkage utilizando a metaheurística GRASP Ribeiro Filho, Napoleão Póvoa 30 March 2016 (has links) O problema de clusterização (agrupamento) consiste em, a partir de uma base de dados, agrupar os elementos de modo que os mais similares fiquem no mesmo cluster (grupo), e os elementos menos similares fiquem em clusters distintos. Há várias maneiras de se realizar esses agrupamentos. Uma das mais populares é a hierárquica, onde é criada uma hierarquia de relacionamentos entre os elementos. Há vários métodos de se analisar a similaridade entre elementos no problema de clusterização. O mais utilizado entre eles é o método single linkage, que agrupa os elementos que apresentarem menor distância entre si. Para se aplicar a técnica em questão, uma matriz de distâncias é a entrada utilizada. Esse processo de agrupamento gera ao final uma árvore invertida conhecida como dendrograma. O coeficiente de correlação cofenética (ccc), obtido após a construção do dendrograma, é utilizado para avaliar a consistência dos agrupamentos gerados e indica o quão fiel o dendrograma está em relação aos dados originais. Dessa forma, um dendrograma apresenta agrupamentos mais consistentes quando o ccc for o mais próximo de um (1) . O problema de clusterização em todas as suas vertentes, inclusive a clusterização hierárquica (objeto de estudo nesse trabalho), pertence a classe de problemas NP-Completo. Assim sendo, é comum o uso de heurísticas para obter soluções de modo eficiente para esse problema. Com o objetivo de gerar dendrogramas que resultem em melhores ccc, é proposto no presente trabalho um novo algoritmo que utiliza os conceitos da metaheurística GRASP. Também é objetivo deste trabalho implementar tal solução em computação paralela em um cluster computacional, permitindo assim trabalhar com matrizes de dimensões maiores. Testes foram realizados para comprovar o desempenho do algoritmo proposto, comparando os resultados obtidos com os gerados pelo software R. / The problem of clustering (grouping) consists of, from a database, group the elements so that more queries are in the same cluster (group) and less similar elements are different clusters. There are several ways to accomplish these groupings. One of the most popular is the hierarchical, where a hierarchical relationships between the elements is created. There are several methods of analyzing the similarity between elements in the clustering problem. The most common among them is the single linkage method, which brings together the elements that are experiencing less apart. To apply the technique in question, distance matrix is the input used. This grouping process generates the end an inverted tree known as dendrogram. The cophenetic correlation coefficient (ccc), obtained after the construction of the dendrogram is a measure used to evaluate the consistency of the clusters generated and indicates how faithful he is in relation to the original data. Thus, a dendrogram gives more consistent clusters when the ccc is closer to one (1). The clustering problem in all its aspects, including hierarchical clustering (object of study in this work), belongs to the class of NP-complete problems. Therefore, it is common to use heuristics for efficient solutions to this problem. In order to generate dendrograms that result in better ccc, it is proposed in this paper a new algorithm that uses the concepts of GRASP metaheuristic. It is also objective of this work to implement such a solution in parallel computing in a computer cluster, thus working with arrays larger. Tests were conducted to confirm the performance of the proposed algorithm, comparing the results with those generated by the software R. GRASP Clusterização Hierárquica Coeficiente de Correlação Cofenética Hierarchical clustering Cophenetic Correlation Coefficient
16	Um sistema híbrido inteligente para previsão de posição de átomos de hidrogênio em proteínas / A hybrid intelligent system for prediction of position of the hydrogen atoms in proteins Mancini, Adauto Luiz 29 April 2008 (has links) Os métodos existentes para a previsão da posição de átomos de hidrogênio em proteínas são todos baseados na simulação computacional de modelos construídos a partir de características físicas e (ou) químicas das moléculas. A abordagem proposta neste trabalho faz uso de técnicas inteligentes para a predição da posição de átomos de hidrogênio contidos em grupos hidroxilas (OH) pertencentes à cadeias laterais dos aminoácidos serina, treonina e tirosina. Estas técnicas inteligentes são utilizadas em duas fases para a solução do problema proposto: o preprocessamento dos dados e a predição da posição do átomo de hidrogênio. Na fase de preprocessamento, informações sobre os padrões de ligações hidrogênio existentes em moléculas de proteínas são extraídas da base PDB (Protein Data Bank) e reunidas em agrupamentos. A base de dados PDB é a principal base internacional que disponibiliza publicamente a estrutura espacial de biomoléculas, principalmente proteínas e ácidos nucléicos, cujas estruturas espacias foram determinadas através de métodos experimentais. Os padrões de ligações hidrogênio obtidos da base de dados são agrupados por similaridade através de um novo algoritimo proposto, o algoritmo de agrupamento por fusão. Este novo algoritmo de agrupamento foi criado com o propósito de tratar dados com distribuição não uniforme, isolando padrões de entrada muito diferentes da média em agrupamento separados. Após o agrupamento, os padrões de ligações hidrogênio contidos em um grupo têm suas estruturas espaciais superpostas (alinhamento das geometrias dos padrões) através de operações espaciais de translação e rotações, coordenadas pelo uso de um algoritmo genético. Na fase de predição, os padrões já superpostos contidos em cada agrupamento gerado, são utilizados para o treinamento de uma rede neural de arquitetura MLP (multi layer perceptron) para a predição da posição do átomo de hidrogênio contido no padrão. Uma parte dos padrões contidos no agrupamento não são usados para o treinamento da rede e reservados para o teste da capacidade da rede neural inferir a posição do hidrogênio após o treinamento. Para cada agrupamento é treinada uma rede individual, de forma que os parâmetros livres da rede neural sejam calibrados para os dados específicos do agrupamento para o qual a rede neural foi treinada. Após diversas alterações de metodogia ao longo dos experimentos computacionais realizados, a nova abordagem proposta mostrouse eficaz, com um bom índice de acerto na predição da posição do hidrogênio após o treino da rede neural, para padrões de ligações hidrogênio previamente superpostos em agrupamentos / The existing methods for the prediction of the position of hydrogen atoms in proteins are all based on computer simulation models constructed from physical and(or) chemical properties of molecules. The approach proposed in this paper makes use of intelligent techniques for clustering the patterns of hydrogen bonds by similarity, these patterns extracted from the spatial structure of protein molecules, recorded in the files of the PDB (Protein Data Bank). A new algorithm, which allows clustering of data with nonuniform distribution was developed for this purpose. To align spatialy these patterns already grouped in a cluster is used a genetic algorithm that rotates the patterns each other in a way to obtain the aligment of them. The prediction of the position of atoms of hydrogen is done by the training of a MLP (multi layer perceptron) neural network that uses as input the data of the patterns of hydrogen bond contained in a given cluster, previously aligned. The new approach proved to be effective, with a good rate of success in the prediction of the position of hydrogen atoms contained in a cluster after training the neural network Clustering Clusterização Hydrogen bond Neural network Pattern recognition Pontes de hidrogênio Posicionamento de hidrogênios Positioning of hydrogens Reconhecimento de padrões Rede neural
17	GeoSocial : um modelo de análise e agrupamento de população de pessoas baseado em hábitos de frequência e semântica de locais Altmayer, Richard Mateus 12 April 2018 (has links) Submitted by JOSIANE SANTOS DE OLIVEIRA (josianeso) on 2018-09-19T16:19:16Z No. of bitstreams: 1 Richard Mateus Altmayer_.pdf: 11624194 bytes, checksum: 033148b21ac20bc09f084ae426e1e45f (MD5) / Made available in DSpace on 2018-09-19T16:19:16Z (GMT). No. of bitstreams: 1 Richard Mateus Altmayer_.pdf: 11624194 bytes, checksum: 033148b21ac20bc09f084ae426e1e45f (MD5) Previous issue date: 2018-04-12 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A utilização de informações sobre comportamento de navegação de usuários na web tem sido amplamente utilizada para traçar perfis comportamentais de usuários com o intuito de oferecer anúncios publicitários por segmentos ou categorias. Nesta mesma linha, hábitos de comportamento baseado em locais que um indivíduo frequenta no seu cotidiano também podem ser analisados. Este trabalho propõe um modelo de agrupamento de indivíduos de uma população para posterior análise de seus hábitos de frequência a locais (GeoSocial). Os padrões de frequência dos grupos formados representam características de comportamento da população e podem ajudar a identificar oportunidades mercadológicas ou auxiliar aos tomadores de decisão ligados ao governo proporem determinadas melhorias/mudanças na infra-estrutura de uma determinada cidade. As informações dos locais de interesse frequentados pelos usuários são capturadas por coordenadas GPS via aplicativo móvel desenvolvido. O aplicativo rastreia e armazena as localidades que o indivíduo frequenta, permite visualizar o seu tempo e locais de permanência e pode conectá-lo à uma rede social formada a partir das similaridades entre seus hábitos e de outros indivíduos. O modelo proposto engloba: i. um módulo de clusterização de usuários que utiliza a técnica Affinity Propagation; ii. um módulo de visualização interativa para análise dos grupos por meio da técnica de Coordenadas Paralelas. O GeoSocial é avaliado mediante a utilização de diferentes cenários, fazendo uso de dados artificiais gerados. A avaliação evidencia o potencial de adaptação do modelo à diferentes objetivos de análise. / Information about user navigation behavior on the web has been widely used to draw user behavioral profiles in order to offer advertisements segmented by categories. In this same line, behavior habits based on places that an individual attends in their daily life can also be analyzed. This paper proposes a clustering model of individuals for further analysis of their habits of frequency in places (GeoSocial). Patterns of the formed groups represent characteristics of population’s behavior and can help to identify market opportunities or to help decision makers linked to government to propose improvements/changes in the infrastructure of a city. Users information about their frequented interest places are captured by GPS coordinates by a mobile app developed. App tracks and storages places that are frequent individuals. It allows visualize their time permanency on places and connect they to a social network formed from the similarities between their habits and the others. The proposed model includes: i. a user clustering module based on Affinity Propagation technique; ii. an interactive visualization module to analyze individual data correlation of groups based on Parallel Coordinates technique. GeoSocial is evaluated by different scenarios, making use of artificial data generated. Evaluation indicates the possibility of the model to a multitude of objectives. Parallel coordinates Análise visual Coordenadas paralelas Clusterização Rede social Visual analytics Clustering Social network
18	Estudo do risco sistêmico em redes interbancárias pela abordagem de sistemas complexos / Systemic risk study in interbank networks by complex systems approach Dias, Eduardo de Souza 25 November 2015 (has links) O estudo econômico e financeiro vem se modificando e buscando novas metodologias. Desde a crise que se iniciou com os \"subprimes\" nos Estados Unidos em 2008 e se espalhou para as economias de todo o mundo, novas discussões de como ela poderia ter sido evitada e qual caminho deveriam os países seguir para sair da estagnação já surgem no mundo acadêmico em direção ao estudo da complexidade. Em termos econômicos, algumas críticas feitas ao estudo da economia tradicional, principalmente atribuídas ao excesso de restrições utilizados nos modelos, podem ser agora afrouxadas, uma a uma, através de modelagens baseadas em agentes. Já no entendimento e controle do risco financeiro, redes complexas prestam fundamental distinção. Os modelos até então utilizados para controle de riscos no mercado financeiro não levam em consideração o risco global, porém apenas o risco local. Muitas teorias sobre a diminuição do risco através da diversificação são aceitas e realmente produzem sistemas mais estáveis, porém com pouca resiliência, ou seja, o número de crises diminui, porém as que ocorrem são muito mais graves. Este trabalho sugeriu um modelo baseado em agentes, onde um sistema econômico simples foi construído, para ser capaz de gerar crises. Este modelo formado por firmas e demanda estocástica, utiliza bancos para simular o mercado financeiro. Tais bancos estão conectados entre si através de uma rede interbancária. Para testar os efeitos de risco sistêmico, foram realizados três testes. No primeiro aumentou-se a alavancagem máxima permitida e os bancos conseguiram obter mais lucro e maior crescimento, porém a partir de certo patamar o sistema entrou em colapso, com frequente crises. No segundo aumentou-se a conectividade média e os bancos também obtiveram maior lucro, porém com crises muito mais profundas. No aumento do índice de cluster da rede interbancária, assim como nos dois primeiros testes os bancos conseguiram maior crescimento, porém agora sem os mesmos efeitos indesejáveis causados pelo aumento do risco. / Economic and financial studies have been changing and searching new methodologies. Since the 2008 subprime crisis, which spread into economies around the globe, new discussions on how it could have been prevented, and paths which countries should follow to emerge from stagflation have been discussed by the academic world towards the complexity subject. In economic terms, some of the criticism of neoclassic economics, mainly due to excessive constrains used by its models, can now be eased, one by one, through agent based modeling. Regarding financial risk understanding and control, complex networks assume fundamental distinction. Models applied so far in financial market risk control dont consider global risk, but only the local one. Many theories on risk diversification are accepted and indeed produce more stable systems, although with little resilience, which means smaller number of crisis, but when it does occur, are more serious ones. This paper suggested an agent based model, using a simple economic system capable of generating crisis. This model was constituted by firms and stochastic demand, using banks to simulate the financial market. These banks were connected though a banking network. In order to test systemic risk, the model performed three tests. First, the maximum leverage allowed was increased and banks were able to achieve higher profits and growth, but from a certain level, the system collapsed with frequent crisis. Second, the average connectivity was increased and banks obtained higher profits, however with more severe crisis. Finally, increasing banking network cluster index, similarly to the first two tests, banks achieved higher growth, but without the undesirable effects caused by risk increase. Abordagem complexa Clustering Clusterização Complex approach Complex networks New methodologies Novas metodologias Redes complexas Risco sistêmico Systemic risk
19	Um modelo dinâmico de clusterização de dados aplicado na detecção de intrusão Furukawa, Rogério Akiyoshi 25 April 2003 (has links) Atualmente, a segurança computacional vem se tornando cada vez mais necessária devido ao grande crescimento das estatísticas que relatam os crimes computacionais. Uma das ferramentas utilizadas para aumentar o nível de segurança é conhecida como Sistemas de Detecção de Intrusão (SDI). A flexibilidade e usabilidade destes sistemas têm contribuído, consideravelmente, para o aumento da proteção dos ambientes computacionais. Como grande parte das intrusões seguem padrões bem definidos de comportamento em uma rede de computadores, as técnicas de classificação e clusterização de dados tendem a ser muito apropriadas para a obtenção de uma forma eficaz de resolver este tipo de problema. Neste trabalho será apresentado um modelo dinâmico de clusterização baseado em um mecanismo de movimentação dos dados. Apesar de ser uma técnica de clusterização de dados aplicável a qualquer tipo de dados, neste trabalho, este modelo será utilizado para a detecção de intrusão. A técnica apresentada neste trabalho obteve resultados de clusterização comparáveis com técnicas tradicionais. Além disso, a técnica proposta possui algumas vantagens sobre as técnicas tradicionais investigadas, como realização de clusterizações multi-escala e não necessidade de determinação do número inicial de clusters / Nowadays, the computational security is becoming more and more necessary due to the large growth of the statistics that describe computer crimes. One of the tools used to increase the safety level is named Intrusion Detection Systems (IDS). The flexibility and usability of these systems have contributed, considerably, to increase the protection of computational environments. As large part of the intrusions follows behavior patterns very well defined in a computers network, techniques for data classification and clustering tend to be very appropriate to obtain an effective solutions to this problem. In this work, a dynamic clustering model based on a data movement mechanism are presented. In spite of a clustering technique applicable to any data type, in this work, this model will be applied to the detection intrusion. The technique presented in this work obtained clustering results comparable to those obtained by traditional techniques. Besides the proposed technique presents some advantages on the traditional techniques investigated, like multi-resolution clustering and no need to previously know the number of clusters Análise dos componentes principais Clusterização de dados Data clustering Intrusion detection systems Principal analisys component Sistemas de detecção de intrusão
20	Desambiguação automática de substantivos em corpus do português brasileiro / Word sense disambiguation in Brazilian Portuguese corpus Viviane Santos da Silva 19 August 2016 (has links) O fenômeno da ambiguidade lexical foi o tópico central desta pesquisa, especialmente no que diz respeito às relações entre acepções de formas gráficas ambíguas e aos padrões de distribuição de acepções de palavras polissêmicas na língua, isto é, de palavras cujas acepções são semanticamente relacionadas. Este trabalho situa-se como uma proposta de interface entre explorações computacionais da ambiguidade lexical, especificamente de processamento de linguagem natural, e investigações de cunho teórico sobre o fenômeno do significado lexical. Partimos das noções de polissemia e de homonímia como correspondentes, respectivamente, ao caso de uma palavra com múltiplas acepções relacionadas e ao de duas (ou mais) palavras cujas formas gráficas coincidem, mas que apresentam acepções não relacionadas sincronicamente. Como objetivo último deste estudo, pretendia-se confirmar se as palavras mais polissêmicas teriam acepções menos uniformemente distribuídas no corpus, apresentando acepções predominantes, que ocorreriam com maior frequência. Para analisar esses aspectos, implementamos um algoritmo de desambiguação lexical, uma versão adaptada do algoritmo de Lesk (Lesk, 1986; Jurafsky & Martin, 2000), escolhido com base nos recursos linguísticos disponíveis para o português. Tendo como hipótese a noção de que palavras mais frequentes na língua tenderiam a ser mais polissêmicas, selecionamos do corpus (Mac-Morpho) aquelas com maiores ocorrências. Considerando-se o interesse em palavras de conteúdo e em casos de ambiguidade mais estritamente em nível semântico, optamos por realizar os testes apresentados neste trabalho apenas para substantivos. Os resultados obtidos com o algoritmo de desambiguação que implementamos superaram o método baseline baseado na heurística da acepção mais frequente: obtivemos 63% de acertos contra 50% do baseline para o total dos dados desambiguados. Esses resultados foram obtidos através do procedimento de desambiguação de pseudo-palavras (formadas ao acaso), utilizado em casos em que não se tem à disposição corpora semanticamente anotados. No entanto, em razão da dependência de inventários fixos de acepções oriundos de dicionários, pesquisamos maneiras alternativas de categorizar as acepções de uma palavra. Tomando como base o trabalho de Sproat & VanSanten (2001), implementamos um método que permite atribuir valores numéricos que atestam o quanto uma palavra se afastou da monossemia dentro de um determinado corpus. Essa medida, cunhada pelos autores do trabalho original como índice de polissemia, baseia-se no agrupamento de palavras co-ocorrentes à palavra-alvo da desambiguação de acordo com suas similaridades contextuais. Propusemos, neste trabalho, o uso de uma segunda medida, mencionada pelos autores apenas como um exemplo das aplicações potenciais do método a serem exploradas: a clusterização de co-ocorrentes com base em similaridades de contextos de uso. Essa segunda medida é obtida de forma que se possa verificar a proximidade entre acepções e a quantidade de acepções que uma palavra exibe no corpus. Alguns aspectos apontados nos resultados indicam o potencial do método de clusterização: os agrupamentos de co-ocorrentes obtidos são ponderados, ressaltando os grupos mais proeminentes de vizinhos da palavra-alvo; o fato de que os agrupamentos aproximam-se uns dos outros por medidas de similaridade contextual, o que pode servir para distinguir tendências homonímicas ou polissêmicas. Como exemplo, temos os clusters obtidos para a palavra produção: um relativo à ideia de produção literária e outro relativo à de produção agrícola. Esses dois clusters apresentaram distanciamento considerável, situando-se na faixa do que seria considerado um caso de polissemia, e apresentaram ambos pesos significativos, isto é, foram compostos por palavras mais relevantes. Identificamos três fatores principais que limitaram as análises a partir dos dados obtidos: o viés político-jornalístico do corpus que utilizamos (Mac-Morpho) e a necessidade de serem feitos mais testes variando os parâmetros de seleção de coocorrentes, uma vez que os parâmetros que utilizamos devem variar para outros corpora e, especialmente, pelo fato de termos realizados poucos testes para definir quais valores utilizaríamos para esses parâmetro, que são decisivos para a quantidade de palavras co-ocorrentes relevantes para os contextos de uso da palavra-alvo. Considerando-se tanto as vantagens quanto as limitações que observamos a partir dos resultados da clusterização, planejamos delinear um método sincrônico (que prescinde da documentação histórica das palavras) e computacional que permita distinguir casos de polissemia e de homonímia de forma mais sistemática e abrangendo uma maior quantidade de dados. Entendemos que um método dessa natureza pode ser de grade valia para os estudos do significado no nível lexical, permitindo o estabelecimento de um método objetivo e baseado em dados de uso da língua que vão além de exemplos pontuais. / The phenomenon of lexical ambiguity was the central topic of this research, especially with regard to relations between meanings of ambiguous graphic forms, and to patterns of distribution of the meanings of polysemous words in the language, that is, of words whose meanings are semantically related. This work is set on the interface between computational explorations of lexical ambiguity, specifically natural language processing, and theoretical investigations on the nature of research on the lexical meaning phenomenon. We assume the notions of polysemy and homonymy as corresponding, respectively, to the case of a word with multiple related meanings, and two (or more) words whose graphic forms coincide, but have unrelated meanings. The ultimate goal of this study was to confirm that the most polysemous words have meanings less evenly distributed in the corpus, with predominant meanings which occur more frequently. To examine these aspects, we implemented a word sense disambiguation algorithm, an adapted version of Lesk algorithm (Lesk, 1986; Jurafsky & Martin, 2000), chosen on the basis of the availability of language resources in Portuguese. From the hypothesis that the most frequent words in the language tend to be more polysemic, we selected from the corpus (Mac-Morpho) those words with the highest number occurrences. Considering our interest in content words and in cases of ambiguity more strictly to the semantic level, we decided to conduct the tests presented in this research only for nouns. The results obtained with the disambiguation algorithm implemented surpassed those of the baseline method based on the heuristics of the most frequent sense: we obtained 63% accuracy against 50% of baseline for all the disambiguated data. These results were obtained with the disambiguation procedure of pseudowords (formed at random), which used in cases where semantically annotated corpora are not available. However, due to the dependence of this disambiguation method on fixed inventories of meanings from dictionaries, we searched for alternative ways of categorizing the meanings of a word. Based on the work of Sproat & VanSanten (2001), we implemented a method for assigning numerical values that indicate how much one word is away from monosemy within a certain corpus. This measure, named by the authors of the original work as polysemy index, groups co-occurring words of the target noun according to their contextual similarities. We proposed in this paper the use of a second measure, mentioned by the authors as an example of the potential applications of the method to be explored: the clustering of the co-occurrent words based on their similarities of contexts of use. This second measurement is obtained so as to show the closeness of meanings and the amount of meanings that a word displays in the corpus. Some aspects pointed out in the results indicate the potential of the clustering method: the obtained co-occurring clusters are weighted, highlighting the most prominent groups of neighbors of the target word; the fact that the clusters aproximate from each other to each other on the basis of contextual similarity measures, which can be used to distinguish homonymic from polysemic trends. As an example, we have the clusters obtained for the word production, one referring to the idea of literary production, and the other referring to the notion of agricultural production. These two clusters exhibited considerable distance, standing in the range of what would be considered a case of polysemy, and both showed significant weights, that is, were composed of significant and distintictive words. We identified three main factors that have limited the analysis of the data: the political-journalistic bias of the corpus we use (Mac-Morpho) and the need for further testing by varying the selection parameters of relevant cooccurent words, since the parameters used shall vary for other corpora, and especially because of the fact that we conducted only a few tests to determine the values for these parameters, which are decisive for the amount of relevant co-occurring words for the target word. Considering both the advantages and the limitations we observe from the results of the clusterization method, we plan to design a synchronous (which dispenses with the historical documentation of the words) and, computational method to distinguish cases of polysemy and homonymy more systematically and covering a larger amount of data. We understand that a method of this nature can be invaluable for studies of the meaning on the lexical level, allowing the establishment of an objective method based on language usage data and, that goes beyond specific examples. Clusterização de contextos de palavras Desambiguação Lexical automática Linguística computacional Medidas de polissemia Computational Linguistics Polysemy index Word sense Disambiguation Word senses clusterization

Search results