261 |
Análise de Algoritmos de Agrupamento para Base de Dados Textuais / Analysis of the Clustering Algorithms for the DatabasesLuiz Gonzaga Paula de Almeida 31 August 2008 (has links)
O volume crescente de textos digitalmente armazenados torna necessária a construção de ferramentas computacionais que permitam a organização e o acesso eficaz e eficiente à informação e ao conhecimento nele contidos. No campo do conhecimento da biomedicina este problema se torna extremamente relevante, pois a maior parte do conhecimento gerado é formalizada através de artigos científicos e é necessário que o acesso a estes seja o mais fácil e rápido possível.
A área de pesquisa conhecida como Mineração de Textos (do inglês Text Mining), se propõe a enfrentar este problema ao procurar identificar novas informações e conhecimentos até então desconhecidos, em bases de dados textuais. Uma de suas tarefas é a descoberta de grupos de textos correlatos em base de dados textuais e esse problema é conhecido como agrupamento de textos (do inglês Text Clustering). Para este fim, a representação das bases de dados textuais comumente utilizada no agrupamento de textos é o Modelo Espaço-vetorial, no qual cada texto é representado por um vetor de características, que são as freqüências das palavras ou termos que nele ocorrem. O conjunto de vetores forma uma matriz denominada de documento-termo, que é esparsa e de alta dimensionalidade. Para atenuar os problemas decorrentes dessas características, normalmente é selecionado um subconjunto de termos, construindo-se assim uma nova matriz documento-termo com um número reduzido de dimensões que é então utilizada nos algoritmos de agrupamento.
Este trabalho se desdobra em: i) introdução e implementação de dois algoritmos para seleção de termos e ii) avaliação dos algoritmos k-means, espectral e de particionamento de grafos, em cinco base de dados de textos previamente classificadas. As bases de dados são pré-processadas através de métodos descritos na literatura, produzindo-se as matrizes documento-termo. Os resultados indicam que os algoritmos de seleção propostos, para a redução das matrizes documento-termo, melhoram o desempenho dos algoritmos de agrupamento avaliados. Os algoritmos k-means e espectral têm um desempenho superior ao algoritmos de particionamento de grafos no agrupamento de bases de dados textuais, com ou sem a seleção de características. / The increasing amount of digitally stored texts makes necessary the development of computational tools to allow the access of information and knowledge in an efficient and efficacious manner. This problem is extremely relevant in biomedicine research, since most of the generated knowledge is translated into scientific articles and it is necessary to have the most easy and fast access.
The research field known as Text Mining deals with the problem of identifying new information and knowledge in text databases. One of its tasks is to find in databases groups of texts that are correlated, an issue known as text clustering. To allow clustering, text databases must be transformed into the commonly used Vector Space Model, in which texts are represented by vectors composed by the frequency of occurrence of words and terms present in the databases. The set of vectors composing a matrix named document-term is usually sparse with high dimension. Normally, to attenuate the problems caused by these features, a subset of terms is selected, thus giving rise a new document-term matrix with reduced dimensions, which is then used by clustering algorithms.
This work presents two algorithms for terms selection and the evaluation of clustering algorithms: k-means, spectral and graph portioning, in five pre-classified databases. The databases were pre-processed by previously described methods. The results indicate that the term selection algorithms implemented increased the performance of the clustering algorithms used and that the k-means and spectral algorithms outperformed the graph portioning.
|
262 |
ANATOMIA DO LENHO DE ESPÉCIES DE EUPHORBIACEAE NATIVAS E CULTIVADAS NO RIO GRANDE DO SUL / WOOD ANATOMY OF EUPHORBIACEAE SPECIES NATIVES AND CULTURED IN RIO GRANDE DO SUL STATESiegloch, Anelise Marta 11 February 2014 (has links)
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The family Euphorbiaceae sensu lato is distributed specially in the tropics, in various
types of vegetation and habitats, being one of the largest, most complex and diverse
Angiosperm families. Recently, it was divided in four botanical families: Euphorbiaceae
sensu stricto, Phyllanthaceae, Picrodendraceae and Putranjivaceae. The present study aims to
provide important information about the anatomical characters of taxonomic, ecological and
phylogenetic value to the species and genera involved, as well as recognize the affinity of
anatomical groups, comparing the result to anatomical literature of Rio Grande do Sul state,
increasing the list of described species. To obtain cutting blades and macerate, respectively
was used in the standard technique (BURGER; RICHTER, 1991) and the method of Franklin
modified (KRAUS; ARDUIN, 1997). The wood samples are from Departamento de Ciências
Florestais (UFSM). The descriptions of the seven species followed the IAWA Committee
(1989). Cluster analysis on the species described in the present study over nine other species
of Euphorbiaceae and Phyllanthaceae, occurring naturally in the Rio Grande do Sul state,
described in the literature were used. This analysis was performed in order to collate and
compare the species. Two major groups were recognized, the first one, represented by
Hieronyma alchorneoides, and the other species investigated, the species most similar to each
other were the Croton dracunculoides and Croton pycnocephalus and Euphorbia tirucalli and
Euphorbia cotinifolia, the genus Sebastiania were very heterogeneous because groups
together not formed. / A família Euphorbiaceae sensu lato distribui-se especialmente nos trópicos, nos mais
variados tipos de vegetação e habitats, sendo uma das maiores, mais complexas e
diversificadas famílias de Angiospermas. Recentemente, as Euphorbiaceae foram divididas
em quatro famílias botânicas: Euphorbiaceae sensu stricto, Phyllanthaceae, Picrodendraceae e
Putranjivaceae. O estudo visa a fornecer informações a respeito de caracteres anatômicos de
valor taxonômico, aspectos ecológicos e filogenéticos das espécies e gêneros envolvidos, bem
como a formar grupos de afinidades anatômicas, comparar as espécies, e contribuir com a
literatura anatômica do Rio Grande do Sul, aumentando o rol de espécies descritas. Para a
obtenção de lâminas de corte e de macerado utilizou-se respectivamente a técnica padrão
(BURGER; RICHTER, 1991) e o método de Franklin modificado (KRAUS; ARDUIN,
1997). As amostras de madeira são provenientes da Xiloteca do Departamento de Ciências
Florestais (UFSM). As descrições de sete espécies de Euphorbiaceae seguiram as
recomendações do IAWA Committee (1989). Na análise de Cluster foram utilizadas as
espécies descritas no presente estudo mais outras nove espécies de Euphorbiaceae e
Phyllanthaceae, ocorrentes de forma natural no RS, descritas na literatura. Esta análise foi
processada com a finalidade de agrupar e comparar as espécies. Dois grandes grupos foram
reconhecidos: o primeiro representado por Hieronyma alchorneoides, e o segundo pelas
demais espécies investigadas. As espécies mais similares entre si foram, de um lado, Croton
dracunculoides e Croton pycnocephalus, e, de outro lado, as Euphorbia tirucalli e Euphorbia
cotinifolia. O gênero Sebastiania mostrou-se heterogêneo, pois não formou grupos entre si.
|
263 |
ASAClu: selecionando clusters diversos e relevantes / ASAClu: selecting diverse and relevant clusterAlmeida, João Luís Baptista de 12 December 2016 (has links)
Submitted by Milena Rubi (milenarubi@ufscar.br) on 2017-06-01T14:49:32Z
No. of bitstreams: 1
ALMEIDA_Joao_Luis_2016.pdf: 13657258 bytes, checksum: b3cd9343dca74172bcfacefc51527822 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-06-01T14:49:44Z (GMT) No. of bitstreams: 1
ALMEIDA_Joao_Luis_2016.pdf: 13657258 bytes, checksum: b3cd9343dca74172bcfacefc51527822 (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-06-01T14:49:51Z (GMT) No. of bitstreams: 1
ALMEIDA_Joao_Luis_2016.pdf: 13657258 bytes, checksum: b3cd9343dca74172bcfacefc51527822 (MD5) / Made available in DSpace on 2017-06-01T14:49:58Z (GMT). No. of bitstreams: 1
ALMEIDA_Joao_Luis_2016.pdf: 13657258 bytes, checksum: b3cd9343dca74172bcfacefc51527822 (MD5)
Previous issue date: 2016-12-12 / Não recebi financiamento / No clustering algorithm is guaranteed to find actual groups in any dataset. To deal with this problem, many techniques apply various clustering algorithms to a dataset, generating a set of partitions and assessing them to select the most appropriated ones. The problem in selecting partitions is that redundancy can be seen inside partitions, as the same cluster can appear in different partitions. Also, one can underestimate the quality of a cluster, assessing only the quality of a partition. For these reasons, a new selection strategy named ASAClu is aimed at selecting a relevant and diverse subset of clusters instead of partitions, given an initial collection. / Nenhum algoritmo de agrupamento garante encontrar grupos reais em qualquer conjunto de dados. Para lidar com esse problema, muitas técnicas aplicam vários algoritmos de agrupamento a um conjunto de dados, gerando um conjunto de partições e avaliando-as para selecionar as mais apropriadas. O problema na seleção de partições é que a redundância pode ser vista dentro de partições, como o mesmo cluster pode aparecer em diferentes partições. Além disso, pode-se subestimar a qualidade de um clusters, avaliando apenas a qualidade de uma partição. Neste trabalho, é proposta uma nova estratégia de seleção chamada ASAClu, que visa selecionar um subconjunto relevante e diverso de cluster em vez de partições, dada uma coleção inicial.
|
264 |
Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados / Optimization of Density-Based Spatial Clustering Algorithms Applied to Large Data SetsDaniel, Guilherme Priólli [UNESP] 12 August 2016 (has links)
Submitted by Guilherme Priólli Daniel (gui.computacao@yahoo.com.br) on 2016-09-06T13:30:29Z
No. of bitstreams: 1
Dissertação_final.pdf: 2456534 bytes, checksum: 4d2279141f7c034de1e4e4e261805db8 (MD5) / Approved for entry into archive by Juliano Benedito Ferreira (julianoferreira@reitoria.unesp.br) on 2016-09-09T17:54:56Z (GMT) No. of bitstreams: 1
daniel_gp_me_sjrp.pdf: 2456534 bytes, checksum: 4d2279141f7c034de1e4e4e261805db8 (MD5) / Made available in DSpace on 2016-09-09T17:54:56Z (GMT). No. of bitstreams: 1
daniel_gp_me_sjrp.pdf: 2456534 bytes, checksum: 4d2279141f7c034de1e4e4e261805db8 (MD5)
Previous issue date: 2016-08-12 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / A quantidade de dados gerenciados por serviços Web de grande escala tem crescido significantemente e passaram a ser chamados de Big Data. Esses conjuntos de dados podem ser definidos como um grande volume de dados complexos provenientes de múltiplas fontes que ultrapassam a capacidade de armazenamento e processamento dos computadores atuais. Dentro desses conjuntos, estima-se que 80% dos dados possuem associação com alguma posição espacial. Os dados espaciais são mais complexos e demandam mais tempo de processamento que os dados alfanuméricos. Nesse sentido, as técnicas de MapReduce e sua implementação têm sido utilizadas a fim de retornar resultados em tempo hábil com a paralelização dos algoritmos de prospecção de dados. Portanto, o presente trabalho propõe dois algoritmos de agrupamento espacial baseado em densidade: o VDBSCAN-MR e o OVDBSCAN-MR. Ambos os algoritmos utilizam técnicas de processamento distribuído e escalável baseadas no modelo de programação MapReduce com intuito de otimizar o desempenho e permitir a análise em conjuntos Big Data. Por meio dos experimentos realizados foi possível verificar que os algoritmos desenvolvidos apresentaram melhor qualidade nos agrupamentos encontrados em comparação com os algoritmos tomados como base. Além disso, o VDBSCAN-MR obteve um melhor desempenho que o algoritmo sequencial e suportou a aplicação em grandes conjuntos de dados espaciais. / The amount of data managed by large-scale Web services has increased significantly and it arise to the status of Big Data. These data sets can be defined as a large volume of complex data from multiple data sources exceeding the storage and processing capacity of current computers. In such data sets, about 80% of the data is associated with some spatial position. Spatial data is even more complex and require more processing time than what would be required for alphanumeric data. In that sense, MapReduce techniques and their implementation have returned results timely with parallelization of data mining algorithms and could apply for Big Data sets. Therefore, this work develops two density-based spatial clustering algorithms: VDBSCAN-MR and OVDBSCAN-MR. Both algorithms use distributed and scalable processing techniques based on the MapReduce programming model in order to optimize performance and enable Big Data analysis. Throughout experimentation, we observed that the developed algorithms have better quality clusters compared to the base algorithms. Furthermore, VDBSCAN-MR achieved a better performance than the original sequential algorithm and it supported the application on large spatial data sets.
|
265 |
Aplicação do processo de descoberta de conhecimento em banco de dados acadêmico utilizando as tarefas de agrupamento e classificação / Applying the knowledge discovery process in academic databases using clustering and classification tasksAsseiss, Maraísa da Silva Guerra [UNESP] 30 June 2017 (has links)
Submitted by MARAÍSA DA SILVA GUERRA null (maraisa.guerra@ifms.edu.br) on 2017-07-29T00:12:01Z
No. of bitstreams: 1
relatorio.pdf: 8678616 bytes, checksum: 003c94cceff80c4879b62a63399f0ff9 (MD5) / Approved for entry into archive by Luiz Galeffi (luizgaleffi@gmail.com) on 2017-08-03T14:47:26Z (GMT) No. of bitstreams: 1
asseiss_msg_me_ilha.pdf: 8678616 bytes, checksum: 003c94cceff80c4879b62a63399f0ff9 (MD5) / Made available in DSpace on 2017-08-03T14:47:26Z (GMT). No. of bitstreams: 1
asseiss_msg_me_ilha.pdf: 8678616 bytes, checksum: 003c94cceff80c4879b62a63399f0ff9 (MD5)
Previous issue date: 2017-06-30 / Nos últimos anos a quantidade de dados armazenados diarimente em empresas e instituições aumentou consideravelmente e um dos motivos que contribuiu para isso é a crescente importân- cia dada à informação. De forma geral, esses dados são meramente armazenados e, portanto, subutilizados pelos seus detentores, enquanto poderiam ser estudados a fim de obter novos co- nhecimentos, informações e relacionamentos. Neste contexto, surge o processo de descoberta de conhecimento em banco de dados. Este trabalho apresenta uma introdução a banco de dados, uma revisão bibliográfica sobre o processo de descoberta de conhecimento em banco de dados, a descrição de cada etapa deste processo, uma explanação sobre as tarefas de agrupamento e classificação, além de resumir brevemente as técnicas de particionamento e árvore de decisão. É exposto um estudo sobre o sistema Weka, em que apresenta-se conceitos, funcionalidades e exemplifica-se diversas formas de utilização do sistema. O objetivo principal deste trabalho é propor uma metodologia para descoberta de novos conhecimentos em bancos de dados acadê- micos baseada no processo de descoberta de conhecimento em banco de dados, sendo esta uma metodologia mais simplificada e de execução mais direcionada. Como parte da metodologia este trabalho contribui ainda com uma aplicação desenvolvida em Python como forma de apoio a etapas da metodologia. A metodologia proposta conta com a ferramenta Weka para execução dos algoritmos de data mining e prevê a execução das tarefas de agrupamento e classifica- ção. Por fim o trabalho retrata dois estudos de caso envolvendo bancos de dados acadêmicos reais e a execução de todas as etapas da metodologia proposta, com a utilização do sistema Weka. Os estudos de caso abordam as tarefas de agrupamento e classificação e as técnicas de particionamento e árvores de decisão, com a utilização dos algoritmos SimpleKMeans e J4.8, respectivamente. Os resultados obtidos através dos estudos mostram que a metodologia pro- posta é capaz de gerar conhecimentos novos e úteis, tanto na análise de dados de desempenho acadêmico quanto na análise de dados socioeconômicos dos alunos. / In the past years the amount of data stored daily in companies increased considerably and one of the reasons that contributed to this fact is the increasing importance given to information. In general these data are merely stored and therefore underused by its owners, while they could be studied in order to find out new knowledge, information and relationship. In this context, the knowledge discovery in database process arises. This work presents an introduction to databa- ses, a bibliographic review about the knowledge discovery in databases process, a description of each step of this process, an explanation about the clustering and classification tasks and the summarization os the partition and decision tree techniques. A study of the Weka system is shown, in wich are presented concepts, functionalities and examples of use forms for the sys- tem. The main objective of this work is the proposal of a methodology for knowledge discovery in academic databases based on the KDD process. The presented methodology is a more sim- plified and directed version of the KDD. As part of the methodology this work also presents an application developed in Python programming language as a support tool for the methodology steps. The presented methodology uses the Weka tool for running the data mining algorithms and considers the clustering and classification tasks. Lastly this work describes two case stu- dies involving real academic databases and the execution of all the steps from the proposted methodology using the Weka system. The case studies addresses the clustering and classifica- tion tasks, as well as the partitioning and decision trees techniques, using the SimpleKMeans and J4.8 algorithms respectively. The obtained results show that the methodology is capable of generating new and useful knowledge, both by analyzing academic performance data and by analyzing students’ socioeconomic data.
|
266 |
Impacto socioeconômico dos royalties do petróleo nos municípios do estado do Rio de Janeiro / The socioeconomic impact of oil royalties in the municipalities of the state of Rio de JaneiroGuilherme Soares Dantas 15 March 2010 (has links)
Os royalties de petróleo têm ganhado notoriedade nos últimos anos pelo crescimento das atividades petrolíferas no país, as mudanças nas leis, preços do petróleo e transferência e aplicação de recursos nos Municípios para seu desenvolvimento socioeconômico. Esta pesquisa busca identificar mudanças em indicadores socioeconômicos em Municípios do estado do Rio de Janeiro através de análise temporal de variáveis que indiquem uma relação da evolução socioeconômica dos Municípios com os royalties de petróleo. Para testar esta hipótese, foi feita uma análise de agrupamento dos Municípios do estado do Rio de Janeiro utilizando as variáveis IDH (Índice de Desenvolvimento Humano), PIB (Produto Interno Bruto) e população, sendo todas as variáveis apresentando valores do ano 2000. Com a determinação do número de grupos, foram escolhidos dois Municípios de cada grupo sob a condição de maior arrecadador de royalties e não arrecadador de royalties e analisados entre os anos 2003 e 2006 para verificar a possível mudança de indicadores socioeconômicos neste período e possível relação desta mudança com royalties de petróleo. / The oil royalties have gained notoriety in recent years by the growth of oil activities in the country, changes in the legislation, oil prices and the transfer and application of resources in the municipalities for their socioeconomic development. The purpose of this research is to indentify changes in the socioeconomic indicators of municipalities of state of Rio de Janeiro through temporal analysis of variables that indicate a relationship between the socioeconomic development of municipalities and the royalties from oil. To test this hypothesis, we performed a cluster analysis on municipalities of Rio de Janeiro state using variables IHD (Index of Human Development), GDP (Gross Domestic Product) and population, and all the variables are related to the year 2000. Upon determination of the number of groups, the first was the received the largest amount of royalties, and the second did not received royalties at all. They were analyzed from 2003 to 2006 in order to investigate changes in the socioeconomic indicators, and if those changes had to do with oil royalties.
|
267 |
Influ?ncia de subregi?es do Atl?ntico Tropical na precipita??o no leste do Nordeste brasileiroAmorim, Ana Cleide Bezerra 17 June 2016 (has links)
Submitted by Automa??o e Estat?stica (sst@bczm.ufrn.br) on 2017-01-10T15:56:02Z
No. of bitstreams: 1
AnaCleideBezerraAmorim_TESE.pdf: 7804361 bytes, checksum: 0824ff0d18d6061e7f127bf506168647 (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2017-01-12T11:00:10Z (GMT) No. of bitstreams: 1
AnaCleideBezerraAmorim_TESE.pdf: 7804361 bytes, checksum: 0824ff0d18d6061e7f127bf506168647 (MD5) / Made available in DSpace on 2017-01-12T11:00:10Z (GMT). No. of bitstreams: 1
AnaCleideBezerraAmorim_TESE.pdf: 7804361 bytes, checksum: 0824ff0d18d6061e7f127bf506168647 (MD5)
Previous issue date: 2016-06-17 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior (CAPES) / Neste estudo identificou-se a influ?ncia de ?reas de Temperatura da Superf?cie do Mar (TSM) semelhantes do Oceano Atl?ntico Tropical na precipita??o no norte do leste do Nordeste do Brasil (NLNEB). Dados da rede hidrometeorol?gica da Ag?ncia Nacional de ?guas validaram um produto da Universidade de Delaware cobrindo um per?odo de 1900 a 2008. Utilizaram-se dados de TSM mensal do NOAA - Extended Reconstructed Sea Surface Temperature V3b (NOAA_ERSST_V3) para as ?reas do Atl?ntico e Pac?fico entre as latitudes de 40?N e 40?S. Consideraram-se tr?s ambientes de grande escala: Presen?a de El Ni?o no Pac?fico e diferen?a positiva entre anomalias de TSM sobre as ?reas Norte (5 - 20?N, 60-30?W) e Sul (0-20?S, 30?W-10?E) do oceano Atl?ntico Tropical (ambiente desfavor?vel); Presen?a de La Ni?a no Pac?fico e diferen?a negativa entre as anomalias de TSM sobre as ?reas Norte (5 - 20?N, 60-30?W) e Sul (0-20?S, 30?W-10?E) do oceano Atl?ntico Tropical (ambiente favor?vel); Aus?ncia de El Ni?o e La Ni?a, assim como aus?ncia de anomalias de TSM sobre as ?reas Norte (5 - 20?N, 60-30?W) e Sul (0-20?S, 30?W-10?E) do oceano Atl?ntico Tropical (ambiente Neutro). Aplicou-se a an?lise de agrupamento aos dados de TSM mensal para os tr?s ambientes clim?ticos para todos os pontos de grade do dom?nio do Oceano Atl?ntico. A dist?ncia euclidiana foi utilizada como medida de dissimilaridade, o m?todo hier?rquico de vari?ncia m?nima de Ward como m?todo de liga??o e o gr?fico da Silheuta para avaliar a parti??o de cada agrupamento. Identificaram-se seis grupos em cada ambiente clim?tico. O teste t-Student identificou quatro subgrupos apresentando diferen?as significativas nas m?dias de TSM entre os ambientes FAV/DESFAV em rela??o ao ambiente Neutro. A regress?o linear por componentes principais foi utilizada para verificar o potencial de previs?o dos grupos FAV e DESFAV na precipita??o do NLNEB. A intera??o oceano-atmosfera revelou apenas grupos do ambiente FAV com potencial de previs?o para a precipita??o do NLNEB no per?odo de AMJJ, as ?reas do ambiente DESFAV n?o apresentaram signific?ncia estat?stica (valor-p < 0,05) na precipita??o do NLNEB.
|
268 |
Análise de dados por meio de agrupamento fuzzy semi-supervisionado e mineração de textos / Data analysis using semisupervised fuzzy clustering and text miningDebora Maria Rossi de Medeiros 08 December 2010 (has links)
Esta Tese apresenta um conjunto de técnicas propostas com o objetivo de aprimorar processos de Agrupamento de Dados (AD). O principal objetivo é fornecer à comunidade científica um ferramental para uma análise completa de estruturas implícitas em conjuntos de dados, desde a descoberta dessas estruturas, permitindo o emprego de conhecimento prévio sobre os dados, até a análise de seu significado no contexto em que eles estão inseridos. São dois os pontos principais desse ferramental. O primeiro se trata do algoritmo para AD fuzzy semi-supervisionado SSL+P e sua evolução SSL+P*, capazes de levar em consideração o conhecimento prévio disponível sobre os dados em duas formas: rótulos e níveis de proximidade de pares de exemplos, aqui denominados Dicas de Conhecimento Prévio (DCPs). Esses algoritmos também permitem que a métrica de distância seja ajustada aos dados e às DCPs. O algoritmo SSL+P* também busca estimar o número ideal de clusters para uma determinada base de dados, levando em conta as DCPs disponíveis. Os algoritmos SSL+P e SSL+P* envolvem a minimização de uma função objetivo por meio de um algoritmo de Otimização Baseado em População (OBP). Esta Tese também fornece ferramentas que podem ser utilizadas diretamente neste ponto: as duas versões modificadas do algoritmo Particle Swarm Optimization (PSO), DPSO-1 e DPSO-2 e 4 formas de inicialização de uma população inicial de soluções. O segundo ponto principal do ferramental proposto nesta Tese diz respeito à análise de clusters resultantes de um processo de AD aplicado a uma base de dados de um domínio específico. É proposta uma abordagem baseada em Mineração de Textos (MT) para a busca em informações textuais, disponibilizadas digitalmente e relacionadas com as entidades representadas nos dados. Em seguida, é fornecido ao pesquisador um conjunto de palavras associadas a cada cluster, que podem sugerir informações que ajudem a identificar as relações compartilhadas por exemplos atribuídos ao mesmo cluster / This Thesis presents a whole set of techniques designed to improve the data clustering proccess. The main goal is to provide to the scientific community a tool set for a complete analyses of the implicit structures in datasets, from the identification of these structures, allowing the use of previous knowledge about the data, to the analysis of its meaning in their context. There are two main points involved in that tool set. The first one is the semi-supervised clustering algorithm SSL+P and its upgraded version SSL+P*, which are able of take into account the available knowlegdge about de data in two forms: class labels and pairwise proximity levels, both refered here as hints. These algorithms are also capable of adapting the distance metric to the data and the available hints. The SSL+P* algorithm searches the ideal number of clusters for a dataset, considering the available hints. Both SSL+P and SSL+P* techniques involve the minimization of an objective function by a Population-based Optimization algorithm (PBO). This Thesis also provides tools that can be directly employed in this area: the two modified versions of the Particle Swarm Optimization algorithm (PSO), DPSO-1 and DPSO-2, and 4 diferent methods for initializing a population of solutions. The second main point of the tool set proposed by this Thesis regards the analysis of clusters resulting from a clustering process applied to a domain specific dataset. A Text Mining based approach is proposed to search for textual information related to the entities represented by the data, available in digital repositories. Next, a set of words associated with each cluster is presented to the researcher, which can suggest information that can support the identification of relations shared by objects assigned to the same cluster
|
269 |
O Problema de nucleaÃÃo de alunos no transporte escolar / Student nucleation problemNatalia Varela da Rocha Kloeckner 13 May 2015 (has links)
CoordenaÃÃo de AperfeiÃoamento de Pessoal de NÃvel Superior / A gestÃo do transporte escolar possui considerada relevÃncia para o alcance da educaÃÃo Ãs diferentes esferas da sociedade, uma vez que representa para alguns alunos o Ãnico meio de acesso e permanÃncia no ambiente escolar. Por esta razÃo, programas governamentais como, por exemplo, o Programa Nacional de Transporte Escolar, no caso brasileiro, visa à contribuiÃÃo financeira para aquisiÃÃo de Ãnibus para os municÃpios. Contudo, a medida nÃo representa uma soluÃÃo em si mesma, pois antes de se ofertar o serviÃo, hà a necessidade de rotear o percurso que o Ãnibus deve fazer a fim de atender satisfatoriamente a todos os alunos demandantes, o que reflete diretamente no desempenho dos resultados econÃmicos, operacionais e sociais das instituiÃÃes envolvidas. Nesse Ãmbito, aborda-se o problema de NucleaÃÃo de Alunos no Transporte Escolar, que consiste em alocar cada aluno, em sua respectiva sÃrie, na escola mais prÃxima possÃvel de sua residÃncia, considerando a capacidade que cada sÃrie possui para atendimento da demanda. Logo, trata-se de otimizar os agrupamentos formados de tal modo a reduzir o percurso de translado do aluno para a escola, o que resulta em uma otimizaÃÃo de tempo, reduÃÃo do custo da viagem, melhor bem-estar do aluno e incremento do processo de aprendizagem. Para isso, o presente trabalho tem por objetivo propor um modelo matemÃtico para agrupar os alunos, por sÃrie, em cada escola. A formulaÃÃo proposta foi aplicada em um estudo de caso na cidade de Maranguape, no Estado do CearÃ, apresentando resultados consistentes. / The management of school transportation has considered relevance to the reach of education to different spheres of society, as it is for some students the only means of access and permanence in the school environment. For this reason, government programs such as the National Programme for School Transportation, in Brazil, aims the financial contribution to the acquisition of buses for municipalities. However, the measure is not a solution in itself, because before offering the service, there is the need to route the journey that the bus must do to meet satisfactorily all the claimant students, which directly reflects on the performance of economic, operational and social outcomes of the institutions involved. In this framework, the Student Nucleation Problem on the School Transport (NucleaÃÃo de Alunos no Transporte Escolar) is addressed, which consists of allocating each student, in his respective grade, in the nearest possible school to his residence, considering the capacity that each school grade has to meet the demand. Therefore, the aim is to optimize the groupings formed in such a manner to reduce the journey of transfer of the student to the school, which results in an optimization of time, reduction of travel costs, better student welfare and an increment in the process of learning. To accomplish this task, the present work aims to propose a mathematical model to cluster students, by grade, in each school. The proposed formulation is applied to a case study in the city of Maranguape, State of CearÃ, Brazil, presenting consistente results.
|
270 |
Agrupamento de dados fuzzy colaborativo / Collaborative fuzzy clusteringLuiz Fernando Sommaggio Coletta 19 May 2011 (has links)
Nas últimas décadas, as técnicas de mineração de dados têm desempenhado um importante papel em diversas áreas do conhecimento humano. Mais recentemente, essas ferramentas têm encontrado espaço em um novo e complexo domínio, nbo qual os dados a serem minerados estão fisicamente distribuídos. Nesse domínio, alguns algorithmos específicos para agrupamento de dados podem ser utilizados - em particular, algumas variantes do algoritmo amplamente Fuzzy C-Means (FCM), as quais têm sido investigadas sob o nome de agrupamento fuzzy colaborativo. Com o objetivo de superar algumas das limitações encontradas em dois desses algoritmos, cinco novos algoritmos foram desenvolvidos nesse trabalho. Esses algoritmos foram estudados em dois cenários específicos de aplicação que levam em conta duas suposições sobre os dados (i.e., se os dados são de uma mesma npopulação ou de diferentes populações). Na prática, tais suposições e a dificuldade em se definir alguns dos parâmetros (que possam ser requeridos), podemn orientar a escolha feita pelo usuário entre os algoitmos diponíveis. Nesse sentido, exemplos ilustrativos destacam as diferenças de desempenho entre os algoritmos estudados e desenvolvidos, permitindo derivar algumas conclusões que podem ser úteis ao aplicar agrupamento fuzzy colaborativo na prática. Análises de complexidade de tempo, espaço, e comunicação também foram realizadas / Data mining techniques have played in important role in several areas of human kwnowledge. More recently, these techniques have found space in a new and complex setting in which the data to be mined are physically distributed. In this setting algorithms for data clustering can be used, such as some variants of the widely used Fuzzy C-Means (FCM) algorithm that support clustering data ditributed across different sites. Those methods have been studied under different names, like collaborative and parallel fuzzy clustring. In this study, we offer some augmentation of the two FCM-based clustering algorithms used to cluster distributed data by arriving at some constructive ways of determining essential parameters of the algorithms (including the number of clusters) and forming a set systematically structured guidelines as to a selection of the specific algorithm dependeing upon a nature of the data environment and the assumption being made about the number of clusters. A thorough complexity analysis including space, time, and communication aspects is reported. A series of detailed numeric experiments is used to illustrate the main ideas discussed in the study
|
Page generated in 0.0734 seconds