431 |
Modelagem dinâmica de rotores de unidades hidrogeradoras. / Dynamic modeling of rotors of hidro-generating units.Fernando Cunha Tralli 13 June 2018 (has links)
Com o intuito de otimizar o projeto de unidades hidrogeradoras e, por conseguinte, aumentar a sua disponibilidade, uma previsão mais precisa do seu comportamento dinâmico é de fundamental importância. Assim, o presente trabalho se propôs a modelar uma unidade hidrogeradora de forma mais completa, considerando os efeitos do empuxo magnético, mancais, perturbações hidráulicas, desbalanceamento e selos labirintos de turbina Francis. A partir do modelo construído, foram realizadas análises modais, temporais e espectrais. Os resultados numéricos são comparados com os dados experimentais de uma unidade hidrogeradora de grande porte. Tanto sinais de tendência temporal, como órbitas, e espectros de frequência dos fenômenos envolvidos são analisados e comparados. Dessa forma, pretende-se obter o modelo menos complexo possível, mas que seja capaz de representar de forma aceitável a dinâmica da unidade hidrogeradora sujeita a diferentes condições de operação. A maior dificuldade encontrada foi na representação das excitações externas ao sistema, principalmente quando a máquina está operando em regime parcial. Constatou-se uma importante influência do selo labirinto na simulação do comportamento dinâmica da turbina Francis operando em carga parcial. Ao final, os aspectos do modelo que podem ser aprimorados são discutidos. / In order to optimize the design of hydro-generating units and therefore increase their availability, a more accurate forecast of their dynamic behavior is of fundamental importance. Thus, the present work has proposed to model a more complete hydrogenerator unit, considering the effects of magnetic pull, guide bearings, hydraulic perturbations, unbalance and Francis turbine labyrinths. From the this model, modal, temporal and spectral analyzes were performed. The numerical results are compared with experimental data of a large hydrogenerator unit. Temporal trend signals, orbits and frequency spectrum of the phenomena involved are analyzed and compared. In this way, it is intended to obtain the less complex model possible, but that is able to represent in an acceptable way the dynamics of the hydrogenerator unit under different operation conditions. The greatest difficulty found was in the representation of external excitations to the system, mainly under partial load. It was observed an important influence of the labyrinth seal in the simulation of the dynamic behavior of the Francis turbine operating in partial load. Finally, aspects of the model that can to be improved are discussed.
|
432 |
Equacionamento das componentes do erro volumétrico em máquinas de medir a três coordenadas / Equationing of components of volumetric error in coordinate measuring machinesRosenda Valdés Arencibia 26 April 1999 (has links)
As Máquinas de Medir a Três Coordenadas (MM3Cs) possuem erros inerentes à sua estrutura que afetam a exatidão e a repetibilidade das medições. Dos erros presentes nessas máquinas, os erros geométricos são, na maioria das vezes, os de maior influência. O resultado da combinação destes erros em cada uma das direções preferenciais é denominado componente do erro volumétrico. Assim, torna-se de vital importância conhecer a relação existente entre as variáveis envolvidas num processo de medição qualquer, ou seja, a relação entre as coordenadas dos pontos medidos, os erros geométricos e as componentes do erro volumétrico. Diversos métodos foram propostos para modelar o comportamento dos erros nas MM3Cs. Entretanto não existem, ainda, modelos matemáticos obtidos a partir de dados experimentais que descrevam e caracterizem estes erros. Por tal motivo este trabalho apresenta uma metodologia geral para equacionar as componentes do erro volumétrico em MM3Cs, utilizando técnicas de regressão múltipla. Esta ferramenta permite de forma simples equacionar e prever o erro volumétrico da máquina avaliada. A metodologia foi aplicada a uma MM3C do tipo \"Ponte Móvel\". Foram obtidas três equações de regressão, uma para cada componente do erro, a partir de dados levantados através da calibração direta, especificamente o método do volume dividido. A adequabilidade do modelo foi avaliada estatisticamente. Os resultados obtidos foram discutidos e comparados com os resultados obtidos através da calibração utilizando-se uma barra de esferas, constatando-se uma excelente capacidade do modelo na previsão do erro total da máquina. Ainda, efetuo-se a compensação do erro volumétrico em duas diagonais do volume de trabalho da máquina avaliada utilizando-se o modelo proposto, neste caso, o erro foi diminuído sensivelmente. / The accuracy and the repeatability of measurements of Three Coordinates Measuring Machines (CMM) are affected by several errors. Among them, geometrical errors are the most influents in the most experimental cases. The result of geometric errors combination in each of the preferentials directions is denominated of volumetric error components. Thus, its possible to know the existent relationship between coordinates of measured points and volumetric error components. Several methods have been proposed to model the behavior of the volumetric error in CMM as a function of the X, Y and Z coordinates. However, sofar from experimental measurements of the volumetric error has bem proposed mathematical model for the descriptions and characterizations of errors was obtained. In this work is presented a general methodology to obtain a mathematical equation and prediction of them components of the volumetric errors, using multiple regression. The methodology was applied at a of \"Moving Bridge\" CMM type. Were obtained three regression equations, one for each component of the error, starting from data collected by direct calibration, specifically by the divided volume method. The model was evaluated statistically. The simulated results were evaluated, discussed and compared with the results obtained through the ball bar calibration, showing an excellent capacity of the model in the prediction of the volumetric error of the machine. Besides was made the compensation of the volumetric error in two diagonals of the working volume of the appraised machine using the proposed model, in this case the error was minimized sensibly.
|
433 |
Agrupamento de séries temporais em fluxos contínuos de dados / Time series clustering for data streamsCássio Martini Martins Pereira 29 October 2013 (has links)
Recentemente, a área de mineração de fluxos contínuos de dados ganhou importância, a qual visa extrair informação útil a partir de conjuntos massivos e contínuos de dados que evoluem com o tempo. Uma das técnicas que mais se destaca nessa área e a de agrupamento de dados, a qual busca estruturar grandes volumes de dados em hierarquias ou partições, tais que objetos mais similares estejam em um mesmo grupo. Diversos algoritmos foram propostos nesse contexto, porém a maioria concentrou-se no agrupamento de fluxos compostos por pontos em um espaço multidimensional. Poucos trabalhos voltaram-se para o agrupamento de séries temporais, as quais se caracterizam por serem coleções de observações coletadas sequencialmente no tempo. Técnicas atuais para agrupamento de séries temporais em fluxos contínuos apresentam uma limitação na escolha da medida de similaridade, a qual na maioria dos casos e baseada em uma simples correlação, como a de Pearson. Este trabalho mostra que até para modelos clássicos de séries temporais, como os de Box e Jenkins, a correlação de Pearson não é capaz de detectar similaridade, apesar das séries serem provenientes de um mesmo modelo matemático e com mesma parametrização. Essa limitação nas técnicas atuais motivou este trabalho a considerar os modelos geradores de séries temporais, ou seja, as equações que regem sua geração, por meio de diversas medidas descritivas, tais como a Autoinformação Mútua, o Expoente de Hurst e várias outras. A hipótese considerada e que, por meio do uso de medidas descritivas, pode-se obter uma melhor caracterização do modelo gerador de séries temporais e, consequentemente, um agrupamento de maior qualidade. Nesse sentido, foi realizada uma avaliação de diversas medidas descritivas, as quais foram usadas como entrada para um novo algoritmo de agrupamento baseado em árvores, denominado TS-Stream. Experimentos com bases sintéticas compostas por diversos modelos de séries temporais foram realizados, mostrando a superioridade de TS-Stream sobre ODAC, a técnica mais popular para esta tarefa encontrada na literatura. Experimentos com séries reais provenientes de preços de ações da NYSE e NASDAQ mostraram que o uso de TS-Stream na escolha de ações, por meio da criação de uma carteira de investimentos diversificada, pode aumentar os retornos das aplicações em várias ordens de grandeza, se comparado a estratégias baseadas somente no indicador econômico Moving Average Convergence Divergence / Recently, the data streams mining area has gained importance, which aims to extract useful information from massive and continuous data sources that evolve over time. One of the most popular techniques in this area is clustering, which aims to structure large volumes of data into hierarchies or partitions, such that similar objects are placed in the same group. Several algorithms were proposed in this context, however most of them focused on the clustering of streams composed of multidimensional points. Few studies have focused on clustering streaming time series, which are characterized by being collections of observations sampled sequentially along time. Current techniques for clustering streaming time series have a limitation in the choice of the similarity measure, as most are based on a simple correlation, such as Pearson. This thesis shows that even for classic time series models, such as those from Box and Jenkins, the Pearson correlation is not capable of detecting similarity, despite dealing with series originating from the same mathematical model and the same parametrization. This limitation in current techniques motivated this work to consider time series generating models, i.e., generating equations, through the use of several descriptive measures, such as Auto Mutual Information, the Hurst Exponent and several others. The hypothesis is that through the use of several descriptive measures, a better characterization of time series generating models can be achieved, which in turn will lead to better clustering quality. In that context, several descriptive measures were evaluated and then used as input to a new tree-based clustering algorithm, entitled TS-Stream. Experiments were conducted with synthetic data sets composed of various time series models, confirming the superiority of TS-Stream when compared to ODAC, the most successful technique in the literature for this task. Experiments with real-world time series from stock market data of the NYSE and NASDAQ showed that the use of TS-Stream in the selection of stocks, by the creation of a diversified portfolio, can increase the returns of the investment in several orders of magnitude when compared to trading strategies solely based on the Moving Average Convergence Divergence financial indicator
|
434 |
Seleção de atributos relevantes para aprendizado de máquina utilizando a abordagem de Rough Sets. / Machine learning feature subset selection using Rough Sets approach.Adriano Donizete Pila 25 May 2001 (has links)
No Aprendizado de Máquina Supervisionado---AM---o algoritmo de indução trabalha com um conjunto de exemplos de treinamento, no qual cada exemplo é constituído de um vetor com os valores dos atributos e as classes, e tem como tarefa induzir um classificador capaz de predizer a qual classe pertence um novo exemplo. Em geral, os algoritmos de indução baseiam-se nos exemplos de treinamento para a construção do classificador, sendo que uma representação inadequada desses exemplos, bem como inconsistências nos mesmos podem tornar a tarefa de aprendizado difícil. Um dos problemas centrais de AM é a Seleção de um Subconjunto de Atributos---SSA---cujo objetivo é diminuir o número de atributos utilizados na representação dos exemplos. São três as principais razões para a realização de SSA. A primeira razão é que a maioria dos algoritmos de AM, computacionalmente viáveis, não trabalham bem na presença de vários atributos. A segunda razão é que, com um número menor de atributos, o conceito induzido através do classificador pode ser melhor compreendido. E, a terceira razão é o alto custo para coletar e processar grande quantidade de informações. Basicamente, são três as abordagens para a SSA: embedded, filtro e wrapper. A Teoria de Rough Sets---RS---é uma abordagem matemática criada no início da década de 80, cuja principal funcionalidade são os redutos, e será tratada neste trabalho. Segundo essa abordagem, os redutos são subconjuntos mínimos de atributos que possuem a propriedade de preservar o poder de descrição do conceito relacionado ao conjunto de todos os atributos. Neste trabalho o enfoque esta na abordagem filtro para a realização da SSA utilizando como filtro os redutos calculados através de RS. São descritos vários experimentos sobre nove conjuntos de dados naturais utilizando redutos, bem como outros filtros para SSA. Feito isso, os atributos selecionados foram submetidos a dois algoritmos simbólicos de AM. Para cada conjunto de dados e indutor, foram realizadas várias medidas, tais como número de atributos selecionados, precisão e números de regras induzidas. Também, é descrito um estudo de caso sobre um conjunto de dados do mundo real proveniente da área médica. O objetivo desse estudo pode ser dividido em dois focos: comparar a precisão dos algoritmos de indução e avaliar o conhecimento extraído com a ajuda do especialista. Embora o conhecimento extraído não apresente surpresa, pôde-se confirmar algumas hipóteses feitas anteriormente pelo especialista utilizando outros métodos. Isso mostra que o Aprendizado de Máquina também pode ser visto como uma contribuição para outros campos científicos. / In Supervised Machine Learning---ML---an induction algorithm is typically presented with a set of training examples, where each example is described by a vector of feature values and a class label. The task of the induction algorithm is to induce a classifier that will be useful in classifying new cases. In general, the inductive-learning algorithms rely on existing provided data to build their classifiers. Inadequate representation of the examples through the description language as well as inconsistencies in the training examples can make the learning task hard. One of the main problems in ML is the Feature Subset Selection---FSS---problem, i.e. the learning algorithm is faced with the problem of selecting some subset of feature upon which to focus its attention, while ignoring the rest. There are three main reasons that justify doing FSS. The first reason is that most ML algorithms, that are computationally feasible, do not work well in the presence of many features. The second reason is that FSS may improve comprehensibility, when using less features to induce symbolic concepts. And, the third reason for doing FSS is the high cost in some domains for collecting data. Basically, there are three approaches in ML for FSS: embedded, filter and wrapper. The Rough Sets Theory---RS---is a mathematical approach developed in the early 1980\'s whose main functionality are the reducts, and will be treated in this work. According to this approach, the reducts are minimal subsets of features capable to preserve the same concept description related to the entire set of features. In this work we focus on the filter approach for FSS using as filter the reducts obtained through the RS approach. We describe a series of FSS experiments on nine natural datasets using RS reducts as well as other filters. Afterwards we submit the selected features to two symbolic ML algorithms. For each dataset, various measures are taken to compare inducers performance, such as number of selected features, accuracy and number of induced rules. We also present a case study on a real world dataset from the medical area. The aim of this case study is twofold: comparing the induction algorithms performance as well as evaluating the extracted knowledge with the aid of the specialist. Although the induced knowledge lacks surprising, it allows us to confirm some hypothesis already made by the specialist using other methods. This shows that Machine Learning can also be viewed as a contribution to other scientific fields.
|
435 |
Investigação de técnicas de classificação hierárquica para problemas de bioinformática / Investigation of hierarchial classification techniques for bioinformatics problemsEduardo de Paula Costa 25 March 2008 (has links)
Em Aprendizado de Máquina e Mineração de Dados, muitos dos trabalhos de classificação reportados na literatura envolvem classificação plana (flat classification), em que cada exemplo é associado a uma dentre um conjunto finito (e normalmente pequeno) de classes, todas em um mesmo nível. Entretanto, existem problemas de classificação mais complexos em que as classes a serem preditas podem ser dispostas em uma estrutura hierárquica. Para esses problemas, a utilização de técnicas e conceitos de classificação hierárquica tem se mostrado útil. Uma das linhas de pesquisa com grande potencial para a utilização de tais técnicas é a Bioinformática. Dessa forma, esta dissertação apresenta um estudo envolvendo técnicas de classificação hierárquica aplicadas à predição de classes funcionais de proteínas. No total foram investigados doze algoritmos hierárquicos diferentes, sendo onze deles representantes da abordagem Top-Down, que foi o enfoque da investigação realizada. O outro algoritmo investigado foi o HC4.5, um algoritmo baseado na abordagem Big- Bang. Parte dos algoritmos estudados foram desenvolvidos com base em uma variação da abordagem Top-Down, denominada de Top-Down Ensemble, que foi proposta neste estudo. Alguns do algoritmos baseados nessa nova abordagem apresentaram resultados promissores, superando os resultados dos demais algoritmos. Para avaliação dos resultados, foi utilizada uma medida específica para problemas hierárquicos, denominada taxa de acerto dependente da profundidade. Além dessa, outras três medidas de avaliação foram utilizadas, de modo a comparar os resultados reportados por diferentes medidas / In Machine Learning and Data Mining, most of the research in classification reported in the literature involve flat classification, where each example is assigned to one class out of a finite (and usually small) set of flat classes. Nevertheless, there are more complex classification problems in which the classes to be predicted can be disposed in a hierarchy. In this context, the use of hierarchical classification techniques and concepts have been shown to be useful. One research with great potential is the application of hierarchical classification techniques to Bioinformatics problems. Therefore, this MSc thesis presents a study involving hierarchical classification techniques applied to the prediction of functional classes of proteins. Twelve different algorithms were investigated - eleven of them based on the Top-Down approach, which was the focus of this study. The other investigated algorithm was HC4.5, an algorithm based on the Big-Bang approach. Part of these algorithms are based on a variation of the Top-Down approach, named Top-Down Ensembles, proposed in this study. Some of the algorithms based on this new approach presented promising results, which were better than the results presented by other algorithms. A specific evaluation measure for hierarchical classification, named depth-dependent accuracy, was used to evaluate the classification models. Besides, other three evaluation measures were used in order to compare the results reported by them
|
436 |
Fotografia: fragmentação e condensação do tempo na interface homem-máquina / Fotografia: fragmentação e condensação do tempo na interface homem-máquinaFernando Pasquale Rocco Scavone 17 November 2006 (has links)
Constituem o objeto deste estudo as interações temporais do homem com a máquina na prática do processo fotográfico. Baseado em experiências empíricas e buscando referencias em análises críticas, estrutura-se na sobreposição de três níveis conceituais: sintático, semiótico e psíquico, procura compreender as implicações que as transformações técnicas determinam na linguagem visual do meio. / The object of this study is to examine the time interactions between the photographer and the camera through the photographic process. Based on empirical observations and referring to critical analyses, it is structured in three different conceptual layers: syntactic, semiotic and psychic. It aims to understand the implications that technical transformations determine in the medium visual language.
|
437 |
Tratamento bayesiano de interações entre atributos de alta cardinalidade / Handling interactions among high cardinality attributesJambeiro Filho, Jorge Eduardo de Schoucair 11 July 2007 (has links)
Orientador: Jacques Wainer / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-09T21:11:41Z (GMT). No. of bitstreams: 1
JambeiroFilho_JorgeEduardodeSchoucair_D.pdf: 736285 bytes, checksum: b7d7f186f743f9b0e541c857b0ca8226 (MD5)
Previous issue date: 2007 / Resumo: Analisamos o uso de métodos Bayesianos em um problema de classificação de padrões de interesse prático para a Receita Federal do Brasil que é caracterizado pela presença de atributos de alta cardinalidade e pela existência de interações relevantes entre eles. Mostramos que a presença de atributos de alta cardinalidade pode facilmente gerar tantas subdivisões no conjunto de treinamento que, mesmo tendo originalmente uma grande quantidade de dados, acabemos obtendo probabilidades pouco confiáveis, inferidas a partir de poucos exemplos. Revisamos as estratégias usualmente adotadas para lidar com esse problema dentro do universo Bayesiano, exibindo sua dependência em suposições de não interação inaceitáveis em nosso domínio alvo. Mostramos empiricamente que estratégias Bayesianas mais avançadas para tratamento de atributos de alta cardinalidade, como pré-processamento para redução de cardinalidade e substituição de tabelas de probabilidades condicionais (CPTs) de redes Bayesianas (BNs) por tabelas default (DFs), árvores de decisão (DTs) e grafos de decisão (DGs) embora tragam benefícios pontuais não resultam em ganho de desempenho geral em nosso domínio alvo. Propomos um novo método Bayesiano de classificação, chamado de hierarchical pattern Bayes (HPB), que calcula probabilidades posteriores para as classes dado um padrão W combinando as observações de W no conjunto de treinamento com probabilidades prévias que são obtidas recursivamente a partir das observações de padrões estritamente mais genéricos que W. Com esta estratégia, ele consegue capturar interações entre atributos de alta cardinalidade quando há dados suficientes para tal, sem gerar probabilidades pouco confiáveis quando isso não ocorre. Mostramos empiricamente que, em nosso domínio alvo, o HPB traz benefícios significativos com relação a redes Bayesianas com estruturas populares como o naïve Bayes e o tree augmented naïve Bayes, com relação a redes Bayesianas (BNs) onde as tabelas de probabilidades condicionais foram substituídas pelo noisy-OR, por DFs, por DTs e por DGs, e com relação a BNs construídas, após uma fase de redução de cardinalidade usando o agglomerative information bottleneck. Além disso, explicamos como o HPB, pode substituir CPTs e mostramos com testes em outro problema de interesse prático que esta substituição pode trazer ganhos significativos. Por fim, com testes em vários conjuntos de dados públicos da UCI, mostramos que a utilidade do HPB ser bastante ampla / Abstract: In this work, we analyze the use of Bayesian methods in a pattern classification problem of practical interest for Brazil¿s Federal Revenue which is characterized by the presence of high cardinality attributes and by the existence of relevant interactions among them.We show that the presence of high cardinality attributes can easily produce so many subdivisions in the training set that, even having originally a great amount of data, we end up with unreliable probability estimates, inferred from small samples. We cover the most common strategies to deal with this problem within the Bayesian universe and show that they rely strongly on non interaction assumptions that are unacceptable in our target domain. We show empirically that more advanced strategies to handle high cardinality attributes like cardinality reduction by preprocessing and conditional probability tables replacement with default tables, decision trees and decision graphs, in spite of some restricted benefits, do not improve overall performance in our target domain. We propose a new Bayesian classification method, named hierarchical pattern Bayes (HPB), which calculates posterior class probabilities given a pattern W combining the observations of W in the training set with prior class probabilities that are obtained recursively from the observations of patterns that are strictly more generic than W. This way, it can capture interactions among high cardinality attributes when there is enough data, without producing unreliable probabilities when there is not. We show empirically that, in our target domain, HPB achieves significant performance improvements over Bayesian networks with popular structures like naïve Bayes and tree augmented naïve Bayes, over Bayesian networks where traditional conditional probability tables were substituted by noisy-OR gates, default tables, decision trees and decision graphs, and over Bayesian networks constructed after a cardinality reduction preprocessing phase using the agglomerative information bottleneck method. Moreover, we explain how HPB can replace conditional probability tables of Bayesian Networks and show, with tests in another practical problem, that such replacement can result in significant benefits. At last, with tests over several UCI datasets we show that HPB may have a quite wide applicability / Doutorado / Sistemas de Informação / Doutor em Ciência da Computação
|
438 |
Detecção e classificação de objetos em imagens para rastreamento de veículos / Detection and classification of objects in images for vehicle trackingRaphael Montanari 28 August 2015 (has links)
A robótica é uma área multidisciplinar que cresce continuamente com a contribuição do avanço científico e aumento frequente do poder computacional do hardware. As pesquisas em robótica estão divididas em diversas linhas de investigação. A visão computacional é uma das linhas de pesquisa de grande interesse devido à farta variedade de métodos e técnicas oferecidas. Um dos maiores desafios para os robôs é descobrir e analisar o ambiente em que estão inseridos. Dentre os principais sensores que podem ser utilizados, as câmeras digitais oferecem um bom benefício: podem ser leves, pequenas e baratas, características fundamentais para alguns robôs. Este trabalho propõe o desenvolvimento e análise de um sistema de visão computacional para rastrear veículos usando sistemas de detecção e classificação de segmentos em imagens. Para atingir os objetivos são investigados métodos de extração de informações das imagens, modelos de atenção visual e modelos de aprendizado bioinspirados para detecção e classificação de veículos. Para a tarefa de atenção visual foram utilizadas as técnicas de geração de mapas de saliência iNVT e VOCUS2, enquanto que para classificação foi empregada a técnicas bag-of-features e finalmente, para o rastreamento do veículo especificado, durante seu percurso em uma rodovia, foi adotada a técnica Camshift com filtro de Kalman. O sistema desenvolvido foi implementado com um robô aéreo e testado com imagens reais contendo diferentes veículos em uma rodovia e os resultados de classificação e rastreamento obtidos foram muito satisfatórios. / Robotics is a multidisciplinary area that continually grows with the contribution of scientific advancement and frequent increase in computational hardware power. Research in robotics are divided into several lines of investigation. Computer vision is one of the research areas of great interest due to the abundant variety of methods and techniques offered. One of the biggest challenges for the robots is to discover and analyze the environment in which they are inserted. Among the main sensors that can be used, digital cameras offer good benefits: they can be lightweitgh, small and cheap, which are fundamental characteristics for some robots. This work undertakes the development and analysis of a computer vision system to track vehicles by detecting and classifying segments in imaging systems. To achieve the objectives, methods on image information extraction, visual attention models and bioinspired learning models were studied for detection and classification of vehicles. For the task of visual attention the INVT and VOCUS2 models were used to generate saliency maps, while for classification was applied the bag-of-features method and finally to track the specified vehicle during its journey on a highway, it was adopted CamShift technique joint with a Kalman filter. The developed system was implemented with an aerial robot and tested with real images containing different vehicles on a highway and the results of classification and tracking obtained were very satisfactory.
|
439 |
"O framework de integração do sistema DISCOVER" / The Discover integration frameworkRonaldo Cristiano Prati 04 April 2003 (has links)
Talvez uma das maiores capacidades do ser humano seja a sua habilidade de aprender a partir de observações e transmitir o que aprendeu para outros humanos. Durante séculos, a humanidade vem tentado compreender o mundo em que vive e, a partir desse novo conhecimento adquirido, melhorar o mundo em que vive. O desenvolvimento da tecnologia colocou a descoberta de conhecimento em um momento ímpar na história da humanidade. Com os progressos da Ciência da Computação, e, em particular, da Inteligência Artificial - IA - e Aprendizado de Máquina -AM, hoje em dia é possível, a partir de métodos de inferência indutiva e utilizando um conjunto de exemplos, descobrir algum tipo de conhecimento implícito nesses exemplos. Entretanto, por ser uma área de pesquisa relativamente nova, e por envolver um processo tanto iterativo quanto interativo, atualmente existem poucas ferramentas que suportam eficientemente a descoberta de conhecimento a partir dos dados. Essa falta de ferramentas se agrava ainda mais no que se refere ao seu uso por pesquisadores em Aprendizado de Máquina e Aquisição de Conhecimento. Esses fatores, além do fato que algumas pesquisas em nosso Laboratório de Inteligência Computacional - LABIC - têm alguns componentes em comum, motivaram a elaboração do projeto Discover, que consiste em uma estratégia de trabalho em conjunto, envolvendo um conjunto de ferramentas que se integram e interajam, e que supram as necessidades de pesquisa dos integrantes do nosso laboratório. O Discover também pode ser utilizado como um campo de prova para desenvolver novas ferramentas e testar novas idéias. Como o Discover tem como principal finalidade o seu uso e extensão por pesquisadores, uma questão principal é que a arquitetura do projeto seja flexível o suficiente para permitir que novas pesquisas sejam englobadas e, simultaneamente, deve impor determinados padrões que permitam a integração eficiente de seus componentes. Neste trabalho, é proposto um framework de integração de componentes que tem como principal objetivo possibilitar a criação de um sistema computacional a partir das ferramentas desenvolvidas para serem utilizadas no projeto Discover. Esse framework compreende um mecanismo de adaptação de interface que cria uma camada (interface horizontal) sobre essas ferramentas, um poderoso mecanismo de metadados, que é utilizado para descrever tanto os componentes que implementam as funcionalidades do sistema quanto as configurações de experimentos criadas pelos usuário, que serão executadas pelo framework, e um ambiente de execução para essas configurações de experimentos. / One of human greatest capability is the ability to learn from observed instances of the world and to transmit what have been learnt to others. For thousands of years, we have tried to understand the world, and used the acquired knowledge to improve it. Nowadays, due to the progress in digital data acquisition and storage technology as well as significant progress in the field of Artificial Intelligence - AI, particularly Machine Learning - ML, it is possible to use inductive inference in huge databases in order to find, or discover, new knowledge from these data. The discipline concerned with this task has become known as Knowledge Discovery from Databases - KDD. However, this relatively new research area offers few tools that can efficiently be used to acquire knowledge from data. With these in mind, a group of researchers at the Computational Intelligence Laboratory - LABIC - is working on a system, called Discover, in order to help our research activities in KDD and ML. The aim of the system is to integrate ML algorithms mostly used by the community with the data and knowledge processing tools developed as the results of our work. The system can also be used as a workbench for new tools and ideas. As the main concern of the Discover is related to its use and extension by researches, an important question is related to the flexibility of its architecture. Furthermore, the Discover architecture should allow new tools be easily incorporated. Also, it should impose strong patterns to guarantee efficient component integration. In this work, we propose a component integration framework that aims the development of an integrated computational environment using the tools already implemented in the Discover project. The proposed component integration framework has been developed keeping in mind its future integration with new tools. This framework offers an interface adapter mechanism that creates a layer (horizontal interface) over these tools, a powerful metadata mechanism, which is used to describe both components implementing systems' functionalities and experiment configurations created by the user, and an environment that enables these experiment execution.
|
440 |
Extração de informação de artigos científicos: uma abordagem baseada em indução de regras de etiquetagem / Information extraction from scientific articles: an approach based on induction of tagging rulesAlberto Cáceres Álvarez 08 May 2007 (has links)
Este trabalho faz parte do projeto de uma ferramenta denominada FIP (Ferramenta Inteligente de Apoio à Pesquisa) para recuperação, organização e mineração de grandes coleções de documentos. No contexto da ferramenta FIP, diversas técnicas de Recuperação de Informação, Mineração de Dados, Visualização de Informações e, em particular, técnicas de Extração de Informações, foco deste trabalho, são usadas. Sistemas de Extração de Informação atuam sobre um conjunto de dados não estruturados e objetivam localizar informações específicas em um documento ou coleção de documentos, extraí-las e estruturá-las com o intuito de facilitar o uso dessas informações. O objetivo específico desenvolvido nesta dissertação é induzir, de forma automática, um conjunto de regras para a extração de informações de artigos científicos. O sistema de extração proposto, inicialmente, analisa e extrai informações presentes no corpo dos artigos (título, autores, a filiação, resumo, palavras chaves) e, posteriormente, foca na extração das informações de suas referências bibliográficas. A proposta para extração automática das informações das referências é uma abordagem nova, baseada no mapeamento do problema de part-of-speech tagging ao problema de extração de informação. Como produto final do processo de extração, tem-se uma base de dados com as informações extraídas e estruturadas no formato XML, disponível à ferramenta FIP ou a qualquer outra aplicação. Os resultados obtidos foram avaliados em termos das métricas precisão, cobertura e F-measure, alcançando bons resultados comparados com sistemas similares / This dissertation is part of a project of a tool named FIP (an Intelligent Tool for Research Supporting). FIP is a tool for retrieval, organization, and mining large document collections. In the context of FIP diverse techniques from Information Retrieval, Data Mining, Information Visualization, and particularly Information Extraction, focus of this work, are used. Information Extraction systems deal with unstructured data looking for specific information in a document or document collection, extracting and structuring them in order to facilitate their use. The specific objective presented in this dissertation is automatically to induce a set of rules for information extraction from scientific articles. The proposed extraction system initially analyzes and extracts information from the body of the articles (heading, authors, affiliation, abstract, and keywords) and then extracts information from each reference in its bibliographical references. The proposed approach for information extraction from references is a new technique based on the strategy of part-of-speech tagging. As the outcome of the extraction process, a database with extracted and structured information in XML format is made available for the FIP or any other application. The system has been evaluated using measures of Precision, Recall and F-measure, reaching good results compared to similar systems
|
Page generated in 0.0532 seconds