Global ETD Search

1	"Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado" Martins, Claudia Aparecida 25 November 2003 (has links) A representação atributo-valor de documentos usada no processo de mineração de textos é uma estrutura adequada à maioria das tarefas de classificação e agrupamento de documentos. No contexto de algoritmos de aprendizado de máquina, a representação atributo-valor de documentos freqüentemente utiliza a abordagem bag-of-words. Essa abordagem é caracterizada pela alta dimensionalidade na representação dos dados, pois toda palavra presente no documento pode ser um possível atributo. Deve ser considerado, portanto, que uma boa representação de documentos tem uma influência fundamental no desempenho dos algoritmos de aprendizado (supervisionado ou não supervisionado). Como uma das principais contribuições deste trabalho, é apresentada uma ferramenta para pré-processamento que eficientemente decompõe textos em palavras usando a abordagem bag-of-words, bem como o uso de métodos para reduzir a dimensionalidade da representação gerada. Essa ferramenta transforma os documentos em um formato acessível à maioria dos algoritmos de aprendizado, nos quais os dados são descritos como um vetor de dimensão fixa. A ferramenta computacional implementada, entre as diversas funcionalidades, reduz a dimensionalidade da representação de documentos com o objetivo de obter um melhor desempenho dos algoritmos de aprendizado de máquina utilizados. A escolha do algoritmo de aprendizado a ser utilizado, supervisionado e não supervisionado, é dependente do problema em questão. Algoritmos de aprendizado supervisionado podem ser aplicados a documentos rotulados, enquanto algoritmos de aprendizado não supervisionado são freqüentemente aplicados a dados não rotulados. No caso do aprendizado não supervisionado, para avaliar se um dado cluster corresponde a um certo conceito, neste trabalho é utilizada uma abordagem usando algoritmos de aprendizado indutivo para auxiliar na interpretação dos clusters. Nesta abordagem o interesse consiste em compreender como o sistema representa e raciocina sobre o conhecimento adquirido. Essa compreensão é necessária tanto para o usuário aceitar a solução gerada pelo sistema quanto para analisar o raciocínio utilizado. agrupamento aprendizado indutivo mineração de textos pré-processamento
2	"Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado" Claudia Aparecida Martins 25 November 2003 (has links) A representação atributo-valor de documentos usada no processo de mineração de textos é uma estrutura adequada à maioria das tarefas de classificação e agrupamento de documentos. No contexto de algoritmos de aprendizado de máquina, a representação atributo-valor de documentos freqüentemente utiliza a abordagem bag-of-words. Essa abordagem é caracterizada pela alta dimensionalidade na representação dos dados, pois toda palavra presente no documento pode ser um possível atributo. Deve ser considerado, portanto, que uma boa representação de documentos tem uma influência fundamental no desempenho dos algoritmos de aprendizado (supervisionado ou não supervisionado). Como uma das principais contribuições deste trabalho, é apresentada uma ferramenta para pré-processamento que eficientemente decompõe textos em palavras usando a abordagem bag-of-words, bem como o uso de métodos para reduzir a dimensionalidade da representação gerada. Essa ferramenta transforma os documentos em um formato acessível à maioria dos algoritmos de aprendizado, nos quais os dados são descritos como um vetor de dimensão fixa. A ferramenta computacional implementada, entre as diversas funcionalidades, reduz a dimensionalidade da representação de documentos com o objetivo de obter um melhor desempenho dos algoritmos de aprendizado de máquina utilizados. A escolha do algoritmo de aprendizado a ser utilizado, supervisionado e não supervisionado, é dependente do problema em questão. Algoritmos de aprendizado supervisionado podem ser aplicados a documentos rotulados, enquanto algoritmos de aprendizado não supervisionado são freqüentemente aplicados a dados não rotulados. No caso do aprendizado não supervisionado, para avaliar se um dado cluster corresponde a um certo conceito, neste trabalho é utilizada uma abordagem usando algoritmos de aprendizado indutivo para auxiliar na interpretação dos clusters. Nesta abordagem o interesse consiste em compreender como o sistema representa e raciocina sobre o conhecimento adquirido. Essa compreensão é necessária tanto para o usuário aceitar a solução gerada pelo sistema quanto para analisar o raciocínio utilizado. agrupamento aprendizado indutivo mineração de textos pré-processamento
3	Contribuições para o pré-processamento de imagens endoscópicas para a detecção e caracterização de focos de criptas aberrantes Ferro, Luís André Fonseca January 2012 (has links) Tese de mestrado. Mestrado Integrado em Bioengenharia. Faculdade de Engenharia. Universidade do Porto. 2012 Cancro colo-retal
4	Aplicação de ETL para a integração de dados com ênfase em big data na área de saúde pública Pinto, Clícia dos Santos 05 March 2015 (has links) Submitted by Santos Davilene (davilenes@ufba.br) on 2016-05-30T15:55:34Z No. of bitstreams: 1 Dissertação_Mestrado_Clicia(1).pdf: 2228201 bytes, checksum: d990a114eac5a988c57ba6d1e22e8f99 (MD5) / Made available in DSpace on 2016-05-30T15:55:34Z (GMT). No. of bitstreams: 1 Dissertação_Mestrado_Clicia(1).pdf: 2228201 bytes, checksum: d990a114eac5a988c57ba6d1e22e8f99 (MD5) / Transformar os dados armazenados em informações úteis tem sido um desafio cada vez maior e mais complexo a medida em que o volume de dados produzidos todos os dias aumenta. Nos últimos anos, conceitos e tecnologias de Big Data têm sido amplamente utilizados como solução para o gerenciamento de grandes quantidades de dados em diferentes domínios. A proposta deste trabalho diz respeito `a utiliza¸c˜ao de técnicas de ETL (extração,transformação e carga) no desenvolvimento de um módulo de pré-processamento para o pareamento probabilístico de registros em bases de dados na área de Saúde Pública. A utiliza¸c˜ao da ferramenta de processamento distribuído do Spark garante o tratamento adequado para o contexto de Big Data em que esta pesquisa está inserida, gerando respostas em tempo hábil. Ciência da Computação Big Data ETL pré-processamento correlação de registros Spark
5	"Seleção de atributos importantes para a extração de conhecimento de bases de dados" / "Selection of important features for knowledge extraction from data bases" Lee, Huei Diana 16 December 2005 (has links) O desenvolvimento da tecnologia e a propagação de sistemas computacionais nos mais variados domínios do conhecimento têm contribuído para a geração e o armazenamento de uma quantidade constantemente crescente de dados, em uma velocidade maior da que somos capazes de processar. De um modo geral, a principal razão para o armazenamento dessa enorme quantidade de dados é a utilização deles em benefício da humanidade. Diversas áreas têm se dedicado à pesquisa e a proposta de métodos e processos para tratar esses dados. Um desses processos é a Descoberta de Conhecimento em Bases de Dados, a qual tem como objetivo extrair conhecimento a partir das informações contidas nesses dados. Para alcançar esse objetivo, usualmente são construídos modelos (hipóteses), os quais podem ser gerados com o apoio de diferentes áreas tal como a de Aprendizado de Máquina. A Seleção de Atributos desempenha uma tarefa essencial dentro desse processo, pois representa um problema de fundamental importância em aprendizado de máquina, sendo freqüentemente realizada como uma etapa de pré-processamento. Seu objetivo é selecionar os atributos mais importantes, pois atributos não relevantes e/ou redundantes podem reduzir a precisão e a compreensibilidade das hipóteses induzidas por algoritmos de aprendizado supervisionado. Vários algoritmos para a seleção de atributos relevantes têm sido propostosna literatura. Entretanto, trabalhos recentes têm mostrado que também deve-se levar em conta a redundância para selecionar os atributos importantes, pois os atributos redundantes também afetam a qualidade das hipóteses induzidas. Para selecionar alguns e descartar outros, é preciso determinar a importância dos atributos segundo algum critério. Entre os vários critérios de importância de atributos propostos, alguns estão baseados em medidas de distância, consistência ou informação, enquanto outros são fundamentados em medidas de dependência. Outra questão essencial são as avaliações experimentais, as quais representam um importante instrumento de estimativa de performance de algoritmos de seleção de atributos, visto que não existe análise matemática que permita predizer que algoritmo de seleção de atributos será melhor que outro. Essas comparações entre performance de algoritmos são geralmente realizadas por meio da análise do erro do modelo construído a partir dos subconjuntos de atributos selecionados por esses algoritmos. Contudo, somente a consideração desse parâmetro não é suficiente; outras questões devem ser consideradas, tal como a percentagem de redução da quantidade de atributos desses subconjuntos de atributos selecionados. Neste trabalho é proposto um algoritmo que separa as análises de relevância e de redundância de atributos e introduz a utilização da Dimensão Fractal para tratar atributos redundantes em aprendizado supervisionado. É também proposto um modelo de avaliação de performance de algoritmos de seleção de atributos baseado no erro da hipótese construída e na percentagem de redução da quantidade de atributos selecionados. Resultados experimentais utilizando vários conjuntos de dados e diversos algoritmos consolidados na literatura, que selecionam atributos importantes, mostram que nossa proposta é competitiva com esses algoritmos. Outra questão importante relacionada à extração de conhecimento a partir de bases de dados é o formato no qual os dados estão representados. Usualmente, é necessário que os exemplos estejam descritos no formato atributo-valor. Neste trabalho também propomos um metodologia para dar suporte, por meio de um processo semi-automático, à construção de conjuntos de dados nesse formato, originados de informações de pacientes contidas em laudos médicos que estão descritos em linguagem natural. Esse processo foi aplicado com sucesso a um caso real. / Progress in computer systems and devices applied to a different number of fields, have made it possible to collect and store an increasing amount of data. Moreover, this technological advance enables the storage of a huge amount of data which is difficult to process unless new approaches are used. The main reason to maintain all these data is to use it in a general way for the benefit of humanity. Many areas are engaged in the research and proposal of methods and processes to deal with this growing data. One such process is Knowledge Discovery from Databases, which aims at finding valuable and interesting knowledge which may be hidden inside the data. In order to extract knowledge from data, models (hypothesis) are usually developed supported by many fields such as Machine Learning. Feature Selection plays an important role in this process since it represents a central problem in machine learning and is frequently applied as a data pre-processing step. Its objective is to choose a subset from the original features that describes a data set, according to some importance criterion, by removing irrelevant and/or redundant features, as they may decrease data quality and reduce comprehensibility of hypotheses induced by supervised learning algorithms. Most of the state-of-art feature selection algorithms mainly focus on finding relevant features. However, it has been shown that relevance alone is not sufficient to select important features. Different approaches have been proposed to select features, among them the filter approach. The idea of this approach is to remove features before the model's induction takes place, based on general characteristics from the data set. For the purpose of selecting features and discarding others, it is necessary to measure the features' goodness, and many importance measures have been proposed. Some of them are based on distance measures, consistency of data and information content, while others are founded on dependence measures. As there is no mathematical analysis capable of predicting whether a feature selection algorithm will produce better feature subsets than others, it is important to empirically evaluate the performance of these algorithms. Comparisons among algorithms' performance is usually carried out through the model's error analysis. Nevertheless, this sole parameter is not complete enough, and other issues, such as percentage of the feature's subset reduction should also be taken into account. In this work we propose a filter that decouples features' relevance and redundancy analysis, and introduces the use of Fractal Dimension to deal with redundant features. We also propose a performance evaluation model based on the constructed hypothesis' error and the percentage of reduction obtained from the selected feature subset. Experimental results obtained using well known feature selection algorithms on several data sets show that our proposal is competitive with them. Another important issue related to knowledge extraction from data is the format the data is represented. Usually, it is necessary to describe examples in the so-called attribute-value format. This work also proposes a methodology to support, through a semi-automatic process, the construction of a database in the attribute-value format from patient information contained in medical findings which are described in natural language. This process was successfully applied to a real case. Aprendizado de Máquina Data Mining Dimensão Fractal Fractal Dimension Machine Learning Mineração de Dados Pré-processamento Pre-processing
6	Extração de conhecimento de redes neurais artificiais. / Knowledge extraction from artificial neural networks. Martineli, Edmar 20 August 1999 (has links) Este trabalho descreve experimentos realizados com Redes Neurais Artificiais e algoritmos de aprendizado simbólico. Também são investigados dois algoritmos de extração de conhecimento de Redes Neurais Artificiais. Esses experimentos são realizados com três bases de dados com o objetivo de comparar os desempenhos obtidos. As bases de dados utilizadas neste trabalho são: dados de falência de bancos brasileiros, dados do jogo da velha e dados de análise de crédito. São aplicadas sobre os dados três técnicas para melhoria de seus desempenhos. Essas técnicas são: partição pela menor classe, acréscimo de ruído nos exemplos da menor classe e seleção de atributos mais relevantes. Além da análise do desempenho obtido, também é feita uma análise da dificuldade de compreensão do conhecimento extraído por cada método em cada uma das bases de dados. / This work describes experiments carried out witch Artificial Neural Networks and symbolic learning algorithms. Two algorithms for knowledge extraction from Artificial Neural Networks are also investigates. This experiments are performed whit three data set with the objective of compare the performance obtained. The data set used in this work are: Brazilians banks bankruptcy data set, tic-tac-toe data set and credit analysis data set. Three techniques for data set performance improvements are investigates. These techniques are: partition for the smallest class, noise increment in the examples of the smallest class and selection of more important attributes. Besides the analysis of the performance obtained, an analysis of the understanding difficulty of the knowledge extracted by each method in each data bases is made. artificial neural networks C4.5 CN2 EN Estração de Conhecimentos falência knowledge extraction pré-processamento redes neurais artificiais trepan
7	Metodologia para mapeamento de informações não estruturadas descritas em laudos médicos para uma representação atributo-valor / A methodology for mapping non-structured medical findings to the attribute-value table format Honorato, Daniel de Faveri 29 April 2008 (has links) Devido à facilidade com que informações biomédicas em língua natural são registras e armazenadas no formato digital, a recuperação de informações a partir de registros de pacientes nesse formato não estruturado apresenta diversos problemas a serem solucionados. Assim, a extração de informações estruturadas (por exemplo, no formato atributo-valor) a partir de registros não estruturados é um importante problema de pesquisa. Além disso, a representação de registros médicos não estruturados no formato atributo-valor, permite a aplicação de uma grande variedade de métodos de extração de padrões. Para mapear registros médicos não estruturados no formato atributo-valor, propomos uma metodologia que pode ser utilizada para automaticamente (ou semi-automaticamente, com a ajuda de um especialista do domínio) mapear informações médicas de interesse armazenadas nos registros médicos e descritas em linguagem natural em um formato estruturado. Essa metodologia foi implementada em um sistema computacional chamado TP-DISCOVER, o qual gera uma tabela no formato atributo-valor a partir de um conjunto de registros de pacientes (documentos). De modo a identificar entidades importantes no conjunto de documentos, assim como relacionamentos significantes entre essas entidades, propomos uma abordagem de extração de terminologia híbrida (lingüística/estatística) a qual seleciona palavras e frases que aparecem com freqüência acima de um dado limiar por meio da aplicação de medidas estatísticas. A idéia geral dessa abordagem híbrida de extração de terminologia é que documentos especializados são caracterizados por repetir o uso de certas unidades léxicas ou construções morfo-sintáticas. Nosso objetivo é reduzir o esforço despendido na modelagem manual por meio da observação de regularidades no texto e o mapeamento dessas regularidades como nomes de atributos na representação atributo-valor. A metodologia proposta foi avaliada realizando a estruturação automática de uma coleção de 6000 documentos com informações de resultados de exames de Endoscopia Digestiva Alta descritos em língua natural. Os resultados experimentais, os quais podem ser considerados os piores resultados, uma vez que esses resultados poderiam ser muito melhores caso a metodologia for utilizada semi-automaticamente junto com um especialista do domínio, mostram que a metodologia proposta é adequada e permite reduzir o tempo usado pelo especialista para analisar grande quantidade de registros médicos / The information retrieval from text stored in computer-based patient records is an important open-ended research problem, as the ease in which biomedical information recorded and stored in digital form grows. Thus, means to extract structured information (for example, in the so-called attribute-value format) from free-text records is an important research endeavor. Furthermore, by representing the free-text records in the attribute-value format, available pattern extraction methods can be directly applied. To map free-text medical records into the attribute-value format, we propose a methodology that can be used to automatically (or semi-automatically, with the help of a medical expert) map the important medical information stored in patient records which are described in natural language into an structured format. This methodology has been implemented in a computational system called TP-DISCOVER, which generates a database in the attribute-value format from a set of patient records (documents). In order to identify important entities in the set of documents, as well as significant relations among these entities, we propose a hybrid linguistic/statistical terminology extraction approach which filters out words and phrases that appear with a frequency higher than a given threshold by applying statistical measures. The underlying assumption of this hybrid approach to terminology extraction is that specialized documents are characterized by repeated use of certain lexical units or morpho-syntactic constructions. Our goal is to reduce the effort spent in manual modelling by observing regularities in the texts and by mapping them into suitable attribute names in the attribute-value representation format. The proposed methodology was evaluated to automatically structure a collection of 6000 documents which contains High Digestive Endoscopies exams´ results described in natural language. The experimental results, all of which can be considered lower bound results as they would greatly improve in case the methodology is applied semi-automatically together with a medical expert, show that the proposed methodology is suitable to reduce the medical expert workload in analysing large amounts of medical records Extração de terminologia Mineração de textos Pré-processamento de textos Terminology extraction Text mining Text pre-processing
8	"Pré-processamento de dados em aprendizado de máquina supervisionado" / "Data pre-processing for supervised machine learning" Batista, Gustavo Enrique de Almeida Prado Alves 16 May 2003 (has links) A qualidade de dados é uma das principais preocupações em Aprendizado de Máquina - AM -cujos algoritmos são freqüentemente utilizados para extrair conhecimento durante a fase de Mineração de Dados - MD - da nova área de pesquisa chamada Descoberta de Conhecimento de Bancos de Dados. Uma vez que a maioria dos algoritmos de aprendizado induz conhecimento estritamente a partir de dados, a qualidade do conhecimento extraído é amplamente determinada pela qualidade dos dados de entrada. Diversos aspectos podem influenciar no desempenho de um sistema de aprendizado devido à qualidade dos dados. Em bases de dados reais, dois desses aspectos estão relacionados com (i) a presença de valores desconhecidos, os quais são tratados de uma forma bastante simplista por diversos algoritmos de AM, e; (ii) a diferença entre o número de exemplos, ou registros de um banco de dados, que pertencem a diferentes classes, uma vez que quando essa diferença é expressiva, sistemas de aprendizado podem ter dificuldades em aprender o conceito relacionado com a classe minoritária. O problema de tratamento de valores desconhecidos é de grande interesse prático e teórico. Em diversas aplicações é importante saber como proceder quando as informações disponíveis estão incompletas ou quando as fontes de informações se tornam indisponíveis. O tratamento de valores desconhecidos deve ser cuidadosamente planejado, caso contrário, distorções podem ser introduzidas no conhecimento induzido. Neste trabalho é proposta a utilização do algoritmo k-vizinhos mais próximos como método de imputação. Imputação é um termo que denota um procedimento que substitui os valores desconhecidos de um conjunto de dados por valores plausíveis. As análises conduzidas neste trabalho indicam que a imputação de valores desconhecidos com base no algoritmo k-vizinhos mais próximos pode superar o desempenho das estratégias internas utilizadas para tratar valores desconhecidos pelos sistemas C4.5 e CN2, bem como a imputação pela média ou moda, um método amplamente utilizado para tratar valores desconhecidos. O problema de aprender a partir de conjuntos de dados com classes desbalanceadas é de crucial importância, uma vez que esses conjuntos de dados podem ser encontrados em diversos domínios. Classes com distribuições desbalanceadas podem se constituir em um gargalo significante no desempenho obtido por sistemas de aprendizado que assumem uma distribuição balanceada das classes. Uma solução para o problema de aprendizado com distribuições desbalanceadas de classes é balancear artificialmente o conjunto de dados. Neste trabalho é avaliado o uso do método de seleção unilateral, o qual realiza uma remoção cuidadosa dos casos que pertencem à classe majoritária, mantendo os casos da classe minoritária. Essa remoção cuidadosa consiste em detectar e remover casos considerados menos confiáveis, por meio do uso de algumas heurísticas. Uma vez que não existe uma análise matemática capaz de predizer se o desempenho de um método é superior aos demais, análises experimentais possuem um papel importante na avaliação de sistema de aprendizado. Neste trabalho é proposto e implementado o ambiente computacional Discover Learning Environmnet - DLE - o qual é um em framework para desenvolver e avaliar novos métodos de pré-processamento de dados. O ambiente DLE é integrado ao projeto Discover, um projeto de pesquisa em desenvolvimento em nosso laboratório para planejamento e execução de experimentos relacionados com o uso de sistemas de aprendizado durante a fase de Mineração de dados do processo de KDD. / Data quality is a major concern in Machine Learning, which is frequently used to extract knowledge during the Data Mining phase of the relatively new research area called Knowledge Discovery from Databases - KDD. As most Machine Learning algorithms induce knowledge strictly from data, the quality of the knowledge extracted is largely determined by the quality of the underlying data. Several aspects may influence the performance of a learning system due to data quality. In real world databases, two of these aspects are related to (i) the presence of missing data, which is handled in a rather naive way by many Machine Learning algorithms; (ii) the difference between the number of examples, or database records, that belong to different classes since, when this difference is large, learning systems may have difficulties to learn the concept related to the minority class. The problem of missing data is of great practical and theoretical interest. In many applications it is important to know how to react if the available information is incomplete or if sources of information become unavailable. Missing data treatment should be carefully thought, otherwise bias might be introduced into the knowledge induced. In this work, we propose the use of the k-nearest neighbour algorithm as an imputation method. Imputation is a term that denotes a procedure that replaces the missing values in a data set by some plausible values. Our analysis indicates that missing data imputation based on the k-nearest neighbour algorithm can outperform the internal missing data treatment strategies used by C4.5 and CN2, and the mean or mode imputation, a widely used method for treating missing values. The problem of learning from imbalanced data sets is of crucial importance since it is encountered in a large number of domains. Imbalanced class distributions might cause a significant bottleneck in the performance obtained by standard learning methods, which assume a balanced distribution of the classes. One solution to the problem of learning with skewed class distributions is to artificially balance the data set. In this work we propose the use of the one-sided selection method, which performs a careful removal of cases belonging to the majority class while leaving untouched all cases from the minority class. Such careful removal consists of detecting and removing cases considered less reliable, using some heuristics. An experimental application confirmed the efficiency of the proposed method. As there is not a mathematical analysis able to predict whether the performance of a learning system is better than others, experimentation plays an important role for evaluating learning systems. In this work we propose and implement a computational environment, the Discover Learning Environment - DLE - which is a framework to develop and evaluate new data pre-processing methods. The DLE is integrated into the Discover project, a major research project under development in our laboratory for planning and execution of experiments related to the use of learning systems during the Data Mining phase of the KDD process. aprendizado de máquina data mining data pre-processing machine learning mineração de dados pré-processamento de dados
9	Pré-processamento de dados na identificação de processos industriais. / Pre-processing data in the identification of industrial processes. Rodríguez Rodríguez, Oscar Wilfredo 01 December 2014 (has links) Neste trabalho busca-se estudar as diferentes etapas de pre-processamento de dados na identificacao de sistemas, que sao: filtragem, normalizacao e amostragem. O objetivo principal e de acondicionar os dados empiricos medidos pelos instrumentos dos processos industriais, para que quando estes dados forem usados na identificacao de sistemas, se possa obter modelos matematicos que representem da forma mais proxima a dinamica do processo real. Vai-se tambem implementar as tecnicas de pre-processamento de dados no software MatLab 2012b e vai-se fazer testes na Planta Piloto de Vazao instalada no Laboratorio de Controle de Processos Industriais do Departamento de Engenharia de Telecomunicacoes e Controle da Escola Politecnica da USP; bem como em plantas simuladas de processos industriais, em que e conhecido a priori seu modelo matematico. Ao final, vai-se analisar e comparar o desempenho das etapas de pre-processamento de dados e sua influencia no indice de ajuste do modelo ao sistema real (fit), obtido mediante o metodo de validacao cruzada. Os parametros do modelo sao obtidos para predicoes infinitos passos a frente. / This work aims to study the different stages of data pre-processing in system identification, as are: filtering, normalization and sampling. The main goal is to condition the empirical data measured by the instruments of industrial processes, so that when these data are used to identify systems, one can obtain mathematical models that represent more closely the dynamics of the real process. It will also be implemented the techniques of preprocessing of data in MatLab 2012b and it will be performed tests in the Pilot Plant of Flow at the Laboratory of Industrial Process Control, Department of Telecommunications and Control Engineering from the Polytechnic School of USP; as well as with simulated plants of industrial processes where it is known a priori its mathematical model. At the end, it is analyzed and compared the performance of the pre-processing of data and its influence on the index of adjustment of the model to the real system (fit), obtained by the cross validation method. The model parameters are obtained for infinite step-ahead prediction. Filtering Filtragem Identicação de sistemas Identication systems Normalização Pré-processamento de dados Preprocessing of data Reamostragem Resampling Standardization
10	Sistema especialista para dimensionamento e seleção de equipamentos para pré-processamento de café / Expert system for designing and selection of equipments to pre-process of coffee Prado, Eduardo Vicente do 15 March 2001 (has links) Submitted by Nathália Faria da Silva (nathaliafsilva.ufv@gmail.com) on 2017-07-11T11:08:37Z No. of bitstreams: 1 texto completo.pdf: 658701 bytes, checksum: b58e51ceb9bf5e4b37892cadca99fc0a (MD5) / Made available in DSpace on 2017-07-11T11:08:37Z (GMT). No. of bitstreams: 1 texto completo.pdf: 658701 bytes, checksum: b58e51ceb9bf5e4b37892cadca99fc0a (MD5) Previous issue date: 2001-03-15 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Desenvolveu-se seleção de um equipamentos sistema para especialista pré-processamento para dimensionamento de café. Este de de de de e sistema especialista possui um banco de dados contendo cerca de 80 equipamentos cadastrados, um programa de busca que faz a seleção dos equipamentos dimensionados e um módulo de ajuda no padrão de ajuda do WINDOWS®, contendo ilustrações e explicações de como usar os equipamentos utilizados pelo sistema especialista. Uma das constantes preocupações da equipe de desenvolvimento deste trabalho, além da funcionalidade do sistema especialista, foi a interface entre este e o usuário. O sistema especialista foi desenvolvido em CLIPS®, que é uma linguagem própria para este fim. No entanto, o ambiente utilizado pelo CLIPS® possui uma interface com o usuário pouco interativa. Para resolver este problema, desenvolveu-se uma interface entre o sistema especialista e o usuário utilizando a linguagem de programação PASCAL Orientado a Objeto em ambiente DEPLHI®, versão 5.0, da BORLAND Inc., que trabalha em ambiente WINDOWS®, permitindo assim, o uso de telas mais interativas e intuitivas com o usuário. Como ferramenta de auxílio ao sistema especialista para a tomada de decisão, desenvolveu-se um modelo para a determinação da ocorrência de dias inadequados para a secagem de café em terreiro, tomando-se como referência o índice igual a 1,0 mm. O modelo foi desenvolvido a partir da metodologia proposta por ASSIS (1998). Utilizando-se valores de precipitação foi possível obter a probabilidade de ocorrência de quatro dias consecutivos impróprios para a secagem de café em terreiro para uma determinada região. O modelo de cadeia de MARKOV foi utilizado para obter a distribuição de quatro dias impróprios para secagem de café em terreiro, considerando as variáveis climatológica. Como resultado, o sistema especialista fornece a lista dos equipamentos dimensionados e selecionados em seu banco de dados, assim como seus respectivos fornecedores, telefones para contato e preços. Para a validação do sistema especialista foi utilizado o método de validação externa. Os avaliadores foram especialistas da área de café da Universidade Federal de Viçosa, que responderam a um questionário com perguntas relativas à interatividade sistema especialista/usuário e à funcionalidade do programa. Com base nas respostas dos especialistas, concluiu-se que o sistema especialista elaborado permite: - estimar o custo para a implantação do sistema dimensionado; - a interface com o usuário se apresenta de fácil interação, facilitando a entrada de dados e o entendimento dos dados de saída; - o modelo desenvolvido estima a ocorrência de quatro dias consecutivos impróprios para a secagem de café em terreiro; - o sistema especialista desenvolvido neste trabalho, além de permitir acesso a um nível de conhecimento numa área onde há escassez de recursos humanos, reduz de maneira sensível o tempo de dimensionamento e de seleção de equipamentos para pré-processamento de café. / Developed and expert system for designing and selection of equipments to pre-process of coffee. This expert system has a data base containing approximately 80 equipments registered, a search program which does the selection of the equipments designed and a help module in the WINDOWS®s standard containing pictures and explanations of how to use the equipments used by the expert system. One of the constant preoccupation of the development team this project, further the functionality of the expert system, was the interface between the expert system and the user. The expert system was developed in CLIPS®, which is a language for development of the expert systems. However, the environment used by the CLIPS® has an interface with the user less interactive. To solve this problem, developed an interface between the user and the expert system using the programming language PASCAL object oriented in DELPHI® environment, version 5.0, from the BORLAND Inc., which works in WINDOWS® environment, allowing this way, the use of windows more interactive and intuitive with the user. As a assistance tool to the expert system to its decision made, developed a model to determinate the event of the bad working days for drying of coffee on paved terrace, or days with precipitation above 1,0 mm. The model was based in the methodology proposed by ASSIS (1988). Using values of precipitation it was possible to determinate the probability of occurring four bad working days consecutive to the drying of coffee on paved terrace to a determinate region. The model of MARKOV’s chain was used to determinate the distribution of four bad working days, or days not workable on paved terrace, considering the climatologic variables. Concluding, the expert system provides a list of the designed and selected equipments in its data base, and their respective suppliers, telephone numbers to contact and prices. To the validation of the expert system was used the extern method validation. The evaluators were expert in the coffee area of the Federal University of Viçosa that answered a questionnaire with questions relative to interactivity between the expert system/user and the functionality of the program. Based in the experts’ answered, concluded that the expert system developed allows: - to estimate the cost to the implantation of the designed system; - the interface with the user presents of easy interactivity with the user, facilitating the input data and the understanding of the output data; - the developed model estimates the occurrence of the four bad working days consecutive to the drying coffee on paved terrace; - the expert system developed in this project, further to allow the access to level of knowledge where there is less resource human, decreases of sensible manner the time of designing and selection of equipment to pre-processing of coffee. Programa computacional Sistema especilista Dimensionamento Seleção Café Pré-processamento Ciências Agrárias

Search results