Global ETD Search

281	Análise de erro de funções de pedotransferência na estimativa de retenção de água no solo por meio de árvore de decisão / Error analysis of pedotransfer functions in estimating soil water retention by using decision tree Boschi, Raquel Stucchi, 1982- 25 August 2018 (has links) Orientadores: Luiz Henrique Antunes Rodrigues, Maria Leonor Ribeiro Casimiro Lopes-Assad / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agrícola / Made available in DSpace on 2018-08-25T00:51:45Z (GMT). No. of bitstreams: 1 Boschi_RaquelStucchi_D.pdf: 2416172 bytes, checksum: 61a629e1b0d62348a6f99a7d4f6293dd (MD5) Previous issue date: 2014 / Resumo: O conhecimento das propriedades hidráulicas do solo é indispensável para modelagem do sistema solo-planta-atmosfera. A determinação destas propriedades de forma direta é problemática: ¬exigem métodos caros, laboriosos e grandes demandantes de tempo. O uso de funções, que estimam estas propriedades a partir de outras, facilmente obtidas, tem sido objeto de várias pesquisas. Estas funções são denominadas de funções de pedotransferência (PTF). As PTF são normalmente avaliadas em função dos valores observados e estimados; pouca atenção tem sido dada à análise do erro em função das propriedades do solo. Este tipo de análise pode revelar detalhes importantes sobre o desempenho de uma PTF, podendo contribuir para melhorar sua capacidade preditiva. A hipótese científica deste trabalho foi que é possível identificar e avaliar padrões nos erros das PTF utilizadas para estimar a retenção de água no solo, por meio de modelos baseados em árvore de decisão. Outra hipótese é que a identificação dos padrões nos erros das PTF fornecerá subsídios para o uso de tais funções de forma mais confiável e precisa. O objetivo geral deste trabalho, portanto, foi obter árvores de decisão capazes de auxiliar na compreensão de quais atributos do solo afetam o desempenho das PTF na estimativa de retenção de água no solo. A metodologia foi baseada no modelo CRISP-DM e foram avaliadas PTF disponíveis na literatura, com base na análise do erro, por meio de árvore de decisão. A metodologia foi dividida em duas partes. Na primeira parte, a PTF desenvolvida por Vereecken e colaboradores em 1989, foi avaliada no próprio conjunto de dados utilizado para sua geração. Na segunda parte, as PTF desenvolvidas por Vereecken e colaboradores em 1989, van den Berg e colaboradores em 1997 e Lopes-Assad e colaboradores em 2001, foram avaliadas em um conjunto de dados diferente do utilizado na sua geração. Os resultados mostraram que os erros inaceitáveis a -10 kPa (CC) se deram para as mesmas condições de erros aceitáveis a -1500 kPa (PMP) ; por outro lado, os erros inaceitáveis na estimativa de PMP, de modo geral, se deram para as mesmas condições de erros aceitáveis para estimativa de CC. A diferença entre o conjunto de dados utilizado para desenvolver uma PTF e o conjunto de dados utilizado para avaliá-la é um importante fator na incidência de erros. Na seleção de uma PTF deve-se considerar o maior número de fatores possíveis e não somente a distribuição granulométrica e a proximidade geográfica dos conjuntos de dados. A técnica de indução de árvore de decisão apresentou-se como uma alternativa complementar à avaliação da PTF, uma vez que permitiu uma avaliação detalhada dos erros nas estimativas. Este tipo de avaliação é interessante, pois permite a identificação de erros sistemáticos na aplicação destas funções. Pode, ainda, ser usada como uma forma de diagnóstico a ser explorada por desenvolvedores de PTF / Abstract: Knowledge of the soil hydraulic properties is essential for modeling the soil-plant-atmosphere system. Direct determination of these properties is problematic: the methods are expensive, laborious and time consuming. Therefore, the use of functions that estimate soil hydraulic properties from other more easily measurable soil properties has been the subject of several studies. These functions are called pedotransfer functions (PTF). Most studies have focused on the development of these functions; however, few have attempted to improve their implementation. PTF are usually evaluated in terms of the measured and predicted values; less attention has been given to the analysis of the error term in relation to soil properties such as texture, bulk density and organic matter. This type of analysis may reveal important details about the performance of PTF including options to improve their predictive capability. The hypothesis of this study was that it is possible to identify and evaluate patterns in the errors of PTF used to estimate soil water retention by using decision tree models. Another hypothesis is that the identification of PTF errors patterns will provide subsidies for the use of such functions more reliably and accurately. The objective of this study was to obtain a decision tree that can assist in understanding what soil properties affect the performance of PTF in estimating soil water retention. The methodology was based on the CRISP-DM model and refers to the evaluation of PTF available in the literature, based on an error analysis by means of decision tree induction. The PTF developed by Vereecken and coworkers in 1989 was evaluated the same data set as used for their development. Next, the PTF developed by Vereecken and coworkers in 1989, van den Berg and coworkers in 1997 and Lopes-Assad and coworkers 2001, were evaluated on a different dataset than the one used for their development. Results indicate that unacceptable errors at -10 kPa (CC) occurred for the same conditions that lead to acceptable errors at -1500 kPa (PMP); on the other hand the unacceptable errors at -1500 kPa (PMP) occurred for the same conditions that lead to acceptable errors at -10 kPa (CC). The difference between the data set used to develop a PTF and the data set used to evaluate is a factor of error incidence. In selecting a PTF should be considered the largest possible number of factors and not only the particle size distribution and the geographical proximity of the datasets. The decision tree induction technique provides a complement for evaluation of PTF, since the method is efficient in the detailed evaluation of PTF. This type of assessment is interesting because it allows identifying systematic errors in PTF applications. It can also be used as a diagnostic tool to be explored by PTF developers / Doutorado / Planejamento e Desenvolvimento Rural Sustentável / Doutora em Engenharia Análise de erros (Matemática) Mineração de dados (Computação) Soil water Error analysis Data mining
282	Desenvolvimento de modelos numéricos baseados em séries temporais de dados agroclimáticos e espectrais aplicados ao planejamento regional de produção de cana-de-açúcar / Development of numerical models based on agroclimatic and spectral data time series applied to regional planning of sugarcane production Gonçalves, Renata Ribeiro do Valle, 1981- 25 August 2018 (has links) Orientadores: Jurandir Zullo Junior, Luciana Alvim Santos Romani / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agrícola / Made available in DSpace on 2018-08-25T15:32:06Z (GMT). No. of bitstreams: 1 Goncalves_RenataRibeirodoValle_D.pdf: 17473392 bytes, checksum: 0b54c29cd8e6a9e1a3259ee7b24f6f16 (MD5) Previous issue date: 2014 / Resumo: A produção de cana-de-açúcar no Brasil possui função cada vez mais estratégica na economia do país devido ao interesse da substituição de combustíveis fósseis por fontes de energia renováveis, como o etanol, com o propósito de diminuir as emissões de gases de efeito estufa (GEEs). Nesse sentido, é importante a proposição de soluções inovadoras e tecnologicamente viáveis para auxiliar a geração de modelos mais eficientes, objetivos, precisos, antecipados e adequados ao monitoramento e previsão das safras nacionais. Esse trabalho teve o objetivo principal de desenvolver modelos numéricos que avaliam a tendência da produção de cana-de-açúcar em escala regional utilizando dados agroclimáticos e espectrais de baixa resolução espacial. Áreas produtoras de cana-de-açúcar foram selecionadas e dados de produção, área e produtividade referentes ao período de 2001 a 2010 foram utilizados. As imagens do satélite AVHRR/NOAA foram processadas e corrigidas automaticamente permitindo a obtenção de perfis temporais mensais do índice de vegetação NDVI, temperatura de superfície e albedo. As condições agroclimáticas, ao longo do período de análise, foram descritas pelo índice agroclimático ISNA. As séries de dados foram avaliadas por meio de técnicas de análise de séries temporais multivariadas utilizando os métodos de agrupamentos K-Means, K-Medoids e Clarans. Com estes métodos de agrupamentos, foi possível identificar e mapear áreas de plantio de cana-de-açúcar e sua expansão. Modelos de previsão de produção da cultura foram gerados pelo método de regressão linear múltipla utilizando dados de área plantada e dos índices NDVI e ISNA. A partir dos modelos gerados, foi possível avaliar o comportamento da variação da produção para o modelo regional de mudanças climáticas ETA/CPTEC em um cenário de alta emissão de gases de efeito estufa para o ano de 2020. Ao utilizar satélites de baixa resolução espacial, é mais difícil evidenciar a diferença entre tipos de plantios de cana-de-açúcar, mas neste trabalho, realizado com a técnica de agrupamento de dados, mesmo ocorrendo mistura espectral, foi possível acompanhar a evolução da cultura ao longo das safras identificando regiões com padrões semelhantes. Desta maneira, a análise de agrupamentos pode melhorar a compreensão do desenvolvimento da cana-de-açúcar e sua expansão para outras regiões do país. Os modelos gerados para estimar a produção de cana-de-açúcar em relação aos dados de área plantada e dos índices NDVI e ISNA apresentaram coeficientes de correlação (R2) em torno de 0,9 e conseguiram estimar os valores de produção para todo estado de São Paulo com precisão. Os modelos gerados para anos mais secos, no período de dezembro a março, indicaram que a produção de cana-de-açúcar tende a aumentar em torno de 3,5%. Para anos mais chuvosos, no mesmo período, a produção tende a aumentar em torno de 1,6% no ano de 2020, independentemente da área plantada. Os resultados obtidos são úteis para o planejamento agrícola em escala regional, pois permitem acompanhar o desenvolvimento e a produção da cana-de-açúcar de forma objetiva e sistemática a partir de dados fornecidos por sensores remotos, estações agroclimáticas e modelos de mudanças climáticas / Abstract: The sugarcane production in Brazil has increasingly strategic role in the economy due to the interest of replacing fossil fuels with renewable energy sources such as ethanol, in order to reduce emissions of greenhouse gases (GHGs). In this sense, it is important to propose innovative and technologically feasible solutions to assist the generation of more efficient, objective, accurate, anticipated and appropriate models to the monitoring and forecasting of national crop. The main objective of this work was to develop numerical models that assess the trend of sugarcane production on a regional scale using agroclimatic and spectral data of lower spatial resolution. Producing areas of sugarcane were selected and data production, area and yield were used for the period 2001-2010. The images from satellite AVHRR/NOAA were processed and automatically corrected and subsequently were obtained monthly temporal profiles of NDVI vegetation index, surface temperature and albedo. The climatic conditions during the period of analysis, were described by WRSI agroclimatic index. The data sets were analyzed by techniques of multivariate time series analysis using the methods of clusters K-Means, K-Medoids and Clarans. With these clustering methods, it was possible to identify and map the expansion of areas planted with sugarcane. Predictive models of crop production were generated by multiple linear regression analysis using data from cropland and NDVI and WRSI indices. From the generated models, it was possible to evaluate the behavior of the variation in production for regional climate change model ETA/CPTEC in a scenario of high emission of greenhouse gases for the year 2020. It is more difficult to highlight the difference between types of plantings of sugarcane using low spatial resolution satellites, but this work with technical data clustering, even occurring spectral mixture, it was possible to follow the evolution of the culture over the crops identifying regions with similar patterns. Thus, the cluster analysis can improve understanding of the development of sugarcane and its expansion to other regions of the country. The models for estimating the production of sugarcane with the data of planted area and NDVI and WRSI indices showed a correlation coefficient (R2) around 0.9 and were able to estimate the values of production for the entire state of São Paulo accurately. The models for the driest years in the period from December to March, indicated that the production of sugarcane tends to increase around 3.5%. Wettest years in the same period, production tends to increase around 1.6% in 2020, regardless the cultivated area. The results are useful for agricultural planning at the regional scale because they allow to monitor the development and production of sugarcane objectively and systematically from data provided by remote sensors, agroclimatic stations and climate change models / Doutorado / Planejamento e Desenvolvimento Rural Sustentável / Doutora em Engenharia Agrícola Sensoriamento remoto Mineração de dados (Computação) Análise multivariada Remote sensing Data mining Multivariate analysis
283	Classificação, associação e regionalização de dados de corpos hídricos : aplicação no monitoramento da água no estado de São Paulo / Classification, association and regionalization of data of water bodies : application in the monitoring of the water in the state of São Paulo Bertholdo, Leonardo, 1975- 07 October 2013 (has links) Orientador: Luiz Camolesi Júnior / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia / Made available in DSpace on 2018-08-23T07:01:05Z (GMT). No. of bitstreams: 1 Bertholdo_Leonardo_M.pdf: 6089739 bytes, checksum: 0edb71eb3480bdabf30789057610ea1f (MD5) Previous issue date: 2013 / Resumo: A aplicação de recursos computacionais avançados no suporte aos sistemas de gestão ambiental vem se tornando cada vez mais frequente nas últimas décadas. A capacidade de processar e explorar grandes volumes de dados de forma sistemática, inerente a tais recursos, possibilita a extração de informações abrangentes e sintéticas, as quais podem servir como um importante insumo para o processo de controle ambiental. Nesse trabalho são empregadas técnicas de mineração de dados para a descoberta de conhecimento implícito no domínio de monitoramento de qualidade de água em corpos hídricos. A pesquisa está dividida em três frentes: a primeira busca descobrir regras de classificação de ecotoxicidade em amostras de água por meio de uma técnica de modelagem previsiva. Na segunda parte do estudo emprega-se uma técnica de análise associativa para investigar a presença de relacionamentos fortes entre os parâmetros que medem a qualidade de água. Por fim, a última frente utiliza uma abordagem de regionalização para encontrar pontos de amostragem de água similares com relação às medições de seus parâmetros de qualidade. Os resultados obtidos proporcionaram algumas descobertas, entre elas: a associação de determinados parâmetros de qualidade à toxicidade crônica da água, a existência de correlações entre alguns dos parâmetros de qualidade de água e a presença de grupos homogêneos entre os pontos de amostragem de água / Abstract: The application of advanced computational resources at the support to the environmental management systems is becoming increasingly frequent in recent decades. The ability to process and explore large volumes of data in systematic way, inherent in these resources, makes it possible to extract information comprehensive and synthetic, which can serve as an important input to the environment control process. This work used data mining techniques to discover implicit knowledge in the field of monitoring water quality in water bodies. The research is divided into three fronts: the first seeks to discover classification rules of ecotoxicity in water samples using a predictive modeling technique. In the second part of the study is used an associative analysis technique to investigate the presence of strong relationships between the parameters that measure the quality of water. Finally, the last front uses an approach of regionalization to find water sampling sites similar in relation to the measurements of their quality parameters. The results provided some discoveries, including: the association of certain quality parameters to the chronic toxicity of the water, the existence of correlations between some of the parameters of water quality and presence of homogeneous groups between the water sampling sites / Mestrado / Tecnologia e Inovação / Mestre em Tecnologia Monitoramento ambiental Mineração de dados (Computação) Gestão de recursos hídricos Environmental monitoring Data mining Water resources management
284	Mapas auto-organizáveis aplicados em governo eletrônico / Self-organizing maps applied to electronic government Gago Junior, Everton Luiz de Almeida 20 August 2018 (has links) Orientador: Leonardo de Souza Mendes / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-20T09:29:04Z (GMT). No. of bitstreams: 1 GagoJunior_EvertonLuizdeAlmeida_M.pdf: 1416743 bytes, checksum: 43ebe58cf54d9cd46b1ceb50d5cb4b42 (MD5) Previous issue date: 2012 / Resumo: Com as facilidades e resultados oferecidos pelos sistemas de gerenciamento automatizados, cada vez mais os municípios eliminam documentos físicos, e armazenam digitalmente suas informações. Uma das consequências diretas disso é a criação de um grande volume de dados. Em geral, estes dados são coletados por meio das Tecnologias da Informação e Comunicação (TIC) e armazenados em bases de dados transacionais. Nestes ambientes, os dados possuem relacionamentos complexos entre si, o que dificulta a identificação de padrões e comportamentos. Diversas instituições utilizam técnicas de mineração de dados para identificar padrões e comportamentos ocultos em seus dados operacionais. Estes padrões podem auxiliar no planejamento de ações futuras e melhorar a gestão dos recursos financeiros, humanos e tecnológicos. A análise inteligente dos dados operacionais de uma instituição pode ser realizada através das Ferramentas de Apoio e Suporte a Tomada de Decisão (FASTD). Estas ferramentas permitem analisar um grande volume de dados a partir de regras previamente estabelecidas. Estas regras são apresentadas para as FASTD na fase de treinamento, quando a ferramenta aprende sobre os padrões que deve buscar. Este trabalho apresenta um processo de suporte à tomada de decisão com base em mapas auto-organizáveis. Aplicado às ferramentas de governo eletrônico, este processo permite identificar padrões em um grande volume de dados de maneira autônoma, ou seja, dispensando o conjunto de regras para treinamento. Para realizar o estudo de caso, utilizaremos informações cedidas pela Prefeitura Municipal de Campinas, São Paulo, Brasil / Abstract: Due to the characteristics offered by automated management systems, municipal administrations are now attempting to store digital information instead of keeping their physical documents. One consequence of such fact is the generation of large volume of data. Usually, these data are collected by ICT technologies and then stored in transactional databases. In this environment, collected data might have complex internal relationships. This may be an issue to identify patterns and behaviors. Many institutions use data mining techniques for recognize hidden patterns and behaviors in their operational data. These patterns can assist to future activities planning and provide better management to financial resources. Intelligent analysis can be realized using the Support Tools and Support Decision Making (STSDM). These tools can analyze large volume of data through previously established rules. These rules are presented for STSDM in the training phase, and the tool learns about the patterns that should look. This work proposes a process to support decision making based on self-organized maps. This process, applied to electronic government tools, can recognize patterns in large volume of data without the set of rules for training. To perform our case study, we use data provided by the city of Campinas, Sao Paulo / Mestrado / Telecomunicações e Telemática / Mestre em Engenharia Elétrica Mineração de dados (Computação) Internet na administração pública Data mining (Computing) Internet in public administration
285	Extensão artificial de largura de banda para sinais de fala em telefonia usando classificação fonética Silva, Ênio dos Santos January 2016 (has links) Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2016. / Made available in DSpace on 2016-09-20T04:11:19Z (GMT). No. of bitstreams: 1 340510.pdf: 2334420 bytes, checksum: 667c596d97abea07fd998f77f31b8441 (MD5) Previous issue date: 2016 / Este trabalho de pesquisa apresenta uma nova estratégia para implementar sistemas de extensão artificial de largura de banda (artificial bandwidth extension- ABWE) para sinais de fala aplicados à rede pública (convencional) de telefonia (public switched telephone network - PSTN). Especificamente, aqui é proposta uma estratégia baseada em classificação fonética visando representar satisfatoriamente segmentos de fala com energia concentrada em altas frequências, superando outros resultados apresentados na literatura. Para tal,técnicas de seleção de atributos aplicadas a sinais de fala de banda limitada são investigadas, aprimorando a classificação em grupos fonéticos abrangentes (broad group phonetic - BGP) com ênfase na discriminação de fonemas pertencentes ao grupo fonético fricativo. Adicionalmente, neste trabalho é discutida a integração do sistema de ABWE proposto em sistemas de reconhecimento automático de fala (automatic speech recognition - ASR) para o português brasileiro aplicados à PSTN. Particularmente, visando o aprimoramento de ASR em PSTN, as etapas de extração de atributos do sinal da fala e a etapa de construção do modelo acústico são desenvolvidas baseadas em sinais sintéticos de banda larga (wideband - WB) estimados a partir do realce de sinais de banda estreita (narrowband - NB) usando ABWE. Os resultados obtidos apresentam realce na qualidade subjetiva dos sinais de fala reconstruídos e ganho no desempenho do ASR, confirmando a eficácia das estratégias propostas neste trabalho de pesquisa.<br> / Abstract: This research work presents a new strategy for implementing artificial bandwidth extension (ABWE) systems for speech signals applied to the public switched telephone network (PSTN). Specifically, a strategy based on phonetic classification is proposed here aiming to represent speech segments with concentrated energy at high frequencies, out performing other approaches from the open literature. In this context, feature selection techniques applied to limited band width speech signals are investigated, improving thebroad group phonetic (BGP) classification with an emphasis on discriminationof phonemes belonging to the fricative phonetic group. In addition, the integration of the proposed ABWE approach in automatic speech recognition(ASR) systems for Brazilian Portuguese applied to the PSTN is also discussed. Particularly, in order to improve PSTN ASR systems, synthetically estimated wide band (WB) signals, from the narrow band (NB) enhancement by ABWE, are used to obtain more discriminating attributes of speech signals as well as for achieving better performance of acoustic models (AM). Theobtained results show an enhancement in the quality of reconstructed speech signals with very good performance in ASR systems, confirming the effectivenessof the proposed strategies in this research work. Engenharia elétrica Fonética Classificação Fala Codificação Mineração de dados (Computação) Reconhecimento automatico da voz
286	Filtered-page ranking Costa, José Henrique Calenzo January 2016 (has links) Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2016. / Made available in DSpace on 2016-09-20T04:25:42Z (GMT). No. of bitstreams: 1 341906.pdf: 4935734 bytes, checksum: 5630ca8c10871314b7f54120d18ae335 (MD5) Previous issue date: 2016 / Algoritmos de ranking de páginas Web podem ser criados usando técnicas baseadas em elementos estruturais da página Web, em segmentação da página ou na busca personalizada. Esta pesquisa aborda um método de ranking de documentos previamente filtrados, que segmenta a página Web em blocos de três categorias para delas eliminar conteúdo irrelevante. O método de ranking proposto, chamado Filtered-Page Ranking (FPR), consta de duas etapas principais: (i) segmentação da página web e eliminação de conteúdo irrelevante e (ii) ranking de páginas Web. O foco da extração de conteúdo irrelevante é eliminar conteúdos não relacionados à consulta do usuário, através do algoritmo proposto Query-Based Blocks Mining (QBM), para que o ranking considere somente conteúdo relevante. O foco da etapa de ranking é calcular quão relevante cada página Web é para determinada consulta, usando critérios considerados em estudos de recuperação da informação. Com a presente pesquisa pretende-se demonstrar que o QBM extrai eficientemente o conteúdo irrelevante e que os critérios utilizados para calcular quão próximo uma página Web é da consulta são relevantes, produzindo uma média de resultados de ranking de páginas Web de qualidade melhor que a do clássico modelo vetorial.<br> / Abstract : Web page ranking algorithms can be created using content-based, structure-based or user search-based techniques. This research addresses an user search-based approach applied over previously filtered documents ranking, which relies in a segmentation process to extract irrelevante content from documents before ranking. The process splits the document into three categories of blocks in order to fragment the document and eliminate irrelevante content. The ranking method, called Page Filtered Ranking, has two main steps: (i) irrelevante content extraction; and (ii) document ranking. The focus of the extraction step is to eliminate irrelevante content from the document, by means of the Query-Based Blocks Mining algorithm, creating a tree that is evaluated in the ranking process. During the ranking step, the focus is to calculate the relevance of each document for a given query, using criteria that give importance to specific parts of the document and to the highlighted features of some HTML elements. Our proposal is compared to two baselines: the classic vectorial model, and the CETR noise removal algorithm, and the results demonstrate that our irrelevante content removal algorithm improves the results and our relevance criteria are relevant to the process. Computação Sites da Web Mineração de dados (Computação) Recuperação da informação
287	Aplicação de técnicas de mineração de texto na recuperação de informação clínica em prontuário eletrônico do paciente / Carvalho, Ricardo César de. January 2017 (has links) Orientador: Virginia Bentes Pinto / Banca: Edberto Ferneda / Banca: Marcos Luiz Mucheroni / Resumo: Na área da saúde, as tecnologias digitais fornecem recursos para a geração, controle, manutenção e arquivamento dos dados vitais dos pacientes, pesquisas biomédicas, captura e disponibilização de imagens diagnósticas. Ao criar grandes bancos de dados sobre a saúde das pessoas, o processamento das informações contidas no prontuário do paciente permitirá uma nova visão a respeito do conhecimento atual do processo de diagnóstico médico. Existem diversos problemas nessa área, porque o acesso ao prontuário analógico é complicado, e em formato eletrônico não está disponível para todos, apesar do conhecido potencial desses documentos como fonte informacional. Uma das formas para a organização desse conhecimento é por meio da mineração de textos, que possibilita o processamento dos dados descritos em linguagem natural. Entretanto, é preciso levar em consideração o fato da redação médica não poder ser padronizada, embora exista a normativa do Conselho Federal de Medicina que orienta nessa direção. É neste contexto, que esta pesquisa se norteia com o objetivo básico de investigar a aplicabilidade da metodologia de mineração de textos para a extração de informações provenientes da anamnese de prontuários eletrônicos do paciente divulgados no ciberespaço visando a qualidade na recuperação de informações. Trata-se de uma pesquisa de cunho exploratório, tendo-se realizado a mineração de textos sobre um conjunto de 46 anamneses divulgadas no ciberespaço visando a recuperação de informação. ... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: In the health area, digital technologies provide resources for the generation, control, maintenance and vital patient data archiving biomedical research, diagnostic images capture and availability. By creating large databases on people's health records, processing the information contained in the patient's medical record, will provide a new insight into current knowledge of the medical diagnostic process. There are several problems in this area, because the access to analogical records is very complex and electronic format is not available for all of them, despite the known potential of these documents as informational source. One of the ways to arrange this knowledge is by the text mining which enables the data processing in natural language. However, it is necessary to consider the fact that medical writing cannot be standardized, although there is a Federal Council of Medicine policy that directs to that path. This is the context which this research is guided by the basic goal of investigating the methodology applicability of text mining for extracting information from the anamnesis of patients' electronic medical records divulged in cyberspace and aiming at the quality of information retrieval. This is an exploratory research, with texts mining on a set of 46 anamnesis published in cyberspace aimed at information retrieval. Then, a comparison was made with the data retrieved manually, to the interpretation of the medical-patient communication language. Those two results w... (Complete abstract click electronic access below) / Mestre Mineração de dados (Computação) Recuperação da informação. Registros médicos. Sistemas de informação em saúde. Data mining
288	Algoritmos de calibração e segmentação de trajetórias de objetos móveis com critérios não-supervisionado e semi-supervisionado SOARES JÚNIOR, Amílcar 10 March 2016 (has links) Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-07-12T13:16:29Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) tese_doutorado_amilcar-07-2016_versao-cd (1).pdf: 2101060 bytes, checksum: 21d268c59ad60238bce0cde073e6f3cd (MD5) / Made available in DSpace on 2017-07-12T13:16:29Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) tese_doutorado_amilcar-07-2016_versao-cd (1).pdf: 2101060 bytes, checksum: 21d268c59ad60238bce0cde073e6f3cd (MD5) Previous issue date: 2016-03-10 / A popularização de tecnologias de captura de dados geolocalizados aumentou a quantidade de dados de trajetórias disponível para análise. Trajetórias de objetos móveis são geradas a partir das posições de um objeto que se move durante um certo intervalo de tempo no espaço geográfico. Para diversas aplicações é necessário que as trajetórias sejam divididas em partições menores, denominadas segmentos, que representam algum comportamento relevante para a aplicação. A literatura reporta diversos trabalhos que propõem a segmentação de trajetórias. Entretanto, pouco se discute a respeito de quais algoritmos são mais adequados para um domínio ou quais valores de parâmetros de entrada fazem com que um algoritmo obtenha o melhor desempenho neste mesmo domínio. A grande maioria dos algoritmos de segmentação de trajetórias utiliza critérios pré-definidos para realizar esta tarefa. Poucos trabalhos procuram utilizar critérios nos quais não se sabe a priori que tipos de segmentos são gerados, sendo esta questão pouco explorada na literatura. Outra questão em aberto é o uso de exemplos para induzir um algoritmo de segmentação a encontrar segmentos semelhantes a estes exemplos em outras trajetórias. Esta proposta de tese objetiva resolver estas questões. Primeiro, são propostos os métodos GEnetic Algorithm based on Roc analysis (GEAR) e o Iterated F-Race for Trajectory Segmentation Algorithms (I/F-Race-TSA), que são métodos para auxiliar na escolha da melhor configuração (i.e. valores de parâmetros de entrada) de algoritmos de segmentação de trajetórias. Segundo, é proposto o Greedy Randomized Adaptive Search Procedure for Unsupervised Trajectory Segmentation (GRASP-UTS), com o objetivo de resolver o problema de segmentação de trajetórias quando o critério de segmentação não é previamente definido. Por último, propomos o GRASP for Semi-supervised Trajectory Segmentation (GRASP-SemTS). O GRASP-SemTS usa exemplos para induzir a tarefa de segmentação a encontrar segmentos semelhantes em outras trajetórias. Foram conduzidos experimentos com os métodos e algoritmos propostos para domínios distintos e para trajetórias reais de objetos móveis. Os resultados mostraram que ambos os métodos GEAR e I/F-Race-TSA foram capazes de calibrar automaticamente os parâmetros de entrada de algoritmos de segmentação de trajetórias para um dado domínio de aplicação. Os algoritmos GRASP-UTS e GRASP-SemTS obtiveram melhor desempenho quando comparados a outros algoritmos de segmentação de trajetórias da literatura contribuindo assim com importantes resultados para a área. / The popularization of technologies for geolocated data increased the amount of trajectory data available for analysis. Moving objects’ trajectories are generated from the positions of an object that moves in the geographical space during a certain amount of time. For many applications, it is necessary to partition trajectories into smaller pieces, named segments, which represent a relevant behavior to the application point of view. The literature reports many studies that propose trajectory segmentation approaches. However, there is a lack of discussions about which algorithm is more likely to be applied in a domain or which values of its input parameters obtain the best performance in the domain. Most algorithms for trajectory segmentation use pre-defined criteria to perform this task. Only few works make use of criteria where the characteristics of the segment are not known a priori and this topic is not well explored in the literature. Another open question is how to use a small amount of labeled segments to induce a segmentation algorithm in order to find such kind of behaviors into unseen trajectories. This thesis proposal aims to solve these questions. First, we propose the GEnetic Algorithm based on Roc analysis (GEAR) and the Iterated F-Race for Trajectory Segmentation Algorithms (I/F-RaceTSA), which are methods that are able to find the best configuration (i.e. input parameter values) of algorithms for trajectory segmentation. Second, we propose a Greedy Randomized Adaptive Search Procedure for Unsupervised Trajectory Segmentation (GRASP-UTS) aiming to solve the trajectory segmentation problem when the criteria is not determined a priori. Last, we propose the GRASP for Semi-supervised Trajectory Segmentation (RGRASP-SemTS). The GRASP-SemTS solves the problem of using a small amount of labeled data to induce the trajectory segmentation algorithm to find such behaviors into unseen trajectories. Experiments were conducted with the methods and algorithms algorithms using real world trajectory data. Results showed that GEAR and I/F-Race-TSA are capable of finding automatically the input parameter values for a domain. The GRASP-UTS and GRASP-SemTS obtained a better performance when compared to other segmentation algorithms from literature, contributing with important results for this field. Mineração de Dados de Trajetórias Seleção e Calibração de Algoritmos Segmentação de Trajetórias Trajectory Data Mining Selection and Tuning of Algorithms Trajectory segmentation
289	Indução de regras de decisão para análise descritiva de padrões de produtividade em talhões de cana-de-açúcar / Decision rules induction for descriptive analysis of yield patterns in commercial blocks of sugar cane Peloia, Paulo Rodrigues, 1982- 28 August 2018 (has links) Orientador: Luiz Henrique Antunes Rodrigues / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agrícola / Made available in DSpace on 2018-08-28T09:48:01Z (GMT). No. of bitstreams: 1 Peloia_PauloRodrigues_D.pdf: 1851900 bytes, checksum: 758d89c257994cf08ae7c6641daf8619 (MD5) Previous issue date: 2015 / Resumo: As indústrias do setor sucroalcooleiro coletam anualmente, durante sua operação comercial normal, milhares de dados relacionadas à produção e fatores que podem influenciá-la. A análise descritiva de padrões nos fatores de influência associados à talhões de destacado desempenho relacionado ao potencial produtivo pode ser um ponto chave para tornar o sistema de produção mais eficiente, principalmente quando passíveis de ação e/ou inesperados, assim auxiliando na tomada de decisão ou servindo de hipótese para experimentos específicos futuros em condições controladas. Apesar desta disponibilidade de bases de dados e potenciais resultados, ainda existe uma lacuna em abordagens que contemplem desde a obtenção e preparação dos dados até extração de padrões num formato compreensível. Assim, o objetivo desta pesquisa foi propor uma abordagem baseada na técnica de indução de regras de decisão para análise descritiva de padrões em talhões de alto e baixo desempenho em produtividade na cana-de-açúcar. A abordagem possui 9 etapas, sendo: obtenção da base de dados de produtividade e seu enriquecimento com dados de fatores de influência complementares e sua limpeza; criação de atributos derivados, padronização do potencial produtivo dos talhões e segmentação em baixo e alto desempenho pelo método K-means; extração de regras por indução de regras de decisão usando os algoritmos RIPPER e Classification Tree, seguida pela seleção das principais regras por medidas de interesse (Novidade e Likelihood ratio ou precisão e complexidade); avaliação agronômica das regras selecionadas e dos atributos descritores. A abordagem foi exemplificada numa base de dados de produtividade de talhões de duas safras consecutivas de uma unidade de produção de cana-de-açúcar. Os resultados mostraram que a abordagem foi capaz de descrever 18 padrões, sendo 10 passíveis de ação e 4 inesperados. A abordagem proposta mostrou-se válida para descrever padrões inesperados ou passíveis de ação relacionados à produtividade, reproduzindo o conhecimento de especialistas de forma estruturada (passível de reprodução) e automática (sem a necessidade um especialista durante o processo), podendo ser estendida a outras culturas / Abstract: Industries of sugarcane sector collect annually thousands of information related to production and influence factors during current commercial operation. The descriptive analysis of influence factors patterns related to commercial blocks with outstanding performance related to productive potential may be a key-point to make the sugarcane production system more efficient, mainly when actionable and/or unexpected, thus assisting decision making or being hypothesis for future specific experiments under controlled conditions. Despite of the databases availability and potential results, still exist a gap in approaches that cover from the data obtainment and preparation until patterns extraction in a comprehensive format. Therefore, the objective of this research is to propose a methodology based on decision rules induction technique to descriptively analyze patterns in commercial blocks with high and low performance regarding sugarcane yield. The approach has 9 phases: yield database obtainment and its enrichment with complementary influence factors data and clean up; derived attributes creation, productive potential of commercial blocks standardization and clustering in high and low performance by k-means method; rules induction by algorithms RIPPER and Classification Tree, followed by main rules selection based on interestingness measures (Novelty and Likelihood ratio or precision and complexity); agronomic evaluation of selected rules and descriptive attributes. The approach has been exemplified in a two consecutive season yield database of commercial blocks from a production unit has been analyzed. Results show that the approach was able to describe 18 patterns, where 10 are actionable and 4 unexpected. The proposed approach is valid to describe unexpected patterns or actionable ones related to yield, reproducing the experts knowledge in a structured form (reproducible) and automatically (nor requiring an knowledge expert during the process). It may be extended to other crops / Doutorado / Planejamento e Desenvolvimento Rural Sustentável / Doutor em Engenharia Agrícola / 2012/50049-3 / FAPESP Variabilidade Produtividade Data Mining (Computing) Variability Produtivity
290	Uma metodologia para extração de conhecimento em séries temporais por meio da identificação de motifs e da extração de características / A methodology to extract knowledge from time series using motif identification and feature extraction André Gustavo Maletzke 30 April 2009 (has links) Mineração de dados tem sido cada vez mais aplicada em distintas áreas com o objetivo de extrair conhecimento interessante e relevante de grandes conjuntos de dados. Nesse contexto, aprendizado de máquina fornece alguns dos principais métodos utilizados em mineração de dados. Dentre os métodos empregados em aprendizado de máquina destacam-se os simbólicos que possuem como principal contribuição a interpretabilidade. Entretanto, os métodos de aprendizado de máquina tradicionais, como árvores e regras de decisão, não consideram a informação temporal presente nesses dados. Este trabalho propõe uma metodologia para extração de conhecimento de séries temporais por meio da extração de características e da identificação de motifs. Características e motifs são utilizados como atributos para a extração de conhecimento por métodos de aprendizado de máquina. Essa metodologia foi avaliada utilizando conjuntos de dados conhecidos na área. Foi realizada uma análise comparativa entre a metodologia e a aplicação direta de métodos de aprendizado de máquina sobre as séries temporais. Os resultados mostram que existe diferença estatística significativa para a maioria dos conjuntos de dados avaliados. Finalmente, foi realizado um estudo de caso preliminar referente ao monitoramento ambiental do reservatório da Usina Hidrelétrica Itaipu Binacional. Nesse estudo somente a identificação de motifs foi aplicada. Foram utilizadas séries temporais referentes à temperatura da água coletadas em distintas regiões do reservatório. Nesse estudo observou-se a existência de um padrão na distribuição dos motifs identificados para cada região do reservatório, corroborando com resultados consagrados na literatura / Data mining has been applied to several areas with the objective of extracting interesting and relevant knowledge from large data bases. In this scenario, machine learning provides some of the main methods employed in data mining. Symbolic learning are among the most used machine learning methods since these methods can provide models that can be interpreted by domain experts. However, traditional machine learning methods, such as decision trees and decision rules, do not take into account the temporal information present into data. This work proposes a methodology to extract knowledge from time series data using feature extraction and motif identification. Features and motifs are used as attributes for knowledge extraction performed by machine learning methods. This methodology was evaluated using some well-known data sets. In addition, we compared the proposed methodology to the approach that feeds machine learning algorithms with raw time series data. Results show that there are statistically significant differences for most of the data sets employed in the study. Finally, it is presented a preliminary study with environmental monitoring data from the Itaipu reservoir, made available by Itaipu Binacional. This study is restricted to the application of motif identification. We have used time series of water temperature collected from several regions of the reservoir. In this study, a pattern in motif distribution was observed for each region of the reservoir, agreeing with some well-known literature results Extração de Características Limnologia Mineração de Dados Motifs Séries Temporais Data Mining Feature Extraction Limnology Motifs Time Series

Search results