Global ETD Search

371	Calibração da relação fluxo-velocidade para autoestradas e rodovias de pista dupla / Calibration of speed-flow relationship for freeways and multilane highways Gabriel Jurado Martins de Oliveira 20 July 2018 (has links) Esta pesquisa apresenta um método de calibração da relação fluxo-velocidade do Highway Capacity Manual, HCM, para autoestradas e rodovias de pista dupla, a partir de recomendações tecidas pelos autores envolvidos na elaboração do manual. Para tanto, foi utilizado uma amostra com mais de 1.700.000 observações, coletadas por 34 sensores de tráfego, localizados em quatros rodovias do Estado de São Paulo: SP-280, SP-348, SP-270 e SP-021. O tratamento do banco de dados foi realizado por meio da filtragem dos dados originais através da aplicação de três critérios, que têm como finalidade remover observações consideradas inadequadas para a calibração do modelo. Os critérios baseiam-se em obter uma corrente de tráfego formada somente por veículos leves, com condições de operação normal e com observações referentes apenas ao regime de fluxo livre. A separação entre os regimes de fluxo livre e congestionado foi realizada por meio da densidade na capacidade. Para tanto, foi proposto um método de estimação da capacidade por meio da análise da variação da velocidade média da corrente em função do fluxo de tráfego. O pressuposto do método parte do conceito de que o colapso da corrente de tráfego é um fenômeno estocástico, caracterizado pela queda abrupta da velocidade média em função do aumento do fluxo de tráfego. O momento em que ocorre mudança abrupta de velocidade é associado ao colapso da corrente de tráfego e consequentemente à capacidade da via. Após a estimação da capacidade, a velocidade na capacidade foi determinada como a média das velocidades associadas ao fluxo na capacidade, enquanto que a densidade na capacidade foi obtida por meio da relação fundamental de tráfego. O método foi aplicado em um conjunto de 18 trechos de rodovias que atingem a capacidade e os resultados foram considerados satisfatórios após a comparação com valores encontrados na literatura. A calibração da relação fluxo-velocidade foi realizada individualmente para cada trecho de rodovia utilizado no estudo. A análise dos resultados mostra que as rodovias rurais apresentam em média valores maiores para velocidade de fluxo livre, capacidade, coeficiente de calibração, velocidade na capacidade e ponto de transição em relação as rodovias urbanas. Alem disso, o ponto de transição, que consiste em um patamar de velocidade de fluxo livre constante, apresenta valores significativamente menores em relação a literatura. / The following research aims to outline a calibration method of the speed-flow relationship presented in the Highway Capacity Manual (HCM). The method is applied on freeways and multilane highways, leveraging the guidelines made by the authors that developed the manual. In order to support the calibration, a sample with more than 1.700.000 observations was used, collected by 34 traffic sensors on four highways at São Paulo state (SP-280, SP-348, SP270, and SP-021). Furthermore, the data treatment and cleaning process aimed to remove observations considered inappropriate from a model calibration perspective by filtering the original data through three main criteria: traffic flow only composed by passenger car, traffic under normal operations condition, and only containing observations which free flow regime applies. The third filtering criteria was applied by splitting free flow and congested regime through the threshold of density at capacity. To this extent, a capacity estimation method was proposed, aiming to analyse the average speed variation in function of the traffic flow. The assumption of the method relies in the concept that the traffic flow breakdown is a stochastic process, characterized by the abrupt drop in the average speed as function of the traffic flow increase. The moment that abrupt drop occurs is related to traffic breakdown and, consequently, to the capacity freeway capacity. Once the capacity was estimated, the speed at capacity was defined as the average of the speed associated with the flow at capacity while the density at capacity was estimated through the fundamental relationship of the traffic flow. The method was applied in 18 delimited highway traffic perimeter that reached their corresponding capacity and the results were considered satisfactory after comparing against values found in the literature. Furthermore, the speed-flow relationships calibration was performed for each of them individually. The results show that rural highways have in average higher free flow speed, capacity, calibration coefficient, speed at capacity and breakpoint than urban highways. Moreover, the breakpoint, which consists a constant free flow speed level, presented significant lower values in comparison to the literature. Autoestradas Calibração Capacidade HCM Inferência bayesiana Relação fluxo-velocidade Rodovias Rodovias de pista dupla Bayesian inference Calibration Capacity Freeways HCM Highways Multilane highways Speed-flow relationship
372	Estimação indireta de modelos R-GARCH / Indirect inference of R-GARCH models Sampaio, Jhames Matos 01 March 2012 (has links) Processos lineares não capturam a estrutura dos dados em finanças. Há uma variedade muito grande de modelos não lineares disponíveis na literatura. A classe de modelos ARCH (Autoregressive Conditional Heterokedastic) foi introduzida por Engle (1982) com o objetivo de estimar a variância da inflação. A idéia nesta classe é que os retornos sejam não correlacionados serialmente, mas a volatilidade (variância condicional) dependa de retornos passados. A classe de modelos GARCH (Generalized Autoregressive Conditional Heterokedastic) sugerida por Bollerslev (1986, 1987, 1988) pode ser usada para descrever a volatilidade com menos parâmetros que um modelo ARCH. Modelos da classe GARCH são processos estocásticos não lineares, suas distribuições tem cauda pesada com variância condicional dependente do tempo e modelam agrupamento de volatilidade. Apesar da razoável descrição, a forma como os modelos acima foram construídos apresentaram algumas limitações no que se refere ao peso das caudas em suas distribuições não condicionais. Muitos estudos em dados financeiros apontam para caudas com peso considerável. Modelos R-GARCH (Randomized Generalized Autoregressive Conditional Heterokedastic) foram propostos por Nowicka (1998) e incluem os modelos ARCH e GARCH possibilitando o uso de inovações estáveis além da conhecida distribuição normal. Estas permitem captar melhor a propriedade de cauda pesada. Como a função de autocovariância não existe para tais processos introduz-se novas medida de dependência. Métodos de estimação e análises empíricas da classe R-GARCH, assim como de suas medidas de dependência não estão disponíveis na literatura e são o foco deste trabalho. / Linear processes do not capture the structure of financial data. There is a large variety of nonlinear models available in literature. The class of ARCH models (Autoregressive Conditional Heterokedastic) was introduced by Engle (1982) in order to estimate inflation\'s variance. The idea is that, in this class, returns are serially uncorrelated, but the volatility (conditional variance) depends on past returns. The class of GARCH models (Generalized Autoregressive Conditional Heterokedastic) suggested by Bollerslev (1986, 1987, 1988) can be used to describe the volatility with less parameters than ARCH-type models. GARCH-type models are nonlinear stochastic processes, their distribution are heavy-tailed with time-dependent conditional variance model and they model clustering of volatility. Despite the reasonable description, the way that GARCH models are built imposes limits on the heaviness of the tails of their unconditional distribution. Many studies in financial data point to considerable heaviness of the tails. The class of Randomized Generalized Autoregressive Conditional Heterokedastic (R-GARCH) were proposed by Nowicka (1998) and include the ARCH and GARCH models allowing the use of stable innovations in place of normal distribution. This distribution allows to capture the heaviness tail property. As the autocovariance function does not exist for these processes a new measure of dependence was introduced. Estimation methods and empirical analysis of R-GARCH class, as well as their measures of dependence are not available in literature and are the focus of this work. Distribuicoes estáveis Finanças. Finance Indirect inference Inferência indireta R-GARCH R-GARCH Rs-GARCH Rs-GARCH Rt-GARCH Rt-GARCH Séries temporais Stable distributions Time series
373	Inferência de redes gênicas por agrupamento, busca exaustiva e análise de predição intrinsecamente multivariada. / Gene networks inference by clustering, exhaustive search and intrinsically multivariate prediction analysis. Jacomini, Ricardo de Souza 09 June 2017 (has links) A inferência de redes gênicas (GN) a partir de dados de expressão gênica temporal é um problema crucial e desafiador em Biologia Sistêmica. Os conjuntos de dados de expressão geralmente consistem em dezenas de amostras temporais e as redes consistem em milhares de genes, tornando inúmeros métodos de inferência inviáveis na prática. Para melhorar a escalabilidade dos métodos de inferência de GNs, esta tese propõe um arcabouço chamado GeNICE, baseado no modelo de redes gênicas probabilísticas. A principal novidade é a introdução de um procedimento de agrupamento de genes, com perfis de expressão relacionados, para fornecer uma solução aproximada com complexidade computacional reduzida. Os agrupamentos definidos são usados para reduzir a dimensionalidade permitindo uma busca exaustiva mais eficiente pelos melhores subconjuntos de genes preditores para cada gene alvo de acordo com funções critério multivariadas. GeNICE reduz consideravelmente o espaço de busca porque os candidatos a preditores ficam restritos a um gene representante por agrupamento. No final, uma análise multivariada é realizada para cada subconjunto preditor definido, visando recuperar subconjuntos mínimos para simplificar a rede gênica inferida. Em experimentos com conjuntos de dados sintéticos, GeNICE obteve uma redução substancial de tempo quando comparado a uma solução anterior sem a etapa de agrupamento, preservando a precisão da predição de expressão gênica mesmo quando o número de agrupamentos é pequeno (cerca de cinquenta) e o número de genes é grande (ordem de milhares). Para um conjunto de dados reais de microarrays de Plasmodium falciparum, a precisão da predição alcançada pelo GeNICE foi de aproximadamente 97% em média. As redes inferidas para os genes alvos da glicólise e do apicoplasto refletem propriedades topológicas de redes complexas do tipo \"mundo pequeno\" e \"livre de escala\", para os quais grande parte das conexões são estabelecidas entre os genes de um mesmo módulo e algumas poucas conexões fazem o papel de estabelecer uma ponte entre os módulos (redes mundo pequeno), e o grau de distribuição das conexões entre os genes segue uma lei de potência, na qual a maioria dos genes têm poucas conexões e poucos genes (hubs) apresentam um elevado número de conexões (redes livres de escala), como esperado. / Gene network (GN) inference from temporal gene expression data is a crucial and challenging problem in Systems Biology. Expression datasets usually consist of dozens of temporal samples, while networks consist of thousands of genes, thus rendering many inference methods unfeasible in practice. To improve the scalability of GN inference methods, this work proposes a framework called GeNICE, based on Probabilistic Gene Networks; the main novelty is the introduction of a clustering procedure to group genes with related expression profiles, to provide an approximate solution with reduced computational complexity. The defined clusters were used to perform an exhaustive search to retrieve the best predictor gene subsets for each target gene, according to multivariate criterion functions. GeNICE greatly reduces the search space because predictor candidates are restricted to one representative gene per cluster. Finally, a multivariate analysis is performed for each defined predictor subset to retrieve minimal subsets and to simplify the network. In experiments with in silico generated datasets, GeNICE achieved substantial computational time reduction when compared to an existing solution without the clustering step, while preserving the gene expression prediction accuracy even when the number of clusters is small (about fifty) relative to the number of genes (order of thousands). For a Plasmodium falciparum microarray dataset, the prediction accuracy achieved by GeNICE was roughly 97% on average. The inferred networks for the apicoplast and glycolytic target genes reflects the topological properties of \"small-world\"and \"scale-free\"complex network models in which a large part of the connections is established between genes of the same functional module (smallworld networks) and the degree distribution of the connections between genes tends to form a power law, in which most genes present few connections and few genes (hubs) present a large number of connections (scale-free networks), as expected. Biologia Clustering Complex networks Computação aplicada Exhaustive search Feature selection Gene regulatory networks inference Genes Geometria e modelagem computacional Inferência estatística Intrinsically multivariate Prediction Probabilistic gene networks
374	Previsão de vazões afluentes a usinas hidrelétricas aplicada à programação da operação do sistema elétrico brasileiro / Streamflow forecasting applied to the operation planning of the Brazilian electric power system Lima, Diana Ruth Mejia de 17 September 2018 (has links) Este trabalho aborda o problema de modelagem de séries de vazões afluentes aos aproveitamentos hidrelétricos. A previsão de vazão natural fluvial é realizada semanalmente para 158 usinas hidrelétricas do Sistema Interligado Nacional (SIN), pois trata-se de insumo fundamental para o planejamento e operação do sistema elétrico brasileiro. Diversos modelos são utilizados na determinação destas previsões, entre os quais podem ser citados os modelos físicos, os estatísticos e aqueles que aplicam sistemas inteligentes. Apesar de contínuos aprimoramentos terem sido incorporados ao processo de previsão de vazão, existem alguns aproveitamentos hidrelétricos para os quais os resultados de estimação têm apresentado grandes desvios. Neste contexto, com a motivação de se obter uma resposta acurada, investigam-se os sistemas fuzzy como modelos concorrentes aplicados à previsão de vazões semanais. O objetivo do trabalho é reduzir os erros de estimação para uma usina piloto, incorporando à previsão de vazão os dados de precipitação. Para a construção da série histórica de precipitação média da bacia hidrográfica, fez-se uma exaustiva pesquisa por estações pluviométricas, seguida por tratamento de dados de medição e método de interpolação. Ao final do trabalho, é apresentada uma análise comparativa entre os resultados obtidos com o Modelo Autorregressivo Periódico (PAR) e o sistema de inferência fuzzy. Com base no desempenho observado, superior ao modelo autorregressivo, comprova-se a adequação do modelo proposto para a modelagem do processo hidrológico. / This work addresses the modelling problem of hydropower plants reservoir streamflow series. The natural streamflow forecasting for 157 hydroelectric power plants of the National Interconnected System - NIS is updated on a weekly basis, which is an essential input for the planning and operation of the Brazilian Electric Power System. Several models are used to determine this prediction, such as physicals, statisticals and the ones that use intelligent systems. Despite the improvements to natural streamflow forecasting, substantial deviation has been found for the expected results of some hydropower plants. Highlighted the importance of this variable, fuzzy systems applied to weekly streamflows forecasts will be investigated as alternative models, in order to obtain better results. The purpose of this work is to reduce the estimation errors for a pilot hydropower plant, incorporating precipitation data into the forecast. Therefore, an exhaustive research to acquire data from hydrometeorological stations was conducted. After being treated, a variable selection method was applied to the data, defining the most relevant input variables for the prediction model. At the end, a comparative analysis shows that the fuzzy model presents a better performance than the periodic autoregressive model used by ONS to plan the operation of the electric power system. Fuzzy inference system Hydrothermal system Linear statistical models Modelos lineares Planejamento da operação Planning of the operation Previsão de vazão hidrológica Sistema hidrotérmico Sistemas de inferência fuzzy Streamflow forecast
375	Inferência das áreas de atuação de pesquisadores / Inference of the area of expertise of researchers Fonseca, Felipe Penhorate Carvalho da 30 January 2018 (has links) Atualmente, existe uma grande gama de dados acadêmicos disponíveis na web. Com estas informações é possível realizar tarefas como descoberta de especialistas em uma dada área, identificação de potenciais bolsistas de produtividade, sugestão de colaboradores, entre outras diversas. Contudo, o sucesso destas tarefas depende da qualidade dos dados utilizados, pois dados incorretos ou incompletos tendem a prejudicar o desempenho dos algoritmos aplicados. Diversos repositórios de dados acadêmicos não contêm ou não exigem a informação explícita das áreas de atuação dos pesquisadores. Nos dados dos currículos Lattes essa informação existe, porém é inserida manualmente pelo pesquisador sem que haja nenhum tipo de validação (e potencialmente possui informações desatualizadas, faltantes ou mesmo incorretas). O presente trabalho utilizou técnicas de aprendizado de máquina na inferência das áreas de atuação de pesquisadores com base nos dados cadastrados na plataforma Lattes. Os títulos da produção científica foram utilizados como fonte de dados, sendo estes enriquecidos com informações semanticamente relacionadas presentes em outras bases, além de adotar representações diversas para o texto dos títulos e outras informações acadêmicas como orientações e projetos de pesquisa. Objetivou-se avaliar se o enriquecimento dos dados melhora o desempenho dos algoritmos de classificação testados, além de analisar a contribuição de fatores como métricas de redes sociais, idioma dos títulos e a própria estrutura hierárquica das áreas de atuação no desempenho dos algoritmos. A técnica proposta pode ser aplicada a diferentes dados acadêmicos (não sendo restrita a dados presentes na plataforma Lattes), mas os dados oriundos dessa plataforma foram utilizados para os testes e validações da solução proposta. Como resultado, identificou-se que a técnica utilizada para realizar o enriquecimento do texto não auxiliou na melhoria da precisão da inferência. Todavia, as métricas de redes sociais e representações numéricas melhoram a inferência quando comparadas com técnicas do estado da arte, assim como o uso da própria estrutura hierárquica de classes, que retornou os melhores resultados dentre os obtidos / Nowadays, there is a wide range of academic data available on the web. With this information, it is possible to solve tasks such as the discovery of specialists in a given area, identification of potential scholarship holders, suggestion of collaborators, among others. However, the success of these tasks depends on the quality of the data used, since incorrect or incomplete data tend to impair the performance of the applied algorithms. Several academic data repositories do not contain or do not require the explicit information of the researchers\' areas. In the data of the Lattes curricula, this information exists, but it is inserted manually by the researcher without any kind of validation (and potentially it is outdated, missing or even there is incorrect information). The present work utilized machine learning techniques in the inference of the researcher\'s areas based on the data registered in the Lattes platform. The titles of the scientific production were used as data source and they were enriched with semantically related information present in other bases, besides adopting other representations for the text of the titles and other academic information as orientations and research projects. The objective of this dissertation was to evaluate if the data enrichment improves the performance of the classification algorithms tested, as well as to analyze the contribution of factors such as social network metrics, the language of the titles and the hierarchical structure of the areas in the performance of the algorithms. The proposed technique can be applied to different academic data (not restricted to data present in the Lattes platform), but the data from this platform was used for the tests and validations of the proposed solution. As a result, it was identified that the technique used to perform the enrichment of the text did not improve the accuracy of the inference. However, social network metrics and numerical representations improved inference accuracy when compared to state-of-the-art techniques, as well as the use of the hierarchical structure of the classes, which returned the best results among the obtained Classificação de texto Enriquecimento de texto Inferência de áreas de atuação Lattes platform Modelagem de tópicos Plataforma Lattes Research interest Text classification Text enrichment Topic modeling
376	Estimação não-paramétrica e semi-paramétrica de fronteiras de produção Torrent, Hudson da Silva January 2010 (has links) Existe uma grande e crescente literatura sobre especificação e estimação de fronteiras de produção e, portanto, de eficiência de unidades produtivas. Nesta tese, o foco esta sobre modelos de fronteiras determinísticas, os quais são baseados na hipótese de que os dados observados pertencem ao conjunto tecnológico. Dentre os modelos estatísticos e estimadores para fronteiras determinísticas existentes, uma abordagem promissora e a adotada por Martins-Filho e Yao (2007). Esses autores propõem um procedimento de estimação composto por três estágios. Esse estimador e de fácil implementação, visto que envolve procedimentos não-paramétricos bem conhecidos. Além disso, o estimador possui características desejáveis vis-à-vis estimadores para fronteiras determinísticas tradicionais como DEA e FDH. Nesta tese, três artigos, que melhoram o modelo proposto por Martins-Filho e Yao (2007), sao propostos. No primeiro artigo, o procedimento de estimação desses autores e melhorado a partir de uma variação do estimador exponencial local, proposto por Ziegelmann (2002). Demonstra-se que estimador proposto a consistente e assintoticamente normal. Além disso, devido ao estimador exponencial local, estimativas potencialmente negativas para a função de variância condicional, que poderiam prejudicar a aplicabilidade do estimador proposto por Martins-Filho e Yao, são evitadas. No segundo artigo, e proposto um método original para estimação de fronteiras de produção em apenas dois estágios. E mostrado que se pode eliminar o segundo estágio proposto por Martins-Filho e Yao, assim como, eliminar o segundo estagio proposto no primeiro artigo desta tese. Em ambos os casos, a estimação do mesmo modelo de fronteira de produção requer três estágios, sendo versões diferentes para o segundo estagio. As propriedades assintóticas do estimador proposto são analisadas, mostrando-se consistência e normalidade assintótica sob hipóteses razoáveis. No terceiro artigo, a proposta uma variação semi-paramétrica do modelo estudado no segundo artigo. Reescreve-se aquele modelo de modo que se possa estimar a fronteira de produção e a eficiência de unidades produtivas no contexto de múltiplos insumos, sem incorrer no curse of dimensionality. A abordagem adotada coloca o modelo na estrutura de modelos aditivos, a partir de hipóteses sobre como os insumos se combinam no processo produtivo. Em particular, considera-se aqui os casos de insumos aditivos e insumos multiplicativos, os quais são amplamente considerados em teoria econômica e aplicações. Estudos de Monte Carlo são apresentados em todos os artigos, afim de elucidar as propriedades dos estimadores propostos em amostras finitas. Além disso, estudos com dados reais são apresentados em todos os artigos, nos quais são estimador rankings de eficiência para uma amostra de departamentos policiais dos EUA, a partir de dados sobre criminalidade daquele país. / There exists a large and growing literature on the specification and estimation of production frontiers and therefore efficiency of production units. In this thesis we focus on deterministic production frontier models, which are based on the assumption that all observed data lie in the technological set. Among the existing statistical models and estimators for deterministic frontiers, a promising approach is that of Martins-Filho and Yao (2007). They propose an estimation procedure that consists of three stages. Their estimator is fairly easy to implement as it involves standard nonparametric procedures. In addition, it has a number of desirable characteristics vis-a-vis traditional deterministic frontier estimators as DEA and FDH. In this thesis we propose three papers that improve the model proposed in Martins-Filho and Yao (2007). In the first paper we improve their estimation procedure by adopting a variant of the local exponential smoothing proposed in Ziegelmann (2002). Our estimator is shown to be consistent and asymptotically normal. In addition, due to local exponential smoothing, potential negativity of conditional variance functions that may hinder the use of Martins-Filho and Yao's estimator is avoided. In the second paper we propose a novel method for estimating production frontiers in only two stages. (Continue). There we show that we can eliminate the second stage of Martins-Filho and Yao as well as of our first paper, where estimation of the same frontier model requires three stages under different versions for the second stage. We study asymptotic properties showing consistency andNirtnin, asymptotic normality of our proposed estimator under standard assumptions. In the third paper we propose a semiparametric variation of the frontier model studied in the second paper. We rewrite that model allowing for estimating the production frontier and efficiency of production units in a multiple input context without suffering the curse of dimensionality. Our approach places that model within the framework of additive models based on assumptions regarding the way inputs combine in production. In particular, we consider the cases of additive and multiplicative inputs, which are widely considered in economic theory and applications. Monte Carlo studies are performed in all papers to shed light on the finite sample properties of the proposed estimators. Furthermore a real data study is carried out in all papers, from which we rank efficiency within a sample of USA Law Enforcement agencies using USA crime data. Estimação Modelo matemático Inferencia nao parametrica Inferência estatística Nonparametric frontier models Local exponential regression Local linear regression Classical Backfitting Smooth Backfitting
377	Metodologia para diagnosticar a qualidade de energia elétrica referente à distorção harmônica em sistema trifásico de baixa tensão utilizando lógica fuzzy GONÇALVES, Benevaldo Pereira 02 September 2010 (has links) Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2011-11-05T18:15:18Z No. of bitstreams: 2 license_rdf: 23631 bytes, checksum: 0ebfb63a28ea1d6f51b802c66ebf651c (MD5) Dis_Benevaldo_Gonçalves_2010_PPGEE.pdf: 2368248 bytes, checksum: 969852b36f83b8f8b756d016862a55b2 (MD5) / Made available in DSpace on 2011-11-05T18:15:18Z (GMT). No. of bitstreams: 2 license_rdf: 23631 bytes, checksum: 0ebfb63a28ea1d6f51b802c66ebf651c (MD5) Dis_Benevaldo_Gonçalves_2010_PPGEE.pdf: 2368248 bytes, checksum: 969852b36f83b8f8b756d016862a55b2 (MD5) Previous issue date: 2010 / Este trabalho ressalta a importância de monitorar e diagnosticar a qualidade de energia elétrica sob a ótica das distorções harmônicas presente nas instalações elétricas em sistema trifásico de baixa tensão através de uma proposta metodológica para analisar e diagnosticar o nível dos distúrbios harmônico avaliando o indicador total de distorção harmônica (THD), apoiado por um sistema especialista baseado em um sistema de inferência Fuzzy. / This work emphasizes the importance of monitoring and diagnosing the quality of electric power from the viewpoint of harmonic distortion present in the electrical installation in low voltage three-phase system using a methodology to analyze and diagnose the level of harmonic disturbances evaluating the overall indicator of distortion Harmonic (THD), supported by an expert system based on a Fuzzy inference system. / ITEGAM - Instituto de Tecnologia e Educação Galileo da Amazônia Energia elétrica Harmônicos (Ondas elétricas) Sistema de inferência Fuzzy Controle de qualidade
378	Paralelização de inferência em redes credais utilizando computação distribuída para fatoração de matrizes esparsas / Parallelization of credal network inference using distributed computing for sparse matrix factorization. Ramon Fortes Pereira 25 April 2017 (has links) Este estudo tem como objetivo melhorar o desempenho computacional dos algoritmos de inferência em redes credais, aplicando técnicas de computação paralela e sistemas distribuídos em algoritmos de fatoração de matrizes esparsas. Grosso modo, técnicas de computação paralela são técnicas para transformar um sistema em um sistema com algoritmos que possam ser executados concorrentemente. E a fatoração de matrizes são técnicas da matemática para decompor uma matriz em um produto de duas ou mais matrizes. As matrizes esparsas são matrizes que possuem a maioria de seus valores iguais a zero. E as redes credais são semelhantes as redes bayesianas, que são grafos acíclicos que representam uma probabilidade conjunta através de probabilidades condicionais e suas relações de independência. As redes credais podem ser consideradas como uma extensão das redes bayesianas para lidar com incertezas ou a má qualidade dos dados. Para aplicar a técnica de paralelização de fatoração de matrizes esparsas na inferência de redes credais, a inferência utiliza-se da técnica de eliminação de variáveis onde o grafo acíclico da rede credal é associado a uma matriz esparsa e cada variável eliminada é análoga a eliminação de uma coluna. / This study\'s objective is the computational performance improvement of credal network inference algorithms by applying computational parallel and distributed system techniques of sparse matrix factorization algorithms. Roughly, computational parallel techniques are used to transform systems in systems with algorithms that can be executed concurrently. And the matrix factorization is a group of mathematical techniques to decompose a matrix in a product of two or more matrixes. The sparse matrixes are matrixes which have most of their values equal to zero. And credal networks are similar to Bayesian networks, which are acyclic graphs representing a joint probability through conditional probabilities and their independence relations. Credal networks can be considered as a Bayesian network extension because of their manner of leading to uncertainty and the poor data quality. To apply parallel techniques of sparse matrix factorization in credal network inference the variable elimination method was used, where the credal network acyclic graph is associated to a sparse matrix and every eliminated variable is analogous to an eliminated column. Eliminação de variáveis Fatoração de matrizes esparsas Inferência em redes credais Rede credal Credal network Credal network inference Sparse matrix factorization Variables elimination
379	Um modelo Bayesiano semi-paramétrico para o monitoramento ``on-line\" de qualidade de Taguchi para atributos / A semi-parametric model for Taguchi´s On-Line Quality-Monitoring Procedure for Attributes Miriam Harumi Tsunemi 27 April 2009 (has links) Este modelo contempla o cenário em que a sequência de frações não-conformes no decorrer de um ciclo do processo de produção aumenta gradativamente (situação comum, por exemplo, quando o desgaste de um equipamento é gradual), diferentemente dos modelos de Taguchi, Nayebpour e Woodall e Nandi e Sreehari (1997), que acomodam sequências de frações não-conformes assumindo no máximo três valores, e de Nandi e Sreehari (1999) e Trindade, Ho e Quinino (2007) que contemplam funções de degradação mais simples. O desenvolvimento é baseado nos trabalhos de Ferguson e Antoniak para o cálculo da distribuição a posteriori de uma medida P desconhecida, associada a uma função de distribuição F desconhecida que representa a sequência de frações não-conformes ao longo de um ciclo, supondo, a priori, mistura de Processos Dirichlet. A aplicação consiste na estimação da função de distribuição F e as estimativas de Bayes são analisadas através de alguns casos particulares / In this work, we propose an alternative model for Taguchi´s On-Line Quality-Monitoring Procedure for Attributes under a Bayesian nonparametric framework. This model may be applied to production processes the sequences of defective fractions during a cycle of which increase gradually (for example, when an equipment deteriorates little by little), differently from either Taguchi\'s, Nayebpour and Woodall\'s and Nandi and Sreehari\'s models that allow at most three values for the defective fraction or Nandi and Sreehari\'s and Trindade, Ho and Quinino\'s which take into account simple deterioration functions. The development is based on Ferguson\'s and Antoniak\'s papers to obtain a posteriori distribution for an unknown measure P, associated with an unknown distribution function F that represents the sequence of defective fractions, considering a prior mixture of Dirichlet Processes. The results are applied to the estimation of the distribution function F and the Bayes estimates are analised through some particular cases. Inferência Bayesiana não-paramétrica mistura de Processos Dirichlet mixture of Dirichlet Processes nonparametric Bayesian Inference
380	Inferência das áreas de atuação de pesquisadores / Inference of the area of expertise of researchers Felipe Penhorate Carvalho da Fonseca 30 January 2018 (has links) Atualmente, existe uma grande gama de dados acadêmicos disponíveis na web. Com estas informações é possível realizar tarefas como descoberta de especialistas em uma dada área, identificação de potenciais bolsistas de produtividade, sugestão de colaboradores, entre outras diversas. Contudo, o sucesso destas tarefas depende da qualidade dos dados utilizados, pois dados incorretos ou incompletos tendem a prejudicar o desempenho dos algoritmos aplicados. Diversos repositórios de dados acadêmicos não contêm ou não exigem a informação explícita das áreas de atuação dos pesquisadores. Nos dados dos currículos Lattes essa informação existe, porém é inserida manualmente pelo pesquisador sem que haja nenhum tipo de validação (e potencialmente possui informações desatualizadas, faltantes ou mesmo incorretas). O presente trabalho utilizou técnicas de aprendizado de máquina na inferência das áreas de atuação de pesquisadores com base nos dados cadastrados na plataforma Lattes. Os títulos da produção científica foram utilizados como fonte de dados, sendo estes enriquecidos com informações semanticamente relacionadas presentes em outras bases, além de adotar representações diversas para o texto dos títulos e outras informações acadêmicas como orientações e projetos de pesquisa. Objetivou-se avaliar se o enriquecimento dos dados melhora o desempenho dos algoritmos de classificação testados, além de analisar a contribuição de fatores como métricas de redes sociais, idioma dos títulos e a própria estrutura hierárquica das áreas de atuação no desempenho dos algoritmos. A técnica proposta pode ser aplicada a diferentes dados acadêmicos (não sendo restrita a dados presentes na plataforma Lattes), mas os dados oriundos dessa plataforma foram utilizados para os testes e validações da solução proposta. Como resultado, identificou-se que a técnica utilizada para realizar o enriquecimento do texto não auxiliou na melhoria da precisão da inferência. Todavia, as métricas de redes sociais e representações numéricas melhoram a inferência quando comparadas com técnicas do estado da arte, assim como o uso da própria estrutura hierárquica de classes, que retornou os melhores resultados dentre os obtidos / Nowadays, there is a wide range of academic data available on the web. With this information, it is possible to solve tasks such as the discovery of specialists in a given area, identification of potential scholarship holders, suggestion of collaborators, among others. However, the success of these tasks depends on the quality of the data used, since incorrect or incomplete data tend to impair the performance of the applied algorithms. Several academic data repositories do not contain or do not require the explicit information of the researchers\' areas. In the data of the Lattes curricula, this information exists, but it is inserted manually by the researcher without any kind of validation (and potentially it is outdated, missing or even there is incorrect information). The present work utilized machine learning techniques in the inference of the researcher\'s areas based on the data registered in the Lattes platform. The titles of the scientific production were used as data source and they were enriched with semantically related information present in other bases, besides adopting other representations for the text of the titles and other academic information as orientations and research projects. The objective of this dissertation was to evaluate if the data enrichment improves the performance of the classification algorithms tested, as well as to analyze the contribution of factors such as social network metrics, the language of the titles and the hierarchical structure of the areas in the performance of the algorithms. The proposed technique can be applied to different academic data (not restricted to data present in the Lattes platform), but the data from this platform was used for the tests and validations of the proposed solution. As a result, it was identified that the technique used to perform the enrichment of the text did not improve the accuracy of the inference. However, social network metrics and numerical representations improved inference accuracy when compared to state-of-the-art techniques, as well as the use of the hierarchical structure of the classes, which returned the best results among the obtained Classificação de texto Enriquecimento de texto Inferência de áreas de atuação Modelagem de tópicos Plataforma Lattes Lattes platform Research interest Text classification Text enrichment Topic modeling

Search results