1 |
[en] AN APPROACH TO MODEL, STORE AND ACCESS BIOLOGICAL SEQUENCES / [pt] UMA ABORDAGEM PARA MODELAR, ARMAZENAR E ACESSAR SEQUÊNCIAS BIOLÓGICASCRISTIAN TRISTAO 03 April 2013 (has links)
[pt] As pesquisas na área da biologia molecular vêm produzindo um grande volume de dados e estes precisam ser bem organizados, estruturados e persistidos. Na sua grande maioria os dados biológicos são armazenados em arquivos no formato texto. Para grandes volumes de dados, o caminho natural seria utilizar SGBDs para gerenciá-los. Contudo, estes sistemas não possuem estruturas adequadas para representar e manipular dados específicos ao domínio. Por exemplo, sequências biológicas normalmente são tratadas como simples cadeias de caracteres (tipo texto/varchar) ou BLOB, e desta forma perde-se todo um conjunto de informações composicionais, posicionais e de conteúdo. Esta tese argumenta que a gerência de dados (estrutura, armazenamento e acesso de dados) se transformou em um dos principais problemas para o domínio de pesquisas da bioinformática. Desta maneira propõe-se um modelo conceitual biológico para representar informações do dogma central da biologia molecular, bem como um tipo abstrato de dado (ADT – do inglês Abstract Data Types) específico para a manipulação de sequências biológicas e seus derivados. / [en] The researches in molecular biology have been producing a large amount of data and they need to be well organized, structured and persisted. Mostly biological data are stored on files in text format. For large volumes of data, the natural way would be to use DBMS to manage them. However, these systems do not have adequate structures to represent and manipulate data specific to the domain. For example, biological sequences are typically treated as simple strings (type text/varchar) or BLOB, and thus lost a whole set of compositional, positional and content information. This thesis argues that the management of data (structure, storage and data access) has become a major problem for researches in bioinformatics. Thus we propose a conceptual model for representing biological information of the central dogma of molecular biology, as well as an Abstract Data Types (ADT) specific for the manipulation of biological sequences and its derivatives.
|
2 |
[en] EXPERIMENTAL STUDY OF TECHNIQUES FOR PORTFOLIO OPTIMIZATION / [pt] ESTUDO EXPERIMENTAL DE TÉCNICAS PARA OTIMIZAÇÃO DE CARTEIRASTHUENER ARMANDO DA SILVA 27 January 2011 (has links)
[pt] Markowitz em 1959 estruturou as bases da teoria moderna de seleção de
carteiras através da análise do risco e do retorno de ativos. Mesmo após cinco
décadas sua teoria ainda é amplamente utilizada como base para construção de
carteiras de investimentos. Nessa dissertação investigamos variações do modelo
de Markowitz para seleção de carteiras tanto de um ponto de vista teórico quanto
prático. Analisamos o impacto dos diferentes métodos de estimativa de risco e
retorno, custos transacionais, risco alvo e freqüência da revisão de carteira. Para
que fosse possível testar e analisar as estratégias estudadas, implementamos um
simulador versátil e robusto além de criar uma base de dados com dados diários de
41 ativos da bolsa de valores brasileira, CDI e IBOVESPA. / [en] Markowitz in 1959 structured the foundations of the modern portfolio theory
through the analysis of risk and return of assets. Now, after five decades his theory
is still widely used as a basis for building portfolios. In this thesis we investigate
variations of the Markowitz model for portfolio selection from both a theoretical
and practical point of view. We analyzed the impact of different methods for the
prediction of risk and return, transaction costs, target risk and frequency of revision
of the portfolio. In order to test and analyze the strategies studied we implemented
a robust and versatile simulator and created a database with daily data of 41 assets
from the Brazilian stock exchange, CDI and IBOVESPA.
|
3 |
[en] E-AUTOMFIS: INTERPRETABLE MODEL FOR TIME SERIES FORECASTING USING ENSEMBLE LEARNING OF FUZZY INFERENCE SYSTEM / [pt] E-AUTOMFIS: MODELO INTERPRETÁVEL PARA PREVISÃO DE SÉRIES MULTIVARIADAS USANDO COMITÊS DE SISTEMAS DE INFERÊNCIA FUZZYTHIAGO MEDEIROS CARVALHO 17 June 2021 (has links)
[pt] Por definição, a série temporal representa o comportamento de uma variável em função do tempo. Para o processo de previsão de séries, o modelo deve ser capaz de aprender a dinâmica temporal das variáveis para obter valores futuros. Contudo, prever séries temporais com exatidão é uma tarefa que vai além de escolher o modelo mais complexo, e portanto a etapa de análise é um processo fundamental para orientar o ajuste do modelo. Especificamente em problemas multivariados, o AutoMFIS é um modelo baseado na lógica fuzzy, desenvolvido para introduzir uma explicabilidade dos resultados através de regras semanticamente compreensíveis. Mesmo com características promissoras e positivas, este sistema possui limitações que tornam sua utilização impraticável em problemas com bases de dados com alta dimensionalidade. E com a presença cada vez maior de bases de dados mais volumosas, é necessário
que a síntese automática de sistemas fuzzy seja adaptada para abranger essa nova classe de problemas de previsão. Por conta desta necessidade, a presente dissertação propõe a extensão do modelo AutoMFIS para a previsão de séries temporais com alta dimensionalidade, chamado de e-AutoMFIS. Apresentase uma nova metodologia, baseada em comitê de previsores, para o aprendizado distribuído de geração de regras fuzzy. Neste trabalho, são descritas as características importantes do modelo proposto, salientando as modificações realizadas para aprimorar tanto a previsão quanto a interpretabilidade do sistema. Além disso, também é avaliado o seu desempenho em problemas reais, comparando-se a acurácia dos resultados com as de outras técnicas descritas na literatura. Por fim, em cada problema selecionado também é considerado o aspecto da interpretabilidade, discutindo-se os critérios utilizados para a análise
de explicabilidade. / [en] By definition, the time series represents the behavior of a variable as a time function. For the series forecasting process, the model must be able to learn the temporal dynamics of the variables in order to obtain consistent future values. However, an accurate time series prediction is a task that goes
beyond choosing the most complex (or promising) model that is applicable to the type of problem, and therefore the analysis step is a fundamental procedure to guide the adaptation of a model. Specifically, in multivariate problems, AutoMFIS is a model based on fuzzy logic, developed not only to give accurate forecasts but also to introduce the explainability of results through semantically understandable rules. Even with such promising characteristics, this system has shown practical limitations in problems that involve datasets of high dimensionality. With the increasing demand formethods to deal with large datasets, it should be great that approaches for the automatic synthesis of fuzzy systems could be adapted to cover a new class of forecasting problems. This dissertation proposes an extension of the base model AutoMFIS modeling method for time series forecasting with high dimensionality data, named as e-AutoMFIS. Based on the Ensemble learning theory, this new methodology applies distributed learning to generate fuzzy rules. The main characteristics of the proposed model are described, highlighting the changes in order to improve
both the accuracy and the interpretability of the system. The proposed model is also evaluated in different case studies, in which the results are compared in terms of accuracy against the results produced by other methods in the literature. In addition, in each selected problem, the aspect of interpretability is also assessed, which is essential for explainability evaluation.
|
4 |
[pt] DESAGREGAÇÃO DE CARGAS EM UM DATASET COLETADO EM UMA INDÚSTRIA BRASILEIRA UTILIZANDO AUTOENCODERS VARIACIONAIS E REDES INVERSÍVEIS / [en] LOAD DISAGGREGATION IN A BRAZILIAN INDUSTRIAL DATASET USING INVERTIBLE NETWORKS AND VARIATIONAL AUTOENCODERSEDUARDO SANTORO MORGAN 05 August 2021 (has links)
[pt] Desagregação de cargas é a tarefa de estimar o consumo individual de
aparelhos elétricos a partir de medições de consumo de energia coletadas em
um único ponto, em geral no quadro de distribuição do circuito. Este trabalho
explora o uso de técnicas de aprendizado de máquina para esta tarefa, em uma
base de dados coletada em uma fábrica de ração de aves no Brasil. É proposto
um modelo combinando arquiteturas de autoencoders variacionais com as de
fluxos normalizantes inversíveis. Os resultados obtidos são, de maneira geral,
superiores aos melhores resultados reportados para esta base de dados até
então, os superando em até 86 por cento no Erro do Sinal Agregado e em até 81 por cento no Erro de Desagregação Normalizado dependendo do equipamento desagregado. / [en] Load Disaggregation is the task of estimating appliance-level consumption
from a single aggregate consumption metering point. This work explores
machine learning techniques applied to an industrial load disaggregation
dataset from a poultry feed factory in Brazil. It proposes a model that combines
variational autoencoders with invertible normalizing flows models. The
results obtained are, in general, better than the current best reported results
for this dataset, outperforming them by up to 86 percent in the Signal Aggregate
Error and by up to 81 percent in the Normalized Disaggregation Error.
|
5 |
[en] METHODOLOGY FOR EVALUATING THE CONTINUITY OF THE DISTRIBUTION SERVICE IN LOCATIONS WITH ACCESS RESTRICTIONS DUE TO RECORDS OF VIOLENCE / [pt] METODOLOGIA PARA AVALIAÇÃO DA CONTINUIDADE DO SERVIÇO DE DISTRIBUIÇÃO EM LOCAIS COM RESTRIÇÃO DE ACESSO POR REGISTROS DE VIOLÊNCIATHAIS ROUPE BORGES 30 October 2023 (has links)
[pt] Os segmentos de geração, transmissão e distribuição constituem a cadeia
produtiva do setor elétrico, sendo o consumidor ou carga o último elo que deve ser
atendido pelas distribuidoras. A percepção de qualidade, e consequentemente a
satisfação do cliente, está intrinsecamente relacionada, entre outros fatores, à
continuidade do fornecimento assegurada pelas concessionárias. No Brasil, a
Agência Nacional de Energia Elétrica (ANEEL) é responsável por regular o setor
de distribuição e estabelecer indicadores de referência com o objetivo de avaliar a
eficiência das concessionárias em termos de confiabilidade e qualidade do serviço
prestado. Diversos fatores podem impactar a continuidade da distribuição de
energia, sendo alguns mais conhecidos e gerenciáveis pelas empresas, como quedas
de objetos na rede ou sobrecarga de equipamentos. No entanto, outros fatores, como
restrições de acesso a determinadas áreas devido à violência e ao controle territorial
por grupos criminosos, apresentam desafios complexos e de gerenciabilidade
inexistente por parte das distribuidoras. Essas limitações dificultam a pronta
recomposição do serviço em situações emergenciais, resultando em tempos de falha
mais longos e afetando negativamente os indicadores de continuidade monitorados
pela ANEEL, bem como a satisfação do consumidor. Neste contexto, a presente
dissertação propõe uma metodologia focada em identificar os ativos da
distribuidora localizados em áreas com evidências de violência, o que implica em
acesso limitado pelas equipes de campo. É utilizada a base de dados geográfica da
distribuidora (BDGD) para identificar as unidades transformadoras em áreas com
evidências de violência, também delineadas por plataformas de dados públicos.
Técnicas de clusterização e testes estatísticos são então utilizados para aferir se os
índices de continuidade nessas áreas são significativamente diferentes e superiores
aos de locais em que não se observa registros de violência. Sistemas de distribuição
dos estados do Rio de Janeiro e Pernambuco são utilizados para testar a eficácia da
metodologia proposta. Diversos testes são realizados e os resultados obtidos são
plenamente discutidos. / [en] The segments of generation, transmission and distribution constitute the
production chain of the electricity sector, with the consumer or load being the last
link that must be served by the distributors. The perception of quality, and
consequently customer satisfaction, is intrinsically related, among other factors, to
the continuity of supply ensured by the concessionaires. In Brazil, the National
Electric Energy Agency (ANEEL) is responsible for regulating the distribution
sector and establishing benchmarks in order to assess the efficiency of
concessionaires in terms of reliability and quality of service provided. Several
factors can impact the continuity of energy distribution, some of which are better
known and manageable by companies, such as falling objects on the network or
overloading equipment. However, other factors, such as access restrictions to
certain areas due to violence and territorial control by criminal groups, present
complex challenges and non-existent manageability on the part of the distributors.
These limitations make it difficult to promptly restore the service in emergency
situations, resulting in longer failure durations and negatively affecting the
continuity indicators monitored by ANEEL, as well as consumer satisfaction. In
this context, this dissertation proposes a methodology focused on identifying the
distributor s assets located in areas with evidence of violence, which implies limited
access by field service teams. The distribution company s geographic database
(BDGD) is used to identify transforming units in areas with evidence of violence,
also delineated by public data platforms. Clustering techniques and statistical tests
are then used to assess whether the continuity indices in these areas are significantly
different and higher than those in places where there are no records of violence.
Distribution systems in the states of Rio de Janeiro and Pernambuco are used to test
the effectiveness of the proposed methodology. Several tests are carried out and the
results obtained are fully discussed.
|
6 |
[en] PROPOSALS FOR THE USE OF REANALYSIS BASES FOR WIND ENERGY MODELING IN BRAZIL / [pt] PROPOSTAS DO USO DE BASES DE REANÁLISE PARA MODELAGEM DE ENERGIA EÓLICA NO BRASILSAULO CUSTODIO DE AQUINO FERREIRA 13 August 2024 (has links)
[pt] O Brasil sempre foi um país que teve sua matriz elétrica pautada majoritariamente
em fontes renováveis, mais especificamente na hídrica. Com passar dos anos, esta tem se
diversificado e demonstrado uma maior participação da fonte eólica. Para melhor explorála, pesquisas visando modelar seu comportamento são essenciais. Entretanto, não é sempre que se tem dados de velocidade do vento e de geração eólica disponíveis em
quantidade e nas localidades de interesse. Esses dados são primordiais para identificar
potenciais locais de instalação de parques eólicos, melhorar o desempenho dos existentes
e estimular pesquisas de previsão e simulação da geração eólica que são entradas para
auxiliar na melhor performance do planejamento e da operação do setor elétrico
brasileiro. Na carência de dados de velocidade do vento, uma alternativa é o uso de dados
vindos de base de reanálises. Elas disponibilizam longos históricos de dados de variáveis
climáticas e atmosféricas para diversos pontos do globo terrestre e de forma gratuita.
Desta forma, a primeira contribuição deste trabalho teve como foco a verificação da
representatividade dos dados de velocidade do vento, disponibilizados pelo MERRA-2,
no território brasileiro. Seguindo as recomendações da literatura, utilizou-se técnicas de
interpolação, extrapolação e correção de viés para melhorar a adequação as velocidades
fornecidas pela base de reanalise as que acontecem na altura dos rotores das turbinas dos
parques eólicos. Em uma segunda contribuição combinou-se os dados do MERRA-2 com
os de potência medidas em parques eólicos brasileiros para modelar de modo estocástico
e não paramétrico a relação existente entre a velocidade e potência nas turbinas eólicas.
Para isto utilizou-se as técnicas de clusterização, estimação das curvas de densidade e
simulação. Por fim, em uma terceira contribuição, desenvolveu-se um aplicativo, no
ambiente shiny, para disponibilizar as metodologias desenvolvidas nas duas primeiras
contribuições. / [en] Brazil s energy landscape has historically relied heavily on renewable sources,
notably hydropower, with wind energy emerging as a significant contributor in recent
years. Understanding and harnessing the potential of wind energy necessitates robust
modeling of its behavior. However, obtaining comprehensive wind speed and generation
data, particularly in specific locations of interest, remains a challenge. In the absence of
wind speed data, an alternative is to use data from a reanalysis database. They provide
long histories of data on climatic and atmospheric variables for different parts of the world,
free of charge. Therefore, the first contribution of this work focused on verifying the
representativeness of wind speed data made available by MERRA-2 in Brazilian territory.
Following literature recommendations, interpolation, extrapolation, and bias correction
techniques were used to improve the adequacy of the speeds provided by the reanalysis
based on those that occur at the height of the wind farm turbine rotors. In a second
contribution, MERRA-2 data was combined with power measured in Brazilian wind farms
to model in a stochastic and non-parametric way the relationship between speed and power
in wind turbines. For this purpose, clustering, density curve estimation, and simulation
techniques were used. Finally, the research culminates in the development of an
application within the Shiny environment, offering a user-friendly platform to access and
apply the methodologies devised in the preceding analyses. By making these
methodologies readily accessible, the application facilitates broader engagement and
utilization within the research community and industry practitioners alike.
|
Page generated in 0.0406 seconds