Spelling suggestions: "subject:"aprendizado"" "subject:"aprendizados""
561 |
[pt] APRENDIZADO SEMI E AUTO-SUPERVISIONADO APLICADO À CLASSIFICAÇÃO MULTI-LABEL DE IMAGENS DE INSPEÇÕES SUBMARINAS / [en] SEMI AND SELF-SUPERVISED LEARNING APPLIED TO THE MULTI-LABEL CLASSIFICATION OF UNDERWATER INSPECTION IMAGEAMANDA LUCAS PEREIRA 11 July 2023 (has links)
[pt] O segmento offshore de produção de petróleo é o principal produtor nacional desse insumo. Nesse contexto, inspeções submarinas são cruciais para a
manutenção preventiva dos equipamentos, que permanecem toda a vida útil
em ambiente oceânico. A partir dos dados de imagem e sensor coletados nessas
inspeções, especialistas são capazes de prevenir e reparar eventuais danos. Tal
processo é profundamente complexo, demorado e custoso, já que profissionais especializados têm que assistir a horas de vídeos atentos a detalhes. Neste
cenário, o presente trabalho explora o uso de modelos de classificação de imagens projetados para auxiliar os especialistas a encontrarem o(s) evento(s) de
interesse nos vídeos de inspeções submarinas. Esses modelos podem ser embarcados no ROV ou na plataforma para realizar inferência em tempo real, o que
pode acelerar o ROV, diminuindo o tempo de inspeção e gerando uma grande
redução nos custos de inspeção. No entanto, existem alguns desafios inerentes
ao problema de classificação de imagens de inspeção submarina, tais como:
dados rotulados balanceados são caros e escassos; presença de ruído entre os
dados; alta variância intraclasse; e características físicas da água que geram certas especificidades nas imagens capturadas. Portanto, modelos supervisionados
tradicionais podem não ser capazes de cumprir a tarefa. Motivado por esses
desafios, busca-se solucionar o problema de classificação de imagens submarinas a partir da utilização de modelos que requerem menos supervisão durante
o seu treinamento. Neste trabalho, são explorados os métodos DINO (Self-DIstillation with NO labels, auto-supervisionado) e uma nova versão multi-label proposta para o PAWS (Predicting View Assignments With Support Samples, semi-supervisionado), que chamamos de mPAWS (multi-label PAWS). Os
modelos são avaliados com base em sua performance como extratores de features para o treinamento de um classificador simples, formado por uma camada
densa. Nos experimentos realizados, para uma mesma arquitetura, se obteve
uma performance que supera em 2.7 por cento o f1-score do equivalente supervisionado. / [en] The offshore oil production segment is the main national producer of this input. In this context, underwater inspections are crucial for the preventive maintenance of equipment, which remains in the ocean environment for its entire useful life. From the image and sensor data collected in these inspections,experts are able to prevent and repair damage. Such a process is deeply complex, time-consuming and costly, as specialized professionals have to watch hours of videos attentive to details. In this scenario, the present work explores the use of image classification models designed to help experts to find the event(s) of interest in under water inspection videos. These models can be embedded in the ROV or on the platform to perform real-time inference,which can speed up the ROV, monitor notification time, and greatly reduce verification costs. However, there are some challenges inherent to the problem of classification of images of armored submarines, such as: balanced labeled data are expensive and scarce; the presence of noise among the data; high intraclass variance; and some physical characteristics of the water that achieved certain specificities in the captured images. Therefore, traditional supervised models may not be able to fulfill the task. Motivated by these challenges, we seek to solve the underwater image classification problem using models that require less supervision during their training. In this work, they are explorers of the DINO methods (Self-Distillation with NO labels, self-supervised) anda new multi-label version proposed for PAWS (Predicting View AssignmentsWith Support Samples, semi-supervised), which we propose as mPAWS (multi-label PAWS). The models are evaluated based on their performance as features extractors for training a simple classifier, formed by a dense layer. In the experiments carried out, for the same architecture, a performance was obtained that exceeds by 2.7 percent the f1-score of the supervised equivalent.
|
562 |
[en] PORTFOLIO SELECTION USING ROBUST OPTIMIZATION AND SUPPORT VECTOR MACHINE (SVM) / [pt] SELEÇÃO DE PORTFÓLIO USANDO OTIMIZAÇÃO ROBUSTA E MÁQUINAS DE SUPORTE VETORIALROBERTO PEREIRA GARCIA JUNIOR 26 October 2021 (has links)
[pt] A dificuldade de se prever movimento de ativos financeiros é objeto
de estudo de diversos autores. A fim de se obter ganhos, se faz necessário
estimar a direção (subida ou descida) e a magnitude do retorno do ativo
no qual pretende-se comprar ou vender. A proposta desse trabalho consiste
em desenvolver um modelo de otimização matemática com variáveis
binárias capaz de prever movimentos de subidas e descidas de ativos financeiros
e utilizar um modelo de otimização de portfólio para avaliar os
resultados obtidos. O modelo de previsão será baseado no Support Vector
Machine (SVM), no qual faremos modificações na regularização do modelo
tradicional. Para o gerenciamento de portfólio será utilizada otimização robusta.
As técnicas de otimização estão sendo cada vez mais aplicadas no
gerenciamento de portfólio, pois são capazes de lidar com os problemas das
incertezas introduzidas na estimativa dos parâmetros. Vale ressaltar que o
modelo desenvolvido é data-driven, i.e, as previsões são feitas utilizando sinais
não-lineares baseados em dados de retorno/preço histórico passado sem
ter nenhum tipo de intervenção humana.
Como os preços dependem de muitos fatores é de se esperar que um
conjunto de parâmetros só consiga descrever a dinâmica dos preços dos
ativos financeiros por um pequeno intervalo de dias. Para capturar de forma
mais precisa essa mudança na dinâmica, a estimação dos parâmetros dos
modelos é feita em janela móvel.
Para testar a acurácia dos modelos e os ganhos obtidos foi feito um estudo de
caso utilizando 6 ativos financeiros das classes de moedas, renda fixa, renda
variável e commodities. Os dados abrangem o período de 01/01/2004 até
30/05/2018 totalizando um total de 3623 cotações diárias. Considerando
os custos de transações e os resultados out-of-sample obtidos no período
analisado percebe-se que a carteira de investimentos desenvolvida neste
trabalho exibe resultados superiores aos dos índices tradicionais com risco
limitado. / [en] The difficulty of predicting the movement of financial assets is the
subject of study by several authors. In order to obtain gains, it is necessary
to estimate the direction (rise or fall) and the magnitude of the return on
the asset in which it is intended to be bought or sold. The purpose of this
work is to develop a mathematical optimization model with binary variables
capable of predicting up and down movements of financial assets and using
a portfolio optimization model to evaluate the results obtained. The prediction
model will be based on the textit Support Vector Machine (SVM),
in which we will make modifications in the regularization of the traditional
model. For the portfolio management will be used robust optimization. The
robust optimization techniques are being increasingly applied in portfolio
management, since they are able to deal with the problems of the uncertainties
introduced in the estimation of the parameters. It is noteworthy that
the developed model is data-driven, i.e., the predictions are made using
nonlinear signals based on past historical price / return data without any
human intervention. As prices depend on many factors it is to be expected that a set of
parameters can only describe the dynamics of the prices of financial assets
for a small interval of days. In order to more accurately capture this change
in dynamics, the estimation of model parameters is done in a moving window
To test the accuracy of the models and the gains obtained, a case study
was made using 6 financial assets of the currencies, fixed income, variable
income and commodities classes. The data cover the period from 01/01/2004
until 05/30/2018 totaling a total of 3623 daily quotations. Considering the
transaction costs and out-of-sample results obtained in the analyzed period,
it can be seen that the investment portfolio developed in this work shows
higher results than the traditional indexes with limited risk.
|
563 |
[en] LEARNING CONTROL OF HIGH FREQUENCY SERVO: HYDRAULIC SYSTEMS / [pt] CONTROLE POR APRENDIZADO DE SISTEMAS SERVO: HIDRÁULICOS DE ALTA FREQÜÊNCIAJUAN GERARDO CASTILLO ALVA 28 October 2008 (has links)
[pt] Sistemas hidráulicos são usados onde se requerem forças e
torques
relativamente altos, alta velocidade de resposta para o
início, parada e reversão da
velocidade. Eles são usados em sistemas industriais, em
robótica, simuladores de
movimento, plantas automatizadas, exploração de minérios,
prensas, e
especialmente em sistemas de testes de fadiga de
materiais. As máquinas de testes
de fadiga baseadas em sistemas servo-hidráulicos têm como
propósito fazer
ensaios nos materiais para prever a vida útil em serviço.
Os ensaios de fadiga são
quase sempre independentes da freqüência de trabalho.
Para uma dada resistência
do material e magnitudes das tensões alternadas e médias
aplicadas, a vida à
fadiga depende essencialmente do número de ciclos de
carga aplicados ao material
testado. Por esse motivo, trabalhar com a máquina de
ensaios de materiais a uma
freqüência elevada traz vantagens de redução de tempo e
custo dos ensaios, sem
interferir nos resultados. A aplicação da carga pode ser
repetida milhões de vezes,
em freqüências típicas de até cem vezes por segundo para
metais. Para se
atingirem estas freqüências, relativamente altas para um
teste de fadiga, é
necessário um sistema de controle eficiente. Nesta
dissertação, técnicas de
controle por aprendizado são desenvolvidas e aplicadas a
uma máquina de ensaios
de materiais, permitindo a aplicação de carregamentos de
amplitude variável em
alta freqüência. A metodologia proposta consiste em fazer
um controle do tipo
bang-bang, restringindo à servo-válvula do sistema a
trabalhar sempre nos seus
limites extremos de operação, i.e., procurando mantê-la
sempre completamente
aberta em uma ou outra direção. Devido à dinâmica do
sistema, os pontos de
reversão devem ficar antes dos picos e vales de força ou
tensão desejada. O
instante de reversão é um parâmetro que depende de
diversos fatores, como a
amplitude e carga média da solicitação, e também é
influenciado por zonas mortas
causadas, e.g., por folgas na fixação dos corpos de
prova. Para que a servo-válvula
trabalhe no limite de seu funcionamento, o algoritmo de
aprendizado obtém os
instantes ótimos para as reversões, associados a
variáveis adimensionais com valores entre 0 e 1,
armazenados em tabelas específicas para cada tipo de
carregamento. A lei de aprendizado preenche e atualiza
constantemente os valores
das tabelas durante a execução dos testes, melhorando a
resposta do sistema a
cada evento. Apresentam-se a modelagem dinâmica de uma
máquina servohidráulica
e de sua malha de controle, e simulações comparando o
controle PID
com o controle por aprendizado proposto. A validação
experimental é feita em
uma máquina servo-hidráulica de ensaios de fadiga. Para
este fim, um software de
controle em tempo real foi especialmente desenvolvido e
implementado em um
sistema computacional CompactRIO. Os resultados
demonstram a eficiência da
metodologia proposta. / [en] Hydraulic systems are used where relatively high forces and
torques are
required, or when high response speeds are necessary. They
are used in industrial
systems, robotics, movement simulators, automated plants,
ore exploration,
presses, and especially in fatigue testing systems. Fatigue
tests are usually
performed on servo-hydraulic systems, in order to predict
the behavior of
materials and their life in service. Fatigue tests are
almost always independent of
the loading frequency. For a given material and magnitudes
of alternate and mean
stresses, the fatigue life depends essentially on the
number of applied load cycles
on the tested material. For this reason, working with the
material testing machine
at high frequencies brings the advantages of reduction in
time and cost, without
altering the results. The application of the load can be
repeated millions of times,
in frequencies of up to one hundred times per second for
metals, or even more. To
achieve such frequencies, relatively high for a fatigue
test, it is necessary to use an
efficient control system. In this thesis, learning control
techniques are developed
and applied to a materials testing machine, allowing the
application of constant or
variable amplitude loads in high frequency. The proposed
methodology consists
of implementing a bang-bang type control, restricting the
system servo-valve to
always work at its extreme limits of operation, i.e.,
always keeping it completely
open in one or the other direction. Due to the system
dynamics, the reversion
instant must happen before achieving the peaks and valleys
of desired force (or
stress, strain, etc.). The reversion instant is a parameter
that depends on several
factors, such as the alternate and mean loading components.
It is also influenced
by dead zones caused, e.g., by the slack in the mounting
between a CTS specimen
and the machine pins. As the servo-valve works in its
limits of operation, the
learning algorithm tries to obtain the optimal instants for
the reversions,
associating them to a non dimensional variable with values
between 0 and 1,
stored in specific tables. The learning law constantly
updates the values of the
table during the execution of the tests, improving the
system response. In this work, the dynamic modeling of a
servo-hydraulic machine is presented, together
with its control scheme. Simulations are performed to
compare results from PID
and learning controls. The experimental validation is made
using a servohydraulic
testing machine. For this purpose, real time control
software is
developed and implemented in a CompactRIO computational
system. The results
demonstrate the efficiency of the proposed methodology.
|
564 |
Modelo de classificação multivariável para identificação de enchentes: um estudo empírico no sistema de monitoramento de rios e-noe / Multivariate classification model for identification of floods: an empirical study in the monitoring of e-noe riversBrito, Lucas Augusto Vieira 17 May 2019 (has links)
Nas últimas décadas, as enchentes vêm causando muitos problemas nas cidades, principalmente em grandes centros urbanos devido à alteração da paisagem natural e à impermeabilização do terreno. Geralmente esses eventos estão relacionados a eventos extremos de chuva, junto a um insuficiente sistema de drenagem para dar vazão ao escoamento gerado. Um ponto agravante - que colabora com o aumento da magnitude das enchentes - é o crescimento populacional desordenado. Assim, faltam políticas públicas, como um estudo prévio da região para alocação de pessoas de maneira eficiente. Na literatura, existem algumas soluções, como o uso da tecnologia de Redes de Sensores Sem Fio (RSSF), que podem ser implantadas no cenário urbano como forma de monitoramento de enchentes. Nesse cenário, um dos principais desafios para elaboração desses sistemas é emitir alertas para que desastres maiores sejam evitados. Porém, a utilização de uma única fonte de dados, unida a possíveis falhas que as RSSFs podem sofrer, acaba comprometendo o monitoramento e o alerta de enchentes. Uma outra abordagem é a utilização de modelos hidrológicos criados a partir de um estudos prévios do solo e da estrutura da bacia, pois eles são capazes de reproduzir o comportamento do escoamento da bacia a partir de séries temporais como entrada. Existem muitos modelos hidrológicos com diversas estruturas de dados e detalhamento da bacia hidrográfica, dos mais complexos - capazes de reproduzir a física dos processos de infiltração e o escoamento de água - até os mais simplificados, que utilizam parâmetros de ajustes que não são necessariamente relacionados aos fenômenos físicos envolvidos nesses processos. Porém, muitos desses modelos precisam de uma grande quantidade de dados para o seu desenvolvimento, tornando-os muito complexos e custosos. Dessa forma, esta dissertação de mestrado apresenta um modelo de identificação de enchentes baseado na mineração de dados e aprendizado de máquina, com o intuito de diminuir a complexidade e o custo dos modelos hidrológicos e a dependabilidade de uma única variável de sistemas de RSSF, além da vantagem de ser facilmente generalizável sem perder a eficiência na identificação de enchente. As variáveis utilizadas para o desenvolvimento do modelo são os dados de estações meteorológicas e o nível de água do canal. Assim, é utilizada a metodologia do Cross Industry Standard Process for Data Mining (CRISP-DM) para a mineração dos dados, por ser uma técnica objetiva que contém as melhores práticas para a exploração dos dados. Os resultados revelam que o modelo desenvolvido obteve uma acurácia de aproximadamente 87:8%, com o algoritmo Random_Forest. Além disso, nos testes de adaptabilidade e comparação com o Storm Water Management Model (SWMM)-um modelo hidrológico amplamente conhecido na literatura-, em uma mesma região de estudo, o modelo desenvolvido obteve resultados relevantes no contexto de identificação de enchente. Isso mostra que o modelo desenvolvido possui grande potencial de aplicação, principalmente por sua simplicidade de implementação e replicação sem comprometer a qualidade de identificação da ocorrência de enchentes. Consequentemente, algumas das principais contribuições deste trabalho são: (i) o modelo multivariável de identificação de enchente diminui a complexidade, custos e tempo de desenvolvimento em relação aos modelos hidrológicos e; (ii) o avanço do estado da arte em comparação aos trabalhos computacionais, por não depender de variáveis fixas e utilizar multivariáveis para identificar o padrão de enchentes. / In recent decades, floods have caused many problems in cities, especially in large urban centers due to the alteration of the natural landscape and the waterproofing of the terrain. Generally, these events are related to extreme rainfall events, together with an insufficient drainage system to give flow to the flow generated. An aggravating point - which contributes to the increase in flood magnitude - is disordered population growth. Thus, public policies are lacking, such as a prior study of the region for the efficient allocation of people. In the literature, there are some solutions, such as the use of the Wireless Sensor Networks (WSN) technology, which can be implemented in the urban scene as a form of flood monitoring. In this scenario, one of the major challenges in designing these systems is to issue alerts so that major disasters are avoided. However, the use of a single data source, coupled with the possible flaws that WSNs may suffer, endangers flood monitoring and alertness. Another approach is the use of hydrological models created from previous soil studies and basin structure, as they are able to reproduce basin flow behavior from time series as input. There are many hydrological models with diverse data structures and details of the hydrographic basin, of the most complex - capable of reproducing the physics of the infiltration processes and the water flow - to the more simplified, that use parameters of adjustments that are not necessarily related to the phenomena involved in these processes. However, many of these models need a lot of data for their development, making them very complex and costly. This dissertation presents a flood identification model based on data mining and machine learning in order to reduce the complexity and cost of hydrological models and the dependability of a single variable of WSN systems. of the advantage of being easily generalizable without losing efficiency in the identification of flood. The variables used for the development of the model are the data of meteorological stations and the water level of the channel. Thus, the Cross Industry Standard Process for Data Mining (CRISP-DM) methodology for data mining is used, since it is an objective technique that contains the best practices for data mining. The results show that the developed model obtained an accuracy of approximately 87.8%, with the algorithm Random_Forest. In addition, in the adaptive and comparative tests with the Storm Water Management Model (SWMM), a hydrological model widely known in the literature, in the same region of study, the developed model obtained relevant results in the context of flood identification. This shows that the developed model has great application potential, mainly for its simplicity of implementation and replication without compromising the quality of the identification of the occurrence of floods. Consequently, some of the main contributions of this work are: (i) the multivariate model of flood identification decreases the complexity, costs and development time in relation to the hydrological models; (ii) the advance of the state of the art in comparison to the computational works, because it does not depend on fixed variables and use multivariable to identify the flood pattern.
|
565 |
[en] FRAMEWORK FOR COORDINATION AND MEDIATION OF WEB SERVICES MODELED AS LEARNING OBJECTS FOR WEB-BASED LEARNING ENVIRONMENTS / [pt] FRAMEWORK PARA COORDENAÇÃO E MEDIAÇÃO DE WEB SERVICES MODELADOS COMO LEARNING OBJECTS PARA AMBIENTES DE APRENDIZADO NA WEBREUBEM ALEXANDRE DALMEIDA GIRARDI 18 March 2005 (has links)
[pt] O crescente interesse em ambientes de aprendizado na Web
incentiva
pesquisas e torna evidente a importância do
desenvolvimento de tecnologias e
padrões que permitam ambientes, instrutores e
participantes a criar, encontrar,
consumir, reusar e compartilhar conteúdos instrucionais,
conhecidos como objetos
de aprendizagem ou learning objects. Padrões para
metadados, objetos de
aprendizagem e arquiteturas para prover suporte a estas
tecnologias em sistema de
ensino na web (learning management systems - LMS) são a
chave para o sucesso
do e-Learning. Neste sentido, o conceito de objetos de
aprendizagem possui
fundamental importância e concentra grande parte das
pesquisas realizadas nesta
área. Em paralelo, a observação de que o aprendizado na
web ocorre através do
auxílio de ferramentas e serviços que fazem parte dos LMS
gera a reflexão sobre a
atual modelagem e entendimento destes serviços. Com isso,
este trabalho defende
a modificação do conceito de learning objects, estendendo
o atual, incorporando
serviços à sua abrangência, sendo estes modelados com base
na tecnologia de
serviços web (web services). No final, é apresentado um
framework para facilitar a
adaptação de Learning Management Systems a este novo
conceito de learning
objects e o estudo de caso no Ambiente AulaNet. / [en] The increasing interest in web-based learning environments
stimulates
researches and evidences the importance of developing
technologies and standards
that allow environments, instructors and participants to
create, find, consume,
reuse, and to share instructional contents, known as
learning objects. Metadata
standards, learning objects and architectures to support
these technologies in
Learning Management Systems (LMS) are the key for the
success of e-learning.
In this context, the learning object concept has essential
importance and
concentrates the majority of the researches accomplished
in this field. At the
same time, observing that the learning in the web happens
through the aid of tools
and learning services which are part of LMS, leads to the
reflection about the
current modeling and understanding of these services. This
work defends the
modification of the learning objects concept, extending
the current one by
incorporating services to its extent, being these modeled
as Web Services. Finally,
a framework is presented in order to facilitate the
adapting of the Learning
Management Systems to the new concept of learning objects,
as well as a case
study in the AulaNet Environment.
|
566 |
Aprendizado de Máquina e Biologia de Sistemas aplicada ao estudo da Síndrome de Microdeleção 22q11Alves, Camila Cristina de Oliveira. January 2019 (has links)
Orientador: Lucilene Arilho Ribeiro Bicudo / Resumo: A Síndrome de Microdeleção 22q11 (SD22q11), causada por uma deleção de aproximadamente 3Mb na região 22q11, apresenta uma frequencia média de 1 em 4000 a 9800 nascidos vivos sendo considera a síndrome de microdeleção mais frequente e a segunda causa mais comum de atraso no desenvolvimento e de doença congênita grave, após a síndrome de Down. De acordo com o tamanho e a localização da deleção, diferentes genes podem ser afetados e o principal gene considerado como responsável pelos sinais clássicos da síndrome é o TBX1. A SD22q11 caracteriza-se por um espectro fenotípico bastante amplo, com efeitos pleiotrópicos que resultam no acometimento de praticamente todos os órgãos e/ou sistemas, altamente variáveis com mais de 180 sinais clínicos já descritos, tanto físicos como comportamentais. Nesse trabalho aplicamos ferramentas de bioinformática com o intuito de descobrir padrões clínicos e sistêmicos da deleção 22q11, classificando casos sindrômicos em típicos e atípicos e estudando o impacto da deleção em redes de interação proteína-proteína (PPI). Para avaliação dos sinais clínicos que pudessem diferenciar pacientes sindrômicos foi aplicado uma metodologia baseada em aprendizado de máquina para classificar os casos em típico e atípico de acordo com os sinais clínicos através do algoritmo J48 (um algoritmo de árvore de decisão). As árvores de decisão selecionadas foram altamente precisas. Sinais clínicos como fissura oral, insuficiência velofaríngea, atraso no desenvolvimento de ... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: The 22q11 Microdeletion Syndrome (22q11DS), caused by a deletion of approximately 3Mb in the 22q11 region, has an average frequency of 1 in 4000 to 9800 live births and is considered the most frequent microdeletion syndrome and the second most common cause of developmental delay and severe congenital disease after Down syndrome. According to the size and location of the deletion, different genes may be affected and the main gene considered to be responsible for the classic signs of the syndrome is TBX1. 22q11DS is characterized by a very broad phenotypic spectrum with pleiotropic effects that result in the involvement of variable organs and/or systems with more than 180 clinical signs already described, both physical and behavioral. In this work, we applied bioinformatics tools to detect clinical and systemic patterns of 22q11 deletion, classifying typical and atypical syndromic cases, and studying the impact of deletion on protein-protein interaction (PPI) networks. To evaluate clinical signs that could differentiate syndromic patients, a machine-learning based methodology was used to classify the cases into typical and atypical according to the clinical signs through the algorithm J48 (a decision tree algorithm). The selected decision trees were highly accurate. Clinical signs such as oral fissure, velopharyngeal insufficiency, speech and language development delay, specific learning disability, behavioral abnormality and growth delay were indicative for case classification... (Complete abstract click electronic access below) / Mestre
|
567 |
Um método baseado em inteligência computacional para a geração automática de casos de teste de caixa preta. / A method based on computational intelligence for automatic Black Box test cases generation.Sá, Hindenburgo Elvas Gonçalves de 09 September 2010 (has links)
Este trabalho de dissertação apresenta um método baseado em técnicas de inteligência computacional, como aprendizado de conjunto de regras, redes neurais artificiais e lógica fuzzy, para propor o desenvolvimento de ferramentas capazes de gerar e classificar casos de testes de caixa preta com as finalidades de auxiliar na atividade de preparação de testes, na detecção de defeitos em características ou funcionalidades e na diminuição do tempo de detecção de correção do software visando, com isto, atingir uma cobertura de testes qualitativamente superior ao processo criação manual. A obtenção de novos casos de testes e a classificação dos casos de testes gerados utilizam técnicas de aprendizado de um conjunto de regras, utilizando algoritmos de cobertura seqüencial, e de uma máquina de inferência fuzzy. A definição dos métodos, tanto para gerar como para classificar os casos de testes, foram fundamentados em experimentos visando comparar as similaridades entre os métodos fuzzy, redes neurais artificiais e aprendizado de conjunto de regras. Por fim, procurou-se desenvolver uma ferramenta à titulo de prova de conceitos objetivando aplicar os métodos que obtiveram melhores resultados nas experimentações. Os critérios adotados para definir os métodos foram às métricas de complexidade ciclomática e total de linhas de código (LOC). / This dissertation work presents a method based on computational intelligence techniques, such as learning set of rules, artificial neural networks and fuzzy logic, proposed the development of tools that generate test cases and sort of black box with the purposes of assisting activity in the preparation of tests for detection of defects in features or functionality and decreasing the detection time correction software aimed, with this, reach a qualitatively higher test coverage to the manual creation process. The acquisition of new test cases and classification of test cases generated using techniques Learning learning a whole set of Regrasregras using sequential covering algorithms, and a fuzzy inference machine. The definition of methods, both to generate and to classify the test cases were substantiated in experiments aimed at comparing the similarities between the fuzzy methods, neural networks and learning of the rule set. Finally, we sought to develop a tool for evidence of concepts aiming to apply the methods which obtained better results in trials. The criteria adopted to define the methods were metrics cyclomatic complexity and total lines of code (LOC).
|
568 |
[en] CLUSTERING TEXT STRUCTURED DATA BASED ON TEXT SIMILARITY / [pt] AGRUPAMENTO DE REGISTROS TEXTUAIS BASEADO EM SIMILARIDADE ENTRE TEXTOSIAN MONTEIRO NUNES 18 February 2016 (has links)
[pt] O presente trabalho apresenta os resultados que obtivemos com a aplicação de grande número de modelos e algoritmos em um determinado conjunto de experimentos de agrupamento de texto. O objetivo de tais testes é determinar quais são as melhores abordagens para processar as grandes massas de informação geradas pelas crescentes demandas de data quality em diversos setores da economia. O processo de deduplicação foi acelerado pela divisão dos conjuntos de dados em subconjuntos de itens similares. No melhor cenário possível, cada subconjunto tem em si todas as ocorrências duplicadas de cada registro, o que leva o nível de erro na formação de cada grupo a zero. Todavia, foi determinada uma taxa de tolerância intrínseca de 5 porcento após o agrupamento. Os experimentos mostram que o tempo de processamento é significativamente menor e a taxa de acerto é de até 98,92 porcento. A melhor relação entre acurácia e desempenho é obtida pela aplicação do algoritmo K-Means com um modelo baseado em trigramas. / [en] This document reports our findings on a set of text clusterig experiments, where a wide variety of models and algorithms were applied. The objective of these experiments is to investigate which are the most feasible strategies to process large amounts of information in face of the growing demands on data quality in many fields. The process of deduplication was accelerated through the division of the data set into individual subsets of similar items. In the best case scenario, each subset must contain all duplicates of each produced register, mitigating to zero the cluster s errors. It is established, although, a tolerance of 5 percent after the clustering process. The experiments show that the processing time is significantly lower, showing a 98,92 percent precision. The best accuracy/performance relation is achieved with the K-Means Algorithm using a trigram based model.
|
569 |
Desenvolvimento de uma instrumentação de captura de imagens in situ para estudo da distribuição vertical do plâncton / Development of an in situ image capture instrumentation to study the vertical distri bution of planktonMedeiros, Maia Gomes 18 December 2017 (has links)
Desenvolveu-se, pela Universidade de São Paulo, o protótipo de um equipamento submersível de captura para estudo de plâncton. Baseado na técnica shadowgraph, é formado por um feixe de LED infravermelho colimado e uma câmera de alta resolução, executados por um sistema de controle automatizado. Foram utilizados softwares de visão computacional desenvolvidos pelo Laboratório de Sistemas Planctônicos (LAPS) que executam várias tarefas, incluindo a captura e segmentação de imagens e a extração de informações com o intuito de classificar automaticamente novos conjuntos de regiões de interesse (ROIs). O teste de aprendizado de máquina contou com 57 mil quadros e 230 mil ROIs e teve, como base, dois algoritmos de classificação: o Support Vector Machine (SVM) e o Random Forest (RF). O conjunto escolhido para o treinamento inicial continha 15 classes de fito e zooplâncton, às quais foi atribuído um subconjunto de 5 mil ROIs. Os ROIs foram separados em grandes classes de, pelo menos, 100 ROIs cada. O resultado, calculado por meio do algoritmo de aprendizagem RF e SVM e fundamentado no método de validação cruzada, teve uma precisão de 0,78 e 0,79, respectivamente. O conjunto de imagens é proveniente de Ubatuba, no estado de São Paulo. Os perfis verticais elaborados apresentaram diferentes padrões de distribuição de partículas. O instrumento tem sido útil para a geração de dados espacialmente refinados em ecossistemas costeiros e oceânicos. / The University of São Paulo developed an underwater image capture system prototype to study plankton. Based on the shadowgraphic image technique, the system consists of a collimated infrared LED beam and a high-resolution camera, both executed by an automated control system. Computer vision software developed by the research laboratory was used to perform various tasks, including image capturing; image segmentation; and extract information to automatic classify news regions of interest (ROIs). The machine learning test had 57,000 frames and 230,000 ROIs, based on two classification algorithms: Support Vector Machine (SVM) and Random Forest (RF). The chosen set of the initial training had 15 classes of phytoplankton and zooplankton, which was assigned a subset of 5,000 ROIs. Big classes of, at least, 100 ROIs each were organized. The result, calculated by the RF and SVM learning algorithm and based on the cross-validation method, had a 0.78 and 0.79 precision score, respectively. The image package comes from Ubatuba, in the state of São Paulo. The vertical profiles elaborated presented different particles distribution patterns. The instrument has been useful for spatially refined data generation in coastal and oceanic ecosystems.
|
570 |
Inteligência estatística na tomada de decisão médica: um estudo de caso em pacientes traumatizados / Statistical intelligence in medical decision making: a case study in traumatized patientsGarcia, Marcelo 22 November 2018 (has links)
O principal objetivo do estudo foi utilizar informações de ocorrência do Traumatismo Crânio Encefálico (TCE) que possam inferir/gerar descobertas associadas ao risco de gravidade do paciente, bem como auxiliar na tomada de decisão médica ao definir o melhor prognóstico, indicando quais as possíveis medidas que podem ser escolhidas para a gravidade na lesão sofrida pela vítima. Inicialmente, foram analisadas as estatísticas descritivas dos dados dos pacientes de TCE de um hospital do interior de São Paulo. Participaram desse estudo 50 pacientes. Os resultados mostraram que a maior frequência do trauma é por acidentes de trânsito (62%), seguidos de acidentes por queda (24%). Traumas em pacientes do sexo masculino (88%) são muito mais frequentes do que em pacientes do sexo feminino. Para modelagem, transformou-se a variável resposta \"Abbreviated Injury Scale (AIS)\" em dicotômica, considerando 0 (zero) aos pacientes fora de risco e 1 (um) aos que apresentaram algum tipo de risco. Em seguida, técnicas de aprendizado estatístico foram utilizadas de modo a comparar o desempenho dos classificadores Regressão Logística sendo um caso do Generalized Linear Model (GLM), Random Forest (RF), Support Vector Machine (SVM) e redes probabilísticas Naïve Bayes (NB). O modelo com melhor desempenho (RF) combinou os índices Accuracy (ACC) , Area Under ROC Curve (AUC) , Sensitivity (SEN), Specificity (SPE) e Matthews Correlation Coefficient (MCC), que apresentaram os resultados mais favoráveis no quesito de apoio no auxílio da tomada de decisão médica, possibilitando escolher o estudo clínico mais adequado das vítimas traumatizadas ao considerar o risco de vida do indivíduo. Conforme o modelo selecionado foi possível gerar um ranking para estimar a probabilidade de risco de vida do paciente. Em seguida foi realizado uma comparação de desempenho entre o modelo RF (novo classificador) e os índices Revisited Trauma Score (RTS), Injury Severity Score (ISS) , Índice de Barthel (IB) referente à classificação de risco dos pacientes. / The main objective of this study was to consider the information related to the occurrence of traumatic brain injury (TBI) that can infer new results associated with the patients risk of severity as well as assisting in the medical decision in order to find the best prognosis; this can lead to indicate possible measures that can be chosen for severity in the injury suffered by the victim. Initially, we have presented descriptive statistics from the patients with TBI from a hospital located in the heartland of São Paulo. Fifty patients were recruited for this study. Descriptive analyzes showed that the highest frequency of trauma is due to traffic accidents (62 %) followed by crashes per accident (24 %). The causes related to trauma occur much more often in male patients (88 %) than in female patients. To order model, the response variable Abbreviated Injury Scale (AIS) was considered as dichotomous, where 0 (zero) was to out-of-risk patients and 1 (one) to those who presented some type of risk. Further, statistical learning techniques were used in order to compare the performance of the Logistic Regression as a Generalized Linear Model (GLM), Random Forest (RF), Support Vector Machine (SVM) and Naive Bayes (NB) model. The best performing (RF) model combined the Accuracy (ACC) , Area Under ROC Curve (AUC) , Sensitivity (SEN), Specificity (SPE) e Matthews Correlation Coefficient (MCC), which presented the most favorable results in terms of support in medical decision, making it possible to choose the most appropriate clinical study of traumatized victims based on the individual life risk. According to the selected model it was possible to generate a rank to estimate the probability of life risk of the patient. Then a performance comparison was performed between the RF model (proposed classifier) and the Revisited Trauma Score (RTS), Injury Severity Score (ISS), Barthel index (IB) referring to the risk classification of patients.
|
Page generated in 0.4431 seconds