Global ETD Search

191	Desenvolvimento de um sistema inteligente de tomada de decisão para o gerenciamento energético de uma casa inteligente. / Intelligent decision-making for smart home energy management. Souza, Heider Berlink de 27 February 2015 (has links) A principal motivação para o surgimento do conceito de Smart Grid é a otimização do uso das redes de energia através da inserção de novas tecnologias de medição, automação e telecomunicações. A implementação desta complexa infra-estrutura produz ganhos em confiabilidade, eficiência e segurança operacional. Além disso, este sistema tem como principais objetivos promover a geração distribuída e a tarifa diferenciada de energia para usuários residenciais, provendo ferramentas para a participação dos consumidores no gerenciamento global do fornecimento de energia. Considerando também o uso de dispositivos de armazenamento de energia, o usuário pode optar por vender ou armazenar energia sempre que lhe for conveniente, reduzindo a sua conta de energia ou, quando a geração exceder a demanda de energia, lucrando através da venda deste excesso. Esta pesquisa propõe um Sistema Inteligente de Suporte à Decisão baseado em técnicas de aprendizado por reforço como uma solução para o problema de decisão sequencial referente ao gerenciamento de energia de uma Smart Home. Resultados obtidos mostram um ganho significativo na recompensa financeira a longo prazo através do uso de uma política obtida pela aplicação do algoritmo Q-Learning, que é um algoritmo de aprendizado por reforço on-line, e do algoritmo Fitted Q-Iteration, que utiliza uma abordagem diferenciada de aprendizado por reforço ao extrair uma política através de um lote fixo de transições adquiridas do ambiente. Os resultados mostram que a aplicação da técnica de aprendizado por reforço em lote é indicada para problemas reais, quando é necessário obter uma política de forma rápida e eficaz dispondo de uma pequena quantidade de dados para caracterização do problema estudado. / The main motivation for the emergence of the Smart Grid concept is the optimization of power grid use by inserting new measurement, automation and telecommunication technologies into it. The implementation of this complex infrastructure also produces gains in reliability, efficiency and operational safety. Besides, it has as main goals to encourage distributed power generation and to implement a differentiated power rate for residential users, providing tools for them to participate in the power grid supply management. Considering also the use of energy storage devices, the user can sell or store the power generated whenever it is convenient, reducing the electricity bill or, when the power generation exceeds the power demand, make profit by selling the surplus in the energy market. This research proposes an Intelligent Decision Support System as a solution to the sequential decision-making problem of residential energy management based on reinforcement learning techniques. Results show a significant financial gain in the long term by using a policy obtained applying the algorithm Q-Learning, which is an on-line Reinforcement Learning algorithm, and the algorithm Fitted Q-Iteration, which uses a different reinforcement learning approach called Batch Reinforcement Learning. This method extracts a policy from a fixed batch of transitions acquired from the environment. The results show that the application of Batch Reinforcement Learning techniques is suitable for real problems, when it is necessary to obtain a fast and effective policy considering a small set of data available to study and solve the proposed problem. Aprendizado por reforço Artificial intelligence Energy management system Inteligência artificial Reinforcement learning Sistemas de gerenciamento de energia Smart grid Smart home
192	Performance of flexible pavements enhanced using geogrid-reinforced asphalt overlays / Desempenho de pavimentos flexíveis utilizando geogrelha como reforço de capa asfáltica. Correia, Natália de Souza 03 October 2014 (has links) The study of innovative pavements is of significant importance in geotechnical engineering in Brazil, due to the continued need to increase the network of roadways. This requires optimized projects, not only for economic, but also for technical reasons. Technical solutions that use geosynthetics in asphalt overlays have been identified to minimize fatigue and reflective cracks. However, the majority of the application of this technology has ignored the possible additional structural benefits brought by the inclusion of geosynthetics as reinforcement in asphalt layers. The objective of this research is to assess the reinforcement benefits of geogrids placed within asphalt overlays on the structural performance of flexible pavements. In addition, this study investigates the tensile-strain response of geogrids under traffic conditions, induced by cyclic wheel loads generated by a new accelerated pavement testing facility (APT) that was specifically developed for this research. The APT facility consists of a large steel testing box, in which field-scale pavement layers could be constructed. Pavement materials included subgrade soil, aggregate base, hot mix asphalt concrete, asphalt emulsion and a PVA geogrid. Pavement performance was assessed by applying a cyclic wheel load pressure of 700 kPa to the pavement surface. The pavement sections investigated in this study included a geogrid-reinforced and an unreinforced asphalt overlay sections, a single new geogrid-reinforced asphalt layer, and a geogrid-reinforced asphalt overlay with reduced base course thickness. A variety of sensors were used to measure asphalt concrete strains, surface plastic and elastic displacements, and induced traffic loads. Displacements along the geogrid specimens were measured using a tell-tail system. As result, several reinforcement mechanisms of this technique could be quantified in the present study. Polymeric geogrid reinforcements were found to have considerably reduced strains developed at the bottom of asphalt layers, as well as to have reduced vertical stresses in pavement lower layers. Resistance to rutting and lateral movement induced by the geogrids were also clearly evidenced in the presented study. The measurement of displacements along the geogrid provided understanding of the distribution of strains during traffic loading. A mobilized length was identified in geogrid-reinforced sections, showing that the bonding between geogrids and asphalt layers and the stiffness of the geogrid ensured satisfactory performance of the pavement sections. The results also illustrated that the lateral restraining mechanisms effect is a governing mechanism to improve the performance of the asphalt layers by the development of shearing resistance with the geogrids. Overall, it was concluded that geogrids within asphalt overlays act as reinforcement and not merely to delay cracks, providing enhanced performance to flexible pavement structures. / O estudo de pavimentos é de grande importância na Engenharia Geotécnica brasileira devido à crescente necessidade de melhora da situação da rede rodoviária nacional. Para tanto, o desenvolvimento e a aplicação de novas técnicas são necessários, principalmente no âmbito econômico. A técnica do uso de reforços geossintéticos em capa asfáltica é identificada como uma alternativa ao aumento da vida útil do pavimento através da mitigação de trincas por fadiga e de reflexão. No entanto, a maioria das aplicações desta técnica não correlaciona os benefícios estruturais da inclusão do geossintético na capa asfáltica para a melhora do desempenho global do pavimento. O objetivo desta pesquisa é investigar os benefícios estruturais no desempenho de pavimentos flexíveis trazidos pelo reforço de geogrelhas em camadas asfálticas. Ainda neste estudo, será investigada a reposta tensão-deformação destas geogrelhas sobre as condições de tráfego através do uso de ensaios acelerados de pavimento. Um equipamento foi desenvolvido para esta pesquisa e consiste numa caixa metálica de grande porte, em que seções de pavimento em escala real podem ser construídas. O desempenho das seções de pavimento foi avaliado com a aplicação de cargas cíclicas de roda com pressão de contato de 700 kPa. Os materiais que compõem as seções de pavimento incluem solo de subleito, brita graduada simples, concreto betuminoso usinado à quente, emulsão asfáltica e geogrelha de PVA. Foram estudadas uma seção com geogrelha como reforço no recapeamento da camada asfáltica, uma seção idêntica não reforçada, uma seção com uma única capa asfáltica reforçada com geogrelha e uma seção com geogrelha no recapeamento da camada asfáltica, porém com espessura de base reduzida em relação aos demais ensaios. Sensores nas camadas do pavimento mediram tensões e deformações, e deslocamentos plásticos e elásticos na superfície. Deslocamentos ao longo da geogrelha foram monitorados utilizando o sistema tell-tales. Como resultado, mecanismos de reforço foram identificados neste estudo. O uso de uma geogrelha polimérica reduziu consideravelmente as deformações na fibra inferior da capa asfáltica, assim como as tensões verticais nas camadas subjacentes do pavimento. Resistência à formação de trilhas de roda e solevamentos laterais foram também evidenciadas. As medidas de deslocamentos ao longo da geogrelha forneceram entendimento da distribuição de deformações durante o carregamento. Foi identificado o comprimento de geogrelha mobilizado durante os ensaios, mostrando que a aderência entre a geogrelha e as camadas asfálticas e a rigidez da geogrelha asseguraram o desempenho satisfatório das seções de pavimento. Os resultados também mostraram que o efeito do mecanismo de restrição lateral é um mecanismo que governa a melhora no desempenho da capa asfáltica com o uso da geogrelha através do desenvolvimento de resitência ao cisalhamento. Estas observações permitem concluir que a geogrelha na camada asfáltica atua como reforço e não apenas reduzindo a o potencial de trincamento, levando à um aumento no desempenho de estruturas de pavimentos flexíveis. accelerated pavement testing asphalt overlay camada asfáltica ensaios acelerados de pavimento flexible pavement geogrelha geogrid pavimento flexível reforço reinforcement
193	Resposta de observação e generalização de estímulos / Observing response and stimulus generalization Kanamota, Juliano Setsuo Violin 07 December 2018 (has links) O conceito de controle de estímulos é composto por dois processos correlatos, a discriminação operante e a generalização de estímulos. A relação entre a discriminação e a emissão da resposta de observação tem sido amplamente realizada. A relação entre a generalização e a emissão da resposta de observação, por outro lado, ainda carece de investigação empírica. O principal objetivo deste trabalho foi investigar a duração de fixações aos estímulos em testes de generalização compostos por variações nas dimensões de S+ e por variações nas dimensões de S-. Dez estudantes universitários foram expostos a um procedimento de discriminação sucessiva caracterizado por um esquema múltiplo VI / EXT. Três estímulos Gabor eram apresentados em formação triangular sobre um fundo preto. O estímulo com inclinação das linhas da grade de 45 cumpriu a função de S+, o de inclinação 135 função de S- e os estímulos com linhas horizontais e verticais eram irrelevantes em relação à tarefa. A Fase 1 do treino discriminativo caracterizou-se por um esquema Mult VI 1 seg \\ EXT durante o qual os estímulos discriminativos eram apresentados de forma semi randômica no vértice superior do triangulo. Durante a fase 2, o esquema foi alterado para Mult VI 2 seg \\ EXT e os estímulos alternavam de posição a cada componente. Em seguida ao treino discriminativo cinco participantes foram expostos a um teste de generalização, em extinção, compostos por estímulos de angulações de 15, 30, 45, 60 e 75, enquanto cinco participantes foram expostos a um teste de generalização composto por estímulos de angulações de 105, 120, 135 e 150. Os resultados do teste de generalização composto por variações de S+ demonstram a formação de gradientes de observação em forma de sino. Os resultados do teste de generalização, por outro lado, demonstram a formação de gradientes de observação achatados, em forma de sino e em forma de U. Estes resultados complementam o cenário de compreensão do processo de estabelecimento de controle de estímulos ao demonstrar a formação de gradientes de observação, além disto, indicam que testes de generalização podem ser utilizados como alternativa metodológica à investigação das funções dos estímulos discriminativos sobre a resposta de observação / Stimulus control is a concept based on two related processes, operant discrimination and stimulus generalization. The relation between operant discrimination and observing responses has been widely investigated, while the relation between stimulus generalization and observing responses still lacks empirical research. The aim of this project was to assess the duration of eye fixations during generalization tests on stimulus that were variations of S+ and variations of S-. Ten college students participated of a simple successive discrimination procedure with a Mult VI/EXT schedule. Three Gabor stimuli were arranged in a triangular shape over a black background. The S+ stimulus was the one with lines on a 45° slope and the S- was the one with lines on a 135° slope. Stimuli with vertical (90°) and horizontal (180°) lines were presented as part of the arrangement but were irrelevant to the task. In Phase 1, discriminative training was conducted using a Mult VI 1 s/EXT schedule with S+ and S- alternating in a semi-random sequence on the upper corner of the triangular arrangement. During Phase 2, the schedule changed to Mult VI 2 s/EXT and the position of the S+ and S- varied over the three corners of the triangle in each component. After completing the discriminative training, five participants were exposed to a generalization test, in extinction, with variations from S+, where stimuli of 15°, 30°, 45°, 60°, and 75° were presented. The remaining five participants were exposed to the generation test with stimuli varying from S-, with stimuli of 105°, 120°, 135°, and 150°. Results from the generalization test with variations from S+ show bell-shaped gradients of observing response with peak near S+ and lessened at slopes more distant from S+. On the other hand, gradients from the test conducted with variations from S- were variable, producing flat gradients, bell-shaped, and u-shaped gradients. These results add to the comprehension of stimulus control process by showing gradients of observing behavior and suggest that generalization tests could be used as an alternative to study the role of discriminative stimulus for the observing response Conditioned reinforcement Controle de estímulos Fixações oculares Generalização de estímulos Observing response Ocular fixations Reforço condicionado Resposta de observação Stimulus control Stimulus generalization
194	Caracterização mecânica e microestrutural de compósitos de matriz metálica Al/SiCp e Al/Al2O3p obtidos via interação por laminação acumulativa / Mechanical and microstructural characterization of metal matrix composites of Al/SiCp and Al/Al2O3p obtained by interaction accumulative roll bonding Gomes, Márcia Aparecida 09 December 2015 (has links) Compósitos de matriz metálica (CMM) reforçados com dois tipos de particulado cerâmico foram produzidos por meio do processo ARB (Accumulative Roll Bonding) a fim de estudar os efeitos destes no que diz respeito às propriedades mecânicas e microestruturais. ARB é um processo de deformação plástica severa aplicada originalmente a uma pilha de lâminas metálicas, a qual é laminada, seccionada em duas metades, as quais são empilhadas e novamente laminadas, e assim por diante, desenvolvido com o propósito de reduzir o tamanho de grão e aumentar a resistência mecânica do produto final. O processo é econômico e capaz de produzir de folhas ultrafinas a placas espessas, sem que haja restrição de quantidade. Confeccionou-se CMM de alumínio reforçados com partículas de carbeto de silício (Al+SiCp) e alumina (e Al+Al2O3p) com granulometria média de 40µm, as quais foram caracterizadas microestruturalmente e ensaiadas em tração até a falha, cuja análise foi conduzida via microscopia eletrônica de varredura. Ambas as amostras obtiveram ganho em sua resistência mecânica, comparadas ao alumínio monolítico (sem adição de partículas de reforço) e alumínio recozido. Foram ensaiados em tração corpos de prova com e sem presença de entalhe, sendo que as peças entalhadas apresentaram comportamento esperado de aumento de resistência mecânica e baixo alongamento e fratura de aspecto frágil. De acordo com análise feita por fratografia houve boa ancoragem e dispersão das partículas de reforço na matriz. / Metal matrix composite (CMM) reinforced with two types of ceramic particles have been produced through the process ARB (Accumulative Roll Bonding) in order to study their effect as regards the mechanical and microstructural properties. ARB is a severe plastic deformation process originally applied to a stack of metal sheets, which is laminated, sectioned into two halves, which are stacked and rolled again, and so on, developed with the purpose of reducing the grain size and increase the mechanical strength of the final product. The process is economical and capable of producing ultrafine sheets to thicker plates without much restriction. Were fabricated CMM of the aluminum reinforced with particles of silicon carbide (Al + SiCp) and alumina (and Al + Al2O3p) with an average particle size of 40μm, which are characterized microstructurally and tested in tension until failure, whose analysis was conducted via scanning electron microscopy. Both samples were successful in its mechanical strength compared to the monolithic aluminum (without addition of reinforcing particles) and annealed aluminum. They were tested for tensile specimens with and without the presence of notch, and the carved pieces showed strength-enhancing behavior and low elongation and frail fracture. According to analysis by fractography was good anchoring and reinforcement particles dispersed in the matrix. ARB Process Compósito de matriz metálica Cumulative rolling Fractography Fratografia Laminação acumulativa Metal matrix composite Particulate reinforcement Processo ARB Reforço particulado
195	Reforço de emendas dentadas com compósitos de fibras em peças de madeira / Reinforcement finger joints with fibers composites in pieces of wood Magda Lorena Chilito Amaya 19 August 2013 (has links) A presente pesquisa teve como objetivo avaliar o uso de compósitos de fibras e resina epóxi no reforço de emendas dentadas em peças de madeira. Inicialmente, foi avaliada a influência da trama das fibras de sisal e de curauá sem tratamento nenhum nas propriedades mecânicas à tração dos compósitos com resina epóxi. Igualmente, foram caracterizados na tração compósitos de fibras de vidro e tecidos de sisal. Posteriormente, foi avaliada a resistência à tração paralela às fibras de peças de madeira Pinus sp em tamanho estrutural para três tipos de tratamentos: (1) peças sem emendas e sem reforço, (2) peças com emendas e sem reforço e (3) peças com emendas reforçadas por compósitos de fibras de vidro e resina epóxi. Também foram realizados testes de tração em corpos de prova isentos de defeitos com emendas dentadas usando madeira Lyptus® para três casos: (1) sem reforço na emenda, (2) reforço na emenda com fibra de vidro e (3) reforço na emenda com tecido de sisal. Os resultados da influência da trama das fibras de sisal e curauá com a resina epóxi nos testes de tração mostraram que o tipo de trama não influenciou significativamente na resistência e no módulo de elasticidade. Na caracterização dos compósitos poliméricos, a resistência do tecido de sisal foi cerca de 44% da resistência da fibra de vidro. Nas peças estruturais, devido à baixa resistência da madeira de Pinus sp utilizada, não se justificou a utilização do reforço. Nos corpos de prova isentos de defeitos de madeira Lyptus® com emendas dentadas, a eficácia do reforço foi evidenciado, com aumento de 37% na resistência à tração com reforço de fibra de vidro e de 40% com reforço de tecido de sisal, em relação aos corpos de prova isentos de defeitos sem reforço. / The present research evaluate the reinforcing of finger joints in timber pieces with composite fiber and epoxy. Initially, the influence of the weft in the tensile mechanical properties of composites using sisal fibers and curaua without any treatment was evaluated. The characterization of composites made with sisal fibers and glass fibers were also carried out. Additionally, the tensile strength parallel to the grain for pieces of Pinus sp in structural sizes for three types of treatments: (1) pieces without finger joints, (2) pieces unreinforced finger joints and (3) pieces reinforced finger joints with composite fiberglass and epoxy resin, was evaluated. Also, was evaluated the tensile strength of the finger joint test specimens Lyptus® wood for three cases: (1) unreinforced finger joint, (2) reinforced finger jointed with fiberglass and (3) reinforced finger jointed with fabric sisal. The results of influence of the weft sisal fibers and curaua with epoxy resin of tensile test showed that the weft did not significantly influence the strength and the modulus of elasticity. The characterization of polymeric composites, the strength of sisal fabric was about 44% of the fiber glass strength. The structural size pieces, the use of reinforcement it is not justified due to the low strength of the Pinus sp wood used. The test specimens of Lyptus® wood with finger joints, the efficacy of the reinforcement was evident, with 37% increase in tensile strength with glass fiber reinforcement and 40% with reinforcement sisal fabric, compared to specimens without reinforcement. Compósitos Curauá Fibra de vidro Fibras naturais Reforço de emendas dentadas Sisal Composites Curaua Fiberglass Natural fibers Reinforcement of finger joints Sisal
196	Debatendo a noção de metacontingência a partir da revisão e produção de dados experimentais / Debating the metacontingency notion from the review and production of experimental data Thais Ferro Nogara de Toledo 04 December 2015 (has links) O presente trabalho é composto por dois estudos. O primeiro estudo revisa a literatura da área de metacontingências com o objetivo de analisar seus elementos constitutivos, à luz de dados experimentais. O outro estudo, empírico, empregou um procedimento análogo ao de operante livre para investigar os efeitos da manipulação de uma relação condicional entre contingências comportamentais entrelaçadas (CCEs) e alterações ambientais sobre a seleção e transmissão de CCEs e sobre os desempenhos operantes em dois esquemas de reforço (VI e VR). Os resultados da revisão conceitual evidenciaram elementos comuns aos processos de seleção operante e cultural: o comportamento, como o conjunto de ações de uma ou várias pessoas, seus produtos e variáveis selecionadoras. Os resultados do experimento mostraram que os processos de aquisição, extinção e reaquisição de uma unidade que engloba os comportamentos de três participantes, os culturantes, se assemelham aos processos de aquisição, extinção e reaquisição de operantes. A interação entre seleção operante e cultural dependeu dos desempenhos dos participantes durante a linha de base. Operantes e culturantes foram socialmente transmitidos. A revisão conceitual e os resultados do experimento fortalecem a noção de metacontingência, tanto como uma ferramenta teórica quanto como um procedimento para lidar com fenômenos no terceiro nível de seleção por consequências. Os dados de pesquisas dão consistência ao conceito e este organiza e sistematiza as manipulações experimentais / This work consists of two studies. The first study review the metacontingencies literature in order to analyze the constituent elements in the light of experimental data. The other study, empirical, employed a free-operant-analogous procedure to investigate the effects of manipulating conditional relationship between interlocking behavioral contingencies (IBCs) and environmental changes over the selection and transmission of CCEs and on operant performance in two reinforcement schedules (VI and VR). The results of the conceptual review showed common elements to operant and cultural selection processes: the behavior, as the set of actions of one or several individuals, its products and variables of selection. The results of the experiment showed that the processes of acquisition, extinction and reacquisition of a unit that includes the behavior of three participants, the culturants, are similar to the processes of acquisition, extinction and reacquisition of operants. The interaction between operant and cultural selection depended on the participants performances at baseline. Operants and culturants were socially transmitted. The conceptual review and experimental results support the metacontingency notion, both as a theoretical tool and as a procedure for dealing with phenomena on the third level of selection by consequences. Research data give consistency to the concept and it organizes and! systematizes the experimental manipulations Esquemas de reforço Metacontingência Seleção cultural Seleção operante Transmissão cultural Cultural selection Cultural transmission Metacontingency Operant selection Reinforcement schedules
197	Variabilidade induzida e operante sob contingências de reforçamento negativo / Induced and operant variability under negative reinforcement contingences Desirée da Cruz Cassado 17 August 2009 (has links) A variabilidade comportamental pode ser induzida por reforçamento parcial ou extinção, assim como pode ser reforçada diferencialmente. O objetivo deste estudo foi verificar como a variabilidade comportamental pode ser influenciada por estímulos aversivos, tanto no processo de indução por reforçamento parcial e extinção, como no reforçamento negativo contingente à variação. Oito ratos Wistar machos foram divididos em dois experimentos. Em ambos foram realizadas sessões com 60 choques elétricos de (1mA), administrados no piso da caixa, em VT 60s (10-110s). O objetivo do Experimento 1 foi comparar os níveis de variabilidade da alocação da resposta de focinhar de três sujeitos experimentais em condições de nível operante, reforçamento negativo (fuga) e extinção. No Experimento 2 visou reforçar negativamente a variabilidade comportamental, expondo cinco sujeitos à sessões de Nível Operante, CRF, FR2, LAG1, LAG3 e Acoplado. Os resultados do Experimento 1 demonstram que os sujeitos emitiram a resposta de fuga durante as sessões de CRF com altos índices de variabilidade, mesmo a variabilidade não sendo exigida. Na sessão de extinção, dois dos sujeitos aumentaram ainda mais a variação das respostas. Discute-se que a resposta de focinhar ficou sob controle da contingência operante, enquanto que a sua variabilidade pode ter sido induzida pelo choque ou pelo esquema de reforçamento. Os resultados do Experimento 2 replicam os do Experimento 1 durante as sessões de CRF. Na fase de FR2 houve uma diminuição da variabilidade das respostas, provavelmente em virtude do alto custo da variação da resposta durante a fuga, somado aos efeitos de habituação ao estímulo aversivo. Com a introdução das contingências LAG1 e LAG3, os dados mostraram que os sujeitos aumentaram os índices de variabilidade de acordo com a contingência. Conclui-se que o reforçamento diferencial da variabilidade produziu altos índices de variação. Tais dados estão de acordo com os resultados obtidos com procedimento de reforçamento positivo da variabilidade comportamental em estudos recentes na área, o que sugere a equivalência desses controles. / Behavioral variability can be induced by partial reinforcement or extinction, and be differentially reinforced. The purpose of this study was to investigate how behavioral variability can be influenced by aversive stimuli, both in the process of induction by partial reinforcement and extinction as well as in the negative reinforcement contingent to variation. Eight Wistar male rats were used in two experiments. In both experiments the animals were exposed to 60 electric shocks (1mA) delivered through the box floor, in VT 60s (10-110s). The objective of Experiment 1 was to compare the variability of nose-poke response location of three animals in operant level, continuous negative reinforcement (escape) and extinction. In Experiment 2 five subjects were exposed to sessions of Operant Level, CRF, FR2, LAG1, LAG3 and Yoke condition. Although variability was not required, the results of Experiment 1 revealed that the subjects emitted escape responses with high levels of variation during CRF sessions. In the extinction session, an increase in response variability was found for two subjects. It is argued that the nose-poke response was under control of the operating contingency, while the response variability may have been elicited by shock or the schedule of reinforcement. The results of CRF sessions of Experiment 2 replicate the findings of Experiment 1. During FR2 phase it was detected a decrease in response variability, probably due to the high cost of response variation during escape in addition to the effects of habituation to the aversive stimulus. With the exposure to LAG1 and LAG3 schedules of variation, the data show that the subjects\' variability levels increased according to the contingency in effect. The differential reinforcement of variability resulted in high levels of variation. These data match the results of recent studies on the influence of positive reinforcement procedures on behavioral variability, what suggests the equivalence of these controls. Choque Coerção Controle aversivo Esquiva Reforço negativo Variabilidade de resposta Aversive control Avoidance Coercion Negative reinforcement Response variability Shock
198	Inferência de contexto para dispositivos móveis utilizando aprendizagem por reforço Guimarães, Leonardo Lira 25 May 2015 (has links) Submitted by Kamila Costa (kamilavasconceloscosta@gmail.com) on 2015-06-18T19:47:28Z No. of bitstreams: 1 Dissertação-Leonardo Lira Guimarães.pdf: 5378144 bytes, checksum: 17c3316e73590efa02a215df4d7e88b6 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-07-06T15:14:50Z (GMT) No. of bitstreams: 1 Dissertação-Leonardo Lira Guimarães.pdf: 5378144 bytes, checksum: 17c3316e73590efa02a215df4d7e88b6 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-07-06T15:21:38Z (GMT) No. of bitstreams: 1 Dissertação-Leonardo Lira Guimarães.pdf: 5378144 bytes, checksum: 17c3316e73590efa02a215df4d7e88b6 (MD5) / Made available in DSpace on 2015-07-06T15:21:38Z (GMT). No. of bitstreams: 1 Dissertação-Leonardo Lira Guimarães.pdf: 5378144 bytes, checksum: 17c3316e73590efa02a215df4d7e88b6 (MD5) Previous issue date: 2015-05-25 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Advances in wireless communication and computer hardware technologies have boosted the popularity of mobile devices. Increasingly, these devices gain new features of hardware (i.e., sensors and other gadgets) and software (e.g., facial, voice and gestures recognition) so that the human-computer interaction can occur more naturally. These features allowed a greater awareness of the environment and the conditions under which the users are, enabling the development of applications ever more proactive and sensitive. A context aware system can modify its behavior according to the inferred context of the environment. However, erroneous interpretations of the collected data may induce inappropriate and unwanted actions in applications. Although there is variety of inference techniques in the literature (e.g., rules, ontologies, that uses supervised and unsupervised learning), generally, they do not consider whether the inferences were indeed suitable to the user contexts. Furthermore, most of these techniques uses static inference models (i.e., they are unable to adjust themselves to changes in the environment conditions), which represents a limitation of these techniques when applied to the field of mobile applications. This work proposes a new context reasoning technique for mobile applications – called CoRe-RL – which uses reinforcement learning in order that the produced inferences could be ever more suitable to the user’s contexts. In this technique, learning occurs in an incremental manner and as the user interacts with the system, allowing the inference to be adjusted by the rewards (positive reinforcements) and punishments (negative reinforcements) associated to the inferred contexts. As the contexts are continuously being learned, the proposed technique also allows a flexible context management to the applications, which enables new contexts (labels) to be registered and learned over time. The operation of the technique is divided into two stages – classification and adaptation. The CoRe-RL uses a modified version of the K nearest neighbors in the classification stage. The learning (adaptation) stage is based on examples, but also makes adjustments on the models (features ranking) which weigh the most relevant xv features of each context in the classification stage. In order to validate and evaluate the proposed technique, it was developed, as a case study of this work, an application that implements all of the functionality and capabilities of CoRe-RL. Through this application, practical experiments for evaluating the classification and adaptation were executed in two specific scenarios: there was a single context in the first scenario; and in the second, there were three. Through the practical experiments, it was observed that, in accordance to the cutting threshold used, it is possible to obtain good performances in the classification even with a small base and with a slightly adjusted ranking. Furthermore, it was demonstrated that the CoRe-RL improves its performance, converging to the optimal performance, in accordance to the occurrence of new interactions. / Os avanços das tecnologias de comunicação sem fio e de hardware impulsionaram a popularização do uso de dispositivos móveis. Cada vez mais, estes dispositivos ganham novos recursos de hardware (i.e., sensores e outros gadgets) e software (e.g., reconhecimento facial, de voz, gestos) a fim de que a interação humano-computador ocorra de forma mais natural. Esses recursos deram aos dispositivos móveis uma capacidade maior de percepção do ambiente e das condições nas quais os usuários se encontram, possibilitando o desenvolvimento de aplicações cada vez mais proativas e sensíveis ao contexto. Um sistema sensível ao contexto é capaz de modificar seu comportamento de acordo com os contextos inferidos do ambiente. Entretanto, interpretações errôneas dos dados coletados podem induzir ações inapropriadas e indesejadas nas aplicações. Embora exista uma variedade de técnicas de inferência na literatura (e.g., regras, ontologias, que utilizam aprendizagem supervisionada e não supervisionada), em geral, elas não consideram se as inferências foram de fato adequadas para os contextos do usuário. Além disso, a maioria dessas técnicas utiliza modelos estáticos de inferência (i.e., que não são capazes de se ajustar à mudanças nas condições do ambiente), o que representa uma limitação dessas técnicas quando aplicadas ao domínio das aplicações móveis. Neste trabalho, é proposta uma nova técnica de inferência de contexto para aplicações móveis – chamada de CoRe-RL – que utiliza aprendizagem por reforço a fim de que sejam produzidas inferências cada vez mais adequadas aos contextos do usuário. Nesta técnica, a aprendizagem ocorre de maneira incremental e conforme o usuário interage com o sistema, permitindo que a inferência seja ajustada por meio de recompensas (reforços positivos) e punições (reforços negativos) associadas aos contextos inferidos. Como os contextos estão continuamente sendo aprendidos, a técnica proposta também permite às aplicações um gerenciamento flexível de contextos, ou seja, é possível que novos contextos (rótulos) sejam cadastrados e aprendidos ao longo do tempo. O funcionamento da técnica é divido em duas etapas – classificação e adapxiii tação. O CoRe-RL utiliza o método dos K vizinhos mais próximos (modificado) na classificação. A aprendizagem (adaptação) é baseada em exemplos, mas também faz ajustes sobre os modelos (ranking de características) que ponderam as características mais relevantes de cada contexto, na etapa de classificação. Com o intuito de testar e avaliar o desempenho da técnica proposta, foi desenvolvido, como estudo de caso deste trabalho, um aplicativo que implementa todas as funcionalidades e recursos do CoRe-RL. Através deste aplicativo, foram realizados experimentos práticos de avaliação da classificação e adaptação, em dois cenários específicos: no primeiro cenário havia um único contexto; e no segundo haviam três. Por meio dos experimentos práticos, observou-se que, de acordo com o limiar de corte usado, é possível obter bons desempenhos na classificação mesmo com uma base pequena e com um ranking pouco ajustado. Além disso, demonstrou-se que o CoRe-RL melhora seu desempenho, convergindo para o desempenho ótimo, de acordo com a ocorrência das interações. Inferência de Contexto Aprendizagem por Reforço Dispositivos Móveis Context Reasoning Reinforcement Learning Mobile Devices
199	Variabilidade comportamental como função de diferentes contingências de reforçamento e sua ordem de apresentação / Behavior Variability as a function of different reinforcement contingencies and their order of presentation Marcos Takashi Yamada 22 March 2012 (has links) O presente trabalho teve por objetivo verificar experimentalmente (1) se a variabilidade do comportamento, obtida como função de contingências de reforçamento LAG n e RDF, sofre interferência da manipulação sistemática dos parâmetros n(LAG) e do limiar de reforçamento (RDF) e (2) se a história de reforçamento, estabelecida por ordem crescente, decrescente e alternada da exigência de variação afeta o grau de variabilidade obtido. Ratos (n=48) machos, da linhagem Wistar, foram divididos em 12 grupos expostos a uma fase de linha de base (FR4) e quatro fases experimentais, nas quais foram manipuladas as duas contingências de reforçamento da variação LAG (com n 2, 4, 8 e 12) ou RDF (com limiar de 1/4, 1/8, 1/12 e 1/16), e duas contingências a essas acopladas, sem exigência de variação. Sob cada contingência, três subgrupos diferiram entre si em relação à ordem de apresentação dos valores de n e limiar, que podia ser crescente (C), decrescente (D) ou aleatória (A). A unidade comportamental foi a sequência de quatro respostas de pressão a duas barras (esquerda e direita). O efeito dessas manipulações foi analisado sobre diferentes variáveis dependentes: índice U, % reforçamento, R/min, tempo de recorrência, frequência por oportunidade, %RE, % repetição e número de alternações.Os dados obtidos mostraram que: (1) os graus de variabilidade são diretamente modificados pelos valores de n ou do limiar; (2) a ordem de apresentação da contingência produziu efeito diferenciado entre os grupos; (3) a simples intermitência de reforços não alterou padrões de variação; (4) as diferentes variáveis dependentes analisadas em conjunto permitiram uma compreensão mais ampla do comportamento de variar / The goal of the present work was to (1) investigate whether operant variability can be influenced by previous contingencies or whether it is solely controlled by the current contingencies; (2) analyze the effects of reinforcement intermittency in producing behavior variability; (3) analyze whether other variability measures are affected when the n value of the LAG contingency and the threshold in a threshold (RDF) procedure are manipulated. Fourty eight Wistar rats were thus exposed to LAG, RDF, and their respective yoked conditions. The n values used for the LAG contingency were 2, 4, 8 and 12, and the threshold values used were 1/4, 1/8, 1/12 e 1/16. The behavior unit analyzed was the sequence of four responses (lever presses) based on the spatial localization of each response (left and right). Subjects were divided into four groups (LAG, RDF, and their respective yoked groups - ALAG and ARDF), and were then exposed to a baseline under a fixed-ratio (FR) 4 schedule and four additional phases with the four possible contingencies. In each group, subjects were exposed to different orders of presentation of the contingencies (values: ascending A, descending D, or random R). The results indicated that: (1) changes in the nor threshold value resulted in changes in the level of variability; (2) the order of presentation of the contingencies had different effects between groups; (3) reinforcement intermittency did not affect variability patterns; (4) response cost controlled the level of behavior variability; (5) the new behavior variability measures were efficient for a broader analysis of variability Análise de contingências Análise do comportamento Custo de resposta Esquemas de reforço Variabilidade de resposta Behavioral Assessment Contingency analysis Reinforcement schedules Response variability
200	Estratégias para aplicação de políticas parciais com motivação intrínseca. / Application strategies for intrinsic motivated options Rafael Lemes Beirigo 02 October 2014 (has links) As técnicas de Aprendizado por Reforço permitem a solução de um problema através da escolha de ações que maximizem valores de recompensas recebidas que refletem a qualidade das ações tomadas pelo agente em um processo de tentativa e erro. Em problemas com estrutura hierárquica, a solução final depende do encadeamento de soluções para subproblemas aí presentes, sendo frequente a repetição de subproblemas nesse encadeamento. Nesses casos, a utilização de políticas parciais permite o aprendizado e armazenamento das soluções individuais para cada subproblema, que podem então ser utilizadas múltiplas vezes na composição de uma solução completa para o problema final, acelerando o aprendizado. Apesar de vantajosa, a utilização de políticas parciais necessita de definições por parte do projetista, o que representa uma sobrecarga. Para contornar esse problema, foram propostas técnicas de descoberta automática de políticas parciais, dentre as quais a utilização de motivação intrínseca se destaca por permitir ao agente aprender soluções de subproblemas úteis na solução do problema final sem a necessidade de se definir manualmente novas recompensas para esses subproblemas individualmente. Apesar de promissora, essa proposta utiliza um conjunto de componentes de aprendizado que ainda carece de investigação aprofundada acerca dos impactos individual e coletivo de cada componente, notadamente a aplicação das políticas parciais durante o aprendizado. Nesta dissertação são propostas duas abordagens para a aplicação de políticas parciais no Aprendizado por Reforço com Motivação Intrínseca: (i) armazenamento das políticas parciais em aplicação pelo agente e (ii) exploração interna à aplicação das políticas parciais. O impacto das propostas no desempenho de aprendizado é avaliado experimentalmente em um domínio com forte caracterização hierárquica. / Reinforcement Learning techniques allow an agent to learn the solution to a problem by interacting with the environment and executing actions, thus receiving rewards that reflect the value of the actions taken, on a process of trial and error. When a problem has a hierarchical structure, its final solution depends on several solutions to the subproblems it contains, and it is rather common the repetition of subproblems. On these cases, by using options it is possible to learn the solution to each subproblem individually, keeping and then using them multiple times to compose the complete solution to the problem, thus accelerating the learning process. But, despite this advantage, the use of options create the need for some definitions, what can represent a burden to the designer. To circumvent this problem, automatic option discovery techniques were proposed, among which the use of intrinsic motivation deserves special attention for allowing the agent to learn the solution of the subproblems, which are useful to compose the final solution, without the need to manually define new rewards to these subproblems individually. Despite being promising, this technique is built upon a set of several learning components that need a more deep investigation on the individual and collective impacts of each component, mostly the options application strategies during the learning process. On this work two modifications are proposed concerning the application process of options on the Intrinsically Motivated Reinforcement Learning: (i) storage of the history of the options applied by the agent and (ii) allow the agent to explore, even when following an option. These modifications were implemented on an algorithm present on the literature and evaluated on a domain with strong hierarchical characteristics. Aplicação de políticas parciais Aprendizado por reforço Motivação intrínseca Políticas parciais Intrinsic motivation Option application strategies Option discovery Reinforcement learning

Search results