Topology optimization for distributed consensus in multi-agent networks / Topologioptimering för distribuerad konsensus i multiagent-nätverk

Niklasson, Johan, Hahr, Oskar January 2019 (has links)
Distributed networks, meaning a network in which several agents work together unanimously to perform some task in order to reach goals has become a field with a wide range of applications. One such applications may exist in the form of drones with a purpose of observing and detecting forest fires. In such applications it can be of paramount importance to be able to agree over some opinions or values between the agents. This value could be something such as event detection or a general direction to fly in. However in such a network there might not exist a central hub and it would not be possible for all drones to communicate directly with each other. In order for such a network to be able to reach consensus or agreement, values have to be exchanged between the agents. This thesis focuses on a subset of this problem known as distributed averaging. In the thesis it is investigated how a networks ability to detect forest fires and communicate both efficiently and quickly can change when the number of agents are adjusted in the network. The results showed that, when operating in a fixed area, for a small network of drones the increasing effective energy cost per drone were higher, than that of a larger network. It was also discovered that the speed at which a network could reach an agreement was not necessarily affected by the size of the network. But as the field area being observed was increased, adverse effects were observed in terms of communication and event detection. / Distribuerade nätverk bestående av flera agenter som har som uppgift att tillsammans nå gemensamma resultat har blivit allt mer populärt. Ett sådant användningsområde är hur drönare kan användas för att observera och upptäcka skogsbränder över en given yta. I en sådan tillämpning är det av stor vikt att drönarnätverket kan kommunicera och kongruera över värden nätverket delar med varandra. Dessa värden kan representera händelser som nätverket har som uppgift att upptäcka eller en riktning för drönarna att flyga i. Det är inte alltid garanterat att det finns en central kommunikationscentral för sådana nätverk, utan blir beroende på att kommunicera med varandra för att utbyta och kongruera över värden. Den här rapporten fokuserar på en avgränsad del av det ovanstående problemet som kallas för distribuerat konsensusvärde (eng. distributed averaging). Rapporten undersöker hur ett sådant nätverks konvergeringsförmåga, totala energikostnad samt täckning påverkas när fler drönare tillförs till nätverket. När arbetsytan var satt till statisk storlek visade resultaten att den tillförda energikostnaden per drönare var högre för små nätverk än för större nätverk. Det visades också att hastigheten som nätverket når ett kongruerande värde inte nödvändigtvis påverkas av storleken av nätverket. När arbetsytan ökade i takt med storleken på nätverket observerades däremot motsatt effekt för energikostnad och hastigheten för att nå ett konsensusvärde.

Modelling and Analysis of Swedish Heavy Industry Supply Chain Data Management to Improve Efficiency and Security / Modellering och analys för att förbättra effektivitet och säkerhet inom Svenska tungindustrins leveranskedja

Karlsson, Daniel January 2021 (has links)
Product certificates are sent throughout the supply chain of Swedish heavy industry in order to show provenance and physical characteristics of objects such as screws. The data management of the certificates has been, and still is, a very manual process. The process requires extensive work in order to maintain a correct record of the certificates. In particular, tracing causes of errors and establishing compliance takes a long time and effort. The company Chaintraced is developing an application to automate the process by acting as a third party to digitalize and manage the certificates. Introducing a third party into a business-to-business process requires that data integrity is preserved and that information reaches its expected destination. Recent research has indicated that distributed ledger technologies showpromise to fulfill these requirements. In particular, blockchain-based systems offer immutability and traceability of data, and can reduce the trust needed between different parties by relying on cryptographic primitives and consensus mechanisms. This thesis investigates the application of distributed ledger technology to further automate the Swedish heavy industry supply chain and reduce the trust needed in a third party managing the certificates. Requirements for an industrial strength system is set up and several distributed ledger technology solutions are considered to fit the use case of Swedish heavy industry. A proof of concept based on the findings is implemented, tested and compared with a centralized database to explore its possible usage in the supply chain with regard to feasibility, immutability, traceability and security. The investigation resulted in a prototype based on Hyperledger Fabric to store product certificates. The solution provides certain guarantees to immutability and security while being developed with feasibility for deployment in mind. The proposed solution is shown to be slow compared to a centralized solution but scales linearly with number of certificates and is considered within bounds for the use case. The results also show that the proposed solution is more trustworthy than a centralized solution, but that adopting blockchain technology is an extensive task. In particular, trustworthiness and guarantees provided by the solution is highly dependent on the feasibility aspect and the investigation concludes that adoption of blockchain technology within the Swedish heavy industry must take this into consideration. / Hanteringen av produktcertifikat inom den svenska tungindustrin är en mycket manuell process vilket resulterar i att ett enormt arbete krävs för att upprätthålla en korrekt hantering av certifikaten. Att spåra orsaken till fel och att kontrollera efterlevnaden av krav inom industrin tar lång tid. Chaintraced har utvecklat en applikation som automatiserar hanteringen av certifikaten genom digitalisering och att som tredje part lagra informationen. Att introducera en tredje part i affärsverksamheter kräver att integriteten av datan bibehålls och att information anländer till korrekt mottagare. Ny forskning har visat att distribuerade liggare har möjligheten att uppfylla dessa krav. Framförallt gällande blockkedjetekniken med dess många egenskaper och garantier som företag letar efter, så som oföränderlig och spårbar data. Blockkedjetekniken reducerar också förtroendet som behövs för parter inom nätverket genom att förlita sig på kryptografi och konsensus mekanismer. Den här rapporten utreder användningen av distribuerade liggare för att ytterliggare automatisera den svenska tungindustrins leveranskedja och minska tilliten som krävs för en tredje part som hanterar certifikaten. Krav ställs upp för ett system och flertalet distribuerade databastekniker undersöks för att passa in i fallet angående den svenska tungindustrin. En prototyp är utvecklad baserad på kraven, prototypen är testad och jämförd med en central databas för att undersöka hur implementationen står sig vad gäller genomförbarhet, oföränderlighet, spårbarhet och säkerhet. Undersökningen resulterade i en prototyp baserad på Hyperledger Fabric. Prototypen lagrar produktcertifikaten och ger vissa garantier till oföränderligbarhet samt säkerhet. Möjligheten för aktörer i kedjan att använda prototypen hade stor inverkan på hur systemet utvecklades. Prototypen visar sig vara långsammare än en centraliserad lösning men mätningarna kan anses vara inom kraven för ett system inom tungindustrins leveranskedja. Skalbarheten av lösningen är beroende av kraven på säkerhet men är linjär i antalet certifikat som skickas och lagras. Resultaten visar också att den föreslagna lösningen inger mer tillit än en centraliserad lösning men att introducera blockkedjetekniken är en komplex process. Trovärdighet och garantier som ges av lösningen är till stor del beroende av komplexiteten vilket rapporten kommer fram till är det viktigaste för svensk tungindustri att ha i åtanke vid eventuell antagande av blockkedjeteknik.

Mitigation of inter-domain Policy Violations at Internet eXchange Points

Raheem, Muhammad January 2019 (has links)
Economic incentives and the need to efficiently deliver Internet have led to the growth of Internet eXchange Points (IXPs), i.e., the interconnection networks through which a multitude of possibly competing network entities connect to each other with the goal of exchanging traffic. At IXPs, the exchange of traffic between two or more member networks is dictated by the Border gateway Protocol (BGP), i.e., the inter-domain routing protocol used by network operators to exchange reachability information about IP prefix destinations. There is a common “honest-closed-world” assumption at IXPs that two IXP members exchange data traffic only if they have exchanged the corresponding reachability information via BGP. This state of affairs severely hinders security as any IXP member can send traffic to another member without having received a route from that member. Filtering traffic according to BGP routes would solve the problem. However, IXP members can install filters but the number of filtering rules required at a large IXP can easily exceed the capacity of the network devices. In addition, an IXP cannot filter this type of traffic as the exchanged BGP routes between two members are not visible to the IXP itself. In this thesis, we evaluated the design space between reactive and proactive approaches for guaranteeing consistency between the BGP control-plane and the data-plane. In a reactive approach, an IXP member operator monitors, collects, and analyzes the incoming traffic to detect if any illegitimate traffic exists whereas, in a proactive approach, an operator configures its network devices to filter any illegitimate traffic without the need to perform any monitoring. We focused on proactive approaches because of the increased security of the IXP network and its inherent simplified network management. We designed and implemented a solution to this problem by leveraging the emerging Software Defined Networking (SDN) paradigm, which enables the programmability of the forwarding tables by separating the controland dataplanes. Our approach only installs rules in the data-plane that allow legitimate traffic to be forwarded, dropping anything else. As hardware switches have high performance but low memory space, we decided to make also use of software switches. A “heavy-hitter” module detects the forwarding rules carrying most of the traffic and installs them into the hardware switch. The remaining forwarding rules are installed into the software switches.We evaluated the prototype in an emulated testbed using the Mininet virtualnetwork environment. We analyzed the security of our system with the help of static verification tests, which confirmed compliance with security policies. The results reveal that with even just 10% of the rules installed in the hardware switch, the hardware switch directly filter 95% of the traffic volume with nonuniform Internet-like traffic distribution workloads. We also evaluated the latency and throughput overheads of the system, though the results are limited by the accuracy of the emulated environment. The scalability experiments show that, with 10K forwarding rules, the system takes around 40 seconds to install and update the data plane. This is due to inherent slowness of emulated environment and limitations of the POX controller, which is coded in Python. / Ekonomiska incitament och behovet av att effektivt leverera Internet har lett till tillväxten av Internet eXchange Points (IXP), dvs de sammankopplingsnät genom vilka en mängd möjligen konkurrerande nätverksenheter förbinder varandra med målet att utbyta trafik. Vid IXPs dikteras utbytet av trafik mellan två eller flera medlemsnät av gränsgatewayprotokollet (BGP), dvs det inter-domänroutingprotokollet som används av nätoperatörer för att utbyta tillgänglighetsinformation om IP-prefixdestinationer. Det finns ett gemensamt antagande om "honest-closed-world" vid IXP, att två IXP-medlemmar endast utbyter datatrafik om de har bytt ut motsvarande tillgänglighetsinformation via BGP. Detta tillstånd försvårar allvarligt säkerheten eftersom varje IXP-medlem kan skicka trafik till en annan medlem utan att ha mottagit en rutt från den medlemmen. Filtrering av trafik enligt BGP-vägar skulle lösa problemet. IXPmedlemmar kan dock installera filter men antalet filtreringsregler som krävs vid en stor IXP kan enkelt överskrida nätverksenheternas kapacitet. Dessutom kan en IXP inte filtrera denna typ av trafik eftersom de utbytta BGP-vägarna mellan två medlemmar inte är synliga för IXP-enheten själv.I denna avhandling utvärderade vi utrymmet mellan reaktiva och proaktiva metoder för att garantera överensstämmelse mellan BGP-kontrollplanet och dataplanet. I ett reaktivt tillvägagångssätt övervakar, samlar och analyserar en inkommande trafik en IXP-medlem för att upptäcka om någon obehörig trafik finns, medan en operatör konfigurerar sina nätverksenheter för att filtrera någon obehörig trafik utan att behöva övervaka . Vi fokuserade på proaktiva tillvägagångssätt på grund av den ökade säkerheten för IXP-nätverket och dess inneboende förenklad nätverkshantering. Vi konstruerade och genomförde en lösning på detta problem genom att utnyttja det nya SDN-paradigmet (Software Defined Networking), vilket möjliggör programmerbarheten hos vidarebefordringsborden genom att separera kontrolloch dataplanerna. Vårt tillvägagångssätt installerar bara regler i dataplanet som tillåter legitim trafik att vidarebefordras, släppa allt annat. Eftersom hårdvaruomkopplare har hög prestanda men lågt minne, bestämde vi oss för att även använda programvaruomkopplare. En "heavy-hitter" -modul detekterar vidarebefordringsreglerna som transporterar större delen av trafiken och installerar dem i hårdvaruomkopplaren. De återstående spolningsreglerna installeras i programvaruomkopplarna.Vi utvärderade prototypen i en emulerad testbädd med hjälp av virtuella nätverksmiljö Mininet. Vi analyserade säkerheten för vårt system med hjälp av statiska verifieringsprov, vilket bekräftade överensstämmelse med säkerhetspolicyerna. Resultaten visar att med bara 10% av de regler som installerats i hårdvaruomkopplaren filtrerar hårdvaruomkopplaren direkt 95% av trafikvolymen med ojämn Internetliknande trafikfördelningsarbete. Vi utvärderade också latensoch genomströmningsomkostnaderna för systemet, även om resultaten begränsas av noggrannheten hos den emulerade miljön. Skalbarhetsexperimenten visar att med 10K-vidarebefordringsregler tar systemet cirka 40 sekunder för att installera och uppdatera dataplanet. Detta beror på inneboende långsamma emulerade miljöer och begränsningar av POX-kontrollern, som kodas i Python.

Minimizing Blast Radius of Chaos Engineering Experiments via Steady-State Metrics Forecasting / Minimera sprängradien för Chaos Engineering-experiment via prognoser för steady-state mätvärden

Navin Shetty, Dhruv January 2023 (has links)
Chaos Engineering (CE) intentionally disrupts distributed systems by introducing faults into the system to better understand and improve their resilience. By studying these intentional disruptions, CE provides insights that help enhance system performance and the overall user experience. However, two main challenges exist: reducing the negative impact or ”blast radius” of these CE experiments without diluting the value of the CE experiment and identifying a standardized set of metrics to monitor during such CE experiments. This research addresses these challenges by monitoring application and system-level metrics known as the Golden Signals, and a steady-state metric called the Apdex score during a CE experiment. Using Pearson and Spearman correlation analyses alongside Granger Causality tests, a strong connection between the Golden Signals and Apdex score is identified. The study also introduces a new health-check system design that uses the Apdex score to automatically stop a CE experiment if a preset threshold is violated. Furthermore, the design also introduces a method for early termination of the CE experiment based on forecasted Apdex scores. This method not only limits potential system damage but also reveals key system weaknesses, striking a balance between risk and discovery. / Chaos Engineering (CE) stör medvetet distribuerade system genom att införa fel i systemet för att bättre förstå och förbättra deras motståndskraft. Genom att studera dessa medvetna störningar ger CE insikter som hjälper till att förbättra systemprestanda och den övergripande användarupplevelsen. Två huvudutmaningar finns dock: att minska den negativa effekten eller ”blast radius” av dessa CE-experiment utan att försämra värdet av CE-experimentet och att identifiera en standardiserad uppsättning av mätvärden att övervaka under sådana CE-experiment. Denna forskning tar itu med dessa utmaningar genom att övervaka applikations- och systemnivåmätvärden kända som Golden Signals, och en jämviktsmetrik kallad Apdex-poängen under ett CE-experiment. Genom att använda Pearson och Spearmans korrelationsanalyser tillsammans med Granger orsakssambandstester identifieras en stark koppling mellan Golden Signals och Apdex-poängen. Studien introducerar också en ny hälsocheck-systemdesign som använder Apdex-poängen för att automatiskt stoppa ett CE-experiment om ett förinställt tröskelvärde överskrids. Vidare introducerar designen också en metod för tidig avslutning av CE-experiment baserat på förutsagda Apdex-poäng.. Denna metod begränsar inte bara potentiell systemskada utan avslöjar också nyckelsystemsvagheter och skapar en balans mellan risk och upptäckt.

Blockchain-based e-voting system without digital ID: A Proof-of-Concept / Blockkedjebaserat elektroniskt röstningssystem utan digitalt ID: En konceptvalidering

Schick, Leonard January 2024 (has links)
Electronic voting systems have the potential to offer a cost effective, secure and transparent way of communicating with the citizens, increasing trust and participation. However creating a secure open source electronic voting system providing confidentiality and transparency with sufficient performance has long been a challenge.This thesis proposes a Proof-of-Concept (PoC) for a blockchain-based e-voting system in the absence of government-approved digital ID, aiming to provide a resource for public actors, offering a functional smart contract implementation and suggests an infrastructure design it can utilize. The infrastructure design for the PoC features Hyperledger Besu in a permissioned configuration using PoA (QBFT) algorithm with14 nodes. The voting process involves: account generation and distribution via mail by the government, voter-created passwords encrypting browser generated wallets with voting rights acquired by blind signatures. These components work in conjunction with a smart contract, which serves as the central mechanism for handling the voting process. The thesis finds the system meets the key criterias for an evidence-based e-voting system to a high degree but require testing of the infrastructure design together with the smart contract to assess the performance in order to determine the practical feasibility.

Hosting a building management system on a smart network camera: On the development of an IoT system

Stenbrunn, Alf, Lindquist, Theodor January 2015 (has links)
The Internet of Things (IoT) is an umbrella term for smart things connected to the Internet. Connected sensors may be used to the benefit of smart building management systems. This thesis describes the development of a sensor based building management system prototype, lightweight enough to run on a single network camera. The focus of the research was investigating if the system prototype was scalable, and capable of storing and analyzing data gathered from a large amount of sensors relevant to the field of building management. The prototype was developed through a five-stage systems development process, and evaluated using simulations and case studies. The finished prototype was able to gather and store data from a few hundred real-time sensors using limited hardware. Tests showed that the network camera should be capable of managing at least 100 sensors. The system itself is scalable with the use of more powerful hardware. However, using a distributed architecture would be preferable if more sensors are required. This could be achieved by creating a distributed network of cameras, where each camera manages its own set of sensors. This could both increase scalability and make the system more robust and reliable.

Evaluation of Using the WebRTC Protocol as a Fully Distributed System : Measure, benchmark, and evaluate the performance of the WebRTC protocol

Suyum, Mryam Teklya January 2023 (has links)
Syftet med detta examensarbete är att och utvärdera undersöka analysera och utvärdera prestandan hos WebRTC-protokollet, samt att utveckla en webbaserad klient med hjälp av JavaScript för distribuerade system och demonstrera protokollets användbarhet i ett verkligt scenario. Studien inkluderade användning av olika verktyg och bibliotek, såsom Socket.IO, Node.js, Express.js och PeerJS. De viktigaste prestandaindikatorerna som utvärderades var latens/tur- och returtid (RTT), jitter och paketförlust. Implementationen testades både lokalt och på distans. Prestandatestningen av applikationen utfördes med hjälp av webbplatserna "Chrome webrtc-internals" och "TestRTC", vilka erbjöd detaljerade insikter och statistik om WebRTC-prestanda. Resultaten indikerade att WebRTC erbjuder högpresterande och kostnadseffektiv realtidskommunikation som är kompatibel med andra applikationer som stöder protokollet. Protokollet visade sig ha robusta säkerhetsåtgärder, vara kompatibelt med distribuerade system och erbjuda stark prestanda när det gäller latens, jitter och paketförlust. Studien drog slutsatsen att WebRTC, med sin skalbarhet och förmåga att erbjuda kommunikation i realtid, är ett fördelaktigt val för distribuerade system och webbaserade videochattapplikationer. Resultaten uppmanar till ytterligare undersökningar inom områden som end-to-end-kryptering och integration av artificiell intelligens för att förbättra systemets prestanda och säkerhet. / The aim of this thesis is to analyse and evaluate the performance of the WebRTC protocol, develop a web-based client using JavaScript for distributed systems, and demonstrate the utility of the protocol in a real-world scenario. The study involved the use of various tools and libraries, including Socket.IO, Node.js, Express.js, and PeerJS. Key performance indicators evaluated were latency/round-trip time (RTT), jitter, and packet loss. The implementation was tested both locally and remotely. Performance testing of the application was conducted using the "Chrome webrtc-internals" and "TestRTC" websites, which provided detailed insights and statistics on WebRTC performance. The results indicated that WebRTC offers high-performance and cost-effective real-time communication that is compatible with other applications supporting the protocol. The protocol demonstrated robust security measures, compatibility with distributed systems, and strong performance in terms of latency, jitter, and packet loss. The study concluded that WebRTC, with its scalability and ability to provide real-time communication, is a beneficial choice for distributed systems and webbased video chat applications. The findings encourage further investigations in areas such as end-to-end encryption and the integration of artificial intelligence to enhance system performance and security.

Scalable Reinforcement Learning for Formation Control with Collision Avoidance : Localized policy gradient algorithm with continuous state and action space / Skalbar Förstärkande Inlärning för Formationskontroll med Kollisionsundvikande : Lokaliserad policygradientalgoritm med kontinuerligt tillstånds och handlingsutrymme

Matoses Gimenez, Andreu January 2023 (has links)
In the last decades, significant theoretical advances have been made on the field of distributed mulit-agent control theory. One of the most common systems that can be modelled as multi-agent systems are the so called formation control problems, in which a network of mobile agents is controlled to move towards a desired final formation. These problems additionally pose practical challenges, namely limited access to information about the global state of the system, which justify the use distributed and localized approaches for solving the control problem. The problem is further complicated if partial or no information is known about the dynamic model of the system. A widely used fundamental challenge of this approach in this setting is that the state-action space size scales exponentially with the number of agents, rendering the problem intractable for a large networks. This thesis presents a scalable and localized reinforcement learning approach to a traditional multi-agent formation control problem, with collision avoidance. A scalable reinforcement learning advantage actor critic algorithm is presented, based on previous work in the literature. Sub-optimal bounds are calculated for the accumulated reward and policy gradient localized approximations. The algorithm is tested on a two dimensional setting, with a network of mobile agents following simple integrator dynamics and stochastic localized policies. Neural networks are used to approximate the continuous value functions and policies. The formation control with collisions avoidance formulation and the algorithm presented show good scalability properties, with a polynomial increase in the number of function approximations parameters with number of agents. The reduced number of parameters decreases learning time for bigger networks, although the efficiency of computation is decreased compared to state of the art machine learning implementations. The policies obtained achieve probably safe trajectories although the lack of dynamic model makes it impossible to guarantee safety. / Under de senaste decennierna har betydande framsteg gjorts inom området för distribuerad mulit-agent reglerteori. Ett av de vanligaste systemen som kan modelleras som multiagentsystem är de så kallade formationskontrollproblemen, där ett nätverk av mobila agenter styrs för att röra sig mot en önskad slutlig formation. om systemets globala tillstånd, vilket motiverar användningen av distribuerade och lokaliserade tillvägagångssätt för att lösa det reglertekniska problemet. Problemet kompliceras ytterligare om delvis eller ingen information är känd om systemets dynamiska modell. Ett allmänt använt tillvägagångssätt för modellfri kontroll är reinforcement learning (RL). En grundläggande utmaning med detta tillvägagångssätt i den här miljön är att storleken på state-action utrymmet skalas exponentiellt med antalet agenter, vilket gör problemet svårlöst för ett stort nätverk. Detta examensarbete presenterar en skalbar och lokaliserad reinforcement learning metod på ett traditionellt reglertekniskt problem med flera agenter, med kollisionsundvikande. En reinforcement learning advantage actor critic algoritm presenteras, baserad på tidigare arbete i litteraturen. Suboptimala gränser beräknas för den ackumulerade belönings- och policygradientens lokaliserade approximationer. Algoritmen testas i en tvådimensionell miljö, med ett nätverk av mobila agenter som följer enkel integratordynamik och stokastiska lokaliserade policyer. Neurala nätverk används för att approximera de kontinuerliga värdefunktionerna och policyerna. Den presenterade formationsstyrningen med kollisionsundvikande formulering och algoritmen visar goda skalbarhetsegenskaper, med en polynomisk ökning av antalet funktionsapproximationsparametrar med antalet agenter. Det minskade antalet parametrar minskar inlärningstiden för större nätverk, även om effektiviteten i beräkningen minskar jämfört med avancerade maskininlärningsimplementeringar. De erhållna policyerna uppnår troligen säkra banor även om avsaknaden av dynamisk modell gör det omöjligt att garantera säkerheten. / En las últimas décadas, se han realizado importantes avances teóricos en el campo de la teoría del control multiagente distribuido. Uno de los sistemas más comunes que se pueden modelar como sistemas multiagente son los llamados problemas de control de formación, en los que se controla una red de agentes móviles para alcanzar una formación final deseada. Estos problemas plantean desafíos prácticos como el acceso limitado a la información del estado global del sistema, que justifican el uso de algoritmos distribuidos y locales para resolver el problema de control. El problema se complica aún más si solo se conoce información parcial o nada sobre el modelo dinámico del sistema. Un enfoque ampliamente utilizado para el control sin conocimiento del modelo dinámico es el reinforcement learning (RL). Un desafío fundamental de este método en este entorno es que el tamaño de la acción y el estado aumenta exponencialmente con la cantidad de agentes, lo que hace que el problema sea intratable para una red grande. Esta tesis presenta un algoritmo de RL escalable y local para un problema tradicional de control de formación con múltiples agentes, con prevención de colisiones. Se presenta un algoritmo “advantage actor-”critic, basado en trabajos previos en la literatura. Los límites subóptimos se calculan para las aproximaciones locales de la función Q y gradiente de la política. El algoritmo se prueba en un entorno bidimensional, con una red de agentes móviles que siguen una dinámica de integrador simple y políticas estocásticas localizadas. Redes neuronales se utilizan para aproximar las funciones y políticas de valor continuo. La formulación de del problema de formación con prevención de colisiones y el algoritmo presentado muestran buenas propiedades de escalabilidad, con un aumento polinómico en el número de parámetros con el número de agentes. El número reducido de parámetros disminuye el tiempo de aprendizaje para redes más grandes, aunque la eficiencia de la computación disminuye en comparación con las implementaciones de ML de última generación. Las politicas obtenidas alcanzan trayectorias probablemente seguras, aunque la falta de un modelo dinámico hace imposible garantizar la completa prevención de colisiones. / A les darreres dècades, s'han realitzat importants avenços teòrics en el camp de la teoria del control multiagent distribuït. Un dels sistemes més comuns que es poden modelar com a sistemes multiagent són els anomenats problemes de control de formació, en els què es controla una xarxa d'agents mòbils per assolir una formació final desitjada. Aquests problemes plantegen reptes pràctics com l'accés limitat a la informació de l'estat global del sistema, que justifiquen l'ús d'algorismes distribuïts i locals per resoldre el problema de control. El problema es complica encara més si només es coneix informació parcial sobre el model dinàmic del sistema. Un mètode àmpliament utilitzat per al control sense coneixement del model dinàmic és el reinforcement learning (RL). Un repte fonamental d'aquest mètode en aquest entorn és que la mida de l'acció i l'estat augmenta exponencialment amb la quantitat d'agents, cosa que fa que el problema sigui intractable per a una xarxa gran. Aquesta tesi presenta un algorisme de RL escalable i local per a un problema tradicional de control de formació amb múltiples agents, amb prevenció de col·lisions. Es presenta un algorisme “advantage actor-”critic, basat en treballs previs a la literatura. Els límits subòptims es calculen per a les aproximacions locals de la funció Q i gradient de la política.’ Lalgoritme es prova en un entorn bidimensional, amb una xarxa ’dagents mòbils que segueixen una dinàmica ’dintegrador simple i polítiques estocàstiques localitzades. Xarxes neuronals s'utilitzen per aproximar les funcions i les polítiques de valor continu. La formulació del problema de formació amb prevenció de col·lisions i l'algorisme presentat mostren bones propietats d'escalabilitat, amb un augment polinòmic en el nombre de paràmetres amb el nombre d'agents. El nombre reduït de paràmetres disminueix el temps d'aprenentatge per a les xarxes més grans, encara que l'eficiència de la computació disminueix en comparació amb les implementacions de ML d'última generació. Les polítiques obtingudes aconsegueixen trajectòries probablement segures, tot i que la manca d'un model dinàmic fa impossible garantir la prevenció completa de col·lisions.

