102 results on '"*REINFORCEMENT learning"'
Search Results
2. Die Zukunft der KI-gesteuerten Technologien gestalten.
- Subjects
NATURAL language processing ,COMPUTER vision ,REINFORCEMENT learning ,EDGE computing ,COMPUTING platforms - Abstract
Copyright of Elektronik Industrie is the property of Hüthig GmbH and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2024
3. Chatbots und Künstliche Intelligenz : Von den Grundlagen zu den Herausforderungen der Anwendungen
- Author
-
Mainzer, Klaus and Mainzer, Klaus, editor
- Published
- 2024
- Full Text
- View/download PDF
4. KI-basierte Regelungskonzepte zur automatischen Spurregelung von Flurförderzeugen.
- Author
-
Sauer, Timm, Zindler, Klaus, and Jumar, Ulrich
- Subjects
AUTOMATIC tracking ,ARTIFICIAL intelligence ,AUTOMATIC control systems ,TRUCKS ,A priori ,REINFORCEMENT learning ,BEAM steering - Abstract
Copyright of Automatisierungstechnik is the property of De Gruyter and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2024
- Full Text
- View/download PDF
5. Maschinelles Lernen in der Klima-technik – Stand von Wissenschaft und Technik.
- Subjects
REINFORCEMENT learning ,MARKETING software ,ALGORITHMS ,INTERNET of things ,DEEP learning - Abstract
Copyright of KI - Kälte Luft Klimatechnik is the property of Hüthig GmbH and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2024
6. Reinforcement Learning Schritt für Schrittin Schulprojekten
- Author
-
Thomas Rau
- Subjects
Machine Learning ,KI ,Reinforcement Learning ,Greenfoot ,Java ,Computer engineering. Computer hardware ,TK7885-7895 - Abstract
In diesem Artikel werden kleine Unterrichtsprojekte vorgestellt, anhand derer man sich dem Thema Reinforcement Learning – einem Teilbereich des Machine Learning, wie auch überwachtes und überwachtes Lernen – in mehreren Schritten in der Sekundarstufe II nähern kann. Jeder Schritt stößt am Ende auf Grenzen, so dass sich jeweils die nächste Erweiterung anbietet. Am Anfang steht das manuelle Anlegen einer einfachen handschriftlichen Tabelle über entscheidende Züge in einem Spiel. Weil das nur bei einfachen Spielen geht, ist der nächste Schritt das Anlegen und Anpassen einer Q-Tabelle mit kontinuierlicher Evaluation sämtlicher Züge. Im dritten Schritt wird die für manche Fälle nicht mehr ausreichende Q-Tabelle durch ein Neuronales Netz ersetzt.
- Published
- 2024
- Full Text
- View/download PDF
7. Die Zukunft der KI-gesteuerten Technologien gestalten.
- Subjects
ARTIFICIAL intelligence ,COMPUTER vision ,NEW product development ,EDGE computing ,COMPUTING platforms ,REINFORCEMENT learning ,NATURAL language processing - Abstract
Copyright of DE: Das Elektrohandwerk is the property of Hüthig GmbH and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2024
8. AI-based Parameter Optimization Method : Applied for Vehicles with Dual Clutch Transmissions
- Author
-
Schmiedt, Marius, Pawlenka, Andreas, Rinderknecht, Stephan, Bargende, Michael, editor, Reuss, Hans-Christian, editor, and Wagner, Andreas, editor
- Published
- 2022
- Full Text
- View/download PDF
9. AI for AEC: KI für Bauplanung und Bau.
- Author
-
Wortmann, Thomas, Herschel, Melanie, Staab, Steffen, and Tarín, Cristina
- Subjects
- *
KNOWLEDGE graphs , *REINFORCEMENT learning , *DATA integration , *INFORMATION modeling , *PARTICIPATORY design - Abstract
AI for AEC The article surveys current methods of data integration, artificial intelligence (AI), optimization, and control and their (potential) applications in architecture, engineering and construction. The survey includes symbolic AI‐methods as well as subsymbolic AI methods, i. e., machine learning. The article presents these methods in the context of applications that provide insight into current research projects at the Cluster of Excellence "Integrative Computational Design and Construction for Architecture" (IntCDC) at the University of Stuttgart: (1) Data integration to link data silos in design and construction processes, (2) knowledge graphs to represent knowledge in multidisciplinary design processes, (3) automated planning for scheduling and distribution of construction tasks, (4) supervised learning to estimate the results of expensive building simulations such as operational energy or of the behavior of natural materials such as wood, (5) unsupervised learning to visualize optimization results, (6) reinforcement learning for building with fibers and bamboo, and (8) control for construction robotics. The article concludes that integrative computational design and construction requires the cooperation of humans, material, and machines, and that AI – instead of merely automating design and construction processes – can moderate this cooperation. [ABSTRACT FROM AUTHOR]
- Published
- 2022
- Full Text
- View/download PDF
10. Aktuelle Trends und Prognosen.
- Subjects
ARTIFICIAL intelligence ,ENERGY consumption ,AUTOMOBILE industry ,DETECTORS ,REINFORCEMENT learning - Abstract
Copyright of Automobil-Elektronik is the property of Hüthig GmbH and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2024
11. Datenbasierte Modellierung und Regelung von trockenen Mahl‑/Sichtkreisläufen: Vorstellung des Dissertationsprojektes.
- Author
-
Kirchner, Rupert
- Abstract
Copyright of BHM Berg- und Hüttenmännische Monatshefte is the property of Springer Nature and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2022
- Full Text
- View/download PDF
12. Gesamtheft 30(2).
- Subjects
- *
MATHEMATICIANS , *MATHEMATICS contests , *SARS-CoV-2 Omicron variant , *RUSSIAN invasion of Ukraine, 2022- , *SCHOOL size , *MATHEMATICS education , *MISCARRIAGE , *REINFORCEMENT learning - Abstract
The article in the Announcements of the German Mathematical Society covers various topics such as the spread of the Omicron variant of Covid-19, the role of data assimilation, current developments in Ukraine and the war there, mentoring of women in mathematics, the history of the Mathematical Society of the GDR and mathematician Andrei Nikolayevich Kolmogorov, various events and awards in mathematics, the Bonn House of Mathematics, the European Girls' Mathematical Olympiad, the 80th anniversary of Felix Hausdorff's death, the Otto Toeplitz Memorial Foundation Fund, the Oberwolfach Foundation, the Mathematics Commission "Transition School-University", the seven major mathematical problems of the Clay Mathematics Institute, the nationwide event series "The 7 Greatest Adventures of Mathematics", a long-term project to support mathematicians from Ukraine, cartoon prizes for mathematics, the DMV Annual Meeting 2022, the university group she. codes, training for mentors, mathematics education at the University of Osnabrück, a study on the influence of statins on the risk of miscarriage, a method for solving problems with small risk quantities in studies, data on the distribution of cluster sizes in Austrian schools, the effectiveness of measures against the spread of the virus in universities, and various scientific research projects. The text describes various projects and application areas of the Collaborative Research Center SFB 1294 "Data Assimilation: The Seamless Fusion of Data and Models". It emphasizes that the SFB brings together various mathematical disciplines and collaborates closely with concrete applications. One project within the SFB investigates the application of reinforcement learning and data assimilation for the individualization of drug therapies, with a particular focus on cytotoxic chemotherapy. The Alexandria University in Egypt and the King Abdulaziz University are also criticized, as well as the scientific development in Norway and the Mathematical Society of the GDR. The text also mentions mathematician Andrei Nikolayevich Kolmogorov and the "International Vilnius Conferences on Probability Theory and Mathematical Statistics". The text contains information on various topics in the field of mathematics. Encounters and collaborations between mathematicians such as Andrei Nikolayevich and Yuri Vladimirovich Linnik are mentioned. It also addresses the question of whether the statement "0.999... = 1" is true and the difficulties of conveying theoretical mathematics to students. Furthermore, the tasks and target groups in the communication department of an institute are discussed. It emphasizes that many factors play a role in the selection of applicants for academic positions and that it is important to be more sensitive to these aspects. The text also contains information about the mathematics board game GANITA, the planned increase in DMV membership fees, and various individuals and institutions in the field of mathematics. [Extracted from the article]
- Published
- 2022
- Full Text
- View/download PDF
13. PCB-Tool erweitert.
- Subjects
ARTIFICIAL intelligence ,CLOUD computing ,REINFORCEMENT learning ,INTELLIGENT tutoring systems - Abstract
Copyright of Productronic is the property of Dokumentations- und Informationszentrum (DIZ) Munchen GmbH and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2024
14. Deep Reinforcement Learning : Das umfassende Praxis-Handbuch. Moderne Algorithmen für Chatbots, Robotik, diskrete Optimierung und Web-Automatisierung inkl. Multiagenten-Methoden
- Author
-
Maxim Lapan and Maxim Lapan
- Subjects
- Natural language processing (Computer science), Artificial intelligence, Reinforcement learning, Machine learning
- Abstract
Alle wichtigen Methoden und Algorithmen praxisnah erläutert mit Codebeispielen in Python Selbstständig lernende Agenten programmieren für die Steuerung von Robotern, NLP in interaktiven Spielen, Chatbots und mehr Deep Q-Networks, Wertiteration, Policy Gradients, Trust Region Policy Optimization (TRPO), genetische Algorithmen, moderne Explorationsverfahren u.v.m. Reinforcement Learning ist ein Teilgebiet des Machine Learnings. Hierbei werden selbstständig lernende Agenten programmiert, deren Lernvorgang ausschließlich durch ein Belohnungssystem und die Beobachtung der Umgebung gesteuert wird. In diesem umfassenden Praxis-Handbuch zeigt Ihnen Maxim Lapan, wie Sie diese zukunftsweisende Technologie in der Praxis einsetzen. Sie lernen, wie Sie passende RL-Methoden für Ihre Problemstellung auswählen und mithilfe von Deep-Learning-Methoden Agenten für verschiedene Aufgaben trainieren wie zum Beispiel für das Lösen eines Zauberwürfels, für Natural Language Processing in Microsofts TextWorld-Umgebung oder zur Realisierung moderner Chatbots. Alle Beispiele sind so gewählt, dass sie leicht verständlich sind und Sie diese auch ohne Zugang zu sehr großer Rechenleistung umsetzen können. Unter Einsatz von Python und der Bibliothek PyTorch ermöglicht Ihnen der Autor so einen einfachen und praktischen Einstieg in die Konzepte und Methoden des Reinforcement Learnings wie Deep Q-Networks, Wertiteration, Policy Gradients, Trust Region Policy Optimization (TRPO), genetische Algorithmen und viele mehr. Es werden grundlegende Kenntnisse in Machine Learning und Deep Learning sowie ein sicherer Umgang mit Python vorausgesetzt. Aus dem Inhalt: Implementierung komplexer Deep-Learning-Modelle mit RL in tiefen neuronalen Netzen Ermitteln der passenden RL-Methoden für verschiedene Problemstellungen, darunter DQN, Advantage Actor Critic, PPO, TRPO, DDPG, D4PG und mehr Bauen und Trainieren eines kostengünstigen Hardware-Roboters NLP in Microsofts TextWorld-Umgebung für interaktive Spiele Diskrete Optimierung für das Lösen von Zauberwürfeln Trainieren von Agenten für Vier Gewinnt mittels AlphaGo Zero Die neuesten Deep-RL-Methoden für Chatbots Moderne Explorationsverfahren wie verrauschte Netze und Netz-Destillation Maxim Lapan ist Deep-Learning-Enthusiast und unabhängiger Forscher. Er hat langjährige Berufserfahrung mit Big Data und Machine Learning und beschäftigt sich derzeit insbesondere mit praktischen Anwendungen des Deep Learnings wie NLP und Deep Reinforcement Learning.
- Published
- 2020
15. Kooperative ereignisbasierte Steuerung von mobilen Objekten über ein unzuverlässiges Kommunikationsnetzwerk.
- Author
-
Schwung, Michael and Lunze, Jan
- Subjects
TELECOMMUNICATION systems ,FORECASTING ,MOBILE robots ,REINFORCEMENT learning - Abstract
Copyright of Automatisierungstechnik is the property of De Gruyter and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2022
- Full Text
- View/download PDF
16. „Smart Granulation" – Sensorunterstützte Regelungskonzepte für Granulierprozesse mittels Pelletierteller: Vorstellung des Dissertationsprojektes.
- Author
-
Reisinger, Florian
- Abstract
Copyright of BHM Berg- und Hüttenmännische Monatshefte is the property of Springer Nature and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2022
- Full Text
- View/download PDF
17. Durch raue See.
- Subjects
AUTOMOTIVE suppliers ,SHARED virtual environments ,MERGERS & acquisitions ,AUTOMOBILE industry ,ARTIFICIAL intelligence ,REINFORCEMENT learning ,HOSPITAL mergers - Abstract
Copyright of Automobil-Produktion is the property of Verlag Media Manufaktur GmbH and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2024
18. Bestärkendes Lernen mittels Offline-Trajektorienplanung basierend auf iterativ approximierten Modellen.
- Author
-
Pritzkoleit, Max, Heedt, Robert, Knoll, Carsten, and Röbenack, Klaus
- Subjects
REINFORCEMENT learning ,ARTIFICIAL neural networks ,ALGORITHMS ,BENCHES ,PSYCHOLOGICAL feedback - Abstract
Copyright of Automatisierungstechnik is the property of De Gruyter and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2020
- Full Text
- View/download PDF
19. Wolkige Verheißungen Die Schul-Cloud als Mittel der Technologisierung von Schule und Lernen.
- Author
-
Höhne, Thomas, Karcher, Martin, and Voss, Christin
- Subjects
LEARNING ,TEACHING aids ,EDUCATION policy ,MASS media policy ,SCHOOLS ,REINFORCEMENT learning ,SCHOOL food - Abstract
Copyright of Zeitschrift für Pädagogik is the property of Julius Beltz GmbH & Co. KG Beltz Juventa and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2020
20. Instadeep.
- Subjects
ARTIFICIAL intelligence ,CLOUD computing ,NEW product development ,REINFORCEMENT learning ,PRINTED circuit design ,ENGINEERS ,PACKAGING - Abstract
Copyright of Neue Verpackung is the property of Hüthig GmbH and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2024
21. Selbstlernende Optimierung für hybride Bearbeitung.
- Subjects
REGIONAL development ,EXECUTIVE departments ,REINFORCEMENT learning ,ENERGY development ,CUTTING force - Abstract
Copyright of Produktion is the property of Verlag Moderne Indusrie and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2024
22. Methoden des bestärkenden Lernens für die Produktionsablaufplanung
- Author
-
Lang, Sebastian
- Subjects
Produktion ,Künstliche Intelligenz ,Reinforcement Learning ,Logistik ,Maschinelles Lernen ,Scheduling ,bic Book Industry Communication::U Computing & information technology::UY Computer science::UYQ Artificial intelligence::UYQM Machine learning ,bic Book Industry Communication::T Technology, engineering, agriculture::TG Mechanical engineering & materials::TGP Production engineering - Abstract
In diesem Open-Access-Buch wird eine Methode zur Adaption, Integration und Anwendung von bestärkenden Lernverfahren (Reinforcement Learning) für die Produktionsablaufplanung beschrieben. Die Methode wird anhand von typischen Problemstellungen der Produktionsablaufplanung hergeleitet und evaluiert. Die Produktionsablaufplanung ist eine Kernaufgabe der Produktion und Logistik, bei welcher Aufträge auf Ressourcen so verteilt und in Reihenfolge gebracht werden müssen, dass geforderte Nebenbedingungen der Planung erfüllt werden. Entsprechende Optimierungsprobleme sind meist NP-schwer, wodurch eine optimale Lösung gewöhnlich nicht unter wirtschaftlichen Bedingungen erzielbar ist. In der Industrie werden stattdessen Prioritätsregeln, Heuristiken oder Metaheuristiken verwendet, die entweder zeiteffizient zu Lasten der Lösungsgüte rechnen oder qualitativ hochwertige Lösungen unter hohem Rechenaufwand erzeugen. Das bestärkende Lernen ist eine Unterart des maschinellen Lernens und eine weitere Klasse potenzieller Lösungsstrategien. Probleme der Produktionsablaufplanung sind insoweit vergleichbar, als dass sie sich ebenfalls als stufenartige Entscheidungsketten modellieren lassen. Trotz ihrer Vorteile existiert bisher kaum allgemeines Wissen hinsichtlich der Anwendung des bestärkenden Lernens für die Produktionsablaufplanung.
- Published
- 2023
- Full Text
- View/download PDF
23. Entwicklung einer Methode zum Einsatz von Reinforcement Learning für die dynamische Fertigungsdurchlaufsteuerung
- Author
-
Lohse, Oliver
- Subjects
Produktionssteuerung ,Reinforcement Learning ,Künstliche Intelligenz ,Terminierung ,Production control ,artificial intelligence ,scheduling ,thema EDItEUR::T Technology, Engineering, Agriculture, Industrial processes::TG Mechanical engineering and materials - Abstract
This work aims to develop a method that can reschedule the matrix production in the case of a disruption. For this purpose, different artificial intelligence methods are combined in a novel way. The developed method is validated on a theoretical and a real scheduling case.
- Published
- 2023
- Full Text
- View/download PDF
24. Effectuation entwickeln
- Author
-
Sterzel, Martin
- Subjects
Entrepreneurship ,Effectuation ,Simulation ,Reinforcement Learning ,Agentenbasierte Modellierung ,Innovation ,thema EDItEUR::K Economics, Finance, Business and Management::KJ Business and Management::KJH Entrepreneurship / Start-ups ,thema EDItEUR::K Economics, Finance, Business and Management::KJ Business and Management - Abstract
In diesem Open-Access-Buch wird ein Rahmenwerk entwickelt, das simulationsbezogene Untersuchungen von Effetcuation ermöglicht und gleichzeitig die Grundlage für die Entwicklung von gründungsunterstützenden Entscheidungssystemen schafft. Es wird diskutiert, inwieweit effektuatives Lernen modelliert und algorithmisch interpretiert werden kann. Auf Basis der Vorstellung und kritischen Evaluierung aktueller Simulationsmodelle, die Effectuation abbilden, wird mit Hilfe von Methoden agentenbasierter Modellierung und des Reinforcement Learnings ein aggregiertes Modell entwickelt, das effektuatives Verhalten im Rahmen einer prototypischen Gründungssituation ermöglicht. Die Ergebnisse zeigen, dass ein entrepreneurialer Agent in der Lage ist, effektuatives Verhalten zu erlernen. Leistungsunterschiede während des Lernens ergeben sich bei Veränderung seiner Umgebung. Der Erfolg des Agenten ist abhängig von der Verbindlichkeit potentieller Partner und Kunden. Weiterhin lässt sich ein Lernerfolg feststellen, wenn der Agent das Affordable-Loss-Prinzip in Verbindung mit marktkonformem Verhalten anwendet. Mit dem entwickelten Modell können künftig, unter Einbeziehung des Entscheidungsverhaltens eines realen Entrepreneurs, weitere Untersuchungen zum effektuativen Lernverhalten durchgeführt werden.
- Published
- 2023
- Full Text
- View/download PDF
25. Erhöhung der Sicherheit im Flughafen - Parameterstudie zum Einsatz von KI zur Optimierung der Reaktionen auf einen nicht zuzuordnenden Gegenstand
- Author
-
Popa, Andrei, Milbredt, Olaf, and Draeger, Christina
- Subjects
Deep Q-Network ,Flughäfen ,Künstliche Intelligenz ,Security ,Luftverkehr ,Reinforcement Learning - Published
- 2023
26. Computationale Psychiatrie: Datengetriebene vs. mechanistische Ansätze.
- Author
-
Kaminski, Jakob, Katthagen, Teresa, and Schlagenhauf, Florian
- Abstract
The emerging research field of so-called computational psychiatry attempts to contribute to an understanding of complex psychiatric phenomena by applying computational methods and to promote the translation of neuroscientific research results into clinical practice. This article presents this field of research using selected examples based on the distinction between data-driven and theory-driven approaches. Exemplary for a data-driven approach are studies to predict clinical outcome, for example, in persons with a high-risk state for psychosis or on the response to pharmacological treatment for depression. Theory-driven approaches attempt to describe the mechanisms of altered information processing as the cause of psychiatric symptoms at the behavioral and neuronal level. In computational models possible mechanisms can be described that may have produced the measured behavioral or neuronal data. For example, in schizophrenia patients the clinical phenomenon of aberrant salience has been described as learning irrelevant information or cognitive deficits have been linked to connectivity changes in frontoparietal networks. Computational psychiatry can make important contributions to the prediction of individual clinical courses as well as to a mechanistic understanding of psychiatric symptoms. For this a further development of reliable and valid methods across different disciplines is indispensable. [ABSTRACT FROM AUTHOR]
- Published
- 2019
- Full Text
- View/download PDF
27. Deep Reinforcement Learning zur Steigerung von Energieeffizienz und Pünktlichkeit von Straßenbahnen
- Author
-
Tesar, Markus, Gratzfeld, Peter, and Sax, Eric
- Subjects
Bahnsystem ,Punctuality ,KI ,Deep Reinforcement Learning ,Energy Efficiency ,Straßenbahn ,Messdaten ,Modellierung ,Energieeffizienz ,Modelling ,Light Rail ,AI ,Pünktlichkeit ,ddc:620 ,Maschinelles Lernen ,Engineering & allied operations ,ÖPNV - Abstract
Eine Steigerung von Energieeffizienz und Pünktlichkeit resultiert in einer erhöhten Wirtschaftlichkeit und Leistungsfähigkeit des Bahnsystems. Diese Leistungsindikatoren können im Vollbahnbereich aufgrund der abgetrennten Bahnkörper und vorhandener Zugsicherungssysteme mit höheren Automatisierungsgraden verbessert werden. Straßenbahnen teilen sich die Trasse mit dem motorisierten Individualverkehr, Radfahrern und Fußgängern. Aus diesen Gründen sind Automatisierungsmöglichkeiten begrenzt und durch das Fahren auf Sicht sind die Fahrer von der sicheren Fahrzeugführung vereinnahmt. Fahrzeitreserven sind dagegen durch das Fahrgast- und Verkehrsaufkommen variabel. Konventionelle Optimierungsverfahren können für einzelne Szenarien Fahrprofile ermitteln, welche den Energiebedarf bei einer pünktlichen Fahrweise minimieren. Bei betrieblichen Abweichungen sind diese Fahrprofile jedoch nicht mehr optimal. Aufgrund der variablen Fahrzeiten und Haltedauern bietet sich der Einsatz von Künstlicher Intelligenz (KI) an, welche die Muster über den Tag erlernen und darauf die Fahrprofile anpassen kann. Diese Dissertation untersucht, wie die Energieeffizienz und Pünktlichkeit von Straßenbahnen durch den Einsatz von KI gesteigert werden können. Zum Training der KI wird eine validierte Umgebung aus Messdaten aus dem regulären Fahrgastbetrieb aufgebaut. Der rechenzeitintensive Trainingsprozess wird durch ein datengetriebenes Energiebedarfsmodell beschleunigt. Auf zwei Szenarien wird die KI zu je drei Verkehrszeiten trainiert. Die ermittelten Fahrprofile werden mit denen von Fahrern aus dem regulären Fahrgastbetrieb sowie mit einem durch Dynamic Programming ermittelten theo-retischen Optimum verglichen. Zur Untersuchung der Generalisierungsfähig-keiten der KI wird diese in einem ersten Schritt ohne weiteres Training auf bekannten Szenarien zu unbekannten Haltedauern getestet und mit den Fahrern verglichen. Im zweiten Schritt wird eine Umleitungsfahrt auf einer für die KI unbekannten Strecke simuliert. Die berechneten Fahrprofile werden ebenfalls wieder mit Fahrern aus dem regulären Fahrgastbetrieb verglichen. Anhand der Ergebnisse werden abschließend potentielle Ein-satzmöglichkeiten der KI als Fahrerassistenzsystem diskutiert.
- Published
- 2023
28. Simulation based pathfinding for autonomous intralogistics vehicles using reinforcement learning
- Author
-
Schneider, Andreas
- Subjects
reinforcement learning ,map generator ,Benchmark ,automated guided vehicle ,Artificial Intelligence ,Kartengenerator ,mobile robots ,autonome mobile Roboter ,künstliche Intelligenz ,sensor fusion ,Soft Actor-Critic ,prozedurale Generierung ,pathfinding ,Unity ,Simulationsumgebungen ,proximal policy optimization ,procedural generation ,Pfadfindung ,maschinelles Lernen ,bestärkendes Lernen ,Pfadfindungsmethoden ,simulation ,autonome mobile robot ,machine learning ,Intralogistik ,intralogistic - Abstract
Die Intralogistik-Industrie hatte in den letzten Jahren einen starken Zuwachs. Mobile Roboter revolutionieren die Art und Weise, wie wir unsere Lagerhäuser nutzen. Diese Geräte können sich autonom durch ein Lager bewegen, um Objekte herum navigieren und Waren an ihren Bestimmungsort liefern. Die Roboter verwenden neben einer Vielzahl an Sensoren spezielle Algorithmen, um an ihr Ziel zu gelangen. Anstelle solcher Programme kann auch Reinforcement Learning verwendet werden, um den Weg bzw. Pfad durch das Lager zu finden. Daraus resultierend ist es das Ziel dieser Arbeit, Erkenntnisse über die Verwendung von Reinforcement Learning zur Pfadfindung für autonome mobile Roboter in einem simulierten Intralogistikbereich zu gewinnen. Dabei soll anhand eines Benchmarks die Perfomance der Pfadfindung herkömmlicher Algorithmen mit der eines Reinforcement-Learning-Modells (RL-Modells) verglichen werden. Im theoretischen Teil werden Informationen über die Arten, die funktionalen Vor- und Nachteile, die verwendeten Sensoren und den Grad der Automatisierung von mobilen Robotern gesammelt. Weiters werden Pfadfindungssysteme hinsichtlich ihrer Funktionalität und der verwendeten Technologie miteinander verglichen. Zusätzlich werden Methoden des maschinellen Lernens (ML) erläutert und im speziellen auf RL eingegangen. Darüber hinaus wird ein Überblick über aktuelle Simulationsumgebungen und die Prozedurale Generierung von Karten gegeben. Aus dem theoretischen Teil geht hervor, dass mobile Roboter zurzeit noch nicht komplett autonom agieren können. Weiters wird bei aktuellen Robotern nicht nur ein, sondern mehrere Sensorsysteme verbaut, um Schwächen kompensieren zu können. Neben den Sensorsystemen haben auch die behandelten Pfadfindungssysteme ihre eigenen Vor- und Nachteile. Der praktische Teil zeigt, dass sich Unity als Simulationsumgebung der Intralogistik eignet und ML, als auch die Simulation von Sensoren ohne Aufwand möglich ist. Die Arbeit zeigt, dass RL auch bei der Pfadfindung für mobile Roboter zum Einsatz kommen kann. Aus dem praktischen Teil geht hervor, dass die Entwicklung simulierter Umgebungen für das Training einer künstlichen Intelligent (KI) einen Mehraufwand bedeutet. In dieser Arbeit wurde hierfür ein eigener Kartengenerator entwickelt, mithilfe dessen ein funktionsfähiges KI-Modell trainiert werden konnte. Aus der Arbeit kann geschlossen werden, dass es mithilfe von ML und RL möglich ist, KI-Modelle zu trainieren, wobei diese in simplen Szenarien mit herkömmlichen Pfadfindungsalgorithmen mithalten oder sogar übertreffen können. Für komplexe Szenarien muss das trainierte KI-Modell optimiert werden, bevor dieses zum Einsatz kommen kann. ML wird über kurz oder lang eine große Rolle im Bereich der Steuerung und damit auch der Pfadfindung von mobilen Robotern spielen. Die Entwicklung von autonomen Robotern ist voll im Gange und dieser Trend scheint auch in den nächsten Jahren nicht aufzuhalten zu sein. The intralogistics industry has had strong growth in recent years. Mobile robots are revolutionizing the way we use our warehouses. These devices can autonomously move through a warehouse, navigate around objects and deliver goods to their destination. These robots use specialized algorithms, in addition to a variety of sensors, to get to their destination. Instead of such programs, reinforcement learning can be used to find the way or path through the warehouse. As a result, the goal of this thesis is to gain insight into the use of reinforcement learning for path finding for autonomous mobile robots in a simulated intralogistics environment. A benchmark will be used to compare the pathfinding performance of conventional algorithms with that of a reinforcement learning (RL) model. In the theoretical part, information about the types of mobile robots, the functional advantages and disadvantages, the sensors used and the degree of automation will be analyzed. Furthermore, pathfinding systems are compared with respect to their functionality and the technology used. Additionally, different methods of machine learning (ML) are explained and in particular RL is discussed. Furthermore, an overview of current simulation environments and procedural generation of maps is given. The theoretical part shows that mobile robots are not yet able to act completely autonomously. Furthermore, not only one but several sensor systems are installed in current robots in order to compensate any weaknesses. In addition to the sensor systems, the pathfinding systems discussed also have their own advantages and disadvantages. The practical part shows that Unity is suitable as a simulation environment of intralogistics and ML and also the simulation of sensors is possible without complexity. The work shows that RL can also be used in path finding for mobile robots. Based on the practical part, it be seen that developing simulated environments for the training of an artificial intelligence (AI) involves extra effort. In this work, we developed our own map generator for this purpose, with the help of which a functional AI model could be trained. We can conclude from the work that with the help of ML and RL it is possible to train AI models that can keep up with or even outperform conventional algorithms in simple scenarios. For complex scenarios, the idiosyncrasies of the AI model trained in this work must be eliminated before it can be used. ML will sooner or later play a major role in the field of control and thus pathfinding of mobile robots. The development towards fully autonomous robots is in full swing and this trend seems to be unstoppable in the next years. Verfasser: Schneider Andreas Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Masterarbeit FH JOANNEUM 2023
- Published
- 2023
29. Analyse von Reinforcement Learning für Wegfindung
- Author
-
Trujic, Velibor
- Subjects
Artificial Neural Network ,Machine Learning ,Deep Learning ,Neurales Netzwerk ,Neural Network ,Künstliches neuronales Netzwerk ,Reinforcement Learning ,Maschinelles Lernen - Abstract
Wegfindung ist ein entscheidender Aspekt von KI-Anwendungen, einschließlich Computerspielen, Robotik und autonomen Navigationssystemen. Traditionelle mathematische Algorithmen wie A* und Dijkstra werden häufig zur Lösung von Pfadfindungsproblemen verwendet. Diese Algorithmen erfordern jedoch häufig erhebliche Rechenressourcen und sind möglicherweise nicht für dynamische oder komplexe Umgebungen geeignet. Reinforcement Learning (RL) hat sich aufgrund seiner Fähigkeit, sich in Echtzeit anzupassen und zu lernen, als potenzieller alternativer Ansatz zur Lösung von Pfadfindungsproblemen herausgestellt. Ziel dieser Studie ist es, die Leistung von Reinforcement-Learning-Algorithmen mit klassischen mathematischen Algorithmen zur Pfadfindung zu analysieren und zu vergleichen. Die Forschungsfrage lautet: „Vor- und Nachteile von Deep Reinforcement Learning im Vergleich zu klassischen Algorithmen zur Wegfindung in Videospielen?“ Diese Masterarbeit beginnt mit einem Überblick über traditionelle mathematische Wegfindungsmethoden, ihre Grenzen und ihre Anwendungen in verschiedenen Bereichen. Anschließend werden das Konzept des Reinforcement Learnings und seine potenziellen Vorteile bei der Lösung von Pfadfindungsproblemen vorgestellt. Um die Wirksamkeit der RL-basierten Pfadfindung empirisch zu bewerten, wird eine dreidimensionale Umgebung erstellt und das Modell mithilfe von Unity getestet, das mehrere Pfade und Sackgassen aufweist. Diese Analyse konzentriert sich auf den Vergleich der Recheneffizienz, Anpassungsfähigkeit und Gesamtleistung von RL-Algorithmen mit mathematischen Pfadfindungsalgorithmen in dem verwendeten experimentellen Kontext. Es werden praktische Implikationen der Erkenntnisse für Spieleentwicklung, Robotik und andere KI-gesteuerte Technologien diskutiert. Die Ergebnisse dieser Studie sollen wertvolle Einblicke in das Potenzial von Reinforcement Learning für die Pfadfindung in Videospielen liefern und zur Weiterentwicklung effizienterer und intelligenterer Pfadfindungssysteme beitragen. Pathfinding is a critical aspect of artificial intelligence applications, including computer games, robotics, and autonomous navigation systems. Traditional mathematical algorithms, such as A* and Dijkstra's, have been widely used to address pathfinding problems. Nevertheless, these algorithms often require computational resources and may not be well-suited for dynamic or complex environments. Reinforcement learning (RL) has emerged as a potential alternative approach for solving pathfinding problems with its ability to adapt and learn in real-time. This study aims to analyse and compare the performance of reinforcement learning algorithms with classical mathematical algorithms for pathfinding. The research question is: "Advantages and disadvantages of deep reinforcement learning compared to classic algorithms for pathfinding in video games?" This master thesis begins by providing an overview of traditional mathematical pathfinding methods, their limitations, and their applications in various domains. It then introduces the concept of reinforcement learning and its potential advantages in solving pathfinding problems. To empirically evaluate the effectiveness of RL-based pathfinding, a three-dimensional environment is created and tested the model using Unity, featuring multiple paths and dead ends. This analysis will focus on comparing the computational efficiency, adaptability, and overall performance of RL algorithms with mathematical pathfinding algorithms in this experimental setup. Practical implications of the findings for game development, robotics, and other AI-driven technologies will be discussed. The results of this study aim to provide valuable insights into the potential of reinforcement learning for pathfinding in video games and contribute to the ongoing development of more efficient and intelligent pathfinding systems. Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Masterarbeit Wien, FH Campus Wien 2023
- Published
- 2023
30. Modellierung von Unsicherheit und Wahrnehmung für Lernende Systeme
- Author
-
Sedlmeier, Andreas
- Subjects
FOS: Computer and information sciences ,Unsicherheitsmodellierung, Wahrnehmungsmodellierung, Probabilistisches Machine Learning, Out-of-Distribution Detection, Deep Reinforcement Learning - Abstract
Durch die enormen Fortschritte im Bereich der künstlichen Intelligenz (KI) erreicht eine Vielzahl lernender Systeme den Alltag von Menschen. Aktuell agiert zwar der Großteil dieser lernenden, KI-basierten Systeme noch für den Endnutzer meist unsichtbar, rein online, (beispielsweise als Recommender-System in Online-Shops), doch erste Systeme wie selbstfahrende Autos und autonome Lieferroboter sind bereits in die physische Welt vorgedrungen. Ebenso wird mit Hochdruck an Visionen wie der vollautomatisierten Fabrik (Smart Factory) oder an adaptiven Stromnetzen (Smart Grids) gearbeitet. Spätestens mit der Präsenz der lernenden Systeme in der physischen Welt gewinnen Fragen der Zuverlässigkeit und Sicherheit höchste Relevanz. Aktuell existieren jedoch kaum Verfahren, die die Grenzen und stets vorhandenen Unsicherheiten der lernenden Systeme zuverlässig erfassen können. Ebenso wäre die Modellierung eines gemeinsamen Wahrnehmungsverständnisses zwischen Mensch und Maschine von großer Wichtigkeit, um Missverständnisse und Fehler in der Interaktion zu minimieren. In der vorliegenden Arbeit werden Ansätze vorgestellt, die eine solche Modellierung von Unsicherheit und Wahrnehmung, insbesondere in Kombination mit aktuellen Deep Learning Verfahren ermöglichen. Im ersten Teil dieser Arbeit werden Ansätze zur Modellierung eines räumlichen Wahrnehmungsverständnisses für lernende Systeme behandelt. Hierfür wird eine Isovisten-basierte Quantifizierung der Wahrnehmung mit Machine Learning (ML) basierter Modellierung kombiniert. Evaluationsergebnisse zeigen, dass die so entwickelte Modellierung in der Lage ist, semantische Strukturen abzubilden. Eine in einem zweiten Schritt mit Bayesschen Verfahren erweiterte, probabilistische Wahrnehmungsmodellierung wird anschließend unter anderem zur Charakterisierung von Routen eingesetzt. Da besonders im Forschungsfeld autonom handelnder Systeme aktuell Reinforcement Learning (RL) Ansätze dominieren, stehen im zweiten Teil der Arbeit Methoden zur Unsicherheitsmodellierung in Value-basiertem Deep RL im Fokus. Es werden sowohl Methoden der approximativen Bayesschen Inferenz, als auch ensemble-basierte Verfahren dahingehend evaluiert, ob sie zuverlässig in der Lage sind, epistemische Unsicherheit zu modellieren. Da die zuvor vorgestellten Ansätze nicht direkt mit Policy-basiertem RL kombinierbar sind, wird im dritten Teil der Arbeit ein neu entwickelter, auf der Entropie der Policy basierender Ansatz zur Erkennung von Out-of-Distribution (OOD) Situationen vorgestellt. Zusammengenommen schaffen die im Rahmen der vorliegenden Arbeit vorgestellten Modellierungsansätze von Unsicherheit und Wahrnehmung eine Grundlage zur Entwicklung zuverlässiger, sicherer, lernender Systeme., With the enormous progress in the field of artificial intelligence (AI), a plethora of learning systems is becoming an integral part of people's everyday lives. Currently, most of these learning, AI-based systems are restricted to virtual spaces (for example as recommender systems in online shops). But the first ones like self-driving cars or autonomous delivery robots have already entered the physical world. Work is also progressing to realize visions like fully automated industrial plants (Smart Factory) or adaptive electrical grids (Smart Grid). With this increasing presence of learning systems in the physical world, questions of reliability and safety are now of utmost importance. Currently, however, hardly any methods exist that are able to reliably capture the limitations and ever-present uncertainties of learning systems. Likewise, modeling a common understanding of perception between humans and machines is of great importance, to minimize misunderstandings and errors in their interaction. The work at hand presents approaches which allow this kind of modeling of uncertainty and perception, especially when combined with current Deep Learning methods. The first part of this thesis addresses approaches for modeling a spatial perception for learning systems. For this purpose, an Isovist-based quantification of perception is combined with Machine Learning (ML) based modeling. Evaluation results show that the developed modeling approaches are capable of representing semantic structures. A probabilistic modeling approach, extended using Bayesian methods, is subsequently presented. It is used, among other things, for an uncertainty based characterization of trajectories. For the development of autonomous systems, Reinforcement Learning (RL) approaches currently dominate. Consequently, the second part of this thesis focuses on methods for uncertainty modeling in Value-based Deep RL. Methods of approximate Bayesian Inference as well as Ensemble-based approaches are evaluated, regarding their ability to reliability model epistemic uncertainty. As the previous approaches are not directly applicable to Policy-based RL, the third part of this thesis presents a newly developed policy entropy based approach for detecting out-of-distribution (OOD) situations. Together, the approaches to modeling uncertainty and perception, presented in the context of the work at hand, provide a foundation for the future development of reliable, safe, learning systems.
- Published
- 2023
- Full Text
- View/download PDF
31. Von Onlineplattformen und mittelalterlichen Märkten
- Author
-
Claudius Gräbner and Torsten Heinrich
- Subjects
two-sided markets ,network externalities ,agent-based computational economics ,heuristic decision making ,reinforcement learning ,Social sciences (General) ,H1-99 ,Technology (General) ,T1-995 - Abstract
Mit der zunehmenden Digitalisierung und Vernetzung ökonomischer Systeme haben plattformbasierte Interaktionsbeziehungen stark an Bedeutung gewonnen. Hier werden zwei oder mehr Nutzungsgruppen durch eine dritte Seite, die Plattform, zusammengebracht. Die Interaktion wird in solchen zweiseitigen Märkten von den Plattformbetreibern kontrolliert. Kreditkartensysteme, Softwaremärkte oder werbefinanzierte Online-Communities stellen typische Beispiele dar. Da die Analyse von zweiseitigen Märkten mit Gleichgewichtsmodellen aufgrund der algebraischen Struktur des Problems in der Regel nicht praktikabel ist, präsentieren wir im vorliegenden Beitrag ein agentenbasiertes Modell, welches in einem kürzlich erschienenen Artikel ausführlicher diskutiert wird. Anhand von illustrativen Beispielen verdeutlichen wir die Implikationen eines agentenbasierten Ansatzes für die Innovationsökonomik im Allgemeinen und das Studium von Technologieentwicklung im Besonderen.
- Published
- 2017
- Full Text
- View/download PDF
32. Lung Nodule Detection via Deep Reinforcement Learning.
- Author
-
Ali, Issa, Hart, Gregory R., Gunabushanam, Gowthaman, Liang, Ying, Muhammad, Wazir, Nartowt, Bradley, Kane, Michael, Ma, Xiaomei, and Deng, Jun
- Abstract
Lung cancer is the most common cause of cancer-related death globally. As a preventive measure, the United States Preventive Services Task Force (USPSTF) recommends annual screening of high risk individuals with low-dose computed tomography (CT). The resulting volume of CT scans from millions of people will pose a significant challenge for radiologists to interpret. To fill this gap, computer-aided detection (CAD) algorithms may prove to be the most promising solution. A crucial first step in the analysis of lung cancer screening results using CAD is the detection of pulmonary nodules, which may represent early-stage lung cancer. The objective of this work is to develop and validate a reinforcement learning model based on deep artificial neural networks for early detection of lung nodules in thoracic CT images. Inspired by the AlphaGo system, our deep learning algorithm takes a raw CT image as input and views it as a collection of states, and output a classification of whether a nodule is present or not. The dataset used to train our model is the LIDC/IDRI database hosted by the lung nodule analysis (LUNA) challenge. In total, there are 888 CT scans with annotations based on agreement from at least three out of four radiologists. As a result, there are 590 individuals having one or more nodules, and 298 having none. Our training results yielded an overall accuracy of 99.1% [sensitivity 99.2%, specificity 99.1%, positive predictive value (PPV) 99.1%, negative predictive value (NPV) 99.2%]. In our test, the results yielded an overall accuracy of 64.4% (sensitivity 58.9%, specificity 55.3%, PPV 54.2%, and NPV 60.0%). These early results show promise in solving the major issue of false positives in CT screening of lung nodules, and may help to save unnecessary follow-up tests and expenditures. [ABSTRACT FROM AUTHOR]
- Published
- 2018
- Full Text
- View/download PDF
33. Development, Testing and Characterization of a Reinforcement Learning Based Controller for an Experimental Nitrogen Cold Gas Engine
- Author
-
Kley, Christian
- Subjects
Regelung ,Künstliche Intelligenz ,Raumfahrtantriebssysteme ,Reinforcement Learning - Published
- 2022
34. Learning event-based optimization of manufacturing control for complex job shop manufacturing
- Author
-
Bauer, Dennis, Bauernhansl, Thomas, Sauer, Alexander, and Reinhart, Gunther
- Subjects
Supply Network ,Manufacturing Control ,Events ,Complex Job Shop ,Reinforcement Learning - Abstract
For manufacturing companies, the focus of their business activities today is on customer value and thus also on meeting delivery dates. At the same time, the complexity of the environment and the markets as well as within the company is increasing. For this reason, the focus is on systematic handling of events within the value creation process in supply networks. This is a particular challenge for complex job shop manufacturing with its immanent static and dynamic complexity. This thesis addresses the research question of how a learning, on events from the supply network based optimization of manufacturing control for a complex job shop can be designed, optimizing the adherence to delivery dates in case of events from the supply network by corrective measures on the level of manufacturing control. This requires an adaptive decision model that enables continuous adaptation over time. Manual interventions in manufacturing control, which were previously common in the case of events from the supply network, are thus avoided and the resilience of the manufacturing system is increased. Results of this thesis are the artifacts of learning event-based optimization of manufacturing control for complex job shop manufacturing in the form of the associated control loop, method and architecture, and implementation as a software artifact. Semiconductor manufacturing is the most important application of complex job shops in industry. Here it is shown that the learning event-based optimization of manufacturing control can significantly improve the adherence to delivery dates in the case of events from the supply network. A high level of adherence to delivery dates ensures higher customer satisfaction, while the systematic handling of events ensures resilience. In the long term, both of these factors will make it possible to reduce safety stocks in the supply network.
- Published
- 2022
35. Modellfreies Lernen optimaler zeitdiskreter Regelungsstrategien für Fertigungsprozesse mit endlichem Zeithorizont
- Author
-
Dornheim, Johannes
- Subjects
Maschinelles Lernen ,Entscheidungsoptimierung ,Bestärkendes Lernen ,Prozesspfadoptimierung ,Optimale Regelung ,machine learning ,reinforcement learning ,decision optimization ,process optimization ,optimal control ,bic Book Industry Communication::T Technology, engineering, agriculture::TG Mechanical engineering & materials - Abstract
The quality and performance of components is largely determined by the execution of the manufacturing processes involved. The process result depends -- in addition to the initial state of the component and the process -- on the course of the process. In many manufacturing processes, the course of the process can be decisively determined by manipulated variables that change over time. This work deals with methods to optimize these time-varying quantities under fluctuating process conditions. The quality of components depend to a large extent on the execution of the industrial processes involved in manufacturing. In addition to the initial conditions of the component and the process, the process result depends on the course of the process, which often can be significantly determined by time-varying manipulated variables. Methods for the optimization of these time-dependent quantities with regard to the component quality and depending on process conditions is the subject of this work.
- Published
- 2022
- Full Text
- View/download PDF
36. Implementierung eines adaptiven Blindleistungsmanagements in die Umrichterregelung
- Author
-
Bokker, Ode
- Subjects
Spannungshaltung ,Blindleistungsmanagement ,Reinforcement Learning ,Power-Hardware-in-the-Loop - Published
- 2022
37. Computational Psychiatry.
- Author
-
Huys, Quentin J. M.
- Abstract
Computational psychiatry is a young research field which attempts to bring advances from theoretical and experimental neurosciences to bear on clinical issues in psychiatry. The motivation for the use of computational techniques arises from the complexity of psychiatric phenomena. Computational techniques facilitate the measurement of intrapsychic processes that are not otherwise directly observable (e. g. learning processes) and allow phenomena arising at different levels of description to be related, for instance the impact of ion channel disturbances on short-term memory. Methods from machine learning can be combined with such models and facilitate the analysis of larger, complex datasets. Although there are promising leads, the effort is in its initial stages and it may be appropriate to adopt procedures from the development of pharmaceutical to speed up the validation and translation of computational efforts. [ABSTRACT FROM AUTHOR]
- Published
- 2017
- Full Text
- View/download PDF
38. Sudoku Solver AI Effects of Convolutional Neural Networks
- Author
-
Aydemir, Turgut
- Subjects
Neural Networks ,Q-Wert ,Reinforcement Learning ,Agent ,Machine Learning ,Bellman-Gleichung ,Q-Value ,Artificial Intelligence ,Künstliche Intelligenz ,Sudoku ,Bellman Equation ,Verstärkungslernen ,Maschinelles Lernen ,Neuronale Netze - Abstract
Lange Zeit haben sich die Menschen vorgestellt, dass azoische Objekte als intelligente Wesen zum Leben erwachen. Roboter wurden von den alten Griechen mythologisiert, und chinesische und ägyptische Ingenieure entwickelten Automaten. Der 1956 erfundene Begriff "Künstliche Intelligenz" zielt darauf ab, das menschliche Gehirn als figurative Anordnung zu charakterisieren. Das Konzept dient sowohl wissenschaftlichen als auch ethischen Zielen. Die wissenschaftlichen Ziele betonen die Vorteile der schnellen Berechnungen von Computern, die unter anderem die Fähigkeit umfassen, Muster zu erkennen und durch Übung zu lernen. Das Konzept wirft jedoch grundlegende ethische Bedenken hinsichtlich der Moral der Robotertechnik auf. Um sowohl die Rechenmöglichkeiten als auch die ethischen Bedenken der KI zu bewältigen, müssen Wissenschaftler klare Prinzipien des maschinellen Lernens definieren und die Öffentlichkeit weiterhin über die Vorteile aufklären. In der Literatur gibt es verschiedene Studien zum Lösen von Rätseln, aber die meisten konzentrieren sich darauf, das Bild des Gitters mit Hilfe der Mustererkennung in eine digitale Form zu übersetzen und es dann mit traditionellen Methoden zu lösen. Diese Arbeit verwendet einen direkten KI-basierten Weg, um weitere Hilfestellungen zu geben, basierend auf dem Konzept von Sudoku-Rätseln. Es wird untersucht, welchen Einfluss CNN auf die Entscheidungen und das Verhalten von Sudoku-Lösungsalgorithmen hat. Die Arbeit bietet einen Überblick über maschinelles Lernen, indem eine Vielzahl von Methoden und Ansätzen demonstriert werden, die auf Sudoku-Rätsel angewendet wurden. Es konzentriert sich auf die beste Möglichkeit, die Umgebung und die Aktivitäten zu erstellen, die mit dem Agenten synchronisiert sind. Die Arbeit beinhaltet auch eine Beschreibung des Standard-Sudoku-Solver-Algorithmus und seiner Ergebnisse, die mit Machine-Learning-Umgebungen verglichen werden. For a long time, people have imagined azoic objects coming to life as intelligent entities. Robots were mythologized by the ancient Greeks, and Chinese and Egyptian engineers developed automatons. The term "Artificial Intelligence," which was invented in 1956, aims to characterize human brain as a figurative arrangement. The concept serves both scientific and ethical objectives. The scientific goals emphasize the benefits of computers’ rapid calculations, which include the ability to spot patterns and learn through practice, among other things. However, the concept poses fundamental ethical concerns about the morality of robotic engineering. To deal with both the computational opportunities and ethical concerns brought by AI, scientists must define a clear set of machine learning principles and continue to educate the public about the benefits. In the literature, there are various studies on solving puzzles, but the majority of them focus on translating the image of the grid to a digital form using Pattern Recognition and then solving it using traditional methods. This thesis employs a direct AI-based way to provide further assistance, based on the concept of Sudoku puzzles. It will be investigated to see how much of an impact CNN has on Sudoku solving algorithms’ decisions and behaviors. Thesis will provide an overview of machine learning by demonstrating a variety of methods and approaches that have been applied to Sudoku puzzles. It is concentrated on the best way to create the environment and activities that are in sync with the agent. The thesis also includes a description of the standard Sudoku solver algorithm and its findings, which will be compared to machine learning environments.
- Published
- 2022
39. Deep Q networks and the knapsack problem : an experimental approach to solving 0-1 knapsack problems with different DQN architectures
- Author
-
Hofer, Joachim
- Subjects
Machine Learning ,reinforcement learning ,Deep Q Network ,Rucksackproblem ,Dueling Deep Q Network ,Deep Q Learning ,knapsack problem ,double deep Q Network - Abstract
In den letzten Jahren hat die Anwendung des Machine Learning (ML) auf komplexe Aufgabenstellungen zu bahnbrechenden Erfolgen in vielen Bereichen geführt. Die vorliegende Arbeit zielt darauf ab, ML auf das Gebiet der Rucksackprobleme (KP)anzuwenden. KP sind ein interessantes Forschungsgebiet, da sie nicht nur für reale Szenarien wie Logistik und Aktienhandel relevant sind. Auch aus Sicht der theoretischen Informatik sind sie, nachdem sie zur Klasse NP-schwerer Probleme gehören, von Bedeutung. Seit Jahrzehnten wird daran geforscht, entweder besonders schnelle Näherungslösungen zu entwickeln oder die Berechnung optimaler Lösungen zu beschleunigen. Ein Großteil dieser Forschung konzentriert sich die Weiterentwicklung von Algorithmen, während es kaum Arbeiten zur Anwendung von ML auf KPs gibt. Diese Arbeit geht der Frage nach, ob durch die Anwendung von ML auf KP vielversprechende Ergebnisse zu erwarten sind. Um diese Hypothese zu testen, wurden vier experimentelle Deep Q Networks (DQNs) entwickelt und auf unterschiedlich strukturierte Arten von KP angewendet. Im Rahmen der Arbeit war es aber nicht möglich, die Hyperparameter dieser Implementierungen zu optimieren. Die Ergebnisse der mit diesen DQNs trainierten Modelle wurde dann sowohl mit den Lösungen eines sehr schnellen als auch eines Algorithmus zur optimalen Lösung verglichen. Entgegen der ursprünglichen Erwartungen konnte nicht gezeigt werden, dass die experimentellen DQNs in Bezug auf Ergebnisse oder Laufzeit mit den bestehenden Algorithmen mithalten können. Die Evaluierung zeigte jedoch, dass die Ergebnisse der Netze, auch bei unterschiedlich strukturierten KP (in Bezug auf die Anzahl der Elemente und die Reichweite der Koeffizienten), gut generalisieren. Die Ergebnisse der vorliegenden Arbeit zeigten, dass die Verwendung von DQNs zur Lösung von KP wenig Nutzen bietet. Die Arbeit konnte jedoch einige Erkenntnisse zu der Frage liefern, welche DQN-Architektur vielversprechendere Ergebnisse liefert. So konnte gezeigt werden, dass ein Netzwerk, das die Basis-DQN-Architektur verwendet, in den meisten Fällen besser abschneidet als andere Implementierungen, die die Double- oder Dueling-DQN-Optimierungen verwenden. Weitere Arbeiten könnten an diese Ergebnisse anknüpfen und sich auf die Optimierung der Hyperparameter oder die Anwendung von ML auf einen reduzierten Core-Bereich des KP anstatt auf das gesamte Problem konzentrieren. In recent years the application of Machine Learning (ML) on challenging computational tasks have led to breakthrough achievements in many fields. This work aims to apply Machine Learning on the field of Knapsack Problems (KP). KPs are an interesting field of research as they are not only relevant in real live scenarios such as logistics and stock trading but also significant from an academic point of view, especially in terms of NP-hard problems. For decades, research has been conducted on either providing faster approximate solution or speeding up the calculation of perfect solutions. Much of this research focused on improving algorithms while there was hardly any research conducted on applying ML on KPs. This study examines the question of whether promising results can be expected by applying ML to KPs. To test this hypothesis four experimental Deep Q Networks (DQNs) were developed and applied on specific sets of KPs. A limitation was that within the scope of the research it is not possible to optimize network architecture and hyperparameters of those implementations. The results of these networks were then compared with the solutions of a very fast as well as an optimal solution algorithm. Contrary to initial expectations, the experimental DQNs were not shown to match existing algorithms in terms of results or runtime. However, the empirical research shows that the networks generalize in a promising way when differently structured KPs regarding their number of items and range of coefficients are used on them. Given the current state of the experimental DQNs, the preliminary findings show that little is to gain from using DQNs for solving KPs. However, the research could provide some insights regarding the question which DQN architecture delivers more promising results. It could be shown that in most cases a network using basic DQN architecture performs better than other implementations using the Double or Dueling DQN optimizations. Further studies could follow-up on these findings and focus on optimizing the networks hyperparameters or on applying ML to a reduced core part of the KP instead of the whole problem. eingereicht von: Joachim Hofer Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Bachelorarbeit FH JOANNEUM 2022
- Published
- 2022
40. Autonomous Vehicle using Reinforcement Learning with OpenAI Gym
- Author
-
Badran, Mahmoud
- Subjects
Machine Learning ,Tiefes Reinforcement Learning ,Deep Reinforcement Learning ,Artificial Intelligence ,Künstliche Intelligenz ,Markov-Entscheidungsprozess ,Markov Decision process ,OpenAI Turnhalle ,Reinforcement Learning ,Maschinelles Lernen ,OpenAI Gym - Abstract
Der Bedarf an intelligenten Robotern wächst ständig, was sich in immer mehr Bereichen und Gebieten bemerkbar macht. Die Technologie des automatisierten Fahrens ist ein interessantes Thema für intelligente Städte, und fast alle Fahrzeughersteller arbeiten an der Entwicklung des automatisierten Fahrens, um es sicherer zu machen. Automatisiertes Fahren wird in vielen Bereichen benötigt, z. B. im öffentlichen Verkehr, in der Logistik, bei der Auslieferung und bei verschiedenen anderen Routineaufgaben, die ohne menschliches Zutun erledigt werden können. Daher ist automatisiertes Fahren die ideale Lösung, um die Sicherheit im Verkehr zu erhöhen. In dieser Arbeit wurde versucht, das Problem des automatisierten Fahrens mit Hilfe des Algorithmus des maschinellen Lernens (RL) zu lösen. Das Training findet statt, wenn der Agent Aktionen ausführt, für die er entweder belohnt oder bestraft wird. Die Implementierung des Verstärkungsalgorithmus mit dem OpenAI Gym Framework für automatisiertes Fahren lieferte zufriedenstellende Ergebnisse, wobei die Agenten in verschiedenen Umgebungen trainiert wurden. Der Agent ist in der Lage, mit seiner Umgebung zu interagieren, indem er sie mit Hilfe von (in die Umgebung eingebetteten) High-Level-Sensoren beobachtet. Um den Lernprozess zu unterstützen, stehen außerdem mehrere Belohnungsfunktionen zur Verfügung. Diese Arbeit ist als Grundlage für künftige Arbeiten zu betrachten, die darauf abzielen, mehrere Roboter zu automatisieren, anstatt nur einen einzigen in einer anspruchsvolleren Umgebung. The need for smart robots is continuously growing, which becomes more and more evident in an increasing number of areas and fields. Automated driving technology is an interesting subject for smart cities, and almost all vehicle companies are working on developing automated driving to make it safer. Automated driving is required in many areas such as public transportation, logistics, delivery, and various other routine tasks that can be carried out without human involvement. Therefore, automated driving is the ideal solution to enhance safety in traffic. In this thesis, the problem of automated driving was attempted to be solved by using the Machine Learning algorithm of RL. Training occurs as the agent takes actions, upon which it receives either rewards or punishments. Implementing the Reinforcement algorithm with the automated Environment OpenAI Gym framework delivered satisfactory results where the agents were trained in different environments. The agent is capable of interacting with its environment by observing it using high-level sensors (that are embedded) in the environment. To aid the learning process, multiple reward functions are also available. This thesis is to be considered a foundation for future work which aims to automate several robots rather than solely a single one in a more challenging environment.
- Published
- 2022
41. Entwicklung eines DRL-Agenten zur Reihenfolgeoptimierung für Hochregallager mit Shuttle-Fahrzeugen
- Author
-
Noortwyck, Ruben and Schulz, Robert
- Subjects
Deep Reinforcement Learning ,Shuttle-Systeme ,Künstliche Intelligenz ,Durchsatzoptimierung ,throughput optimization ,artificial intelligence ,AVS/RS - Abstract
Volume 2022, Issue 18, Aufgrund steigender Dynamik und Heterogenität in der Produktion sind auch die Anforderungen an die Intralogistik und im speziellen an Lagersysteme gestiegen. Lagersysteme müssen flexibel sein und einen hohen Durchsatz ermöglichen. Diese Anforderungen werden durch Shuttlesysteme erfüllt. Damit der Durchsatz von Shuttlesystemen softwarebasiert weiter gesteigert werden kann, wurden Konzepte entwickelt, welche mit Deep Reinforcement Learning (DRL) die Blockaden, welche z. B. beim Gassenwechsel oder bei mehreren Auslagerungen in einer Gasse auftreten, durch eine genänderte Auslagerungsreihenfolge minimieren. Die bisher entwickelten Konzepte betrachten ausschließlich eine sehr kleine Anzahl an Lagerplätzen. Reale Shuttlesysteme verfügen teilweise über mehrere tausend Lagerplätze pro Ebene. Daher wird in diesem Beitrag ein DRLKonzept entwickelt, welches in einem realen Shuttlesystem die Auslagerungsreihenfolge anpasst, um durch eine Minimierung der Blockaden eine Durchsatzsteigerung zu erreichen., Due to increasing dynamics and heterogeneity in production, the demands on intralogistics and especially on storage systems have increased. Storage systems must be flexible and enable a high throughput. These requirements are fulfilled by shuttle systems. To be able to increase the throughput of shuttle systems on a software basis, concepts have been developed that use Deep Reinforcement Learning (DRL) to minimise the blockages that arise, e.g. when changing gears or when several withdrawals are made in one gear, by changing the retrieval sequence. These concepts only consider a very small number of storage locations. Real shuttle systems sometimes have several thousand storage locations per level. Therefore, this paper develops a DRL concept that adapts the retrieval sequence in a real shuttle system to minimise blockades and increase throughput.
- Published
- 2022
- Full Text
- View/download PDF
42. LaiLa Modellfabrik - Eine Validierungsplattform für Künstliche Intelligenz im Bereich Cyber-Physischer Produktionssysteme im Leichtbau
- Author
-
Nordhausen, Anna, Ehrhardt, Jonas, and Möller, Nantwin
- Subjects
Generative Modelle ,Künstliche Intelligenz ,620 Ingenieurwissenschaften ,500 Naturwissenschaften ,dtec.bw ,Repräsentationslernen ,Reinforcement Learning ,Maschinelles Lernen - Abstract
Der gesamte Band ist unter der DOI 10.24405/14522 abrufbar.
- Published
- 2022
- Full Text
- View/download PDF
43. Dynamische Lieferzeit-Preisgestaltung in variantenreicher Produktion : Ein adaptiver Ansatz mithilfe von Reinforcement Learning
- Author
-
Stamer, Florian, Lanza, Gisela, Furmans, Kai, and Netland, Torbjörn
- Subjects
Produktion ,variantenreiche Produktion ,dynamische Preisgestaltung ,Actor Critic ,ddc:620 ,Reinforcement Learning ,Simulation ,Engineering & allied operations - Abstract
Das Wertschöpfungsnetzwerk ist heute zur dominierenden Wertschöpfungsstruktur im Bereich der Produktion geworden. Für produzierende Unternehmen in solchen Netzwerken ist das Auftragsmanagement eine zentrale Aufgabe, die sich in einem Umfeld wachsender Herausforderungen befindet. Zum einen setzen kürzere Produktlebenszyklen und zunehmende Individualisierung die Unternehmen unter Druck. In diesem Zusammenhang hat die variantenreiche Produktion an Bedeutung gewonnen. Andererseits steigen die Wahrscheinlichkeit und die Auswirkungen von Störungen, insbesondere in Netzwerken, was die Leistungsfähigkeit von Produktionssystemen herausfordert. Ein vielversprechender Ansatz in diesem Zusammenhang ist die Verwendung einer dynamischen Lieferzeit-Preisgestaltung über eine kontinuierliche Preis-Lieferzeit-Funktion. Durch den Einsatz einer dynamischen Lieferzeit-Preisgestaltung könnte es möglich sein, die Nachfrage im Netz mit den Fähigkeiten des Produktionssystems in Einklang zu bringen. Die Idee ist, Nachfragespitzen zu verschieben und die Kunden entsprechend ihrer individuellen Präferenzen zu beliefern. Auf diese Weise kann der Gesamtgewinn gesteigert werden, obwohl die Kapazitäten konstant bleiben. Um die aufgestellten Hypothesen zu untersuchen, wird in dieser Arbeit eine Methodik zur dynamischen Lieferzeit-Preisgestaltung für die variantenreiche Produktion entwickelt. In einem ersten Schritt werden Leistungskennzahlen und eine Zielfunktion festgelegt. In einem zweiten Schritt wird ein Actor Critic Reinforcement-Learning-Verfahren als Grundlage für ein Lösungsmodell motiviert. Für das Training und das spätere Testen des resultierenden Lernagenten wird ein Simulationsmodell als Umgebung entwickelt und ein Verfahren zur Durchführung und Auswertung der Experimente ausgearbeitet. Der Ansatz wurde im Rahmen der BMBF-Forschungsprojekte ReKoNeT und BaSys4SupplyQ diskutiert und angewendet. Die Ergebnisse aus zwei Anwendungsfällen zeigen, dass der Ansatz in der Lage ist, bei gleicher Kapazität deutlich höhere Gewinne zu erzielen und Nachfragespitzen in gewissem Umfang zu glätten. Gleichzeitig zeigen die Ergebnisse, dass das Einsparen von Kapazitäten keine dominante Strategie zu sein scheint. Dies spiegelt die anwendungsspezifische Berücksichtigung verschiedener Ziele wie Service, Kapazitätskosten und Marge wider.
- Published
- 2022
44. Use of machine learning approaches in the field of robotics
- Author
-
Dukic, Danko
- Subjects
Machine Learning ,Deep Reinforcement Learning ,Robotics approaches ,Robotik ,Robotics ,Reinforcement Learning ,Maschinelles Lernen ,Robotik Ansätze - Abstract
In der heutigen Zeit spielt die Robotik die größte Rolle in der Herstellungsindustrie, aber noch nicht in unseren privaten Leben. Es ist davon auszugehen, dass die Roboter in naher Zukunft auch einen großen Stellenwert in unseren eigenen vier Wänden haben werden. Damit wir aus den Robotern, das Beste herausholen können, ist es wichtig ihnen beizubringen selbständig zu sein. Bei den momentan verfügbaren Robotik Ansätzen, ist dies nicht möglich, da es an Flexibilität mangelt, sie werden oft nur für sehr spezifische Anwendungsfälle verwendet. Das Ziel in der vorliegenden Arbeit ist es zu beantworten, durch welche Ansätze ein Roboter in der Industrie angewendet werden kann. Für die Industrie stellt sich der Ansatz von Deep Reinforcement Learning als vielversprechend dar, ein Algorithmus der durch ''Trial-and-Error'' lernt und somit einfach zum Implementieren ist, aber momentan nicht der beste für den Einsatz in der Robotik ist. Dies zeigte, dass der Einsatz von DRL, in der realen Welt, sei es bei selbstfahrenden Autos oder bei Hausrobotern, noch weit entfernt ist und noch einige Forschungszeit benötigen wird. Weshalb der klassische Ansatz noch für eine Weile, in der Robotik einen Namen haben wird. In today's times, robotics plays the biggest role in the manufacturing industry, but not yet in our private lives. It can be assumed that in the near future, robots will also play a major role in our own homes. To get the most out of robots, it is important to teach them to be independent. With the currently available robotics approaches, this is not possible because of a lack of flexibility, they are often only used for very specific applications. The aim of this thesis is to answer which approaches can be used to apply a robot in industry. For industry, the approach of Deep Reinforcement Learning turns out to be promising, an algorithm that learns by trial-and-error and is therefore easy to implement, but is currently not the best for use in robotics. This showed that the use of DRL, in the real world, be it for self-driving cars or home robots, is still far away and will need some more research time. Which is why the classical approach will still have a name in robotics for a while.
- Published
- 2022
45. The utilization of Unity Machine Learning in the field of robotics
- Author
-
Halilovic, Elna
- Subjects
Machine Learning ,ML-Agent ,Unity ,Artificial Intelligence ,Künstliche Intelligenz ,Robotik ,Robotics ,Reinforcement Learning - Abstract
Die relativ neue Wissenschaft der Künstlichen Intelligenz gewinnt immer mehr an Popularität aufgrund der vielfältigen Anwendungsmöglichkeiten in vielen verschiedenen Bereichen, wie zum Beispiel die Robotik. Vor allem bietet Reinforcement Learning eine Reichweite an neuen Möglichkeiten. Verschiedene Programme wurden speziell für das Training eines Agenten entwickelt, jedoch bietet auch die vielfältige Entwicklungsumgebung Unity die Möglichkeit, eine Simulation zu erstellen, in welcher ein Roboter sicher und erschwinglich trainiert werden kann, bevor dieser in der Realität eingesetzt wird. Es stellt sich heraus, dass die Plattform durch das Unity Machine Learning Toolkit einen einfachen Einstieg bietet und das Training von Agenten in vielen verschiedenen Umgebungen ermöglicht. Allerdings darf die Diskrepanz zwischen Realität und Simulation nicht außer Acht gelassen werden. Artificial Intelligence is a relatively new territory with rising popularity. It can be used in many different areas, such as robotics, with reinforcement learning providing a range of new opportunities. Different programs have been developed for the sake of training an agent, but the versatile platform Unity also provides the possibility of creating a virtual environment, in which a robot can inexpensively train without any possible risks or dangers, before it is deployed in the real world. The results show that the engine is beginner friendly and makes it easy to train agents in several different environments, thanks to its Unity Machine Learning Toolkit. However, the discrepancy between the real world and the simulation must be taken into consideration, before deploying a robot with the simulated training data.
- Published
- 2022
46. Potenziale von Reinforcement Learning für die Produktion.
- Author
-
Huber, Marco, Nagel, Tobias, Lamprecht, Raphael, and Eiling, Florian
- Abstract
Copyright of Industrie 4.0 Management: Gegenwart und Zukunft industrieller Geschäftsprozesse is the property of GITO mbH Verlag fuer Industrielle Informationstechnik und Organisation and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2021
- Full Text
- View/download PDF
47. System for energy-oriented and cost-based production control using reinforcement learning
- Author
-
Rösch, Martin Walter, Reinhart, Gunther (Prof. Dr.), and Vogel-Heuser, Birgit (Prof. Dr.)
- Subjects
Ingenieurwissenschaften ,ddc:670 ,ddc:650 ,Produktionssteuerung ,Energieflexibilität ,Reinforcement Learning ,production control ,energy flexibility ,reinforcement Learning ,Industrielle Fertigung ,ddc:620 ,Management, Öffentlichkeitsarbeit - Abstract
Die vorliegende Arbeit beschreibt ein System zur Steuerung einer Produktion, welches gleichermaßen den Energieverbrauch und die logistische Zielerreichung auf Basis der Gesamtkosten regelt. Zu diesem Zweck wird der Energiebezug aus kurzfristigem Stromhandel, Stromspeicher und Eigenerzeugung in die Produktionssteuerung integriert. Als Steuerungsverfahren wird ein Agentensystem entwickelt, welches mittels Reinforcement Learning eine situationsabhängige Steuerungsstrategie erlernt. The present work describes a system for production control, which equally controls the energy consumption and the logistic objectives on the basis of total costs. For this purpose, the energy purchase from short-term electricity trading, electricity storage and self-supply is integrated into the production control. As a solution approach, a multi-agent system is developed which learns a situation-dependent control strategy using reinforcement learning.
- Published
- 2021
48. Periodenübergreifende Budgetallokation in der Instandhaltung modularer Systeme - Ein Anwendungsfall von Deep Reinforcement Learning
- Author
-
Krause, Michael and Schwindt, Christoph
- Subjects
doctoral thesis ,Abschlussarbeit ,Deep Reinforcement Learning ,Budgetallokation ,Instandhaltung ,ddc:330 ,budget allocation ,Budgetallokation -- Deep Reinforcement Learning -- Instandhaltung -- budget allocation -- maintenance ,maintenance - Abstract
Eine funktionsfähige Infrastruktur ist zentrale Voraussetzung für die Wettbewerbsfähigkeit einer Volkswirtschaft. Daher sieht beispielsweise der Bundesverkehrswegeplan bis zum Jahr 2030 allein 141,6 Mrd. Euro für die Instandhaltung der bundesdeutschen Verkehrswege vor. Netzwerke von Straßen oder Brücken sind Beispiele für modulare Systeme, in denen der effiziente Ressourceneinsatz für Instandhaltungsmaßnahmen eine herausragende Rolle spielt. Hier möchte diese Arbeit einen Beitrag leisten, indem sie Planungsansätze vorstellt, die eine effiziente Budgetallokation auf einzelne Komponenten wie z. B. Straßenabschnitte und Perioden ermöglicht, um eine größtmögliche Leistungsfähigkeit des Gesamtsystems zu erreichen. Die Festlegung einer geeigneten Budgetallokation für modulare Systeme unter Unsicherheit stellt eine anspruchsvolle Planungsaufgabe dar, die in der Literatur für unterschiedliche Annahmesysteme untersucht wurde. Besonderheiten der in der Dissertation untersuchten Problemstellung bestehen darin, dass die Planung sich auf einen mehrperiodigen Zeitraum bezieht, für den ein periodenübergreifendes Gesamtbudget zur Verfügung steht, und bei der Modellierung der zeitlichen Entwicklung der Komponentenzustände instationäre stochastische Verschleißprozesse zugelassen werden. Die Wirkungen der Investitionen in Instandhaltungsmaßnahmen der Komponenten auf deren Zustände werden durch eine Funktion beschrieben, die sich als Lösung eines Anfangswertproblems für eine nichtlineare partielle Differentialgleichung ergibt. Die Abhängigkeit der Systemleistung von den Komponentenzuständen wird in Anlehnung an die in der Instandhaltungstheorie übliche Strukturfunktion über eine monoton wachsende Strukturbewertungsfunktion modelliert, wobei der Spezialfall einer quasikonkaven Strukturbewertungsfunktion vertiefend untersucht wird. Als Zielsetzung wird die Maximierung der minimalen Perioden-Systemleistung betrachtet. Als erster Planungsansatz wird eine rollierende Planung untersucht, die unter Verwendung eines Erwartungswertmodells durchgeführt wird. Für die einperiodige Planung wird ein Grenznutzenalgorithmus entwickelt, der in einem Karush-Kuhn-Tucker-Punkt konvergiert, indem als homogener Grenznutzen positiver Investitionsentscheidungen der Lagrange-Multiplikator der Budgetrestriktion angenähert wird. Der Grenznutzen einer Instandhaltungsinvestition ergibt sich dabei jeweils als Produkt aus aktueller Birnbaum- Importanz der Komponente und Effektivität der Investition. Für den Fall quasikonkaver Strukturbewertungsfunktionen konnte die globale Optimalität von Karush-Kuhn-Tucker- Punkten auch für den mehrperiodigen Fall bewiesen werden. Der zweite Planungsansatz entspricht der Umsetzung einer flexiblen Planung zur Berechnung einer Politik, die für jede Periode und jedes Restbudget in Abhängigkeit eines beliebigen zulässigen Systemzustands eine gute Lösung für die zugehörige Budgetallokation liefert. Dazu wird das Optimierungsproblem als stochastisches dynamisches Programm aufgefasst, und die gesuchte Politik wird über die Gewichte eines tiefen neuronalen Netzes repräsentiert. Das Training dieses Netzes geschieht mittels Deep Reinforcement Learning, wobei das eingesetzte Actor-Critic-Verfahren „Deep Deterministic Policy Gradient“ spezifisch auf den Umgang mit überabzählbaren Zustands- und Aktionsräumen ausgelegt ist. Die beiden Planungsansätze werden anhand von zufällig generierten Instanzen für verschiedene Systemstrukturen (Serien-, Parallel-, Serien-Parallel- und Brückenschaltungen) mit einer zufälligen Budgetallokation und untereinander verglichen. Aus diesem Vergleich werden Handlungsempfehlungen für die geeignete Budgetallokation abgeleitet. Mit den in der Arbeit entwickelten Methoden ist es erstmalig möglich, gute periodenübergreifende Budgetallokationen für Probleme der Instandhaltungsplanung modularer Systeme unter instationären Verschleißprozessen innerhalb realistischer Rechenzeiten von – je nach Planungsansatz – einigen Sekunden bis wenigen Stunden zu berechnen., A functioning infrastructure is a key prerequisite for the competitiveness of an economy. For this reason, the German Federal Transport Infrastructure Plan, for example, earmarks 141.6 billion euros for the maintenance of Germany’s transport routes alone by 2030. Networks of roads or bridges are examples of modular systems in which the efficient use of resources for maintenance measures plays a prominent role. This thesis aims to make a contribution by presenting planning approaches that allow efficient budget allocation to individual components such as road sections and periods in order to achieve the highest possible performance of the overall system. Determining an appropriate budget allocation for modular systems under uncertainty is a challenging planning task that has been studied in the literature for different assumption systems. Special features of the problem studied in the dissertation are that the planning refers to a multi-period time frame for which a total budget spanning several periods is available, and non-stationary stochastic deterioration processes are allowed for when modeling the temporal evolution of the component states. The effects of component maintenance investments on their states are described by a function that results as a solution to an initial value problem for a nonlinear partial differential equation. The dependence of the system performance on the component states is modeled by a monotonically increasing structure evaluation function following the structure function commonly used in maintenance theory, and the special case of a quasiconcave structure evaluation function is studied in depth. The maximization of the minimum period system performance is considered as the objective. As a first planning approach, rolling planning is investigated using an expected value model. For single-period planning, a marginal utility algorithm is developed that converges to a Karush-Kuhn-Tucker point by approximating the Lagrange multiplier of the budget constraint as the homogeneous marginal utility of positive investment decisions. In each case, the marginal utility of a maintenance investment is the product of the current Birnbaum importance of the component and the effectiveness of the investment. For the case of quasiconcave structure valuation functions, the global optimality of Karush-Kuhn- Tucker points could also be proven for the multi-period case. The second planning approach corresponds to the implementation of flexible planning to compute a policy that provides a good solution for the associated budget allocation for each period and residual budget depending on any feasible system state. For this purpose, the optimization problem is conceived as a stochastic dynamic program, and the policy sought is represented by the weights of a deep neural network. The training of this network is done using Deep Reinforcement Learning, and the Actor-Critic method "Deep Deterministic Policy Gradient" used is specifically designed to deal with overcountable state and action spaces. The two planning approaches are compared using randomly generated instances for different system structures (series, parallel, series-parallel, and bridge networks) with a random budget allocation and with each other. From this comparison, recommended actions for appropriate budget allocation are derived. With the methods developed in the thesis, it is for the first time possible to compute good period-spanning budget allocations for problems of maintenance planning of modular systems under nonstationary deterioration processes within realistic computation times of - depending on the planning approach - a few seconds to a few hours.
- Published
- 2021
- Full Text
- View/download PDF
49. Forschungsprojekt macht Algorithmus zum Kollegen.
- Subjects
REINFORCEMENT learning ,MACHINE learning ,COMPUTER software development ,CONSORTIA ,ARTIFICIAL intelligence - Abstract
Copyright of Elektronik Industrie is the property of Hüthig GmbH and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2023
50. Künstliche Intelligenz als Testmanager.
- Subjects
REINFORCEMENT learning ,MACHINE learning ,CONSORTIA ,GOVERNMENT programs ,SCIENCE & industry - Abstract
Copyright of Elektronik Industrie is the property of Hüthig GmbH and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2023
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.