This thesis addresses the topic of traffic light detection and attribute classification using Convolutional Neural Networks (CNNs). One of the most popular one-stage detection approaches, namely Single Shot Detection/Detector (SSD), is adapted in order to tackle the small object detection problem traffic light recognition systems are facing. A particular focus lies on the adaptation of reference boxes, so called prior boxes, with respect to which bounding boxes are relatively predicted. A novel strategy to determine prior box dimensions and locations is presented within this thesis. Initially, a weighted k-IoU clustering approach is presented to determine prior box dimensions. This approach is tailored to the data imbalance and the desired target metric intersection over union expressing detection quality. Adapting prior boxes to the expected object dimensions helps to improve the entire learning process. In addition, a novel strategy is introduced in order to overcome the fixed, grid-based prior box locations being state-of-the-art. It proposes to adaptively distribute prior boxes with respect to its dimensions. The proposed adaptive prior box locations are mathematically derived and guarantee an optimal matching during training, from which particularly small objects benefit. Beyond traffic light detection, state and pictogram classification is addressed within this thesis. Two different methodologies are developed and compared. The first is a straight-forward extension of the one-stage methodology used for detection by utilizing additional convolutional layers predicting state and pictogram confidences, respectively. A loss function adaptation and attribute-exclusive data handling is developed and presented. Because implicit classification within deep convolutional neural networks faces several challenges and disadvantages, a second methodology is developed and compared. This methodology can be considered as a two-stage classification, in which the initial detections from SSD are classified by two subsequent state and pictogram classifiers. The network is designed as an efficient and fast, light-weight convolutional network and operates on the regions of interest obtained from the previous detection step. Instead of high receptive fields, this guarantees a focus on local features, which turns out to be crucial for pictogram classification. An extensive investigations section shows the effectiveness of the developed strategies to overcome data imbalance. Because traffic light detection and classification methods are used in safety-critical systems, they are supposed to express uncertainty. The network output confidences turn out to be poorly calibrated. Hence, methods to calibrate the detection as well as attribute confidences are presented. Depending on the actual state of the traffic lights, calibration quality varies, which is tackled by using an attribute-wise calibration aligning the detection ability with respect to its true state. Throughout the entire thesis, the focus lies on extensive and application-orientated investigations and evaluations. For this purpose, the DriveU Traffic Light Dataset (DTLD) is made publicly available for researchers in the field of traffic light recognition. It is the to-date largest traffic light database with the highest amount of annotated attributes. The presented results support the effectiveness of the introduced novelties in prior box adaptations and attribute classification methodologies and show, that the remaining error cases preponderantly are actual human annotation errors. Within the evaluation in this thesis, dataset quality turns out to be one bottleneck when evaluating operating points at low false positives rates. The narrowing gap between human and artificial performance suggests to support human object annotation using the object detectors. A relabeling workflow is presented, which generates potential annotation errors by an automated training and evaluation pipeline. Further experiments investigate the impact of annotation errors on the performance and proof the significance of dataset quality for safety critical applications, such as driver assistance or autonomous systems requiring very low false positive rates. As part of this thesis, the enhanced dataset annotations are made publicly available on the dataset servers. The final results are very promising. The system is able to detect 98% of all relevant traffic lights larger 10 pixels width at only one false positive each 100 images. At this operating point, state classification reaches more than 99 percent for the active states red, green and red-yellow and more than 95 percent recall for the pictograms circle, arrow_left, arrow_straight, arrow_right, pedestrian and tram., Die vorliegende Arbeit adressiert das Thema der Lichtsignaldetektion und Attributklassifikation unter Nutzung von faltenden, neuronalen Netzwerken. Eines der popul��rsten Verfahren, der sogenannte Single Shot Detector (SSD), wird im Rahmen dieser Thesis adaptiert, um die Problematik der Erkennung sehr kleiner Objekte zu bew��ltigen. Dies ist eine der gr����ten Herausforderungen von Lichtsignalerkennungssystemen. Verst��rkter Fokus liegt hierbei auf der Adaption von Referenzboxen, sogenannter Prior Boxes, zu welchen die Lichtsignale relativ pr��diziert werden. Eine neuartige Strategie zur Dimensionierung und Positionierung der Prior Boxes wird vorgestellt. Zun��chst wird ein gewichteter k-IoU Clustering-Ansatz zur Dimensionierung der Prior Box Gr����en pr��sentiert. Jener ist speziell zugeschnitten auf das vorliegende Datenungleichgewicht sowie die Zielmetrik Intersection over Union, welche die Detektionsg��te ausdr��ckt. Die Anpassung der Prior Boxes an die zu erwartenden Eingangsdaten unterst��tzt den Lernprozess. Zus��tzlich wird eine neuartige Strategie zur Bestimmung der Prior Box Positionierung pr��sentiert, welche die g��ngige, raster-basierte Positionierung ersetzt. Stattdessen entwickelt diese Arbeit eine mathematisch motivierte, adaptive Positionierung in Abh��ngigkeit der Prior Box Gr����e. Dies garantiert ein optimales Matching w��hrend des Trainingsprozesses, von welchem insbesondere die Erkennungsleistung auf sehr kleinen Objekten profitiert. ��ber die Detektion hinaus wird die Klassifikation des Lichtsignalzustandes sowie des Lichtsignalpiktogramms in dieser Arbeit adressiert. Zwei unterschiedliche Methoden werden entwickelt und verglichen. Das erste Verfahren stellt eine logische Erweiterung der f��r die Detektion genutzten One-Stage Methodik durch Verwendung zweier zus��tzlicher Faltungsschichten vor, welche Zustand- und Piktogrammkonfidenzen implizit pr��dizieren. Eine Adaption der Verlustfunktion, sowie eine attributabh��ngige Datenvorverarbeitung wird entwickelt und evaluiert. Da die implizite Klassifikation im Rahmen von tiefen, neuronalen Netzen einigen Herausforderungen und Nachteilen gegen��bersteht, wird eine weitere Methode vorgestellt. Jene kann als zweistufige Klassifikation angesehen werden, in welcher die initialen Detektionen des SSD Verfahrens mit Hilfe von zwei nachfolgenden Klassifikatoren, jeweils in Zustand und Piktogramm klassifiziert werden. Das Netzwerk ist als effizientes und rechenarmes Faltungsnetzwerk entworfen, welches lediglich auf der Region of Interest operiert. Dieses Vorgehen garantiert einen Fokus auf lokale, pixelbasierte Merkmale, welche f��r die Piktogrammklassifikation von wichtiger Bedeutung sind. Umfangreiche Untersuchungen best��tigen die Effektivit��t der Strategien, um die Erkennungsleistung auf unterrepr��sentierten Klassen deutlich zu erh��hen. Da Lichtsignalerkennungs- und Klassifikationsmodule ihre Anwendung typischerweise in sicherheitskritischen Systemen finden, ist das Ausdr��cken von Unsicherheit ein bedeutender Faktor. Da sich die Netzwerkkonfidenzen als dekalibriert herausgestellt haben, beschreibt diese Arbeit Methoden zur Kalibrierung der Detektions- und Attributkonfidenzen. Da Untersuchungen eine zustandsabh��ngige Kalibrierungsg��te offenbart haben, beschreibt diese Arbeit eine attributweise Kalibrierung, welche die Detektionsg��te in Abh��ngigkeit des Zustandes angleicht. Im Rahmen dieser Arbeit liegt ein verst��rkter Fokus auf ausgiebigen und anwendungsorientierten Untersuchungen und Evaluierungen. Hierf��r wurde der DriveU Traffic Light Dataset (DTLD) verwendet, welcher f��r Forschungszwecke im Feld der Lichtsignalerkennung ver��ffentlicht wurde. Dieser Datensatz kann als bis dato gr����ter Datensatz f��r Lichtsignalerkennung betrachtet werden und enth��lt die h��chste Anzahl an annotierten Lichtsignalen und Attributen. Die auf dem Datensatz erhobenen Evaluierungen unterstreichen die Effektivit��t der vorgestellten Neuheiten im Bezug auf die Prior Box Dimensionierung sowie Attributklassifikationsmethodik. Die Evaluierung hat die Datensatzqualit��t als Flaschenhals der Evaluierung von Arbeitspunkten mit sehr geringen Falschalarmraten herauskristallisiert. Die sich schlie��ende L��cke zwischen menschlicher und k��nstlicher Erkennungsperformance indiziert die Nutzung von Objektdetektoren zur Unterst��tzung der menschlichen Objektannotation. In dieser Arbeit wird ein Korrekturworkflow vorgestellt, welcher potentielle Annotationsfehler mit Hilfe einer teil-automatisierten Trainings- und Evaluierungspipeline aufdeckt. Weiterf��hrende Experimente diskutieren den Einfluss der Datensatzqualit��t auf die Evaluierbarkeit von sicherheitskritischen Systemen, welche typischerweise sehr geringe Falschalarmraten erfordern. Im Rahmen dieser Arbeit werden die korrigierten Datensatzannotationen ver��ffentlicht. Die erzielten Ergebnisse, im Detail eine Erkennungsrate von 98% auf relevanten Lichtsignalen gr����er 10 Pixeln Objektbreite, bei im Mittel einem Falschalarm je 100 Bilder, ��bertreffen bisherige Erkennungsleistungen unter Nutzung konventioneller Verfahren um mehr als eine Gr����enordnung. Die Zustandsklassifikation erreicht auf den aktiven Zust��nden rot, rot-gelb und gr��n eine Klassifikationsrate von mehr als 99 Prozent. Zus��tzlich erreicht die Piktogrammklassifikation eine Erkennungsrate von mehr als 95% auf den relevanten Klassen.