Back to Search
Start Over
From blackspots to blackpatterns: Pattern recognition with road traffic accident data. Illustrated with single-vehicle accidents with a single occupation and personal injury that occurred outside the built-up area on the Austrian road network between 2012 and 2019
- Publication Year :
- 2022
- Publisher :
- TU Wien, 2022.
-
Abstract
- Neben der Benennung von Hauptunfallursachen und Unfallschwerpunkten im Stra��ennetz gibt es derzeit eine Wissensl��cke bei der multivariaten statistischen Untersuchung von gemeinsam auftretenden Unfallbedingungen. Die amtliche Stra��enverkehrsunfallstatistik in ��sterreich weist f��r jeden Stra��enverkehrsunfall eine explizite Unfallursache (oder eine explizite Bedingung) aus (z.B. Geschwindigkeits��berschreitung). Die Untersuchung von gleichzeitig auftretenden Bedingungen (z.B. "Geschwindigkeits��berschreitung", "nasse Fahrbahn", "nicht angeschnallt" und "Probef��hrerschein") ist jedoch unerl��sslich, wenn wir Unf��lle als multikausale und nicht als monokausale Ereignisse betrachten. Es ist zwar nicht m��glich alle m��glichen Unfallbedingungen abzubilden, aber die offizielle ��sterreichische Stra��enverkehrsunfalldatenbank (UDM) bietet eine solide Quelle f��r die Identifizierung von gemeinsam auftretenden, unfallbezogenen Variablen. Die UDM enth��lt mehr als 100 unfallrelevante Variablen, die helfen k��nnen, Unfallbedingungen und -ursachen genauer zu verstehen. Ein vertieftes Wissen ��ber die Unfallbedingungen kann von Interesse sein, um (zielgruppenspezifische) Pr��ventionsma��nahmen abzuleiten, um die verbleibende Zahl der t��dlichen und schweren Stra��enverkehrsunf��lle in ��sterreich zu reduzieren. Ziel dieser Arbeit ist es, wiederkehrende Kombinationen von unfallbeschreibenden Variablen zu erkennen, die wir als Variablenmuster (blackpatterns) bezeichnen.Diese Arbeit wendet daher einen Mustererkennungsansatz bei Unf��llen mit einem Fahrzeug mit Einzelbesetzung und Personenschaden an, die sich zwischen 2012 und 2019 auf dem ��sterreichischen Stra��ennetz au��erorts ereignet haben (n=20.293). Es werden fahrer-, fahrzeug-, stra��en- und situationsbezogene Variablen verwendet, um wiederkehrende Variablenkombinationen (blackpatterns) zu erkennen. Diese Variablen (insgesamt ��ber 100) sind Teil der offiziellen ��sterreichischen Stra��enverkehrsunfalldatenbank (UDM). Um mit den amtlichen Daten Mustererkennungsmethoden durchf��hren zu k��nnen, ist jedoch eine Neuaufbereitung der amtlichen Datenbank notwendig. Die Neuaufbereitung der Datenbank stellt daher einen zentralen Bestandteil dieser Arbeit dar. Es ist wichtig hervorzuheben, dass in dieser Arbeit historische Stra��enverkehrsunf��lle untersucht werden und kein Unfallvorhersagemodell vorgestellt wird. Die Arbeit bezieht auch keine Daten zum Verkehrsgeschehen oder zur Verkehrsleistung ein. Es k��nnen daher keine Aussagen ��ber die generelle Eintrittswahrscheinlichkeit eines Stra��enverkehrsunfalls abgeleitet werden.Die Motivation dieser Arbeit ist es, sich auf die allgemeine Anwendbarkeit der vor-geschlagenen Methoden zu konzentrieren. Zun��chst wird auf die statistischen Eigenschaften von Stra��enverkehrsunfalldaten hingewiesen (d.h. Unsicherheit, der sogenannte ���evaluation bias���, seltene Ereignisse, Heterogenit��t etc.). Zweitens werden bestehende Muster-erkennungsmethoden f��r Stra��enverkehrsunfalldaten diskutiert. Drittens werden ausgew��hlte Mustererkennungsmethoden auf die Stichprobe der Stra��enverkehrsunf��lle angewandt. Diese Methoden umfassen binomiale logistische Regression, Entscheidungsb��ume, Bayes'sche Netze und eine entwickelte Mustererkennungs-methode, die auf den H��ufigkeiten von Variablenkombinationen basiert (PATTERMAX-Methode).Zun��chst werden deskriptive statistische Analysen durchgef��hrt, um die Beziehung zwischen jeder erfassten unfallbezogenen Variable und der Zielvariable ���schwere Unf��lle��� (das sind Unf��lle mit t��dlichen oder schweren Verletzungen) zu sch��tzen. Es werden Kontingenztabellen erstellt, bedingte und gemeinsame Wahrscheinlichkeiten berechnet, der exakte Test nach Fisher angewandt und Phi-Koeffizienten gesch��tzt. Au��erdem wird eine robuste Parametersch��tzung durchgef��hrt (95 %-Konfidenzintervalle, welche die Wahrscheinlichkeit des Auftretens einer Variablen und schwerer Unf��lle angeben), indem ein Bootstrap-Resampling-Verfahren auf die neu erstellte Unfalldatenbank angewandt wird. Weiters wird ein sogenannter h��chster Kombinationswert als wichtiges Ma�� f��r die Erkennung von Variablenmustern berechnet. Dieser Wert gibt an, wie oft eine bestimmte Variable mit (einer) anderen unfallbezogenen Variable(n) gemeinsam vorkommt. Anschlie��end wird eine binomiale logistische Regression durchgef��hrt, um den Einfluss jeder Variable auf schwere und t��dliche Stra��enverkehrsunf��lle mit einem Odds Ratio zu sch��tzen (d. h. die St��rke der Beziehung zwischen einer unfallbezogenen Variable und der Zielvariable ���schwere Unf��lle��� im Vergleich zu allen beobachteten Variablen). Mit den Sch��tzungen, welche Variable das Risiko eines schweren oder t��dlichen Stra��enverkehrsunfalls zu erh��hen scheint, kann anschlie��end die Gesamtwirkung der noch zu entdeckenden Variablenmuster (blackpatterns) eingestuft werden. Als n��chsten Schritt zur Erkennung von Variablenmustern werden Entscheidungsb��ume mit dem CHAID-Algorithmus erstellt. Bis zu diesem Punkt helfen die binomiale logistische Regression und die Entscheidungsb��ume dabei, kritische Variablen zu identifizieren, die den Unfallhergang bzw. den Grad der Verletzung erh��hen. Da der Fokus jedoch darauf liegt, vertiefte Kenntnisse ��ber wiederkehrende Variablenkombinationen zu erlangen, werden die zugrunde liegenden Datenstrukturen noch tiefer analysiert. Zu diesem Zweck werden Bayes'sches Netzwerke und eine entwickelte Methode zur Mustererkennung (PATTERMAX-Methode) auf die Daten angewandt. Mit diesen Ans��tzen werden schlie��lich wiederkehrende Variablenkombinationen detektiert. Die statistische Auswertung, ob die detektierten Muster einen signifikanten Zusammenhang mit der Zielvariablen ���schwere Unf��lle��� aufweisen, schlie��t den Mustererkennungsprozess ab. Wie der Anfang, so das Ende, und es werden der exakte Test nach Fisher und der Phi-Koeffizient dazu verwendet.Im Diskussionskapitel werden die schwerwiegendsten unfallbezogenen Variablen und Muster zusammengefasst. Au��erdem werden die angewandten Mustererkennungsmethoden diskutiert. Abschlie��end werden Vorteile und Grenzen der PATTERMAX-Methode in Kombination mit der binomialen logistischen Regression aufgezeigt, um vertiefte Erkenntnisse ��ber das Unfallgeschehen zu gewinnen. Im Rahmen des Forschungsausblicks wird die Ausweitung der Methoden auf Unf��lle mit mehreren Beteiligten vorgeschlagen. Die neu erstellte Unfalldatenbank k��nnte auch als zuverl��ssige Quelle f��r die Unfallvorhersage dienen. Insbesondere die gesch��tzten 95%-Konfidenzintervalle k��nnten f��r die Erstellung eines Vorhersagemodells von Interesse sein.<br />Besides the designation of a major accident cause and accident blackspots (i.e., accident accumulation points on the road network), we currently face a knowledge gap in the multivariate statistical investigation of co-occurring accident conditions. Official road traffic accident statistics in Austria indicate one explicit accident cause (or one explicit condition) for each road traffic accident (e.g., speeding). However, investigating co-occurring conditions (e.g., 'speeding', 'wet road', 'no safety belt applied' and 'probationary driving licence') is essential if we consider accidents as multicausal instead of monocausal events. It is, of course, impossible to depict all potential accident-related conditions. Still, the official Austrian road traffic accident database (UDM) provides a solid source to identify co-occurring accident-related variables. The UDM includes more than 100 accident-related variables, which can help understand accident conditions and causes in more detail. In-depth knowledge of accident conditions may be of interest in deriving (target-group specific) prevention measures to deal with the remaining number of fatal and severe road traffic accidents in Austria. Therefore, this thesis aims to detect recurring combinations of accident-related variables, which we designate as blackpatterns.Consequently, this thesis applies a pattern recognition approach among single-vehicle accidents with single occupation and personal injury that occurred on the Austrian road network and outside the built-up area between 2012 and 2019 (n=20.293). It uses driver-, vehicle-, roadway- and situation-related variables to detect recurring variable combinations (blackpatterns). These variables (over 100 in total) are part of the official Austrian road traffic accident database (UDM). However, reprocessing the official database is essential to conduct pattern recognition methods with the data. It is to point out that this thesis explores blackpatterns underlying historical road traffic accident records. This thesis does not present an accident prediction model. It does not include data on traffic performance to derive statements on the overall probability of a road traffic accident.The motivation of this thesis is to focus on the general applicability of the proposed methods. Firstly, we point out statistical characteristics of road traffic accident data (i.e., uncertainty, noise and bias, rare events, heterogeneity, and over-dispersion). Secondly, we discuss existing pattern recognition methods for road traffic accident data. Thirdly, we apply selected pattern recognition methods on the road traffic accident sample. These methods comprise binomial logistic regression, decision trees, Bayesian networks and a developed pattern recognition method based on the frequencies of variable combinations (PATTERMAX-method).In a primary step, we conduct descriptive statistical analyses to estimate the relationship between each recorded accident-related variable and the target variable severe casualties (accidents with fatal or severe injury). We create contingency tables, calculate conditional and joint probabilities, apply Fisher's exact test and estimate the Phi coefficient. Also, we generate a robust parameter estimation (95% confidence intervals showing the likelihood of a variable and severe or fatal accidents to occur) by applying a bootstrap resampling method on the newly established accident database. We calculate a so-called maximum combination value as an important measure towards blackpattern detection. This value tells us how often a specific variable co-occurs with (an)other accident-related variable(s). We then use binomial logistic regression to estimate each variable's impact on severe road traffic accidents with an odds ratio (i.e., the strength of the relationship between an accident-related variable and the target variable severe casualties compared to all observed variables). By knowing which variable appears to increase the risk of a severe road traffic accident, we can assess the overall impact of the detected blackpatterns.As the next step towards blackpattern recognition, we grow decision trees using the CHAID-algorithm. Up to this point, binomial logistic regression and decision trees help us identify critical variables that aggravate an accident outcome and the degree of injury, respectively. However, since we are interested in gaining in-depth knowledge of recurring variable combinations (blackpatterns), we zoom further into the underlying data structures.That being the case, we apply a probabilistic Bayesian network paradigm and a developed pattern detection method (PATTERMAX-method) to the data. Using these approaches, we finally detect blackpatterns and conclude the pattern recognition process with a statistical evaluation of whether the detected blackpatterns show a significant relationship with the target variable severe casualties. Like the beginning, so the end, and we calculate Fisher's exact test and the Phi coefficient.We summarize the most aggravating accident-related variables and blackpatterns in the discussion chapter. Furthermore, we compare the applied pattern recognition methods. Finally, we highlight the advantages and limitations of the PATTERMAX-method in combination with binomial logistic regression to gain in-depth knowledge about accident circumstances. The combined application of both methods enables a precise detection and comparison of blackpatterns. For example, do blackpatterns among female drivers differ from blackpatterns among male drivers? Do accident patterns on regional roads within an 80 km/h speed limit differ from those on a 100 km/h speed limit? Additionally, the combined approach of the PATTERMAX-method and binomial logistics regression enables the assessment of the detected blackpatterns with the help of an odds ratio.Within the research outlook, we propose expanding the investigation towards accidents with several parties involved. The newly established accident database might also serve as a reliable source for accident prediction. Especially, the estimated 95% confidence intervals may be of interest to establish a prediction model.
Details
- Language :
- English
- Database :
- OpenAIRE
- Accession number :
- edsair.doi...........ef012048ca9309a247dc2b5dd88cbcec
- Full Text :
- https://doi.org/10.34726/hss.2022.59540