3,344 results on '"Statistik"'
Search Results
202. Statistik Pendidikan
- Author
-
Nasir, A. Muhajir
- Subjects
Pendidikan ,Statistik - Abstract
Statistik sangat penting untuk membahas (mempelajari) dan mengembangkan prinsip–prinsip, metode serta prosedur yang perlu ditempuh atau dipergunakan dalam rangka mengumpulkan, menyusun atau mengatur, menyajikan atau menggambarkan dan menganalisis data angka. Sehingga siapa pun dapat menarik kesimpulan, membuat perkiraan serta menyusun ramalan secara alamiah atas dasar kumpulan data angka tersebut. Namun, sebagian orang mengidentikkan bahwa statistika merupakan bidang yang sulit karena berkaitan langsung dengan matematika, sehingga mereka agak enggan mempelajarinya. Padahal, statistika sangat penting dalam dunia pendidikan. Di dalam buku ini diterangkan secara lugas dan detail tentang konsep dasar statistika, pengertian data statistika, tendensi sentral atau ukuran pemusatan, penyajian data dan distribusi frekuensi, ukuran penyebaran data, teknik analisis data univariat, teknik analisis data korelasi dan komparasi bivariat serta teknik analsis data multivariat dan pengujian hipotesisnya.
- Published
- 2022
- Full Text
- View/download PDF
203. Sekapur Sirih Tentang Statistik
- Author
-
Andi Jusmiana
- Subjects
Statistik ,Statistika - Abstract
Statistik sebagai suatu ilmu yang mempelajari tentang seluk beluk data yaitu tentang tatacara pengumpulan data, pengolahan data, penganalisaan, penafsiran dan penarikan kesimpulan dari suatu data dalam bentuk angka-angka. Statistik dapat dibagi menjadi beberapa jenis berdasarkan kriteria tertentu., yaitu: 1) Berdasarkan Orientasi Pembahasan, statistik dibagi menjadi statistik matematika dan statistik terapan; 2) berdasarkan fase dan tujuan analisis, dibagi menjadi Statistik deskriptif dan Statistik inferensial; 3) berdasarkan asumsi distribusi populasi data, dibagi menjadi Statistik parametrik dan Statistik non-parametrik; dan 4) berdasarkan jumlah variabel terikat, yaitu Statistik univariat dan Statistik multivariat.
- Published
- 2022
- Full Text
- View/download PDF
204. Repositori Materi MPAD Kuantitatif
- Author
-
Zein, Rizqy and Ardi, Rahkman
- Subjects
kuantitatif ,survei ,statistik ,eksperimental ,metode penelitian - Abstract
Laman ini adalah repositori semua materi yang digunakan untuk mengampu mata kuliah Metode Penelitian dan Analisis Data Kuantitatif (S1) dan Metode Penelitian Kuantitatif (S2 Psikologi Profesi). Repositori ini berisi salindia, dataset yang digunakan untuk penelitian ex-post-facto, dataset yang digunakan untuk berlatih analisis data di kelas, contoh PIL dan informed consent, serta pranala video rekaman materi statistik di kelas (lihat WIKI).
- Published
- 2022
- Full Text
- View/download PDF
205. Statistika Hospitalitas edisi revisi
- Author
-
Santosa
- Subjects
hospitality ,statistik ,statistika ,hospitalitas - Abstract
Puji syukur kehadirat Tuhan Yang Maha Kuasa Allah SWT. Buku Statistika Hospitalitas pada edisi sebelumnya dimanfatkan oleh para pembaca sebagai literatur maupun sebagai referensi untuk kepentingan penyusunan karya ilmiah. Atas dorongan pribadi dan masukan dari para pembaca untuk diterbitkan edisi revisi dengan berbagai perbaikan dan kelengkapan materi maupun redaksi. Pada edisi revisi ini materi buku dilengkapi baik secara toeritis maupun praktis dalam contoh perhitungan baik secara manual maupun melalui program SPSS. Namun demikian penyusun masih sangat mengharapkan masukan dari para pembaca untuk perbaikan berupa kritik, saran atau masukan yang bisa disampaikan melalui alamat e-mail penyusun:santosa_59@yahoo.com. Sesuai dengan judulnya, buku ini memberikan contoh-contoh soal dan kajian tentang statistik yang berorientasi pada masalah-masalah pariwisata, baik bidang perhotelan, destinasi wisata maupun bidang manajemen perjalanan wisata. Untuk kepentingan penyusunan tugas akhir pada program S1, maka buku ini memuat tentang bagian-bagian yang berhubungan dengan metode penelitian yaitu berkaitan dengan uji deskriptif, komparatif, asosiatif maupun prediktif, yang sekaligus diaplikasikan melalui program SPSS untuk memudahkan para pengguna buku ini dalam mengaplikasikan pengujian statistik. Ucapan terimakasih penyusun sampaikan kepada segenap civitas akademika Sekolah Tinggi Pariwisata AMPTA (STP AMPTA) baik secara institusi maupun perorangan yang telah memfasilitasi dan memberikan dorongan sehingga buku ini bisa terwujud. Tak lupa ucapan terimakasih juga penyusun sampaikan kepada istri dan anak-anak tercinta, Uswatun Hasanah S.Pd, M. Arya Wresniwira S.Pd, M.Imawan Badranaya, Ninggih Annisa Daniswara dan Utari Annisa Daniswari atas segala dorongan doa dan moril memberikan kesempatan penyusun untuk berkarya.
- Published
- 2022
- Full Text
- View/download PDF
206. Material pendukung untuk 'Pentingnya Kecakapan Numeris, Sains Data dan Komputasi bagi Peneliti Bahasa Abad 21'
- Author
-
Rajeg, Gede Primahadi Wijaya
- Subjects
penelitian bahasa ,coding ,pengolahan data ,kecakapan numeris ,linguistik ,linguistics ,statistik ,sains data ,R programming ,statistics ,komputasi ,bahasa ,MS Excel ,data science - Abstract
Material pendukung (data, kode R, dan grafis statistik) untuk makalah yang disajikan pada Seminar Nasional Bahasa Ibu (SNBI) XIV 2022.
- Published
- 2022
- Full Text
- View/download PDF
207. Über die Auswirkungen der digitalen Lehre auf den Studienerfolg – dargestellt am Beispiel einer Statistik-Einführungsveranstaltung
- Author
-
Lenz, Rainer and Cremer, Simon
- Subjects
ddc:37 ,ddc:370 ,Hochschuldidaktik ,Statistik ,Zentrum für Lehrentwicklung ,370 Erziehung, Schul- und Bildungswesen ,Lehrveranstaltung - Abstract
In diesem Beitrag wird ein auf die Lehre in einer Einführungsveranstaltung Statistik für Wirtschaftsingenieure zugeschnittenes digitales Lehrformat der klassischen Präsenzvorlesung aus früheren Jahren gegenübergestellt. Im Mittelpunkt steht der Vergleich der Prüfungsergebnisse verbunden mit der klassischen Vorlesung in den vier Studienjahren vor der COVID-19-Pandemie mit den Ergebnissen zur Online-Lehrveranstaltung des Studienjahres 2020/2021 − mit dem für die Autoren überraschenden Resultat, dass die Prüflinge unter den neuen Rahmenbedingungen signifikant besser abschnitten als in der Vergangenheit. Die Diskussion der empirischen Ergebnisse schließt Verbesserungspotentiale für künftige Präsenz-, Online- und Hybrid-Lehrveranstaltungen mit ein., Forschung und Innovation in der Hochschulbildung; 14
- Published
- 2022
208. ANALISIS PENGARUH KONSUMSI, INVESTASI, DAN EKSPOR TERHADAP PERTUMBUHAN EKONOMI INDONESIA MASA PANDEMI TAHUN 2020-2021
- Author
-
AQILLA FADIA HAYA, .
- Subjects
Keuangan ,Statistik ,Sejarah Ekonomi, Kondisi Ekonomi ,Keuangan Negara ,Kondisi Sosial,Masalah Sosial,Reformasi Sosial ,Teori Ekonomi - Abstract
Pandemi COVID-19 mempengaruhi setiap aspek kehidupan secara global, dan Indonesia adalah salah satunya. Selanjutnya, dampak pandemi tidak hanya di bidang kesehatan, tetapi juga di bidang ekonomi dan sosial. Kerugian akibat pandemi banyak, mulai dari kerugian sektor mikro hingga kerugian sektor makro. Tujuan dari penelitian ini adalah untuk menganalisis dampak konsumsi, investasi dan ekspor terhadap pertumbuhan ekonomi Indonesia selama masa pandemi. Penelitian dilakukan dengan metode kuantitatif, dengan menggunakan aplikasi statistik E-Views 9. Teknik analisis yang digunakan adalah regresi data panel, dalam uji regresi berganda data panel untuk 34 provinsi di Indonesia. Data yang digunakan dalam penelitian ini adalah data sekunder dari Kementerian Perdagangan Republik Indonesia dan Kementerian Perdagangan Republik Indonesia, yang berisi data riset konsumsi rumah tangga, realisasi penanaman modal dalam negeri (PMDN), penanaman modal asing (PMLN), dan volume ekspor untuk 34 provinsi di Indonesia. Hasil penelitian menunjukkan bahwa konsumsi swasta, investasi asing langsung, dan ekspor berpengaruh positif signifikan terhadap pertumbuhan ekonomi Indonesia, sedangkan investasi domestik berpengaruh negatif signifikan terhadap pertumbuhan ekonomi Indonesia. Pada saat yang sama, hubungan antara konsumsi rumah tangga, investasi asing langsung, investasi langsung, dan ekspor dapat menjelaskan pertumbuhan ekonomi melalui pendekatan pengeluaran yang mengecualikan pengeluaran pemerintah dan impor. Hasil model random effect menunjukkan bahwa pengaruh terbesar masing-masing berasal dari PMLN, ekspor, konsumsi rumah tangga dan PMLN. Pasalnya, aktivitas ekonomi akibat pandemi kemungkinan besar akan digunakan untuk mendorong belanja di aktivitas manufaktur, yang dikenal sebagai investasi asing langsung. Apalagi, ekspor menjadi penyumbang pertumbuhan ekonomi terbesar kedua di masa pandemi. PMDN berdampak negatif dengan meningkatnya jumlah investasi yang direalisasikan pada masa perlambatan pertumbuhan ekonomi di masa pandemi, selain menurunnya aktivitas manufaktur dan distribusi yang menyebabkan investor dan investor mengurangi investasinya di beberapa sektor, sehingga menimbulkan ketimpangan selama periode tersebut. Furthermore, the impact of the pandemic is not only in the health sector, but also in the economic and social spheres. The losses from the pandemic are many, ranging from micro-sector losses to macro-sector losses. The purpose of this study is to analyze the impact of consumption, investment and exports on Indonesia's economic growth during the pandemic. The study was conducted using quantitative methods, using the statistics application, E-Views 9. The analytical technique used was panel data regression, in a multiple regression test, panel data for 34 provinces in Indonesia. The data used in this study are secondary data from the Ministry of Commerce of the Republic of Indonesia and the Ministry of Commerce of the Republic of Indonesia, which contains research data on household consumption, domestic investment (DI) realization, foreign direct investment (FDI), and export volumes for 34 provinces in Indonesia. The findings show that private consumption, foreign direct investment, and exports have a significant positive impact on Indonesia's economic growth, while domestic investment has a significant negative impact on Indonesia's economic growth. At the same time, the relationship between household consumption, foreign direct investment, direct investment, and exports can explain economic growth through an expenditure approach that excludes government spending and imports. The results of the random effects model show that the largest effects come from FDI, exports, household consumption and FDI, respectively. This is due to the fact that economic activity due to the pandemic is most likely to be used to encourage spending in manufacturing activity, known as foreign direct investment. Furthermore, exports are the second largest contributor to economic growth during the pandemic. DI had a negative impact as the number of investments realised during the downturn in economic growth during the pandemic increased, in addition to the decline in manufacturing and distribution activities causing investors and investors to scale back their investments in several sectors, leading to inequality during the pandemic.
- Published
- 2022
209. Volkshochschul-Statistik. 59. Folge, Berichtsjahr 2020
- Author
-
Nicolas Echarti, Hella Huntemann, Thomas Lux, Elisabeth Reichart, Deutsches Institut für Erwachsenenbildung (DIE), and wbv Media Repository
- Subjects
Professionalisierung ,Deutscher Volkshochschul-Verband (DVV) ,Bildungsfinanzierung ,Volkshochschule ,Weiterbildungsteilnehmer ,Bildungsberichterstattung ,Bildungsbericht ,Bildungspersonal ,Teilnehmerstruktur ,Statistik ,Erwachsenenbildungsangebote ,Finanzierung ,regionale Faktoren ,allgemeine Erwachsenenbildung ,Bildungsangebot ,Survey ,Grundsicherung - Abstract
Wie die Volkshochschulen das schwierige Pandemiejahr 2020 überstanden haben, zeigen die statistischen Daten zum Status quo der Bildungseinrichtungen und ihrer Programme. Über 98 Prozent haben sich an der Langzeiterhebung zu Ressourcen und Leistungen beteiligt. Die Statistik informiert über aktuelle Zahlen zu Finanzierung, Personal und Programmbereichen sowie zu Teilnehmenden und institutioneller Entwicklung. Das Veranstaltungsangebot wird nach sieben Programmbereichen thematisch differenziert, die Kurse werden nach 85 Fachgebieten geordnet und anhand von Kursmerkmalen beschrieben. Damit werden Änderungen in der Programmgestaltung ebenso sichtbar wie Buchungspräferenzen der Teilnehmenden. Die Ausgabe 2020 enthält auch Daten zu den Veränderungen unter Pandemiebedingen: In einer Corona-Ergänzungsabfrage wurden Daten zu Personal, Finanzen, Leistungen sowie zu Einschränkungen des Kursangebots erhoben. Seit 1962 wertet das Deutsche Institut für Erwachsenenbildung in Kooperation mit dem Deutschen Volkshochschulverband (DVV) jährlich die Daten für diese repräsentative Statistik aus, an der sich fast 100 Prozent der Volkshochschulen beteiligen.
- Published
- 2022
210. Herausforderungen der Offenen Kinder- und Jugendarbeit
- Author
-
Peucker, Christian, Pluto, Liane, van Santen, Eric, and Mairhofer, Andreas
- Subjects
Soziale Arbeit ,statistik ,Westdeutschland ,Jugendliche ,Migrationshintergrund ,Jugendhilfe ,Ostdeutschland ,Personalwesen ,Heterogenität ,Unterstützung ,thema EDItEUR::J Society and Social Sciences::JH Sociology and anthropology::JHB Sociology - Abstract
Die Offene Kinder- und Jugendarbeit ist in einer sich stetig wandelnden Gesellschaft mit zahlreichen Herausforderungen konfrontiert. Im vorliegenden Band werden diese auf der Grundlage der zweiten bundesweiten DJI-Befragung von Jugendzentren analysiert. Empirische Befunde zu Herausforderungen, wie z.B. der Inklusion von jungen Menschen mit Behinderung oder der Mitwirkung an Angeboten der Ganztagesbetreuung von Schulkindern, werden ergänzt durch eine umfassende Beschreibung der Strukturen des Arbeitsfeldes.
- Published
- 2022
211. Wissen in Zahlen?
- Author
-
Schadauer, Andreas
- Subjects
Quantifizierung ,Statistik ,Sozialstatistik ,Praxistheorie ,Akteur-Netzwerk-Theorie ,Konflikt ,Situationsanalyse ,Multi-Sited Ethnography ,Wissenschaft ,Gesellschaft ,Wissenschaftssoziologie ,Techniksoziologie ,Wissenssoziologie ,Soziologie ,Quantified Self ,Practice Theory ,Actor-network-theory ,Conflict ,Situation Analysis ,Science ,Society ,Sociology of Science ,Sociology of Technology ,Sociology of Knowledge ,Sociology ,bic Book Industry Communication::P Mathematics & science::PD Science: general issues::PDR Impact of science & technology on society - Abstract
Zahlen und Statistiken sind omnipräsent. Sie prägen die Berichterstattung über soziale, politische und wirtschaftliche Vorgänge und beeinflussen das alltägliche Denken über Gesellschaften und das soziale Zusammenleben. Ihnen kommt dabei häufig ein fast selbstverständlicher faktischer Status zu, eine Objektivität, welche sie gegenüber anderen Aussagen und Zugängen als quasi natürlich überlegen erscheinen lässt. Andreas Schaudauer nimmt sich diesem besonderen Status an und hinterfragt seine Entstehung und Legitimation. Darauf aufbauend geht er der Frage nach, inwiefern sich dieser Status aufrechterhalten lässt bzw. wie er sich verändert, wenn sein Entstehen offengelegt ist.
- Published
- 2022
- Full Text
- View/download PDF
212. Digital Turn und Historische Bildungsforschung
- Author
-
Oberdorf, Andreas
- Subjects
Historische Bildungsforschung ,Digitalisierung ,Digitale Medien ,Technologische Entwicklung ,Bildungsgeschichte ,Computerunterstütztes Verfahren ,Historische Quelle ,Quellensammlung ,Digitale Informationsspeicherung ,Analyse ,Grundwissen ,Wissenschaftsforschung ,Erziehungswissenschaft ,Online ,Modellierung ,Computerlinguistik ,Schulbuch ,Schulgeschichte ,Pädagogische Zeitschrift ,Religionsunterricht ,Frau ,Studium ,Methodologie ,Kollaboration ,Schule ,Archiv ,Open Access ,Hochschulgeschichte ,Forschungsdaten ,Prosopografie ,Vernetzung ,Hochschule ,Geisteswissenschaften ,Student ,Daten ,Wirtschaftsgeschichte ,Humankapital ,Literatur ,Erinnerung ,Zeitgeschichte ,Karte ,Kollektives Gedächtnis ,Holocaust ,Lernen ,Sexualaufklärung ,Fotografie ,Soziales Netzwerk ,Website ,Informationsangebot ,Elektronische Datenverarbeitung ,Mediengeschichte ,Stapfer, Philipp Albert ,Mollenhauer, Klaus ,Nationalsozialismus ,%22">Deutschland ,Mittelalter ,Frühe Neuzeit ,Methode ,Projekt ,Längsschnittuntersuchung ,Quantitative Analyse ,Qualitative Analyse ,Statistik ,Deutschland ,Schweiz ,Dänemark ,Norwegen ,Bologna ,Padua ,Paris ,Hannover ,Bochum ,Heiliges Römisches Reich deutscher Nation ,Digitalization ,Technological development ,History of education ,History of educational activities ,Science of science ,Sciences of education ,On line ,Modelling (Psychology) ,Computational linguistics ,Text book ,Textbook ,History of schools ,Religious instruction ,Teaching of religion ,Woman ,Women ,Academic studies ,Methodology ,School ,History of universities ,Higher education institute ,Humanities ,Intellectual Disciplines ,Male student ,Data ,Economic history ,Human capital ,Literature ,Recollection ,Contemporary history ,Twentieth century history ,Maps ,Learning ,Sex education ,Photography ,Social networks ,Available information ,Electronic data processing ,History of media ,Nazism ,Middle ages ,Method ,Project ,Projects (Learning Activities) ,Longitudinal analysis ,Longitudinal study ,Qualitative analysis ,Statistics ,Germany ,Switzerland ,Denmark ,Norway ,bic Book Industry Communication::J Society & social sciences::JN Education::JNB History of education - Abstract
In recent decades, historical educational research has developed into a field of research and work that is multifaceted in its topics, methods, and theoretical references and is interdisciplinary. The methods, working techniques, and tools of the digital humanities, which influence many areas of the humanities and cultural studies today, are also already being applied there in a variety of ways. This volume demonstrates this with concrete examples from current research projects and working groups related to historical education research. The contributions give examples of the application of selected digital tools and research methods and put research-practical as well as epistemological questions up for discussion., Historische Bildungsforschung hat sich in den letzten Jahrzehnten zu einem Forschungs- und Arbeitsgebiet entwickelt, das in seinen Themen, Methoden und theoretischen Bezügen vielseitig aufgestellt und interdisziplinär anschlussfähig ist. Auch Methoden, Arbeitstechniken und Tools der Digital Humanities, die viele Bereiche der Geistes- und Kulturwissenschaften heute beeinflussen, finden dort bereits in vielfältiger Weise Anwendung. Dies zeigt der vorliegende Band anhand konkreter Beispiele aus aktuellen Forschungsprojekten und Arbeitsgruppen mit Bezug zur historischen Bildungsforschung. Die Beiträge geben Anwendungsbeispiele für ausgewählte digitale Werkzeuge und Forschungsmethoden und stellen forschungspraktische wie auch epistemologische Fragen zur Diskussion.
- Published
- 2022
- Full Text
- View/download PDF
213. Schweißen und Schneiden 2020 – Pandemiejahr drückt stark auf Produktion und Export, Importe auch rückläufig.
- Author
-
Talmann, Anna
- Subjects
WELDING ,COVID-19 pandemic ,GROSS domestic product ,ECONOMY (Linguistics) - Abstract
Copyright of Schweissen und Schneiden is the property of DVS Media GmbH and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2021
214. Implementing Distributed Practice in Statistics Courses: Benefits for Retention and Transfer
- Author
-
Katharina Barzagar Nazari and Mirjam Ebersbach
- Subjects
Medical education ,distributed practice ,Lernverhalten ,Long term retention ,05 social sciences ,Prüfungsvorbereitung ,050109 social psychology ,Experimental and Cognitive Psychology ,Knowledge acquisition ,Knowledge retention ,050105 experimental psychology ,long-term retention ,Clinical Psychology ,statistics ,Statistik ,spacing ,university course ,Distributed Practice ,0501 psychology and cognitive sciences ,Lerntechnik ,Psychology ,transfer ,Applied Psychology - Abstract
The present study investigated the effect of distributed versus crammed practice before a course deadline on the retention and transfer of knowledge, and whether learner characteristics moderate the effect. In Experiment 1, only 41% (N = 38) of the initially enrolled students worked the voluntary but recommended practice tasks. Moreover, markedly fewer students did so in the distributed condition (12%) than the crammed practice condition (29%). In Experiment 2, working the practice tasks was mandatory and more students completed them (N = 105, i.e., 81%). Students who distributed practice clearly outperformed students who crammed practice on tests of knowledge retention and transfer five weeks after the practice deadline. No moderating effects of learner characteristics emerged. The study shows that distributed practice following knowledge acquisition is a powerful learning tool for fostering long-term retention and transfer with adults in authentic educational contexts.
- Published
- 2020
215. A tutorial on Bayesian single-test reliability analysis with JASP
- Author
-
Klaas Sijtsma, Julius M. Pfadt, van den Bergh D, Eric-Jan Wagenmakers, and Dean Office
- Subjects
Computer science ,Bayesian probability ,Bayes-Verfahren ,Bayesian statistical decision theory ,Experimental and Cognitive Psychology ,Single test ,Cronbach's alpha ,Arts and Humanities (miscellaneous) ,ddc:150 ,Statistics ,Developmental and Educational Psychology ,Sozialwissenschaften ,Statistik ,Point estimation ,ddc:510 ,Reliability (statistics) ,General Psychology ,McDonald's omega ,DDC 150 / Psychology ,Social sciences ,Statistical methods ,Computer programs ,COEFFICIENT ALPHA ,Credible interval ,OMEGA ,DDC 510 / Mathematics ,Psychology (miscellaneous) ,McDonald’s omega - Abstract
The current practice of reliability analysis is both uniform and troublesome: most reports consider only Cronbach’s α, and almost all reports focus exclusively on a point estimate, disregarding the impact of sampling error. In an attempt to improve the status quo we have implemented Bayesian estimation routines for five popular single-test reliability coefficients in the open-source statistical software program JASP. Using JASP, researchers can easily obtain Bayesian credible intervals to indicate a range of plausible values and thereby quantify the precision of the point estimate. In addition, researchers may use the posterior distribution of the reliability coefficients to address practically relevant questions such as “What is the probability that the reliability of my test is larger than a threshold value of .80?”. In this tutorial article, we outline how to conduct a Bayesian reliability analysis in JASP and correctly interpret the results. By making available a computationally complex procedure in an easy-to-use software package, we hope to motivate researchers to include uncertainty estimates whenever reporting the results of a single-test reliability analysis., publishedVersion
- Published
- 2022
216. Europa z��hlt
- Author
-
Lammers, Anne, Metzler, Gabriele, and Hohls, Rüdiger
- Subjects
Europäisierung ,Statistics ,Statistische ��mter ,Statistische Ämter ,Internationale Organisationen ,Europe ,Europ��isierung ,Europ��ische Gemeinschaften ,940 Geschichte Europas ,Statistical Offices ,Statistik ,FOS: Mathematics ,NQ 5940 ,European Communities ,ddc:940 ,International Organizations ,QH 240 ,Europa ,Europäische Gemeinschaften ,Europeanization - Abstract
Die vorliegende Arbeit untersucht die Europ��isierung der Statistik im Rahmen der Europ��ischen Gemeinschaft f��r Kohle und Stahl (EGKS), der Europ��ischen Wirtschaftsgemeinschaft (EWG) sowie der Europ��ischen Gemeinschaften (EG) seit den 1950ern bis in die 1970er-Jahre hinein. Die Genese und Entwicklung statistischer Verfahrensweisen im supranationalen Rahmen l��sst sich jedoch nicht ohne den vorgelagerten und sie begleitenden Prozess des internationalen statistischen Vergleichs verstehen. Denn seit dem Zweiten Weltkrieg setzten auch die internationalen Organisationen verst��rkt auf regionale statistische Vergleiche, wobei Europa hier eine zentrale Rolle einnahm. Von den in diesen Institutionen gemachten Erfahrungen profitierten die Europ��ischen Gemeinschaften einerseits, versuchten sich jedoch auch stets von ihnen abzugrenzen. Mit Blick auf die International Labour Organization (ILO), der Economic Commission for Europe (ECE) sowie der Organization for Economic Co-Operation and Development (OECD) analysiert die Arbeit folglich, inwiefern die EG-Institutionen tats��chlich einen statistischen ���Sonderweg��� gingen oder ihre Arbeit nicht doch vielmehr in eine Linie mit den internationalen statistischen Vergleichen zu sehen ist. Ausgangspunkt aller internationalen und europ��ischen statistischen Harmonisierungsvorhaben waren unterdessen die nationalen statistischen ��mter (NS��). Wie die EG-Institutionen mit ihnen in langwierige Aushandlungsprozesse gingen, wird vor allem mit Blick auf Deutschland als Fallbeispiel analysiert. Mit dieser Herangehensweise verfolgt die Arbeit gleichzeitig das Anliegen, die Statistiken auf ihre Funktion als Sinnproduzenten zu befragen und macht diesen Ansatz somit f��r die Geschichte der europ��ischen Integration fruchtbar. Die Darstellungen gehen damit ��ber eine reine Institutionengeschichte deutlich hinaus. Methodisch verfolgt die Arbeit einen akteurszentrierten Institutionalismus, der kulturgeschichtlich und diskursanalytisch erg��nzt wird., This paper examines the europeanization of statistics within the framework of the European Coal and Steel Community (ECSC), the European Economic Community (EEC), and the European Communities (EC) from the 1950s to the 1970s. However, the genesis and development of statistical practices in the supranational framework cannot be understood without the preceding and accompanying process of international statistical comparison. After all, since World War II, international organizations have also increasingly relied on regional statistical comparisons, with Europe playing a central role here. On the one hand, the European Communities profited from the experience gained in these institutions, but on the other hand, they always tried to distinguish themselves from them. With a view to the International Labour Organization (ILO), the Economic Commission for Europe (ECE) and the Organization for Economic Co-Operation and Development (OECD), the thesis analyzes to what extent the EC institutions actually took a statistical "special path" or whether their work should rather be seen in line with international statistical comparisons. Meanwhile, the starting point for all international and European statistical harmonization projects was the national statistical institutes (NSIs). How the EC institutions entered into protracted negotiation processes with them is analyzed with Germany in particular as a case study. With this approach, the work pursues the concern of questioning statistics with regard to their function as producers of meaning and thus makes this approach fruitful for the history of European integration. Thus, the analysis clearly goes beyond a mere institutional history. Methodologically, the work follows an actor-centered institutionalism, which is complemented by cultural history and discourse analysis.
- Published
- 2022
- Full Text
- View/download PDF
217. Four essays on statistical modelling of environmental data
- Author
-
Behm, Svenia
- Subjects
ddc:330 ,Statistik ,Umweltdaten ,Geostatistik - Abstract
This dissertation deals with geostatistical, time series, and regression analytical approaches for modelling spatio-temporal processes, using air quality data in the applications. The work is structured into four essays the abstracts of which are given in the following. The first essay is titled 'Spatial detrending revisited: Modelling local trend patterns in NO2-concentration in Belgium and Germany'. It is written in co-authorship by Prof. Dr. Harry Haupt and Dr. Angelika Schmid and published in 2018 in Spatial Statistics 28, pp. 331-351 (https://doi.org/10.1016/j.spasta.2018.04.004). Abstract Short-term predictions of air pollution require spatial modelling of trends, heterogeneities, and dependencies. Two-step methods allow real-time computations by separating spatial detrending and spatial extrapolation into two steps. Existing methods discuss trend models for specific environments and require specification search. Given more complex environments, specification search gets complicated by potential nonlinearities and heterogeneities. This research embeds a nonparametric trend modelling approach in real-time two-step methods. Form and complexity of trends are allowed to vary across heterogeneous environments. The proposed method avoids ad hoc specifications and potential generated predictor problems in previous contributions. Examining Belgian and German air quality and land use data, local trend patterns are investigated in a data driven way and are compared to results computed with existing methods and variations thereof. An important aspect of our empirical illustration is the heterogeneity and superior performance of local trend patterns for both research regions. The findings suggest that a nonparametric spatial trend modelling approach is a valuable tool for real-time predictions of pollution variables: it avoids specification search, provides useful exploratory insights and reduces computational costs. The second essay is titled 'Predictability of hourly nitrogen dioxide concentration'. It is written in co-authorship with Prof. Dr. Harry Haupt and published in 2020 in Ecological Modelling 428, 109076 (https://doi.org/10.1016/j.ecolmodel.2020.109076). Abstract Temporal aggregation of air quality time series is typically used to investigate stylized facts of the underlying series such as multiple seasonal cycles. While aggregation reduces complexity, commonly used aggregates can suffer from non-representativeness or non-robustness. For example, definitions of specific events such as extremes are subjective and may be prone to data contaminations. The aim of this paper is to assess the predictability of hourly nitrogen dioxide concentrations and to explore how predictability depends on (i) level of temporal aggregation, (ii) hour of day, and (iii) concentration level. Exploratory tools are applied to identify structural patterns, problems related to commonly used aggregate statistics and suitable statistical modeling philosophies, capable of handling multiple seasonalities and non-stationarities. Hourly times series and subseries of daily measurements for each hour of day are used to investigate the predictability of pollutant levels for each hour of day, with prediction horizons ranging from one hour to one week ahead. Predictability is assessed by time series cross validation of a loss function based on out-of-sample prediction errors. Empirical evidence on hourly nitrogen dioxide measurements suggests that predictability strongly depends on conditions (i)-(iii) for all statistical models: for specific hours of day, models based on daily series outperform models based on hourly series, while in general predictability deteriorates with exposure level. The third essay is titled 'Agglomeration and infrastructure effects in land use regression models for air pollution – Specification, estimation, and interpretations'. It is written in co-authorship with Dr. Markus Fritsch and published in 2021 in Atmospheric Environment 253, 118337 (https://doi.org/10.1016/j.atmosenv.2021.118337). Abstract Established land use regression (LUR) techniques such as linear regression utilize extensive selection of predictors and functional form to fit a model for every data set on a given pollutant. In this paper, an alternative to established LUR modeling is employed, which uses additive regression smoothers. Predictors and functional form are selected in a data-driven way and ambiguities resulting from specification search are mitigated. The approach is illustrated with nitrogen dioxide (NO2) data from German monitoring sites using the spatial predictors longitude, latitude, altitude and structural predictors; the latter include population density, land use classes, and road traffic intensity measures. The statistical performance of LUR modeling via additive regression smoothers is contrasted with LUR modeling based on parametric polynomials. Model evaluation is based on goodness of fit, predictive performance, and a diagnostic test for remaining spatial autocorrelation in the error terms. Additionally, interpretation and counterfactual analysis for LUR modeling based on additive regression smoothers are discussed. Our results have three main implications for modeling air pollutant concentration levels: First, modeling via additive regression smoothers is supported by a specification test and exhibits superior in- and out-of-sample performance compared to modeling based on parametric polynomials. Second, different levels of prediction errors indicate that NO2 concentration levels observed at background and traffic/industrial monitoring sites stem from different processes. Third, accounting for agglomeration and infrastructure effects is important: NO2 concentration levels tend to increase around major cities, surrounding agglomeration areas, and their connecting road traffic network. The fourth essay is titled 'Outlier detection and visualisation in multi-seasonal time series and its application to hourly nitrogen dioxide concentration'. It is written in single authorship and has not been published yet. Abstract Outlier detection in data on air pollutant recordings is conducted to uncover data points that refer to either invalid measurements or valid but unusually high concentration levels. As air pollutant data is typically characterised by multiple seasonalities, the task of outlier detection is associated with the question of how to deal with such non-stationarities. The present work proposes a method that combines time series segmentation, seasonal adjustment, and standardisation of random variables. While the former two are employed to obtain subseries of homoskedastic data, the latter ensures comparability across the subseries. Further, the standardised version of the seasonally adjusted subseries represents a scaled measure for the outlyingness of each data point in the original time series from its mean and therefore forms a suitable basis for outlier detection. In an empirical application to data on hourly NO2 concentration levels recorded at a traffic monitoring site in Cologne, Germany, over the years 2016 to 2019, the common boxplot criterion is used to examine each standardised seasonally adjusted subseries for positive outliers. The results of the analyses are put into their natural temporal order and displayed in a heatmap layout that provides information on when single and sequential outliers occur.
- Published
- 2022
218. Ethnizität.
- Author
-
Diefenbach, Heike
- Published
- 2017
- Full Text
- View/download PDF
219. Vergleich von Vorhersagemodellen zu Stornierungen von Hotelbuchungen
- Author
-
Freidank, Julius, Greven, Sonja, Klein, Nadja, and Klinke, Sigbert
- Subjects
Random Forest ,logistic regression ,hotelbooking ,maschinelles Lernen ,künstliche neuronale Netze ,310 Sammlungen allgemeiner Statistiken ,Vorhersagen ,Hotelbuchung ,Stornierung ,cancellation ,machine learning ,statistics ,logistische Regression ,Statistik ,ddc:310 ,predictions ,k��nstliche neuronale Netze ,artificial neural network - Abstract
In dieser Arbeit werden Stornierungen von Hotelbuchungen mithilfe verschiedener Methoden maschinellen Lernens vorhergesagt. Buchungsstornierungen stellen f��r die Hotelindustrie ein Problem dar, da sie die Planbarkeit von Einnahmen und Kosten stark erschweren. Unter Verwendung von logistischen Regressionen, Random Forests und k��nstlichen neuronalen Netzen werden Modelle erstellt, die diese Stornierungen vorhersagen sollen. Diese verschiedenen Modelle werden anschlie��end miteinander verglichen, um die effektivste Methode zu finden. Vorhersagemodelle k��nnten bestehende Probleme, die durch Stornierungen entstehen, l��sen, in dem Ma��nahmen wie ��berbuchungen effektiver eingesetzt werden k��nnten. Bei der Analyse wird ein Datensatz, der von zwei portugiesischen Hotels stammt, mit fast 120.000 realen Beobachtungen und 31 Variablen zu Hilfe genommen., The aim of this thesis is to predict hotel booking cancellations with different machine learning methods. Hotel booking cancellations are a problem for hotels, because they diminish revenue and make it harder to plan future income. Using logistic regressions, Random Forests and artificial neural networks different prediction models are computed. The models are being compared to eachother to find the most effective method. These models could solve existing problems caused by cancellation, because measures such as overbooking could be used more efficiently. The analysis is based on a real dataset from two portuguese hotels and has almost 120,000 observations and 31 variables.
- Published
- 2022
- Full Text
- View/download PDF
220. That old devil called ‘Statistics’: statistics anxiety in university students and related factors
- Author
-
Levpuscek Puklek, Melita and Cukon, Maja
- Subjects
Mathematics Achievement ,education ,Slovenia ,Angst ,Self concept ,Fragebogen ,Anxiety ,370 Erziehung, Schul- und Bildungswesen ,Einflussfaktor ,Geschlechtsspezifischer Unterschied ,Einstellung ,Questionnaire survey ,Slowenien ,Statistik ,Fragebogenerhebung ,FOS: Mathematics ,Male student ,Studienfach ,Gender-specific difference ,Questionnaire ,Statistics ,Mathematische Kompetenz ,Subject of study ,Validität ,Mathematics skills ,370 Education ,Student ,Selbstkonzept - Abstract
The present study investigated relationships between statistics anxiety (SA), trait anxiety, attitudes towards mathematics and statistics, and academic achievement among university students who had at least one study course related to statistics in their study programme. Five hundred and twelve students from the University of Ljubljana completed the Statistics Anxiety Rating Scale (STARS), State-Trait Anxiety Inventory, and answered questions about their perceptions of mathematics and statistics. The results showed below-average mean scores on the STARS dimensions, except for the Test and Class Anxiety with the average score around the midpoint of the scale. Female students reported higher levels of SA than male students did. The highest levels of SA were reported by students who perceived mathematics and statistics as a threat. The subscales of the STARS correlated positively with students’ trait anxiety. Students who reported less enjoyment in mathematics in high school perceived statistics to be a less worthy subject and had a lower computation self-concept. Students who had better mathematics performance in high school and higher average study grades also reported a higher computation self-concept. In the present study, we translated the STARS questionnaire into Slovenian and confirmed the six-factor structure of the questionnaire. The results provide a basis for further research on statistics anxiety and further validation of the STARS questionnaire. The results can also aid statistics teachers in better understanding students’ worries, fears, and attitudes towards statistics and in learning about the factors that affect students’ statistics anxiety and their work in the course. (DIPF/Orig.)
- Published
- 2022
- Full Text
- View/download PDF
221. Digital Turn und Historische Bildungsforschung. Bestandsaufnahme und Forschungsperspektiven
- Author
-
Oberdorf, Andreas [Hrsg.] <GND:1194321399> <ORCID:0000-0001-9367-6584>
- Subjects
Quellensammlung ,Erziehungswissenschaft ,Elektronische Datenverarbeitung ,18. Jahrhundert ,Technological development ,Wissenschaftsforschung ,Digitale Informationsspeicherung ,Method ,Digitale Medien ,Literatur ,Religious instruction ,Twentieth century history ,370 Erziehung, Schul- und Bildungswesen ,Social networks ,Hannover ,Germany ,Schweiz ,Photography ,Human capital ,Frau ,Archiv ,Quantitative Analyse ,Wirtschaftsgeschichte ,21. Jahrhundert ,Statistics ,Intellectual Disciplines ,Longitudinal analysis ,Methodologie ,Digitalization ,Soziales Netzwerk ,Bochum ,History of education ,Student ,Sciences of education ,Longitudinal study ,Bildungsgeschichte ,Switzerland ,Digitalisierung ,19. Jahrhundert ,Paris ,Erziehung, Schul- und Bildungswesen ,Prosopografie ,17. Jahrhundert ,Modellierung ,Economic history ,Qualitative Analyse ,Project ,Lernen ,Education ,Projekt ,ddc:370 ,Humankapital ,Medienpädagogik ,Historische Quelle ,Fotografie ,Website ,Statistik ,FOS: Mathematics ,Schulbuch ,Pädagogische Zeitschrift ,Women ,Deutschland ,Zeitgeschichte ,Methode ,Hochschule ,Vernetzung ,Methodology ,Higher education institute ,FOS: Humanities ,Geisteswissenschaften ,Literature ,Computerlinguistik ,Bologna ,%22">Deutschland ,School ,Nationalsozialismus ,Denmark ,Computational linguistics ,Teaching of religion ,Middle ages ,Heiliges Römisches Reich deutscher Nation ,Padua ,History of schools ,Academic studies ,Kollektives Gedächtnis ,Male student ,Online ,Historische Bildungsforschung ,Forschungsdaten ,Norwegen ,Mollenhauer, Klaus ,Data ,Stapfer, Philipp Albert ,Norway ,20. Jahrhundert ,Dänemark ,Frühe Neuzeit ,Kollaboration ,Daten ,Grundwissen ,Maps ,Informationsangebot ,Modelling (Psychology) ,370 Education ,Textbook ,Studium ,Schulgeschichte ,Electronic data processing ,On line ,Open Access ,Humanities ,Recollection ,Woman ,Science of science ,Mediengeschichte ,Learning ,Hochschulgeschichte ,Computerunterstütztes Verfahren ,Sexualaufklärung ,Schule ,Holocaust ,Nazism ,Contemporary history ,Projects (Learning Activities) ,Analyse ,Erinnerung ,Längsschnittuntersuchung ,History of universities ,History of media ,Karte ,Sex education ,Available information ,History of educational activities ,Technologische Entwicklung ,Religionsunterricht ,Qualitative analysis ,Mittelalter ,Text book - Abstract
Historische Bildungsforschung hat sich in den letzten Jahrzehnten zu einem Forschungs- und Arbeitsgebiet entwickelt, das in seinen Themen, Methoden und theoretischen Bezügen vielseitig aufgestellt und interdisziplinär anschlussfähig ist. Auch Methoden, Arbeitstechniken und Tools der Digital Humanities, die viele Bereiche der Geistes- und Kulturwissenschaften heute beeinflussen, finden dort bereits in vielfältiger Weise Anwendung. Dies zeigt der vorliegende Band anhand konkreter Beispiele aus aktuellen Forschungsprojekten und Arbeitsgruppen mit Bezug zur historischen Bildungsforschung. Die Beiträge geben Anwendungsbeispiele für ausgewählte digitale Werkzeuge und Forschungsmethoden und stellen forschungspraktische wie auch epistemologische Fragen zur Diskussion. (DIPF/Orig.)
- Published
- 2022
- Full Text
- View/download PDF
222. Multiple Linear Regression of the market capitalization through financial ratios of listed large cap companies on Stockholm Stock Exchange during COVID-19
- Author
-
Eldéus Sörman, Viktor and Sundberg, Erik
- Subjects
ekonomi ,economy ,covid-19 ,multipel linjär regression ,tillämpad matematik ,Statistics ,Statistik ,applied mathematics ,mutiple linear regression ,Sannolikhetsteori och statistik ,Probability Theory and Statistics - Abstract
During economic cycles throughout time organizations allocate their resources in accordance with overall market dynamics, shareholder make decisions based on market dynamics as well as how well a company allocate their resources. In addition, studies of resource allocation during specific market cycles are narrow due to limited data and opportunities to study. Therefore, this thesis aims to study the relation of financial ratios to change in market capitalization during the COVID-19 pandemic with multiple linear regression. Furthermore,the impact of the key financial ratios will be examined and discussed based on their relationto the market capitalization. Financial ratios and their respective market capitalization werecollected from 251 ticker symbols defined as Nordic large cap companies by Nasdaq. From these companies, the analysis was narrowed down to only include companies listed on Stockholm Stock Exchange. The financial ratios were defined from 2020 and the change in market capitalization was defined between 2020 and 2021. Ratios that proved to be significant in the model were narrowed down to five different ratios primarily derived from a company’s assets. The final model was validated at a 𝑅 2 = 0.2115. Furthermore, the model was significant in a mathematical sense, but further research is needed with more sophisticated methods. Under ekonomiska cykler har organisationer allokerat sina resurser i enhet med marknadsdynamiken, aktieägare gör sedermera sina beslut baserat på marknadsdynamiken likväl som företagets benägenhet att allokera sina resurser rätt. Vidare gäller att studier av resursallokering genom specifika marknadscykler är begränsade till data och tillfällen att studera. Därav, riktar sig den här studien till relationen mellan finansiella nyckeltal och förändringen i börsvärde genom COVID-19 pandemin med hjälp av en multipel linjär regressionsmodell. De finansiella nyckeltalens påverkan kommer studeras och diskuteras baserat på deras relation till börsvärdet. De finansiella nyckeltalen och dess respektive börsvärde hämtades från en samling av 251 ticker symbols definierade som Nordiska large cap bolag av Nasdaq. Från dessa bolag så smalnades analysen ned till att endast inkludera noterade företag på Stockholm Stock Exchange. The finansiella nyckeltalen definierade från 2020 och förändringen i börsvärde studeras mellan 2020 och 2021. Nyckeltal som har visatsig vara signifikanta i modellen har smalnat ned till fem olika nyckeltal primärt drivna av ett företags tillgångar. Den slutliga modellen validerades vid 𝑅 2 = 0.2115. Modellen var signifikant I en matematisk aspekt, men vidare studier krävs med mer sofistikerade metoder.
- Published
- 2022
223. Photovoltaik- und Batteriespeicherzubau in Deutschland in Zahlen - Auswertung des Markstammdatenregisters
- Author
-
Peper, Dominik, Längle, Sven, Muhr, Melissa Christine, and Reuther, Tobias
- Subjects
Markstammdatenregister ,Photovoltaik ,Anlagenstammdaten ,Statistik ,Batteriespeichersystem ,Zubau ,Deutschland - Abstract
Alle an das Netz der allgemeinen Versorgung angeschlossenen Stromerzeugungseinheiten müssen seit Januar 2021 in das Markstammdatenregister (MaStR) eingetragen sein. Dies gilt auch für die stetig wachsende Zahl von Photovoltaikanlagen und Batteriespeichern in Deutschland. Während die Stammdaten von Batteriespeicher im MaStR erstmalig zentral erfasst werden, sind die Stammdaten von PV-Anlagen im MaStR deutlich umfänglicher als in den EEG-Stammdaten. So werden neben der Leistung und dem Standort nun auch zusätzliche Informationen, wie zum Beispiel die Ausrichtung, Neigung und Leistungsbegrenzung der PV-Anlagen erfasst. Die verfügbaren Informationen wertet das Fraunhofer ISE nun in regelmäßigen Abständen aus und macht die Ergebnisse für die breite Öffentlichkeit verfügbar. Für diese Veröffentlichung wurde das MaStR zum Stichtag 31.01.2022 ausgewertet. Somit umfassen die Auswertungen jahresscharfe Daten von 2000 bis 2021. Für die vorliegende Studie wurde der PV-Zubau nach Anlagen- und Leistungszubau sowie der Batteriespeicherzubau nach Anlagen und Kapazitätszubau ausgewertet. Die Anlagenzubau bezieht sich jeweils auf die Anzahl der zugebauten PV- oder Batterie-Systeme während sich der Leistungszubau der PV-Anlagen auf die jährlich zugebaute installierte Bruttoleistung (Nennleistung der Module) der PV-Anlagen bezieht und der Kapazitätszubau der Batteriespeicher auf die jährlich zugebaute Speichernennkapazität (Energie).
- Published
- 2022
- Full Text
- View/download PDF
224. Utvärdering av beslutsprocessen för kreditbeslut på Preem AB
- Author
-
Holgersson, Annie and Döös, Theresa
- Subjects
statistics ,logistic regression ,tillämpad matematik ,applied mathematics ,kredit ,Sannolikhetsteori och statistik ,statistik ,logistisk regression ,Probability Theory and Statistics ,credit - Abstract
The purpose of the following bachelor thesis report within mathematical statistics was to evaluate the decision making process at the credit department at Preem AB. The study used a logistic regression model to find a relationship between the probability of an application for credit being accepted and some quantitative and categorical factors about the applicant. These factors were both found in the applicant's financial statement and annual report as well as in data regarding risk level given to Preem AB by Upplysningscentralen. This data set was used to develop and train the logistic regression model with the aim of evaluating which factors have the biggest impact on the decisions being made after an application goes to trial at the credit department. The model was evaluated and perfected using different methods for variable selection and model evaluation. The study found that no statistically significant model could be created, and came to the conclusion there must exist further factors not covered by this study that affects a decision, or the decisions are taken randomly. Further research can therefore study which factors, such as financial security offered and level of knowledge regarding industry and financial statements among the credit controllers, affect the outcome of the manual trial of a credit application. Syftet med detta kandidatexamensarbete inom matematisk statistik var att utvärdera prövningsprocessen på kreditavdelningen på Preem AB. I detta examensarbete användes en logistisk regressionsanalys för att finna ett samband mellan sannolikheten att en ansökan om kredit blir godkänd och några kvantitativa och kategoriska variabler om det ansökande företaget. Dessa variabler var hämtade dels från det ansökande företagets årsredovisning, dels från information gällande riskklass framtagen av Upplysningscentralen. Datasetet användes sedan för att bygga och träna en logstisk regressionsmodell med syftet att utvärdera vilka faktorer som har den största påverkan på om en ansökan för kredit blir godkänd eller ej efter den gått till manuell prövning på Preem AB. Modellen utvärderades och förbättrades genom att använda olika metoder för urval av variabler och utvärdering av modellen. Avhandlingen fann att modellen saknade stark prediktiv förmåga och det kan sägas att det bör finnas ytterligare faktorer som påverkar vilket beslut som tas vid manuell prövning på kreditavdelningen. Vidare undersökningar kan därför studera hur faktorer som finansiell säkerhet och kunskap om bransch och ekonomi bland medarbetarna på kreditavdelningen påverkar de manuella besluten som tas.
- Published
- 2022
225. Sekund��ranalysen zum Schulerfolg von Gefl��chteten. Potenziale von Daten der amtlichen Schulstatistik am Beispiel von NRW
- Author
-
Kemper, Thomas and Reinhardt, Anna C.
- Subjects
Nordrhein-Westfalen ,German non-academic secondary school ,370 Erziehung, Schul- und Bildungswesen ,Bildungssoziologie ,Type of school ,Germany ,Empirische Bildungsforschung ,School graduation ,Higher education matriculation certificate ,Secondary school ,North Rhine-Westphalia ,Amtliche Statistik ,Sonderschule ,Participation in education ,Empirische Untersuchung ,Statistics ,Participation Rate ,Empirical study ,School for the handicapped ,Fl��chtling ,Gymnasium ,370 Education ,School leaving qualification ,Refugee ,Erziehung, Schul- und Bildungswesen ,School success ,Education ,Success at school ,ddc:370 ,Sekund��ranalyse ,Statistik ,FOS: Mathematics ,Sekundäranalyse ,Special needs school ,Hochschulreife ,Deutschland ,Official statistics ,North-Rhine Westphalia ,Schulform ,University qualifications ,School attendance ,Schulabschluss ,Schulbesuch ,German academic secondary school ,Special school ,School leaving ,Grammar School ,Flüchtling ,Hauptschule ,Schulerfolg ,Bildungsbeteiligung - Abstract
Zum Schulerfolg von Gefl��chteten liegen bisher kaum quantitative Ergebnisse vor. Vorgestellt wird ein sekund��ranalytischer Ansatz, den Schulerfolg von Gefl��chteten basierend auf Daten des Ausl��nderzentralregisters und der Schulstatistik n��herungsweise zu untersuchen. Eine exemplarische Analyse f��r das Bundesland Nordrhein-Westfalen (NRW) zeigt auf, dass Gefl��chtete im Vergleich zu Nichtgefl��chteten einen erheblich geringeren Schulerfolg aufweisen. (DIPF/Orig.), This article describes a secondary analytical approach to approximately examine the school success of refugees based on data from the German central register of foreigners and official school statistics. An exemplary analysis of the federal state of North Rhine-Westphalia (NRW) demonstrates that, in comparison with non-refugees, refugees are significantly less likely to succeed at school. (DIPF/Orig.)
- Published
- 2022
- Full Text
- View/download PDF
226. Machbarkeitsstudie für eine regelmäßige Berichterstattung gemäß § 8 Absatz 4 Wohnungslosenberichterstattungsgesetz
- Author
-
Bartelheimer, Peter, Brüchmann, Katharina, Busch-Geertsema, Volker, Henke, Jutta, Schöpke, Sandra, Steffen, Axel, Bundesministerium für Arbeit und Soziales, and Gesellschaft für innovative Sozialplanung und Sozialforschung e.V. (GISS)
- Subjects
Wohnung ,Lebenssituation ,reporting ,Social Problems ,soziale Probleme ,Federal Republic of Germany ,statuary regulation ,Bundesrepublik Deutschland ,ddc:360 ,life situation ,statistics ,Soziale Probleme und Sozialdienste ,apartment ,Statistik ,gesetzliche Regelung ,Social problems and services ,homelessness ,Berichterstattung ,Obdachlosigkeit - Abstract
Die Machbarkeitsstudie untersucht, ob und mit welchem Aufwand sich eine Berichterstattung über Formen der Wohnungslosigkeit, die weder durch die neue Bundesstatistik untergebrachter wohnungsloser Personen noch über die ergänzende empirische Erhebung zu wohnungslosen Menschen ohne Unterkunft und zu verdeckt Wohnungslosen erfasst sind, realisieren lässt. Insbesondere waren für Geflüchtete mit anerkanntem Schutzstatus, für Personen, die ohne eigene Wohnung länger als notwendig im Gesundheitssystem oder in Haftanstalten verbleiben, und für Personen in Institutionen des Gewaltschutzes die Möglichkeiten einer Berichterstattung zu prüfen. Darüber hinaus prüfte die Studie Ansatzpunkte für eine Nutzung von Datenbeständen und Statistiken der Mindestsicherungssysteme und Verwaltungsregister und unterbreitet Anregungen für die Berichterstattung über Querschnittsthemen und Vertiefungsstudien.
- Published
- 2022
227. Prediktiv analys av kostnaden för organisationer att uppnå jämställda löner mellan könen
- Author
-
Rohde, Oscar
- Subjects
Other Engineering and Technologies ,learning ,organisation ,lärande ,pay audit ,statistik ,lönekartläggning ,pay equity ,lönegap mellan könen ,gender pay gap ,statistics ,rättvisa löner ,jämställdhet ,regression ,Annan teknik ,equality - Abstract
The gender pay gap has been a hot topic during the last decade and legislation regarding pay equity is increasing in Europe. Continuous work with gender pay equity is essential to avoid costly consequences. There are methods today to find unsubstantiated pay differences, but how could one predict the cost of fixing the pay gap? How can the one predict the cost of making an unequal pay structure equal? How may pay equity methods be explained to people not well-versed in mathematical reasoning? To investigate these questions, the study uses literature, simulations in Python, and a workshop to gather empirical data. Simulation is used to analyse different methods of closing the gender pay gap. The workshop was held at the pay equity SaaS company Pihr. Results suggest several methods to close the gender pay gap that vary in cost and perceived fairness. One can never be absolutely certain of the presence or absenceof gender discrimination, but one can make well-informed estimates using different methods of analysis. The results also suggest that pay equity methods should be explained using informal, non-mathematical words, with examples connected to real-world scenarios in a familiar context for the learner. Lönegapet mellan män och kvinnor har senaste årtiondet varit ett omdiskuterat ämne och juridiska krav om jämställda löner har blivit alltmer förekommandei Europa. Att kontinuerligt arbeta för mer jämställda löner mellan könen är avgörande för att undvika kostsamma konsekvenser. Det finns idag metoder för att hitta osakliga löneskillnader, men hur kan kostnaden att lösa löneskillnaderna estimeras? Hur kan kostnaden att göra en ojämställd lönestruktur jämställd uppskattas? Hur kan metoder för att stänga lönegapet förklaras för människor utan erfarenhet av matematiska resonemang? För att undersöka dessa frågor samlar studien empirisk data från litteratur, simulationer i Python ochen workshop. Simulation används för att analysera olika metoder för att stänga lönegapet mellan könen. En workshop kom att göras på SaaS-bolaget Pihr somär verksamma inom området. Resultaten föreslår ett flertal metoder att använda för att stänga lönegapet, med varierande kostnad och upplevd rättvisa. Det går aldrig att vara fullständigt säker om könsdiskriminering förekommer eller ej. Däremot är det möjligt att göra välgrundade estimeringar med hjälp av olika analysmetoder. Studiens resultat antyder också att metoder för att stänga lönegapet bör förklaras med ett informellt och icke-matematiskt språk, samt inkludera verklighetsbaserade exempel i en bekant kontext för mottagaren.
- Published
- 2022
228. Datadriven upptäckt av vägkomprimeringsparametrar i realtid
- Author
-
Shao, Yuqi
- Subjects
road compaction ,machine learning ,maskininlärning ,Annan matematik ,statistics ,vägpackning ,statistik ,Other Mathematics - Abstract
Road compaction is the last and important stage in road construction. Both under-compaction and over-compaction are inappropriate and may lead to road failures. Intelligent compactors has enabled data gathering and edge computing functionalities, which introduces possibilities in data-driven compaction control. Compaction physical processes are complex and are material-dependent. In the road construction industry, material physical models, together with boundary conditions, can be used for modeling effects of compacting the underlying subgrade materials and the pavement (the most widely used is asphalt) itself on site, which can be computed using Finite Element (FE) methods. However, parametrizations of these physical models require large efforts, creating difficulties in using these models to optimize real-time compaction. Our research has, for the first time, bridged the gap between data-driven compaction control and physics by introducing the parameter identification pipeline. Two use cases are investigated, corresponding to offline learning and online learning of parameters. In offline learning, a sequence of actions is learned to maximally reduce parameters uncertainties without observing responses; in online learning, the decisions of actions are made and parameters are derived while sequential observations come in. The parameter identification pipeline developed in this thesis involves compaction simulation using a simple physical model, surrogate model development using Artificial Neural Network (ANN), and online/offline optimization procedure with Approximate Bayesian Computation (ABC). The developed procedure can successfully identify the parameters with low uncertainty for the case that the selected experiments supply enough information to theoretically identify the parameters. For the case of that parameters cannot be theoretically identified by certain experiments, the identified parameters have larger uncertainties. Vägpackning är det sista och viktiga steget i vägbygget. Både under- och överkomprimering är olämpliga och kan leda till vägfel. Intelligenta komprimatorer har möjliggjort datainsamling och edge computing-funktioner som introducerar möjligheter inom datadriven komprimeringskontroll. Packningsfysiska processer är komplexa och materialberoende. Inom vägbyggnadsindustrin kan materialfysiska modeller tillsammans med randvillkor användas för att modellera effekter av att packa de underliggande underlagsmaterialen och själva beläggningen (den mest använda är asfalt) på plats. Dem kan beräknas med Finite Element (FE) metoder. Parametrisering av dessa fysiska modeller kräver dock stora ansträngningar och skapar svårigheter att använda dessa modeller för att optimera realtid vägpackning. Vår forskning har för första gången överbryggt gapet mellan datadriven komprimeringskontroll och fysik genom att introducera pipeline för parameteridentifiering. Två användningsfall undersöks motsvarande offlineinlärning och onlineinlärning av parametrar. En sekvens av åtgärder är lärd vid offlineinlärning för att maximalt reducera parametrar osäkerheter utan att observera svar. Vid onlineinlärning fattas beslut om åtgärder och parametrar härleds medan sekventiella observationer kommer in. Den pipeline för parameteridentifiering som utvecklats i denna avhandling involverar kompakteringssimulering med en enkel fysisk modell, surrogatmodellutveckling med artificiellt neuralt nätverk (ANN) och online /offline optimeringsprocedur med Approximate Bayesian Computation (ABC). Den utvecklade proceduren kan framgångsrikt identifiera parametrarna med låg osäkerhet för det fall att de valda experimenten ger tillräckligt med information för att teoretiskt identifiera parametrarna. För fallet med att parametrar inte teoretiskt kan identifieras genom vissa experiment, de identifierade parametrarna har större osäkerheter.
- Published
- 2022
229. Kalman filter som en förbättring till objekt spårning som använder YOLOv7
- Author
-
Jernbäcker, Axel
- Subjects
maskinlärning ,Computational Mathematics ,machine learning ,statistics ,Beräkningsmatematik ,tillämpad matematik ,applied mathematics ,kalman filter ,statistik - Abstract
In this paper we study continuous tracking of airplanes using object detection models, namely YOLOv7, combined with a Kalman filter. The tracking should be able to be done in real-time. The idea of combining Kalman filters with an object detection model comes from the lack of time-dependent context in models such as YOLOv7. The model analyzes each frame independently and outputs airplane detections for the analyzed frame. Therefore, if an airplane flies behind a tree or a cloud, the object detection model will say that there is no object there. The Kalman filter is used to construct an object with a state consisting of position and velocity for every airplane. As such if an airplane flies behind a tree, it is possible to extrapolate the trajectory and resume tracking once the airplane is visible again, much like a human would extrapolate the trajectory naturally. In the report I describe the implementation and training of a YOLOv7 model, I further describe the construction and implementation of a Kalman filter as well as how observations are mapped on to objects in the Kalman filter. During this I introduce a parameter called cumulative confidence. This describes how long something is being tracked after observations cease. After losing sight of an object, the cumulative confidence starts to drop. When it reaches zero and the object is removed. This can take anywhere between 100 ms to 6 seconds depending on how much confidence the object has accumulated. Objects accumulate confidence by being observed and detected by the object detection model. In the results section I describe how the performance of the program changed when using a Kalman filter or when not using a Kalman filter. The results showed that continuous tracking of airborne airplanes was superior when using a Kalman filter as opposed to only using the YOLOv7 model. Continuous tracking was never lost in these 2 airborne cases when using the integrated Kalman filter. Continuous tracking was lost 5 respectively 11 times on the same cases when not using the Kalman filter. The last case in the results section, an airplane on a runway, showed the same performance with and without the Kalman filter. I go into detail why this is in both the results section and in Section 5.1 (Interpreting the results). I detta pappret studeras kontinuerlig spårning av flygplan med hjälp av objektdetekterings-modeller, mer specifikt YOLOv7 modellen i kombination med Kalman filter. Spårningen ska kunna göras i realtid. Idén att kombinera Kalman filter med modeller för objektdetektering kommer från avsaknaden på tidsberoende kontext i modeller som YOLOv7. Modellen analyserar varje bild i en dataström oberoende och ger en utmatning med positioner av flygplan i den analyserade bilden. Därmed, om ett flygplan flyger in bakom ett träd eller ett moln så kommer modellen konstatera att det inte är ett objekt där. Kalman filtret används för att konstruera ett objekt med ett tillstånd som består av position och hastigheten av varje flygplan. På så vis om ett flygplan flyger in bakom ett träd är det möjligt att extrapolera vägen planet kommer flyga samt återuppta spårning när flygplanet blir synligt igen, på samma vis som en människa extrapolerar planets bana naturligt. I rapporten beskriver jag en implementering och träning av en YOLOv7 modell. Vidare beskriver jag konstruktionen och implementationen av ett Kalman filter, samt hur observationer mappas till objekt i Kalman filtret. Jag introducerar även en parameter som kallas “kumulativt förtroende”. Denna beskriver hur länge något spåras även efter att observationer upphör. När ett objekt ej får observationer längre så börjar det kumulativa förtroendet minska. När det når noll så tas objektet bort. Detta kan ta mellan 100 ms och sex sekunder, beroende på hur mycket förtroende objektet har ackumulerat. Objekt ackumulerar förtroende genom att bli observerade och detekterade av YOLOv7 modellen. I resultatdelen beskriver jag hur prestandan skiljer sig om programmet använder ett Kalman filter eller inte ett Kalman filter. Resultaten visar att kontinuerlig spårning av flygplan i luften var bättre när man använder ett Kalman filter. Spårningen av flygplan upphörde aldrig i de 2 fallen då flygplan var i luften. På dessa fallen så tappade modellen spårningen 5 respektive 11 gånger när den inte använde Kalman filtret. Det tredje och sista fallet i resultatdelen, ett flygplan på banan, visade samma prestanda med eller utan Kalman filtret. Jag går in i detalj kring varför det var så i resultatdelen och i diskussionen.
- Published
- 2022
230. From blackspots to blackpatterns: Pattern recognition with road traffic accident data. Illustrated with single-vehicle accidents with a single occupation and personal injury that occurred outside the built-up area on the Austrian road network between 2012 and 2019
- Author
-
Fian, Tabea
- Subjects
Statistics ,Statistik ,FOS: Mathematics ,Mustererkennung ,Pattern Recognition ,Road Traffic Safety ,Verkehrssicherheit - Abstract
Neben der Benennung von Hauptunfallursachen und Unfallschwerpunkten im Stra��ennetz gibt es derzeit eine Wissensl��cke bei der multivariaten statistischen Untersuchung von gemeinsam auftretenden Unfallbedingungen. Die amtliche Stra��enverkehrsunfallstatistik in ��sterreich weist f��r jeden Stra��enverkehrsunfall eine explizite Unfallursache (oder eine explizite Bedingung) aus (z.B. Geschwindigkeits��berschreitung). Die Untersuchung von gleichzeitig auftretenden Bedingungen (z.B. "Geschwindigkeits��berschreitung", "nasse Fahrbahn", "nicht angeschnallt" und "Probef��hrerschein") ist jedoch unerl��sslich, wenn wir Unf��lle als multikausale und nicht als monokausale Ereignisse betrachten. Es ist zwar nicht m��glich alle m��glichen Unfallbedingungen abzubilden, aber die offizielle ��sterreichische Stra��enverkehrsunfalldatenbank (UDM) bietet eine solide Quelle f��r die Identifizierung von gemeinsam auftretenden, unfallbezogenen Variablen. Die UDM enth��lt mehr als 100 unfallrelevante Variablen, die helfen k��nnen, Unfallbedingungen und -ursachen genauer zu verstehen. Ein vertieftes Wissen ��ber die Unfallbedingungen kann von Interesse sein, um (zielgruppenspezifische) Pr��ventionsma��nahmen abzuleiten, um die verbleibende Zahl der t��dlichen und schweren Stra��enverkehrsunf��lle in ��sterreich zu reduzieren. Ziel dieser Arbeit ist es, wiederkehrende Kombinationen von unfallbeschreibenden Variablen zu erkennen, die wir als Variablenmuster (blackpatterns) bezeichnen.Diese Arbeit wendet daher einen Mustererkennungsansatz bei Unf��llen mit einem Fahrzeug mit Einzelbesetzung und Personenschaden an, die sich zwischen 2012 und 2019 auf dem ��sterreichischen Stra��ennetz au��erorts ereignet haben (n=20.293). Es werden fahrer-, fahrzeug-, stra��en- und situationsbezogene Variablen verwendet, um wiederkehrende Variablenkombinationen (blackpatterns) zu erkennen. Diese Variablen (insgesamt ��ber 100) sind Teil der offiziellen ��sterreichischen Stra��enverkehrsunfalldatenbank (UDM). Um mit den amtlichen Daten Mustererkennungsmethoden durchf��hren zu k��nnen, ist jedoch eine Neuaufbereitung der amtlichen Datenbank notwendig. Die Neuaufbereitung der Datenbank stellt daher einen zentralen Bestandteil dieser Arbeit dar. Es ist wichtig hervorzuheben, dass in dieser Arbeit historische Stra��enverkehrsunf��lle untersucht werden und kein Unfallvorhersagemodell vorgestellt wird. Die Arbeit bezieht auch keine Daten zum Verkehrsgeschehen oder zur Verkehrsleistung ein. Es k��nnen daher keine Aussagen ��ber die generelle Eintrittswahrscheinlichkeit eines Stra��enverkehrsunfalls abgeleitet werden.Die Motivation dieser Arbeit ist es, sich auf die allgemeine Anwendbarkeit der vor-geschlagenen Methoden zu konzentrieren. Zun��chst wird auf die statistischen Eigenschaften von Stra��enverkehrsunfalldaten hingewiesen (d.h. Unsicherheit, der sogenannte ���evaluation bias���, seltene Ereignisse, Heterogenit��t etc.). Zweitens werden bestehende Muster-erkennungsmethoden f��r Stra��enverkehrsunfalldaten diskutiert. Drittens werden ausgew��hlte Mustererkennungsmethoden auf die Stichprobe der Stra��enverkehrsunf��lle angewandt. Diese Methoden umfassen binomiale logistische Regression, Entscheidungsb��ume, Bayes'sche Netze und eine entwickelte Mustererkennungs-methode, die auf den H��ufigkeiten von Variablenkombinationen basiert (PATTERMAX-Methode).Zun��chst werden deskriptive statistische Analysen durchgef��hrt, um die Beziehung zwischen jeder erfassten unfallbezogenen Variable und der Zielvariable ���schwere Unf��lle��� (das sind Unf��lle mit t��dlichen oder schweren Verletzungen) zu sch��tzen. Es werden Kontingenztabellen erstellt, bedingte und gemeinsame Wahrscheinlichkeiten berechnet, der exakte Test nach Fisher angewandt und Phi-Koeffizienten gesch��tzt. Au��erdem wird eine robuste Parametersch��tzung durchgef��hrt (95 %-Konfidenzintervalle, welche die Wahrscheinlichkeit des Auftretens einer Variablen und schwerer Unf��lle angeben), indem ein Bootstrap-Resampling-Verfahren auf die neu erstellte Unfalldatenbank angewandt wird. Weiters wird ein sogenannter h��chster Kombinationswert als wichtiges Ma�� f��r die Erkennung von Variablenmustern berechnet. Dieser Wert gibt an, wie oft eine bestimmte Variable mit (einer) anderen unfallbezogenen Variable(n) gemeinsam vorkommt. Anschlie��end wird eine binomiale logistische Regression durchgef��hrt, um den Einfluss jeder Variable auf schwere und t��dliche Stra��enverkehrsunf��lle mit einem Odds Ratio zu sch��tzen (d. h. die St��rke der Beziehung zwischen einer unfallbezogenen Variable und der Zielvariable ���schwere Unf��lle��� im Vergleich zu allen beobachteten Variablen). Mit den Sch��tzungen, welche Variable das Risiko eines schweren oder t��dlichen Stra��enverkehrsunfalls zu erh��hen scheint, kann anschlie��end die Gesamtwirkung der noch zu entdeckenden Variablenmuster (blackpatterns) eingestuft werden. Als n��chsten Schritt zur Erkennung von Variablenmustern werden Entscheidungsb��ume mit dem CHAID-Algorithmus erstellt. Bis zu diesem Punkt helfen die binomiale logistische Regression und die Entscheidungsb��ume dabei, kritische Variablen zu identifizieren, die den Unfallhergang bzw. den Grad der Verletzung erh��hen. Da der Fokus jedoch darauf liegt, vertiefte Kenntnisse ��ber wiederkehrende Variablenkombinationen zu erlangen, werden die zugrunde liegenden Datenstrukturen noch tiefer analysiert. Zu diesem Zweck werden Bayes'sches Netzwerke und eine entwickelte Methode zur Mustererkennung (PATTERMAX-Methode) auf die Daten angewandt. Mit diesen Ans��tzen werden schlie��lich wiederkehrende Variablenkombinationen detektiert. Die statistische Auswertung, ob die detektierten Muster einen signifikanten Zusammenhang mit der Zielvariablen ���schwere Unf��lle��� aufweisen, schlie��t den Mustererkennungsprozess ab. Wie der Anfang, so das Ende, und es werden der exakte Test nach Fisher und der Phi-Koeffizient dazu verwendet.Im Diskussionskapitel werden die schwerwiegendsten unfallbezogenen Variablen und Muster zusammengefasst. Au��erdem werden die angewandten Mustererkennungsmethoden diskutiert. Abschlie��end werden Vorteile und Grenzen der PATTERMAX-Methode in Kombination mit der binomialen logistischen Regression aufgezeigt, um vertiefte Erkenntnisse ��ber das Unfallgeschehen zu gewinnen. Im Rahmen des Forschungsausblicks wird die Ausweitung der Methoden auf Unf��lle mit mehreren Beteiligten vorgeschlagen. Die neu erstellte Unfalldatenbank k��nnte auch als zuverl��ssige Quelle f��r die Unfallvorhersage dienen. Insbesondere die gesch��tzten 95%-Konfidenzintervalle k��nnten f��r die Erstellung eines Vorhersagemodells von Interesse sein., Besides the designation of a major accident cause and accident blackspots (i.e., accident accumulation points on the road network), we currently face a knowledge gap in the multivariate statistical investigation of co-occurring accident conditions. Official road traffic accident statistics in Austria indicate one explicit accident cause (or one explicit condition) for each road traffic accident (e.g., speeding). However, investigating co-occurring conditions (e.g., 'speeding', 'wet road', 'no safety belt applied' and 'probationary driving licence') is essential if we consider accidents as multicausal instead of monocausal events. It is, of course, impossible to depict all potential accident-related conditions. Still, the official Austrian road traffic accident database (UDM) provides a solid source to identify co-occurring accident-related variables. The UDM includes more than 100 accident-related variables, which can help understand accident conditions and causes in more detail. In-depth knowledge of accident conditions may be of interest in deriving (target-group specific) prevention measures to deal with the remaining number of fatal and severe road traffic accidents in Austria. Therefore, this thesis aims to detect recurring combinations of accident-related variables, which we designate as blackpatterns.Consequently, this thesis applies a pattern recognition approach among single-vehicle accidents with single occupation and personal injury that occurred on the Austrian road network and outside the built-up area between 2012 and 2019 (n=20.293). It uses driver-, vehicle-, roadway- and situation-related variables to detect recurring variable combinations (blackpatterns). These variables (over 100 in total) are part of the official Austrian road traffic accident database (UDM). However, reprocessing the official database is essential to conduct pattern recognition methods with the data. It is to point out that this thesis explores blackpatterns underlying historical road traffic accident records. This thesis does not present an accident prediction model. It does not include data on traffic performance to derive statements on the overall probability of a road traffic accident.The motivation of this thesis is to focus on the general applicability of the proposed methods. Firstly, we point out statistical characteristics of road traffic accident data (i.e., uncertainty, noise and bias, rare events, heterogeneity, and over-dispersion). Secondly, we discuss existing pattern recognition methods for road traffic accident data. Thirdly, we apply selected pattern recognition methods on the road traffic accident sample. These methods comprise binomial logistic regression, decision trees, Bayesian networks and a developed pattern recognition method based on the frequencies of variable combinations (PATTERMAX-method).In a primary step, we conduct descriptive statistical analyses to estimate the relationship between each recorded accident-related variable and the target variable severe casualties (accidents with fatal or severe injury). We create contingency tables, calculate conditional and joint probabilities, apply Fisher's exact test and estimate the Phi coefficient. Also, we generate a robust parameter estimation (95% confidence intervals showing the likelihood of a variable and severe or fatal accidents to occur) by applying a bootstrap resampling method on the newly established accident database. We calculate a so-called maximum combination value as an important measure towards blackpattern detection. This value tells us how often a specific variable co-occurs with (an)other accident-related variable(s). We then use binomial logistic regression to estimate each variable's impact on severe road traffic accidents with an odds ratio (i.e., the strength of the relationship between an accident-related variable and the target variable severe casualties compared to all observed variables). By knowing which variable appears to increase the risk of a severe road traffic accident, we can assess the overall impact of the detected blackpatterns.As the next step towards blackpattern recognition, we grow decision trees using the CHAID-algorithm. Up to this point, binomial logistic regression and decision trees help us identify critical variables that aggravate an accident outcome and the degree of injury, respectively. However, since we are interested in gaining in-depth knowledge of recurring variable combinations (blackpatterns), we zoom further into the underlying data structures.That being the case, we apply a probabilistic Bayesian network paradigm and a developed pattern detection method (PATTERMAX-method) to the data. Using these approaches, we finally detect blackpatterns and conclude the pattern recognition process with a statistical evaluation of whether the detected blackpatterns show a significant relationship with the target variable severe casualties. Like the beginning, so the end, and we calculate Fisher's exact test and the Phi coefficient.We summarize the most aggravating accident-related variables and blackpatterns in the discussion chapter. Furthermore, we compare the applied pattern recognition methods. Finally, we highlight the advantages and limitations of the PATTERMAX-method in combination with binomial logistic regression to gain in-depth knowledge about accident circumstances. The combined application of both methods enables a precise detection and comparison of blackpatterns. For example, do blackpatterns among female drivers differ from blackpatterns among male drivers? Do accident patterns on regional roads within an 80 km/h speed limit differ from those on a 100 km/h speed limit? Additionally, the combined approach of the PATTERMAX-method and binomial logistics regression enables the assessment of the detected blackpatterns with the help of an odds ratio.Within the research outlook, we propose expanding the investigation towards accidents with several parties involved. The newly established accident database might also serve as a reliable source for accident prediction. Especially, the estimated 95% confidence intervals may be of interest to establish a prediction model.
- Published
- 2022
- Full Text
- View/download PDF
231. Gynnsamma möjligheter inom betting - statistisk modellering av fotbollsmål i Premier League
- Author
-
Lindau, Fredrik and Carle, Gustaf
- Subjects
football ,sports betting ,Negativ Binomial fördelning ,Premier League ,market efficiency ,fotboll ,Bayesiansk regression ,Poisson fördelning ,statistik ,Bayesian regression ,betting ,estimations ,statistics ,probability theory ,Poisson distribution ,marknadseffektivitet ,Negative Binomial distribution ,Sannolikhetsteori och statistik ,skattningar ,Probability Theory and Statistics ,sannolikhetsteori - Abstract
The premise of this report is to delve into sports betting and whether favourable opportunities can be found, more specifically focusing on over and under odds for number of goals scored in football games of the Premier League. Using historical data from football matches several models are developed, the characteristics of goals warranting the use of probability based Poisson and Negative Binomial models, as well as Bayesian Poisson regression for goal predictions. Once these models were developed odds was found and compared to bookmakers, the results indicated that all models, to varying degrees, find favourable opportunities and profitable betting strategies can be identified. This suggests that bookmakers do not always price betting products according to their true probabilities likely due to book balancing and informational asymmetries. Furthermore it indicates that there is a presence of inefficiencies in the sports betting market. Den här rapporten kommer djupdyka i betting och huruvida gynnsamma möjligheter kan hittas. Mer specifikt kommer ett fokus ligga på över/under odds för antalet mål i fotbollsmatcher i engelska Premier League. Genom att använda historisk data från fotbollsmatcher utvecklas flera olika statistiska modeller för att förutspå antalet mål i fotbollsmatcher. Skattning av Poisson och Negativ Binomial fördelningar samt utvecklandet av en Bayesiansk Poisson regressionsmodell motiveras av egenskaperna hos antalet mål i fotbollsmatcher. Med dessa modeller, beräknas odds för flera framtida matcher inom Premier League och dessa jämfördes med odds som ges av bettingbolag. Resultaten indikerar att alla modeller kan, i olika stor utsträckning, hitta gynnsamma möjligheter och lönsamma betting strategier kan identifieras. Detta tyder på att bettingbolag inte alltid sätter sina odds enbart baserat på den faktiska sannolikheten, vilket troligtvis beror på att bolagen balanserar sina böcker samt informationsasymmetrier. Dessutom indikerar resultatet på att det finns faktorer på bettingmarknaden som gör marknaden ineffektiv.
- Published
- 2022
232. Der statistische Komplex
- Author
-
Liptay, Fabienne, University of Zurich, and Liptay, Fabienne
- Subjects
700 Arts ,Denise Ferreira da Silva ,Statistik ,Blackness ,Ida B. Wells ,Tony Bennett ,W. E. B. Du Bois ,10114 Institute of Cinema Studies ,Ikonographie ,Michel Foucault ,Otolith Group ,900 History ,Film - Published
- 2022
- Full Text
- View/download PDF
233. Analysis and modeling of the probabilities of the outcomes in a football match based on match statistics
- Author
-
Wikblad, Filip and Hansson, Oskar
- Subjects
betting ,statistics ,tillämpad matematik ,applied mathematics ,Sannolikhetsteori och statistik ,statistik ,multinomial logistisk regression ,Probability Theory and Statistics ,multinomial logistic regression - Abstract
Studien undersöker vilken modell som bäst modellerar matchutfallet (1,X,2 - Hemmavinst, Oavgjort, Bortavinst) på en fotbollsmatch utifrån matchstatistik. Datan som analyserats är sammanställd från den engelska fotbollens tre högsta divisioner från 2005 och framåt. Multinomial logistisk regression tillämpas för att modellera responsvariabeln utifrån förklaringsvariablerna. Med hjälp av best subset regression undersöks alla kombinationer av variabler och modellerna jämförs utifrån Akaike Information Criterion (AIC). Tillsammans med resultatet från regressionerna och en analys över multikollinearitet väljs den bästa modellen. Resultatet visar på både väntade och oväntade effekter vilket skapar grund för framtida studier. Förbättringsområden för framtida studier innefattar fler förklaringsvariabler, jämförelser med spelbolagens odds och test på ny testdata. Tillämpningsområden för modellen är inom spelbranschen där modellen kan användas för att värdera kombinationsspel och liveodds. This study aims to find the best model to predict the outcome of football (1,X,2 - Home Win, Draw, Away Win) games by looking at match data. The data used is put together from the three highest football divisions in England and go back to the year 2005. Multinomial logistic regression is used to model the response variable from the regressors. A best subset regression is used to find the models with the lowest Akaike Information Criterion (AIC). By doing a multicollinearity analysis these models are further examined and the best one is chosen. The results show both expected and unexpected effects that create foundation for future studies. Areas for model improvement include more variables, comparison with the bookmaker’s odds and tests on new test data. The application of the model is in sports betting where it can be used to value multi bets and live odds.
- Published
- 2022
234. Asymptotics for linear spectral statistics of sample covariance matrices
- Author
-
Dörnemann, Nina
- Subjects
Schwache Konvergenz ,Stichprobe ,Statistik ,Hochdimensionale Daten ,510 Mathematik ,Matrix (Mathematik) ,ddc:510 - Abstract
Im Hauptteil dieser Arbeit beschäftigen wir uns mit dem asymptotischen Verhalten linearer Spektralstatistiken von Stichprobenkovarianzmatrizen. Genauer betrachten wir die linearen Spektralstatistiken aus einer sequentiellen Perspektive und führen hierzu die sequentielle Stichprobenkovarianzmatrix ein. Mithilfe der Stieltjes-Methode wird die schwache Konvergenz des Prozesses der zugehörigen linearen Spektralstatistiken hergeleitet. Als statistische Anwendung entwickeln wir ein Monitoringverfahren für die Spährizitätsannahme an Kovarianzmatrizen, womit Strukturbruche in der Kovarianzstruktur hochdimensionaler Daten detektiert werden können. In einem weiteren Teil der Arbeit betrachten wir das Inverse zur Stichprobenkovarianzmatrix, die sogenannte Stichprobenpräzisionsmatrix. Wir etablieren einen zentralen Grenzwertsatz für die Diagonalelemente dieser zufälligen Matrix.
- Published
- 2022
- Full Text
- View/download PDF
235. A collection of identities for variational inference with exponential-family models
- Author
-
Endres, Dominik, Pabst, Kathrin, Eckert, Anna-Lena, and Schween, Raphael
- Subjects
Machine Learning ,Statistics ,Statistik ,FOS: Mathematics ,Variational Inference ,312-01 Mathematik ,Maschinelles Lernen ,110-01 Allgemeine, Kognitive und Mathematische Psychologie - Abstract
This is a collection of identities useful for variational inference with exponential family distributions/densities. All derivations were done by the authors, unless indicated otherwise. This does not imply that the results collected here have not appeared in the literature before. DISCLAIMER: this collection is a work in progress. It is certainly incomplete and probably buggy. Bug-reports and contributions are most welcome.
- Published
- 2022
- Full Text
- View/download PDF
236. Data-Mining – gesellschaftspolitische und rechtliche Herausforderungen : Endbericht zum TA-Projekt
- Author
-
Gerlinger, Katrin
- Subjects
Digitalisierung ,Technology ,Forschung ,Gesundheitswesen ,Medizinprodukt ,Medizin ,Datenverarbeitung ,Medizintechnik ,Künstliche Intelligenz ,Statistik ,Technikfolgenabschätzung ,Data-Mining ,Medizinische Forschung ,ddc:600 - Abstract
Datenanalysetechniken, die in den kontinuierlich größer werdenden Datenbeständen (neue) Strukturen erkennen, werden einerseits vielfältige Innovationspotenziale zugeschrieben, weil wichtige Erkenntnisse gewonnen, Prozessabläufe verbessert sowie Geschäftsideen und Informationsdienste entwickelt werden können. Andererseits werden auch Bedenken geäußert: Die Spanne reicht von intransparenten Abläufen über ungleiche Verwertungsmöglichkeiten abgeleiteter Informationen bis zu Veränderungen des gesellschaftlichen Miteinanders und dem Verlust der Privatheit. Bei der Aufgabe, diese technologische Entwicklung für die Allgemeinheit sinnvoll zu gestalten, ergeben sich vielfältige Herausforderungen, u. a. bezüglich der notwendigen Datenbereitstellung, der Konkretisierung von Möglichkeiten und Grenzen der Datenverwendung, des Umgangs mit den Ergebnissen, der Ausgestaltung von Verantwortungs- und Haftungsfragen sowie damit verbundener Finanzierungs- und Geschäftsmodelle. Nicht alle Herausforderungen sind fundamental neu, denn Daten werden seit langem erfasst und analysiert. In Anbetracht der kontinuierlich größer werdenden Datenbestände, deren vielfältigen Verknüpfungsmöglichkeiten und der analytisch-technischen Entwicklungen erscheint eine Auseinandersetzung mit den Möglichkeiten und Grenzen komplexer Datenanalysen und den damit einhergehenden Folgen jedoch erforderlich. Der Ausschuss für Bildung, Forschung und Technikfolgenabschätzung des Deutschen Bundestages hat das Büro für Technikfolgen-Abschätzung beim Deutschen Bundestag (TAB) mit einer Untersuchung zum Thema Data-Mining beauftragt, die mit diesem Bericht abgeschlossen wird. Im Zentrum der Betrachtung stehen Datenbestände, die im Rahmen öffentlicher Aufgaben erhoben und verarbeitet werden, Analysetechniken, die mit dem Begriff Data-Mining assoziiert werden, sowie das rechtliche Fundament, das Möglichkeiten und Grenzen der Datenanalytik teils allgemein, teils bereichsbezogen definiert. Vertiefend betrachtet werden medizinische und gesundheitssystemische Anwendungsbereiche. Dort werden komplexen Datenanalysen regelmäßig besondere Anwendungspotenziale unterstellt, aber auch Defizite in der Digitalisierung zahlreicher Prozessabläufe und folglich bei der Datenbereitstellung attestiert. Ziel dieses Berichts ist es, den Oberbegriff Data-Mining aus unterschiedlichen Perspektiven zu erschließen und in seiner Vielschichtigkeit darzustellen. Damit soll das Verständnis der Möglichkeiten und Grenzen komplexer Datenanalysen erhöht werden. Anhand von unterschiedlichen Anwendungsbeispielen werden derzeitige Möglichkeiten und Herausforderungen in medizinischen und gesundheitssystemischen Kontexten veranschaulicht.
- Published
- 2022
237. Why has bicycle commuting increased in and out of Stockholm City Centre?
- Author
-
Wehtje, Philip and Delryd, Hugo
- Subjects
sustainable transport ,Cykling ,cykelpendling ,Cycling ,OLS ,statistik ,bicycle commuting ,mode choice ,statistics ,linjär regression ,färdmedelsval ,linear regression ,hållbara transporter ,Sannolikhetsteori och statistik ,Probability Theory and Statistics - Abstract
Denna uppsats försöker identifiera faktorer som förklarar varför cykelpendlingen till och från Stockholms innerstad har ökat mellan 1980 och 2020. Vi bildar och väljer ut tre linjära regressionsmodellerna vilka vi anser vara de bästa modellerna utifrån ett flertal urvalskriterier. Resultaten visar att alla inkluderade variabler är signifikanta i respektive modell. Våra resultat, vilka är i linje med tidigare forskning, visar vidare följande: (a) antalet cykelpendlingsresor har ett positivt samband med cykelinfrastrukturkostnader, vilket tyder på att bättre cykelinfrastruktur gör att fler väljer cykeln till jobbet; (b) antalet cykelpendlingsresor har ett positivt samband med befolkningsstorleken; (c) antalet cykelpendlingsresor har ett positivt samband med trängselskatten, vilket tyder på att en överföring sker där en del bilister byter till cykelpendling p.g.a. trängselskatt; (d) antalet cykelpendlingsresor har ett negativt samband med BNP per capita. Sammanfattningsvis indikerar resultaten att ett flertal faktorer har påverkat antalet cykelpendlingsresor till och från Stockholms innerstad mellan 1980 och 2020. This thesis attempts to identify factors that explain why bicycle commuting in and out of Stockholm City Centre has increased between the years 1980 and 2020. We create and select three linear regression models, which we consider to be the best models based on several selection criteria. Our results show that the included variables in each respective model are significant. Our results, which are in line with previous findings in the literature, moreover, show the following: (a) the number of bicycle commuting trips is positively associated with bicycle infrastructure costs, which indicates that better bicycle infrastructure leads to more people bicycling to work; (b) the number of bicycle commuting trips is positively associated with population size; (c) the number of bicycle commuting trips is positively associated with the congestion tax, which indicates that a modal shift takes place where some motorists switch to bicycle commuting because of the congestion tax; (d) the number of bicycle commuting trips is negatively associated with GDP per capita. In summary, the results indicate that several factors have affected the number of commuting trips by bicycle in and out of Stockholm City Centre between 1980 and 2020.
- Published
- 2022
238. A comparative view on statistical matching
- Author
-
Borsi, Lisa
- Subjects
Amtliche Statistik ,Umfrage ,Statistik ,Matching ,Regressionsmodell - Abstract
Statistical matching offers a way to broaden the scope of analysis without increasing respondent burden and costs. These would result from conducting a new survey or adding variables to an existing one. Statistical matching aims at combining two datasets A and B referring to the same target population in order to analyse variables, say Y and Z, together, that initially were not jointly observed. The matching is performed based on matching variables X that correspond to common variables present in both datasets A and B. Furthermore, Y is only observed in B and Z is only observed in A. To overcome the fact that no joint information on X, Y and Z is available, statistical matching procedures have to rely on suitable assumptions. Therefore, to yield a theoretical foundation for statistical matching, most procedures rely on the conditional independence assumption (CIA), i.e. given X, Y is independent of Z. The goal of this thesis is to encompass both the statistical matching process and the analysis of the matched dataset. More specifically, the aim is to estimate a linear regression model for Z given Y and possibly other covariates in data A. Since the validity of the assumptions underlying the matching process determine the validity of the obtained matched file, the accuracy of statistical inference is determined by the suitability of the assumptions. By putting the focus on these assumptions, this work proposes a systematic categorisation of approaches to statistical matching by relying on graphical representations in form of directed acyclic graphs. These graphs are particularly useful in representing dependencies and independencies which are at the heart of the statistical matching problem. The proposed categorisation distinguishes between (a) joint modelling of the matching and the analysis (integrated approach), and (b) matching subsequently followed by statistical analysis of the matched dataset (classical approach). Whereas the classical approach relies on the CIA, implementations of the integrated approach are only valid if they converge, i.e. if the specified models are identifiable and, in the case of MCMC implementations, if the algorithm converges to a proper distribution. In this thesis an implementation of the integrated approach is proposed, where the imputation step and the estimation step are jointly modelled through a fully Bayesian MCMC estimation. It is based on a linear regression model for Z given Y and accounts for both a linear regression model and a random effects model for Y. Furthermore, it yields its validity when the instrumental variable assumption (IVA) holds. The IVA corresponds to: (a) Z is independent of a subset X’ of X given Y and X*, where X* = X\X’ and (b) Y is correlated with X’ given X*. The proof, that the joint Bayesian modelling of both the model for Z and the model for Y through an MCMC simulation converges to a proper distribution is provided in this thesis. In a first model-based simulation study, the proposed integrated Bayesian procedure is assessed with regard to the data situation, convergence issues, and underlying assumptions. Special interest lies in the investigation of the interplay of the Y and the Z model within the imputation process. It turns out that failure scenarios can be distinguished by comparing the CIA and the IVA in the completely observed dataset. Finally, both approaches to statistical matching, i.e. the classical approach and the integrated approach, are subject to an extensive comparison in (1) a model-based simulation study and (2) a simulation study based on the AMELIA dataset, which is an openly available very large synthetic dataset and, by construction, similar to the EU-SILC survey. As an additional integrated approach, a Bayesian additive regression trees (BART) model is considered for modelling Y. These integrated procedures are compared to the classical approach represented by predictive mean matching in the form of multiple imputations by chained equation. Suitably chosen, the first simulation framework offers the possibility to clarify aspects related to the underlying assumptions by comparing the IVA and the CIA and by evaluating the impact of the matching variables. Thus, within this simulation study two related aspects are of special interest: the assumptions underlying each method and the incorporation of additional matching variables. The simulation on the AMELIA dataset offers a close-to-reality framework with the advantage of knowing the whole setting, i.e. the whole data X, Y and Z. Special interest lies in investigating assumptions through adding and excluding auxiliary variables in order to enhance conditional independence and assess the sensitivity of the methods to this issue. Furthermore, the benefit of having an overlap of units in data A and B for which information on X, Y, Z is available is investigated. It turns out that the integrated approach yields better results than the classical approach when the CIA clearly does not hold. Moreover, even when the classical approach obtains unbiased results for the regression coefficient of Y in the model for Z, it is the method relying on BART that over all coefficients performs best. Concluding, this work constitutes a major contribution to the clarification of assumptions essential to any statistical matching procedure. By introducing graphical models to identify existing approaches to statistical matching combined with the subsequent analysis of the matched dataset, it offers an extensive overview, categorisation and extension of theory and application. Furthermore, in a setting where none of the assumptions are testable (since X, Y and Z are not observed together), the integrated approach is a valuable asset by offering an alternative to the CIA.
- Published
- 2022
- Full Text
- View/download PDF
239. Nichtparametrische Varianzschätzung
- Author
-
Zhang, Jiachun and Holzmann, Hajo (Prof. Dr. )
- Subjects
Nonparametric Statistics ,Heteroskedastisches nichtparametrisches Regressionsmodell ,Mathematik ,Statistik ,FOS: Mathematics ,heteroscedastic nonparametric regression model ,Nichtparametrische Statistik ,ddc:510 ,Varianzschätzung ,variance estimation ,Mathematics - Abstract
Im heteroskedastischen nichtparametrischen Regressionsmodell mit unbekanntem Erwartungswert f und Varianz V werden Probleme bezueglich der Varianz V untersucht. Im ersten Teil dieser Dissertation wird davon ausgegangen, dass die Varianz V Hoelder-stetig ist. Eine obere Schranke fuer das gleichmaessige Risiko mit einem linearen Schaetzer wird abgeleitet, wobei die Gausssche Approximation der Partialsummen unter Abhaengigkeit aus Berkes et al. (2014) und das Dudleys Theorem aus van der Vaart and Wellner (1996) genutzt werden. Gleichmaessige Bootstrap-Konfidenzbaender werden konstruiert und ihre asymptotisch korrekte Ueberdeckungswahrscheinlichkeit wird durch die Antikonzentrationsungleichung von Chernozhukov et al. (2014) verifiziert. Die asymptotische Normalitaet wird durch den zentralen Grenzwertsatz von Lindeberg-Feller fuer m-abhaengige Variablen hergestellt, der von Janson (2021) bewiesen wird. In der Simulation werden zuerst die Resultate fuer die gleichmaessige Konvergenzrate und die gleichmaessigen Bootstrap-Konfidenzbaender mit der Orakel-Bandbreite dargestellt. Durch die Anwendung des Zwei-Schritte-Algorithmus von Bissantz et al. (2007) zur Auswahl der Bandbreite sowie einem zusaetzlichen Kalibrierungsprozess koennen zufriedenstellende Ergebnisse der gleichmaessigen Konfidenzbaender in endlichen Stichproben erhalten werden. Der zweite Teil beschaeftigt sich mit dem Fall eines Sprunges (Kink) in der Varianzfunktion V oder einer ihrer Ableitungen. Die Zero-Crossing-Time-Technik, die in Bengs and Holzmann(2019a) angewendet wird, wird auf die Varianzfunktion V uebertragen, um das punktweise Risiko fuer die Position und Groesse des Kinks zu ermitteln. Fuer die untere Schranke werden das Two-Point-Testing-Argument aus Tsybakov (2009) sowie die Moment-Matching-Technik aus Wang et al. (2008) angewendet, um die optimale Konvergenzrate abzuleiten. Die asymptotische Normalitaet fuer die Schaetzer der Position und Groesse des Kinks wird durch den zentralen Grenzwertsatz von Lindeberg-Feller fuer m-abhaengige Variablen - bewiesen von Janson (2021) - hergestellt. Im dritten Teil wird das heteroskedastische nichtparametrische Regressionsmodell in der Funktionaldatenanalyse (FDA) betrachtet, wobei unabhaengige Kopien des Zufallprozesses Z im Modell beteiligt sind. Unter Verwendung eines linearen Schaetzers, der durch die differenz-basierte Methode aus Wang et al. (2008) konstruiert wird, wird eine obere Schranke fuer das gleichmaessige Risiko der Varianz des zufaelligen Rauschens hergeleitet. Dazu werden die Gausssche Approximation der Partialsummen unter Abhaengigkeit aus Berkes et al. (2014) und das Dudleys Theorem aus van der Vaart and Wellner (1996) verwendet. Die gleichmaessige Konvergenzrate wird durch eine numerische Simulation bestaetigt, wobei die Fehlerzerlegung mit der Orakel-Bandbreite dargestellt wird. Zufriedenstellende Ergebnisse in endlichen Stichproben koennen mittels K-Fold Crossvalidations und des Zwei-Schritte-Algorithmus von Bissantz et al. (2007) erreicht werden., For the heteroscedastic nonparametric regression model with unknown mean function f and variance function V, problems regarding the variance function V are considered. In the first part of this dissertation, assuming the variance function V is Hoelder continuous, an upper bound on uniform error rate for a linear estimator is derived, using Gaussian approximation of partial sums under dependency results from Berkes et al. (2014), and Dudley's entropy bound as in van der Vaart and Wellner (1996). Bootstrap uniform confidence bands are also constructed and their asymptotically correct coverage property is verified through anti-concentration inequality by Chernozhukov et al. (2014). The asymptotic normality is established through the Lindeberg-Feller central limit theorem for m-dependent variables by Janson (2021). In the simulation study, the theorem of uniform rate and bootstrap confidence bands are first illustrated with oracle bandwidth. Using the two-step algorithm proposed by Bissantz et al. (2007) for bandwidth selection as well as an additional calibration process, one can obtain satisfactory performance of uniform confidence bands in finite samples. In the second part, we consider the case where a discontinuity point (kink) on the variance function V or its derivative is present. The zero-crossing-time technique used in Bengs and Holzmann (2019a) is applied to the variance function V, to study the pointwise error of kink location and size. For the lower bounds, the two-point testing argument in Tsybakov (2009) and the moment matching technique in Wang et al. (2008) are employed, to derive the optimal rate of convergence. The asymptotic normality for kink location and size estimators is established through the Lindeberg-Feller central limit theorem for m-dependent variables by Janson (2021). In the third part, the heteroscedastic nonparametric regression model in functional data analysis (FDA) is considered, where independent copies of the random process Z are involved in the model. Using a linear estimator constructed through difference-based method from Wang et al. (2008), an upper bound on uniform error rate for random noise variance V is derived, using Gaussian approximation of partial sums under dependency results from Berkes et al. (2014), and Dudley's entropy bound as in van der Vaart and Wellner (1996). The uniform error rate is confirmed by numerical results with error decomposition using oracle bandwidth. Applying K-fold crossvalidation and the two-step algorithm proposed by Bissantz et al. (2007), the estimator shows satisfactory performance in finite samples.
- Published
- 2022
240. Data-Mining – gesellschaftspolitische und rechtliche Herausforderungen. TAB-Fokus
- Author
-
Gerlinger, Katrin
- Subjects
Digitalisierung ,Technology ,Forschung ,Gesundheitswesen ,Medizinprodukt ,Medizin ,Datenverarbeitung ,Medizintechnik ,Künstliche Intelligenz ,Statistik ,Data-Mining ,Medizinische Forschung ,ddc:600 - Abstract
Data-Mining steht für die Erkennung von Mustern und Strukturen in Datenbeständen. Generiert werden sowohl Informationen, z. B. zu Ähnlichkeiten, Abweichungen oder Auffälligkeiten, als auch mathematisch-statistische Modelle und Algorithmen, die in neuen Situationen des gleichen Sachverhalts eingesetzt werden können, um Entscheidungen zumindest zu unterstützen. Data-Mining werden große Innovationspotenziale in nahezu allen Lebensbereichen zugeschrieben. Bedenken gibt es wegen intransparenter Vorgehensweisen sowie ungleicher Verwertungsmöglichkeiten. Befürchtungen reichen bis zum Ende der Privatheit oder zur Unkontrollierbarkeit algorithmischer Systeme. Herausforderungen gibt es u. a. bei der Datenbereitstellung, der Konkretisierung der Möglichkeiten und Grenzen der Analyse sowie beim Umgang mit den Ergebnissen. Umfangreiche Fachkenntnisse sind für die Durchführung, Prüfung und Überwachung erforderlich. Folgeabschätzungen und Bewertungen sollten anwendungsbezogen erfolgen. Im gleichnamigen TAB-Bericht (siehe Relation in KITopen) werden Data-Mining-Beispiele in der Medizin und im Gesundheitssystem diskutiert.
- Published
- 2022
241. Ergänzung, Spezifikation oder Ersatz des 'Migrationshintergrundes' und damit verbundene Folgen
- Author
-
Kemper, Thomas
- Subjects
Migrationshintergrund ,Begriffsbestimmung ,Erziehung, Schul- und Bildungswesen ,Statistics ,Studie ,Einwanderung ,Definitions ,370 Erziehung, Schul- und Bildungswesen ,Education ,Bildungssoziologie ,ddc:370 ,Operationalisierung ,FOS: Mathematics ,Statistik ,Migration background ,Empirische Bildungsforschung ,Debatte ,370 Education ,Immigrant background ,Datenerhebung ,Migration - Abstract
Berlin : Rat für Migration e.V. 2022, 15 S. - (RfM-Debatte; 2022), Kommentiert wird die aktuelle Debatte hinsichtlich der Messung von Migration – wonach etwa vorgeschlagen wird, nicht mehr den ‚Migrationshintergrund‘, sondern ausschließlich ‚Eingewanderte‘ zu erfassen, insbesondere jedoch solle der ‚Migrationshintergrund‘ durch die Erhebung von subjektiver Selbstwahrnehmung und selbstwahrgenommener Fremdzuschreibung ersetzt werden. Der Beitrag diskutiert u.a. die zentrale Frage, ob die Messung des ‚Migrationshintergrundes‘ obsolet wird und welche Konsequenzen mit dessen Nicht-Erhebung u.a. für verschiedene Statistiken und Studien verbunden wären. In diesem Zusammenhang wird knapp auf die Funktion des Konstrukts ‚Migrationshintergrund‘ eingegangen und es werden Vorschläge hinsichtlich der Operationalisierung und zu möglichen Alternativbegriffen gemacht. (Autor)
- Published
- 2022
242. Statistična anksioznost pri študentih in povezani dejavniki
- Author
-
Levpuscek Puklek, Melita and Cukon, Maja
- Subjects
Mathematics Achievement ,Erziehung, Schul- und Bildungswesen ,education ,Slovenia ,Angst ,Self concept ,Fragebogen ,Anxiety ,Einflussfaktor ,Geschlechtsspezifischer Unterschied ,Education ,Questionnaire survey ,ddc:370 ,Slowenien ,Statistik ,Fragebogenerhebung ,Empirische Bildungsforschung ,Male student ,Hochschulforschung und Hochschuldidaktik ,Studienfach ,Gender-specific difference ,Questionnaire ,Statistics ,Mathematische Kompetenz ,Subject of study ,Validität ,Mathematics skills ,%22">Einstellung ,Student ,Selbstkonzept - Abstract
The present study investigated relationships between statistics anxiety (SA), trait anxiety, attitudes towards mathematics and statistics, and academic achievement among university students who had at least one study course related to statistics in their study programme. Five hundred and twelve students from the University of Ljubljana completed the Statistics Anxiety Rating Scale (STARS), State-Trait Anxiety Inventory, and answered questions about their perceptions of mathematics and statistics. The results showed below-average mean scores on the STARS dimensions, except for the Test and Class Anxiety with the average score around the midpoint of the scale. Female students reported higher levels of SA than male students did. The highest levels of SA were reported by students who perceived mathematics and statistics as a threat. The subscales of the STARS correlated positively with students’ trait anxiety. Students who reported less enjoyment in mathematics in high school perceived statistics to be a less worthy subject and had a lower computation self-concept. Students who had better mathematics performance in high school and higher average study grades also reported a higher computation self-concept. In the present study, we translated the STARS questionnaire into Slovenian and confirmed the six-factor structure of the questionnaire. The results provide a basis for further research on statistics anxiety and further validation of the STARS questionnaire. The results can also aid statistics teachers in better understanding students’ worries, fears, and attitudes towards statistics and in learning about the factors that affect students’ statistics anxiety and their work in the course. (DIPF/Orig.)
- Published
- 2022
243. Looking for human capital in the long-run: historical education data and its use in economics and economic history
- Author
-
Wüthrich, Gabi, University of Zurich, Oberdorf, Andreas, and Wüthrich, Gabi
- Subjects
Digitalisierung ,Technological development ,Erziehung, Schul- und Bildungswesen ,Digitale Informationsspeicherung ,Denmark ,Economic history ,Literatur ,370 Erziehung, Schul- und Bildungswesen ,Stapfer ,Education ,ddc:370 ,Humankapital ,10007 Department of Economics ,Medienpädagogik ,Schweiz ,FOS: Mathematics ,Statistik ,Human capital ,Historische Bildungsforschung ,Wirtschaftsgeschichte ,Norwegen ,Data ,Stapfer, Philipp Albert ,Norway ,Statistics ,Dänemark ,Digitalization ,Economy ,Daten ,330 Economics ,Philipp Albert ,Literature ,History of education ,History of educational activities ,370 Education ,digitale Informationsspeicherung ,Bildungsgeschichte ,Switzerland - Abstract
The article first gives an overview of how education has shaped economic theory regarding the concept of human capital, and its fruitful application in economic history studies on educational development in the past few years. It then outlines the methodology generally used in quantitative econometric and cliometric analyses, and the data usually used in them – as well as their respective pitfalls. Next, two current digitisation projects in economic history focusing on education – one from an editor’s and the other from a user’s perspective – are presented, before finishing with a “wish list” for the ideal digitised source and a short conclusion. (DIPF/Orig.), Der Beitrag befasst sich mit der Nachnutzung bildungshistorischer Daten in der Wirtschaftsgeschichte, vor allem von Schulstatistiken aus Dänemark, Norwegen und der Schweiz. Die Autorin erläutert dabei die Vorzüge, die sich aus der digitalen Bereitstellung bildungshistorischer Ressourcen ergeben, und zwar sowohl für die Bildungs- als auch für die Wirtschaftsgeschichte. (DIPF/Orig.)
- Published
- 2022
- Full Text
- View/download PDF
244. En analys om hur förändringar i råvarupriser påverkar prestationen för svenska industriföretag
- Author
-
Rippe, Albin and Oksanen, Henrik
- Subjects
Commodities ,gross profits ,Svensk industri ,Statistics ,volatility ,statistik ,Applied mathematics ,Volatilitet ,Råvaror ,TIllämpad matematik ,brent oil ,regression analysis ,price changes ,Swedish industry ,Bruttovinster ,Prisförändringar ,regressionsanalys ,Sannolikhetsteori och statistik ,platinum ,Probability Theory and Statistics - Abstract
The relationship between performance for the Swedish industry and changesin prices and volatility of commodities has been examined using multiple linearregression. The study focuses on how commodity price fluctuations correlate withgross profit growth, measuring company performance. Gross profit as a performancemeasure is contrary to most previous studies that use stock performance as thedependent variable. This study has found two commodities whose prices have asignificant relationship with changes in gross profit for the Swedish industry sector,Brent oil, and platinum. The correlation with Brent oil is the most reliable one.Surprisingly, Brent oil has a positive relationship with gross profit, even thougha higher oil price is causing more expensive logistics and manufacturing operations,increasing costs of sold goods. This indicates a possible correlation between oil priceand demand for manufactured products; industrial companies can either increaseprices or produce at a high capacity. Regarding the volatility of commodities, nosignificant correlation with gross profits has been found. Med multipel linjär regression undersöks relationen mellan prestation hos svenska industriföretag och förändringar i priser och volatilitet hos råvaror. Studien fokuserar på hur prisfluktuationer för råvaror korrelerar med bruttovinst, vilket väljs som prestationsmått. Det skiljer sig från majoriteten av tidigare studier där avkastning på aktier har varit den beroende variabeln. Denna studien har hittat stöd för att priset på två råvaror har en signifikant korrelation med förändringar i bruttovinst för den svenska industrin. Nämligen Brent olja och platinum, varav Brent olja har en betydligt pålitligare korrelation. Brent olja har ett positivt förhållande med bruttovinst, vilket är förvånande då dyrare olja innebär ökade kostnader kopplade till logistik och tillverkning. Något som ökar kostnaden för sålda varor. Detta indikerar att ett ökad pris på olja borde korrelera med en hög efterfrågan på tillverkade produkter, så att industriföretagen kan öka sina priser och/eller tillverka fler varor när oljan ökar i pris. Vad gäller volatilitet på råvaror har det inte hittats någon significant korrelation med bruttovinst.
- Published
- 2022
245. Minimera den potentiella förlusten genom att optimera ordningen av leveransmetoder inom e-handel med maskininlärning
- Author
-
Ay, Jonatan and Azrak, Jamil
- Subjects
tillämpad matematisk statistik ,Computational Mathematics ,machine learning ,maskininlärning ,statistics ,Beräkningsmatematik ,e-handel ,applied mathematics ,e-commerce ,statistik - Abstract
The shopping industry is rapidly changing as the technology is advancing. This is especially true for the online industry where consumers are nowadays able to to shop much of what the need over the internet. In order to make the shopping experience as smooth as possible, different companies develops their sites and checkouts to be as friction-less as possible. In this thesis, the shipping module of Klarnas checkout was analyzed and different models were created to get an understanding of how the likelihood of a customer finalizing a purchase (conversion rate) could be improved. The shipping module consists of a number of shipping methods along with shipping carriers. Currently, there is no logic to sort the different shipping method/carriers other than a static ordering for all customers. The order of the shipping methods and carriers are what were investigated in the thesis. Hence, the core problem is to understand how the opportunity loss could be minimized by a different ordering of the shipping methods, where the opportunity loss are derived by the reduction in conversion rate between the control group (current setup) and a new model. To achieve this, a dataset was prepared and features were engineered in such a way that the same training and test datasets could be used in all algorithms. The features were engineered using a point-in-time concept so that no target leakage would be present. The target that was used was a plain concatenation of shipping method plus the shipping carrier. Finally, three different methods tackling this multiclass classification problem were investigated, namely Logistic Regression, Extreme Gradient Boosting and Artificial Neural Network. The aim of these algorithms is to create a learner that has been trained on a given dataset and that is able to predict the combination of shipping method plus carrier given a certain set of features. By the end of the investigation, it was concluded that using a model to predict the most relevant shipping method (plus carrier) for the customer made a positive difference on the conversion rate and in turn, the increase in sales. The overall accuracy of the Logistic Regression was 65.09%, 71.61% for the Extreme Gradient Boosting and 70.88% for the Artificial Neural Network. Once the models were trained, they were used in a back-simulation (that would be a proxy for an A/B-test) on a validation set to see the effect on the conversion rate. Here, the results showed that the conversion rate was 84.85% for the Logistic Regression model, 84.95% for the Extreme Gradient Boosting and 85.02% for the Artificial Neural Network. The control group which was a random sample of the current logic had a conversion rate of 84.21%. Thus, implementing the Artificial Neural Network would increase Klarnas sales by about 6.5 SEK per session. Detaljhandelsindustrin förändras i en snabb takt i samband med att teknologin utvecklas. Detta är speciellt fallet för näthandeln där konsumenter numer har möjligheten att handla i stort sett allt de behöver över internet. För att göra köpupplevelsen så smidig som möjlig utvecklar olika bolag deras hemsidor och online kassor så att de innehåller så lite friktion som möjligt. I denna avhandling utreddes Klarnas leveransmodul som är en den av Klarnas onlinekassa (Checkout). Här utvecklades flera modeller och analyserades för att få en förståelse för hur sannolikheten att kunden slutför ett köp (konverterinsgrad) kunde ökas. Leveransmodulen består av ett flertalet leveransmetoder tillsammans med en leverantör. I dagsläget finns det ingen logik för att sortera dessa metoder annat än en statisk sortering för alla kunder. Ordningen på leveransmetoderna och leverantörerna är alltså vad som utreddes. Kärnproblemet i denna avhandling är alltså att förstå hur den potentiella förlusten av att ha en suboptimal sortering, där den potentiella förlusten härleds av minskningen av konverteringsgraden mellan den nuvarande lösningen och en ny modell. För att uppnå detta förbereddes ett dataset och variabler skapades på sådant vis att både tränings och test datan kunde användas för samtliga algoritmer. Variablerna skapades med en Point-in-time koncept så att ingen ogiltig information skulle komma med. Målvariabeln, eller den beroende variabeln, var en enkel ihopslagning av leveransmetoden plus leverantörens namn. Sedan användes tre algoritmer för att tackla detta multiklass klassifikationsproblem, nämligen Logistisk Regression, Extreme Gradient Boosting samt ett Artificiellt Neuralt Nätverk. Målet med dessa algoritmer är att skapa en modell som tränats på ett givet dataset och som kan förutspå kombinationen av leveransmetod plus leverantör givet ett bestämt set av värden på variablerna. I slutet av utredningen drogs slutsatsen att en modell, som kunde förutspå den mest relevanta leveransmetoden (plus leverantör) för kunden, hade en positiv inverkan på konverteringsgraden och i sin tur ökningen i försäljning. Noggrannheten för den Logistiska Regressionen var 65.09%, för Extreme Gradient Boosting var den 71 69% och för det Artificiella Neurala Nätverket var den 70.88%. Efter att modellerna tränats användes de i en simulering (som skulle representera ett A/B-test) på ett valideringsset för att förstå effekten på konverteringsgraden. Här visade resultaten att konverteringsgraden var 84.55% för Logistiska Regressionen, 84.95% för Extreme Gradient Boosting samt 85.02% för det Artificiella Neurala Nätverket. Kontrollgruppen som bestod av slumpmässigt valda rader från den nuvarande logiken hade en konvertingsgrad på 84.21%. Detta innebar alltså att om det Artificiella Neurala Nätverket hade implementerats, så hade det ökat Klarnas försäljning med ca 6.5 SEK per session.
- Published
- 2022
246. WSI Arbeitskampfbilanz 2021: Normalisierung des Arbeitskampfgeschehens im zweiten Jahr der Corona-Pandemie
- Author
-
Frindert, Jim, Dribbusch, Heiner, and Schulten, Thorsten
- Subjects
Coronavirus ,Konjunktur/Finanzmärkte ,ddc:330 ,Statistik ,Wirtschaft ,Branchenentwicklungen ,Deutschland ,Arbeitskampf - Abstract
Trotz anhaltender Pandemie normalisierte sich 2021 im Vergleich zum Vorjahr das bundesdeutsche Tarifgeschehen. In der Folge erreichte auch das Arbeitskampfgeschehen wieder das Niveau der Vor-Corona-Jahre. Das Arbeitskampfvolumen lag 2021 mit rund 590.000 arbeitskampfbedingten Ausfalltagen im Vergleich der vergangenen 15 Jahre im oberen Mittelfeld. Zwar bestanden weiterhin erschwerende Rahmenbedingungen für die Durchführung von Streiks, allerdings hatte dies anders als noch 2020, als lediglich 157 Arbeitskämpfe stattgefunden haben, keinen spürbaren Einfluss auf die Anzahl der Tarifkonflikte mit Streikfolge: Nach der Schätzung des WSI waren 2021 rund 917.000 Streikteilnehmer*innen an insgesamt 213 Arbeitskämpfen beteiligt. Wie sich die Wirtschaftslage in Deutschland angesichts der durch den Krieg in der Ukraine bedingten Verwerfungen entwickeln wird, ist im Frühjahr 2022 schwer vorherzusehen. Prognostizierte Inflationsraten von 6 bis 8 Prozent belasten die Tarifrunden. Inwieweit sich dies insgesamt auf das Arbeitskampfgeschehen im Jahr 2022 auswirken wird, bleibt abzuwarten.
- Published
- 2022
247. Faktorer som påverkar hur mycket kvinnor och män investerar
- Author
-
Hamadi, Marie and Vashchuk, Bogdana
- Subjects
jämlikhet ,statistics ,linjär regression ,tillämpad matematik ,linear regression ,applied mathematics ,investment ,Sannolikhetsteori och statistik ,statistik ,equality ,investeringar ,Probability Theory and Statistics - Abstract
A popular type of investments are financial investments. Even though the Swedish society aspires for equality, there are still financial differences between the sexes. This thesis project focuses on what factors that affect the amount that women and men invest in stocks. The aim is to obtain a deeper knowledge about the investment market and how it appears for women and men. The reason for this is to raise awareness about the inequality issue when it comes to the low representation of females in the investment market. The objective for this project is to produce two models where one of them is for women and the other one for men. Those models have equal regressors: inflation, GDP growth, OMX Stockholm Price Index, average income per year and eight different age groups. The response variable is the average portfolio value for a specific age group at respective model. The data is taken mainly from Swedish Statistical Central Bureau, but is also gathered from NASDAQ, as well as the World Bank. The data is collected between the years 2000 to 2020. The models are firstly evaluated at their full model, meaning that all regressors are included. The women's model shows a considerably good fitting, since almost all regressors are significant with low p-values along with a Multiple R-squared at 0.773 and Adjusted R-squared at 0.757. However, improvements can be made since outliers need to be removed, and the regressor income hold multicollinearity. Men's full model has a poor performance with fewer significant regressors and lower Multiple and Adjusted R-squared. Both models are then transformed, with applied square root of inflation at both models, and the square of income at men's model. To determine the reduced model, variable selection is implemented. With Best Subset Selection, women's model includes OMX, GDP, income, age group 1, age group 6, age group 7 and age group 8. On the other hand, men's model has the regressors GDP, income, age group 1, age group 2, age group 3, age group 4, age group 5 and age group 7. Both these models perform much better where all the regressors had significant p-values and satisfactory Model Assumptions plots. In addition, no multicollinearity exists in the models. In conclusion, both the reduced models are chosen for final models. Proposed further research within this topic is to include more appropriate regressors that may affect the portfolio value as well as to compare with other countries and include real investment instead of just financial investments. En vanlig typ av investeringar är finansiella investeringar. I Sverige råder finansiella skillnader mellan könen trots att Sverige eftersträvar jämställdhet. Detta projekt fokuserar på vilka faktorer som påverkar den mängd kvinnor och män investerar i finansiella investeringar, däribland aktier. Syftet är att öka medvetenheten kring jämställdhetsfrågan när det kommer till den låga representationen av kvinnor på investeringsmarknaden. Projektets mål är att skapa två modeller där ena är en modell för kvinnor och den andra är en modell för män. Dessa två modeller har likvärdiga regressorer vilket är inflation, BNP, OMX Stockholm Price Index, medelinkomst per år, samt åtta olika åldersgrupper. Responsvariabeln är medelportföljvärde för respektive åldersgrupp för varje modell. Datainsamlingen är främst från Sveriges Statistiska Centralbyrå, men också NASDAQ och Världsbanken. Datat är insamlat från år 2000 till år 2020. Först, utvärderas de fulla modellerna som inkluderar alla möjliga regressorer. Modellen för kvinnor visar sig vara hyfsad eftersom nästan alla regressorer är signifikanta med låga p-värden samt ett Multiple R-squared på 0.773 och ett Adjusted R-squared på 0.757. Emellertid, behöver förbättringar åstadkommas eftersom extremvärden ska tas bort samt att multikollinearitet upptäcks för regressorn inkomst. Den initiala modellen för män presterar ogynnsamt med låga Multiple och Adjusted R-squared och därtill färre signifikanta regressorer. Båda modellerna behöver transformationer. För kvinnomodellen appliceras roten ur inflation och för mäns modell används roten ur inflation men också inkomst upphöjt med två. Vidare, bestäms de reducerade modellerna genom så kallad variable selection. Med utövandet av metoden Best Subset Selection har modellen för kvinnor regressorerna: OMX, BNP, inkomst, åldersgrupp 1, åldersgrupp 6, åldersgrupp 7 och åldersgrupp 8. Modellen för män får kombinationen: BNP, inkomst, åldersgrupp 2, åldersgrupp 3, åldersgrupp 4, åldersgrupp 5 och åldersgrupp 7. Bägge dessa modeller presterar bättre då alla regressorer har signifikanta p-värden och visar lämpliga grafer som granskar modelluppbyggnadsantaganden. Därför är båda dessa modellerna fördelaktiga och väljs som finala modeller. För vidare forskning inom detta ämne skulle det vara relevant att inkludera fler lämpliga regressorer i modellerna som kan påverka portföljvärdet samt att jämföra med andra länder. Dessutom, kan det vara intressant att inberäkna reala investeringar istället för endast finansiella investeringar.
- Published
- 2022
248. The Survey-Statistical Background of the Austrian SARS-CoV-2 Prevalence Studies
- Author
-
Allmesberger, Lisa Marie
- Subjects
Statistics ,Statistik ,COVID-19 - Abstract
COVID-19 is a highly contagious and infectious disease that has developed into a pandemic in a very short time. In order to be able to take appropriate political, economic and social measures, it is important to know where and how many people are infected with this virus. How many people are actually infected at a specific point in time should be answered with the help of this thesis. There are two groups of infected people. One group is detected by test methods and the other group are people who are infected but not detected by suitable tests. The latter group represents the number of unreported cases of the corona infected population. Its calculation is described in this thesis for several studies from Statistics Austria. Furthermore, a simulation study is conducted using the original data set of the latest of these studies. submitted by Lisa Marie Allmesberger, BSc Masterarbeit Universität Linz 2022
- Published
- 2022
249. Goodness of fit tests for random multigraph models
- Author
-
Termeh Shafie
- Subjects
Statistics and Probability ,soziales Netzwerk ,Modell ,Sociology & anthropology ,Aggregation ,Allgemeine Soziologie, Makrosoziologie, spezielle Theorien und Schulen, Entwicklung und Geschichte der Soziologie ,Statistik ,statistical test ,General Sociology, Basic Research, General Concepts and History of Sociology, Sociological Theories ,Social sciences, sociology, anthropology ,Network model ,multivariate networks ,data aggregation ,random multigraphs ,goodness of fit ,random stub matching ,Erhebungstechniken und Analysetechniken der Sozialwissenschaften ,Sozialwissenschaften, Soziologie ,model ,statistischer Test ,Daten ,Netzwerk ,Methods and Techniques of Data Collection and Data Analysis, Statistical Methods, Computer Methods ,data ,Soziologie, Anthropologie ,statistics ,network ,ddc:300 ,social network ,Statistics, Probability and Uncertainty ,ddc:301 - Abstract
Goodness of fit tests for two probabilistic multigraph models are presented. The first model is random stub matching given fixed degrees (RSM) so that edge assignments to vertex pair sites are dependent, and the second is independent edge assignments (IEA) according to a common probability distribution. Tests are performed using goodness of fit measures between the edge multiplicity sequence of an observed multigraph, and the expected one according to a simple or composite hypothesis. Test statistics of Pearson type and of likelihood ratio type are used, and the expected values of the Pearson statistic under the different models are derived. Test performances based on simulations indicate that even for small number of edges, the null distributions of both statistics are well approximated by their asymptotic χ2-distribution. The non-null distributions of the test statistics can be well approximated by proposed adjusted χ2-distributions used for power approximations. The influence of RSM on both test statistics is substantial for small number of edges and implies a shift of their distributions towards smaller values compared to what holds true for the null distributions under IEA. Two applications on social networks are included to illustrate how the tests can guide in the analysis of social structure.
- Published
- 2022
- Full Text
- View/download PDF
250. Prediktionsmetoder för högdimensionella data med censurerade kovariater
- Author
-
Svahn, Caroline
- Subjects
machine learning ,maskininlärning ,statistics ,Sannolikhetsteori och statistik ,statistik ,censurerade kovariater ,censored covariates ,Probability Theory and Statistics - Abstract
While access to data steadily increases, not all data are straight-forward to use for prediction. Censored data are common in several industrial scenarios, and typically arise when there are some limitations to measuring equipment such as for instance concentration measuring equipment in chemistry or signal receivers in signal processing. In this thesis, we take several angles to censored covariate data for prediction problem. We explore the impact on both covariates and the response when the censored covariates are imputed. We consider linear approaches as well as non-linear approaches, and we explore how both frequentist models as well as Bayesian models perform with censored covariate data. While the focus is using the imputed covariate data for prediction, we also investigate model parameter inference and uncertainty inferred by the imputations. We use real, censored covariate telecommunications data for prediction with some of the most commonly used prediction models and evaluate the performance when single imputations are made. We propose a selective multiple imputation approach which is suitable for high dimensional data that perform well with heavy censoring. We take a Bayesian linear regression approach leveraging information from auxiliary variables using multivariate regression and introduce multivariate draws from conditional distributions to update censored values in the covariates. We fnally offer a bridge between the fexibility of Neural Networks and the probabilistic nature of Bayesian methods by taking a Variational Autoencoder approach and introducing Zero-Infated Truncated Gaussian likelihoods for the covariates to better ft the censored distributions. I många industriella sammanhang finns stora mängder data att tillgå. Dessa data är dock ofta inkompletta, och strategier behövs för kunna nyttja data på bästa sätt när de används för prediktion. Mycket forskning har fortgått för att hantera saknade data i responsvariabeln, den variabel som ska predikteras, medan mindre forskning inriktats på saknade värden i kovariater, variablerna som används för att prediktera responsvariabeln. Ännu mindre forskning har fokuserat på så kallade censurerade data. Censurerade data är ett specialfall av saknade data där data är partiellt observerat, men som inte kan observeras fullt då exempelvis värden under en specifik tröskel inte går att mäta. Detta är vanligt i exempelvis signaldata, där mottagaren av signalen har en undre gräns för hörbarhet. I denna avhandling bidrar vi till forskning för censurerade kovariater i prediktionsmodeller genom att introducera strategier som är snabbare och kan hantera mer komplexa beroenden i data än befintliga metoder. Vi angriper problemet från flertalet vinklar, och detta arbete presenterar metoder för att både kunna prediktera data, återställa de censurerade värdena och parametrar från datagenereringsprocessen med god precision. Vi ställer olika traditionella metoder mot varandra och utvärderar hur enkla metoder för att ersätta, så kallat imputera, censurerade värden påverkar osäkerheten i prediktioner och presenterar alternativ till att ta specifika beslut under stor osäkerhet. Vi visar att det kan vara en fördel att vid tung censurering inte imputera alla censurerade värden och på så sätt åstadkomma kortare beräkningstider. Vi presenterar hur man kan använda beroenden mellan kovariater för att åstadkomma mer effektiva beräkningar och mer precisa imputationer. Slutligen visar vi hur man kan ändra antaganden för sannolikhetsfördelningarna för censorerad data för att kunna imputera med bättre precision. Vi gör detta med en metod som är snabb, flexibel för komplexa data och som kan generera skattningar på osäkerhet.
- Published
- 2022
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.