Back to Search Start Over

Universal grammar features for cross-language authorship attribution

Authors :
Murauer, Benjamin
Murauer, Benjamin
Publication Year :
2022

Abstract

In der digitalen Forensik als auch in der akademischen Forschung zur natürlichen Sprache ist die Fragestellung der automatischen Feststellung der Urheberschaft von Dokumenten ein relevantes Thema. Dabei werden stilistische Merkmale von Autor:innen analysiert, anhand deren man den Ursprung zuordnen kann. Eine der bisher unbeantworteten Fragen in diesem Forschungsgebiet ist ob mehrsprachige Autor:innen für sie typische Merkmale in mehreren Sprachen verwenden, und ob man solche Merkmale für eine sprachübergreifende Analyse der Urheberschaft verwenden kann. Diese Arbeit beschäftigt sich mit diesem sprachenübergreifenden Szenario, und beinhaltet wissenschaftliche Beiträge in mehreren relevanten Bereichen. Ein großes Problem in diesem Forschungsfeld ist der Mangel an Datensätzen die für diese Art von Forschung verwendet werden können. In dieser Arbteit wird eine Methode präsentiert die durch die Verwendung von Kommentaren aus einer Social Media Plattform Datensätze in verschiedenen Sprachkombinationen zusammenstellt, die für die sprachenübergreifende Forschung von Urheberschaft verwendet werden kann. Desweiteren wird ein neues Merkmal vorgestellt welches für das automatische Machine Learning verwendet werden kann: DT-grams verwenden universelle grammatikale Eigenschaften von Texten, die sprachunabhängig berechnet werden können und vor allem in Szenarien mit wenig verfügbaren Daten effiziente Klassifizierungen ermöglichen. Durch die Entwicklung eines ausgiebigen Benchmarks für Urheberschaftsforschung wird ein weiterer Kontext für die Leistung von DT-grams und auch anderen etablierten Methoden geschaffen. Schließlich werden diese Ergebnisse durch Experimente in verwandten Disziplinen wie dem Authorship Profiling ergänzt.<br />Determining the authorship of a document by analyzing the stylistic choices of authors can be used in digital forensics and is an important field in natural language processing. For authors that write in more than one language, one question that arises is which features of the written texts are being transferred to the respective other language, and if those features can be used to identify the author, independent from the language the features are learned from. This thesis focuses on this cross-language scenario, and presents contributions in multiple aspects. One big problem in this field is the availability of suitable datasets, since authors writing in multiple languages are relatively scarce. Leveraging internet-scale social media comments, a method is presented that composes datasets using multilingual authors, enabling true cross-language authorship research. In another contribution, a novel type of machine learning feature for cross-language analyses is presented: DT-grams are based on universal grammar features and can be used to effectively classif yauthors in small-scale attribution problems. Finally, to provide more context to the performance of the DT-grams in other fields, a benchmark for authorship attribution in general is presented, and also experiments in related fields such as authorship profiling are performed.<br />Benjamin Murauer<br />Zusammenfassung in deutscher Sprache<br />Dissertation University of Innsbruck 2022

Details

Database :
OAIster
Notes :
54.80, ET 810, ES 965, 54.99, UI:MI:IK, XI, 141 Seiten, text/html, Diagramme, English
Publication Type :
Electronic Resource
Accession number :
edsoai.on1373213984
Document Type :
Electronic Resource