Start Over

Universal grammar features for cross-language authorship attribution

Authors :: Murauer, Benjamin
Murauer, Benjamin
Publication Year :: 2022
Abstract: In der digitalen Forensik als auch in der akademischen Forschung zur natürlichen Sprache ist die Fragestellung der automatischen Feststellung der Urheberschaft von Dokumenten ein relevantes Thema. Dabei werden stilistische Merkmale von Autor:innen analysiert, anhand deren man den Ursprung zuordnen kann. Eine der bisher unbeantworteten Fragen in diesem Forschungsgebiet ist ob mehrsprachige Autor:innen für sie typische Merkmale in mehreren Sprachen verwenden, und ob man solche Merkmale für eine sprachübergreifende Analyse der Urheberschaft verwenden kann. Diese Arbeit beschäftigt sich mit diesem sprachenübergreifenden Szenario, und beinhaltet wissenschaftliche Beiträge in mehreren relevanten Bereichen. Ein großes Problem in diesem Forschungsfeld ist der Mangel an Datensätzen die für diese Art von Forschung verwendet werden können. In dieser Arbteit wird eine Methode präsentiert die durch die Verwendung von Kommentaren aus einer Social Media Plattform Datensätze in verschiedenen Sprachkombinationen zusammenstellt, die für die sprachenübergreifende Forschung von Urheberschaft verwendet werden kann. Desweiteren wird ein neues Merkmal vorgestellt welches für das automatische Machine Learning verwendet werden kann: DT-grams verwenden universelle grammatikale Eigenschaften von Texten, die sprachunabhängig berechnet werden können und vor allem in Szenarien mit wenig verfügbaren Daten effiziente Klassifizierungen ermöglichen. Durch die Entwicklung eines ausgiebigen Benchmarks für Urheberschaftsforschung wird ein weiterer Kontext für die Leistung von DT-grams und auch anderen etablierten Methoden geschaffen. Schließlich werden diese Ergebnisse durch Experimente in verwandten Disziplinen wie dem Authorship Profiling ergänzt.<br />Determining the authorship of a document by analyzing the stylistic choices of authors can be used in digital forensics and is an important field in natural language processing. For authors that write in more than one language, one question that arises is which features of the written texts are being transferred to the respective other language, and if those features can be used to identify the author, independent from the language the features are learned from. This thesis focuses on this cross-language scenario, and presents contributions in multiple aspects. One big problem in this field is the availability of suitable datasets, since authors writing in multiple languages are relatively scarce. Leveraging internet-scale social media comments, a method is presented that composes datasets using multilingual authors, enabling true cross-language authorship research. In another contribution, a novel type of machine learning feature for cross-language analyses is presented: DT-grams are based on universal grammar features and can be used to effectively classif yauthors in small-scale attribution problems. Finally, to provide more context to the performance of the DT-grams in other fields, a benchmark for authorship attribution in general is presented, and also experiments in related fields such as authorship profiling are performed.<br />Benjamin Murauer<br />Zusammenfassung in deutscher Sprache<br />Dissertation University of Innsbruck 2022

Details

Database :: OAIster
Notes :: 54.80, ET 810, ES 965, 54.99, UI:MI:IK, XI, 141 Seiten, text/html, Diagramme, English
Publication Type :: Electronic Resource
Accession number :: edsoai.on1373213984
Document Type :: Electronic Resource