Start Over

Efficient Annotation of Complex Documents through Active Learning for Retraining a Machine Learning Classifier

Authors :: Häcker, Benedikt
Publication Year :: 2021
Publisher :: TU Wien, 2021.
Abstract: Überwachtes Maschinelles Lernen benötigt Training mit gelabelten Daten, welche teuersind, wenn Menschen sie annotieren müssen. Aktives Lernen zielt darauf ab, den Annotationsaufwand zu reduzieren indem es geeignete Trainingssamples auswählt welche zu einer höheren Performance des ML-Algorithmus führen als zufällig gewählte Traininsdaten.Die Aufgabe für die wir Aktives Lernen untersuchen möchten ist die Klassifikation von Dokumenten. Wir sehen uns mit einer Situation konfrontiert in der wir keinen Zugang zuden ungelabelten Daten und keinen Zugang zu dem ML-Modell haben. Die Auswahl der Samples basiert alleinig auf den Vorhesagevektoren welche von dem ML-Modell erzeugt werden. Wir experimentieren mit Szenarien in welchen wir Zugang zu Daten und Modellhaben, um zu sehen ob unsere Methoden besser performen in solch einem Fall. Die Aktives Lernen Methoden, die wir verwenden, bauen auf verschiedenen Annahmen auf und können in drei Familien eingeteilt werden: Individuelle Score Berechnungen, Distanzbasierte Teilmengen Auswahl und Methoden zur Vorhersage der Modellverbesserung. Um die Aktives Lernen Methoden zu evaluieren, führen wir ein neues Maß ein und benutzenes, um die verschiedenen Methoden zu vergleichen. Unsere Experimente zeigen einen klaren Vorteil des Einsatzes von Aktives Lernen Methoden gegenüber keinem Einsatz von Aktivem Lernen.<br />Supervised machine learning algorithms require training on labeled training data which is expensive to obtain when the labels have to by annotated by humans. Active Learning aims to reduce the annotation effort by selecting suitable training samples which yielda higher performance of the machine learning algorithm then random chosen trainingsamples. The task we want to explore Active Learning methods for is the classification of documents. We face a situation where we do not have access to the unlabeled data and donot have access to the machine learning model. The selection of samples happens solely on the prediction vector made by the machine learning model for individual samples.We experiment with scenarios where we have access to data and model to see if ourmethods perform better in such a case. The Active Learning methods which we employare built on different assumptions and can be categorized into three families: individual score calculations, distance based subset selections and model improvement prediction methods. To evaluate Active Learning methods we introduce a novel measure and use itto compare different methods. Our experiments show a clear advantage of using Active Learning methods over no Active Learning.

Subjects :: Document classification
relative improvement score
diversity based training sample selection
Active learning for Transfer Learning
Uncertainty based training sample selection
black box scenario
distance matrices for Active Learning
Neural Networks as black boxes
reinforcement learning for active learning
inception network

Details

Language :: English
Database :: OpenAIRE
Accession number :: edsair.doi...........81e6d243a446a25200fef69b3faf9168
Full Text :: https://doi.org/10.34726/hss.2021.77703

Full Text Access

View/download PDF

Tools

Email
Cite

Printer

Authors Abstract Subjects Details

Searchworks

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources

Efficient Annotation of Complex Documents through Active Learning for Retraining a Machine Learning Classifier

Abstract

Subjects

Details

Tools

Searchworks

Select search scope, currently: Articles Catalog books, media & more in Jio Institute collections Articles journal articles & other e-resources

Efficient Annotation of Complex Documents through Active Learning for Retraining a Machine Learning Classifier

Abstract

Subjects

Details

Tools

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources