Klassifikationsprobleme leiden oftmals unter einem Mangel an annotierten Trainingsdaten. Dies f��hrte zu der Entwicklung von Zero-shot Learning Modellen, welche mit Klassen trainiert werden f��r die ausreichend Trainingsdaten zur Verf��gung stehen, um dann unbekannte Klassen anhand von Beschreibungen zu erkennen. Oftmals sind diese Beschreibungen in der Form von Attributsvektoren, die allerdings ebenfalls selten zur Verf��gung stehen und aufw��ndig zu erstellen sind. Manche Ans��tze nutzen daher stattdessen Beschreibungen in nat��rlicher Sprache. In dieser Arbeit wird eine neue Methode zum Vergleich von Daten aus verschiedenen Dom��nen, die Autoencoder Distance (AD), vorgestellt und getestet in einer Zero-shot Anwendung mit Bilddaten und Beschreibungen in nat��rlicher Sprache. Die Distanzfunkion basiert auf der Normalised Compression Distance von Cilibrasi und Vit��nyi, ein Verfahren bei dem verlustfreie Komprimierungsalgorithmen genutzt werden um gemeinsame Muster zu erkennen, in dem die Gr����e von kombinierten Eingangsdaten nach Komprimierung gemessen werden. Die Messung wird normalisiert mit den Gr����en der Eingabedaten wenn sie unabh��ngig voneinander komprimiert werden. F��r die Methode die in dieser Arbeit vorgestellt wird ist statt eines verlustfreien Komprimierungsalgorithmus ein Autoencoder im Einsatz. Dieser wird zuerst darauf trainiert zusammengeh��rige Eingabedaten zu assoziieren, also Bilder und die Beschreibungen der Klassen denen sie angeh��ren. Die Distanz zwischen Eingabedaten wird dann approximiert indem die mittlere quadratische Abweichung zwischen der Beschreibung und der korrespondierenden Ausgabe berechnet wird. F��r die Normalisierung werden f��r alle Beschreibungen Durchschnitt und Standardabweichung dieser Abweichung f��r alle Bilder in einem festgelegten Set genutzt. Zur Klassifikationen eines Bildes werden alle Beschreibungen nach ihrem AD zu diesem Bild gereiht. Das Bild wird dann der Klasse die der erstgereihten Beschreibung entspricht zugeordnet. Evaluiert wird das Modell anhand einer Variation des Caltech-USCD Vogel-Datensets mit Klassenbeschreibungen von Reed et al. Des Weiteren werden Bildersets von diversen Tieren und Alltagsgenst��nden zur Normalisierung genutzt. Beim Klassifizieren mit 50 Beschreibungen die im Training nicht vorkamen konnte eine T1 Genauigkeit von 23,25% und eine T5 Genauigkeit von 57,14% erreicht werden, wobei Bilder von Seepferdchen zur Normalisierung genutzt wurden. Diese Werte sind geringer als Genauigkeiten die von anderen Werken auf den gleichen Daten erreicht werden konnte, aber durch die neuartige Methode werden viele bisher unerforschte Ans��tze f��r zuk��nftige Entwicklungen er��ffnet. Als ein Nebenziel wird zus��tzlich gezeigt, dass die Ausgabe des Autoencoders f��r Explainability genutzt werden kann., Many classification tasks suffer a lack of labelled data. This led to the development of zero-shot learning models, which are trained on classes with available data to recognise unknown classes from descriptions. Often this is done with descriptions in the form of attribute vectors, but those are again rarely available and expensive to produce. Some approaches therefore use descriptions in natural language instead. In this thesis a new method of comparing data from different domains, Autoencoder Distance (AD), is introduced and tested on a zero-shot application with image data and natural language descriptions. The distance function is based on the Normalised Compression Distance by Cilibrasi and Vit��nyi, a method that uses lossless compression algorithms to estimate shared patterns by measuring the size of combined inputs after compression, normalised by the compressed size of the inputs on their own. For the method introduced in this thesis an autoencoder is used instead of lossless compression. It is first trained to associate related inputs, i.e., images and the descriptions of their class. The distance between inputs is then approximated by calculating the mean squared error between the input description and its reconstruction. Normalisation for each description is done with the mean and standard deviation of this error over a shared set of images. For classification descriptions are ranked by their AD to a given image. The imaged is then placed in the class associated with the top ranked description. Evaluation is done on a variation of the Caltech-USCD bird dataset with descriptions provided by Reed et al. Further, image sets depicting various animals and commonplace items are used for normalisation. Classifying by ranking 50 descriptions not encountered in training, a T1 accuracy of 23.25% and a T5 accuracy of 57.14% could be achieved using pictures of sea horses for normalisation. This is lower than what was previously achieved on the same data, but the new method opens many novel avenues for future work. As a secondary objective it is also shown that the output of the autoencoder can be used for explainability.