Günümüzde görüntü işlemenin yaygın olarak kullanılması ile birlikte görüntülerin otomatik olarak tasvir edilmesi ve alt yazı oluşturulması önem teşkil etmektedir. Bu çalışma ile, literatüre ilk olarak yeni bir Türkçe konumlu tasvir veri seti kazandırılması, ikinci olarak Türkçe dilinde otomatik konumlu tasvir yapma ve alt yazı oluşturulması amaçlanmıştır. Konumlu-Tasvir adlı yeni veri setinin diğer veri setlerinden farkı, görüntüdeki bazı nesnelerin birbirlerine göre konum bilgilerini içermesidir. Konumlu-Tasvir veri seti kullanılarak, görüntülerin otomatik tasvir edilmesi ve alt yazılama için derin öğrenme yöntemlerinden faydalanılmıştır. Ayrıca konumlu tasvir ve alt yazılama için iki yöntem önerilmiş ve başarımları kıyaslanmıştır. Her iki yöntem için de elde edilen en iyi 10’ar model, otomatik alt yazı oluşturma için seçilmiştir. Deneysel sonuçlar önerilen yöntemlerin, Türkçe dilinde otomatik konumlu tasvir ve alt yazı oluşturma için başarılı sonuçlar ortaya koyduğunu göstermektedir. Tezin ikinci bölümünde literatür araştırması ele alınmış ve ilgili çalışmalar incelenmiştir. Üçüncü bölümde, çalışmada kullanılan tanımlar, modeller, performans ölçüm yöntemleri ve metrikleri konularına değinilmiştir. Ayrıca yeni Türkçe Konumlu-Tasvir veri setinin hazırlanması ve otomatik alt yazı oluşturma için önerilen iki yöntem ayrıntılı bir şekilde ele alınmıştır. Dördüncü bölümde, önerilen yöntemlerin görüntü çıktıları, performans ölçüm değerleri verilmiştir. Yöntemlerin, hem performans ölçüm metriklerine göre başarımları, hem de çıktı sonuçları kıyaslanmıştır. Son olarak beşinci bölümde analiz sonuçları ve öneriler ele alınmıştır. Ocak 2023 yılında yazılmış olan bu tez 128 sayfadan oluşmaktadır., Nowadays, with the widespread use of image processing, it is significant to automatically depict images and create subtitles. With this study, firstly Turkish-language depiction data set is intended to be introduced to the literature, and secondly, to create automatic position depiction and subtitle in Turkish language. The difference of the new data set called Konumlu-Tasvir (Positional-Depiction) from other data sets is that it contains the position information of some objects in the image relative to each other. Using the Positional-Depiction data set, deep learning methods were used for automatic depiction and captioning of images. In addition, two methods were proposed for positional depiction and subtitling, and performances were compared. For both methods, the top 10 models obtained were selected for automatic caption creation. Experimental results show that the proposed methods show successful results for automatic positional depiction and caption creation in the Turkish language. In the second part of the thesis, literature research is discussed and related studies are examined. In the third section, the definitions, models, performance measurement methods and metrics used in the study are discussed. In addition, the two proposed methods for the preparation of the new Turkish Positional-Depiction data set and automatic caption creation are discussed in detail. In the fourth section, the image outputs of the proposed methods, performance measurement values are given. Both the performance of the methods according to the performance measurement metrics and the output results were compared. Finally, in the fifth section, the analysis results and recommendations are discussed. This thesis, which was written in January 2023, consists of 128 pages.