1. Developing an Automatic Layout Analysis System for Ottoman Population Registers
- Author
-
M. Erdem Kabadayi, Yekta Said Can, Can, Yekta Said, Kabadayı, Mustafa Erdem (ORCID 0000-0003-3206-0190 & YÖK ID 33267), College of Social Sciences and Humanities, and Department of History
- Subjects
History ,education.field_of_study ,Information retrieval ,Page segmentation ,Historical document analysis ,Convolutional neural networks ,Arabic layout analysis ,media_common.quotation_subject ,Population ,Automatic processing ,02 engineering and technology ,010501 environmental sciences ,Document processing ,01 natural sciences ,Variable (computer science) ,ComputingMethodologies_DOCUMENTANDTEXTPROCESSING ,0202 electrical engineering, electronic engineering, information engineering ,Object type ,020201 artificial intelligence & image processing ,Quality (business) ,education ,Arabic script ,Digitization ,0105 earth and related environmental sciences ,media_common - Abstract
For extracting information from the historical documents, digitization efforts have increased dramatically in the recent decades. Accurate layout analysis will help researchers for developing more robust HTR and OCR techniques which will extract meaningful information from these documents. Variable layouts, low quality and distorted images of historical documents create different problems to deal with when compared to modern document processing. Arabic script features have even more problems for these automatic processing systems. In this study, we have developed a tool for automatically analyzing the layouts of the first Ottoman population registers which are written in Arabic script form. We built a dataset for testing the performance of our system which are chosen from the first population records of the Ottoman Empire between the 1840s and 1860s. We successfully classified two different object types in those documents. / Tarihsel belgelerden bilgi çıkarmak için sayısallaştırma çabaları son yıllarda önemli ölçüde artmı ştır. Doğru yerleşim analizi, araştırmacıların bu belgelerden anlamlı bilgiler elde edecek daha sağlam HTR ve OCR teknikleri geliştirmelerine yardımcı olacaktır. Değişken yerleşimler, düşük kaliteli ve bozuk tarihi belgeler, modern belge işlemeye kıyasla farklı sorunlar yaratmaktadır. Arapça yazılar kendine has bazı özelliklerinden dolayı otomatik işlem sistemleri için daha da fazla sorun yaratmaktadır. Bu çalışmada, ilk Osmanlı nüfus kayıtlarının Arap harfleriyle yazılmış yerleşimlerini otomatik olarak analiz etmek için bir araç geliştirdik. 1840’lar ve 1860’lar arasında Osmanlı İmparatorluğu’nun ilk nüfus kayıtlarından seçilen sistemimizin performansını test etmek için bir veri seti oluşturduk. Bu belgelerde iki farklı nesne türünü başarıyla sınıflandırdık., European Union (EU); Horizon 2020; European Research Council (ERC); Research and innovation Programme; Project: "Industrialisation and Urban Growth from the mid-nineteenth century Ottoman Empire to Contemporary Turkey in a Comparative Perspective, 1850-2000"
- Published
- 2020