Ovaj se diplomski rad bavi problemima do kojih dolazi prilikom digitalizacije starih ruskih knjiga. Budući da starim knjigama prijeti opasnost od njihovog propadanja i uništavanja, veoma je važno da se na vrijeme krene s postupkom digitalizacije kako bi se one sačuvale barem u svom digitalnom obliku. Problemi do kojih dolazi prilikom OCR-a takvih starih knjiga vezani su uz loše stanje u kojem se knjige nalaze, ali i uz zastarjeli jezik kojim su one često pisane, a koji se danas u tom obliku više ne koristi. U radu se detaljno opisuje postupak digitalizacije i optičkog prepoznavanja znakova. U istraživačkom dijelu uspoređuju se dva različita programa za OCR na primjeru Ruske gramatike Mihaila Vasiljeviča Lomonosova, te se daju preporuke za provođenje uspješne digitalizacije starih knjiga. This graduate thesis deals with the problems that arise when digitizing old Russian books. Since old books are in jeopardy of their decay and destruction, it is very important to initialize the digitization process as soon as possible in order to preserve them, at least in their digital form. The problems with the OCR of such old books are related to the poor physical state of the books as well as to the use of obsolete language. This thesis describes in detail the procedure of digitization and optical character recognition. The research part compares two different OCR programs on the example of Russian grammar by Mikhail Vasilyevich Lomonosov, and gives recommendations for successful digitization of old books. В данной дипломной работе рассматриваются проблемы, возникающие при оцифровке старых русских книг. Оцифровка — преобразование текста, изображений, звука, движущихся изображений (фильмы и видео) или 3d объектов в цифровой формат. Основная причина оцифровки — защита и сохранение книг, находящихся под угрозой деградации, а также обеспечение широкой доступности книг в разных странах мира. Оцифровка состоит из 7 фаз: подбор материалов для оцифровки, оцифровка материалов, обработка и контроль качества, защита материалов в электронной среде, хранение и передача цифрового материала, просмотр и использование цифрового материала и сопровождение цифрового материала. Перед началом оцифровки необходимо определить предусмотренный бюджет и срок завершения проекта и решить, какие книги должны быть оцифрованы первыми. Книгу можно оцифровать с помощью цифровой камеры или сканера, а полученное изображение затем проходит через программу OCR. Наконец, оцифрованный материал должен быть защищен, сохранен и передан пользователям. Чтобы сделать процесс оцифровки максимально простым и быстрым, ученые разработали оптическое распознавание символов. Оптическое распознавание символов (OCR) — это технология, с помощью которой рукописи, печатные тексты и документы, записанные в цифровой форме, преобразуются в текстовые документы, которые можно обрабатывать. Существует большое количество коммерческих и бесплатных OCR программ. При выборе программы бюджет и срок завершения проекта являются самыми важными факторами. Фазы оптического распознавания символов: предыдущая обработка, анализ изображений, т. е. сегментация, распознавание символов и последующая обработка. После сканирования изображения необходимо устранить нежелательный шум, полученный пятнами на изображении, но без потери существенной информации, и нужно получить хороший контраст между текстом и фоном. В течение сегментации страница делится на текст, изображения и таблицы. Текст далее делится на строки, слова и символы. После этого программа OCR распознает символы на основе шаблонов и на основе свойств формы. Распознанные символы должны быть затем вновь собраны в полный текст, а в полученном тексте необходимо проверить наличие ошибок. Эта 76 проверка может быть выполнена вручную пользователем или с помощью встроенных словарей в рамках программы. Некоторые из наиболее распространенных ошибок в распознавании символов —невозможность распознать символ, замена двух символов, замена прописных и строчных букв, объединение двух слов, разделение одного слова на несколько частей или неправильно поставленная пунктуация. Точность результата оптического распознавания символов в наибольшей степени зависит от качества оригинала, так что точность старых текстов будет намного ниже, чем у более новых материалов. Точность оптического распознавания символов можно улучшить обучением, но это возможно только у некоторых программ OCR. При оцифровке старых книг проблема заключается в недостаточном контрасте между текстом и фоном из-за пожелтевших листов бумаги и выцветавшего текста и шрифтов, которые сегодня больше не используются. Кроме того, старые вариации правописания и устаревший словарный запас затрудняют контроль при оптической проверке текста. Большое количество старых русских книг написано на старославянском языке или на более старой версии русского языка и очень сильно отличаются от текстов, написанных на современном русском языке. При оптическом распознавании символов старых русских книг многие программы обнаружат проблемы со всеми словами, словоформами и правописанием, которые отличаются от современного стандартизированного русского языка. Таким образом, у многих OCR программы возникнут проблемы с распознаванием букв, которых больше нет в стандартном русском языке: „ѱ“, „ѯ“, „ω“, „ѵ“, „ѧ“, „φ“, „i“ и „ї“ и старых глагольных времен, падежей и склонений. В рамках этой дипломной работы было проведено исследование, сравнивающее две разные программы для оптического распознавания символов: Abbyy FineReader и Transkribus. Анализ проводился по Российской грамматике Михаила Васильевича Ломоносова, написанной в 1755 году. Abbyy FineReader — одна из наиболее широко используемых коммерческих OCR программ, разработанная российской компанией Abbyy. Ee использование было довольно простым. После анализа страницы, программа автоматически распознала все символы. У программы возникли проблемы с 77 распознаванием таблиц и изогнутых скобок при анализе, и в итоге удалось заметить большое количество неправильно идентифицированных символов. Transkribus является бесплатной платформой для автоматического распознавания, транслитерации и поиска исторических документов. Он является частью проекта READ (Распознавание и обогащение архивных документов), финансируемого Европейским Союзом. В Transkribus потребовалось больше времени для сегментации страницы, потому что программа не делила текст точно на строки и поэтому требовалась ручная сегментация. После этого было необходимо ввести расшифрованный текст первых 30 страниц для обучения модели, что не было проблемой, так как книга уже была в цифровом формате. В противном случае этот процесс потребовал бы намного больше времени. Через некоторое время команда Transkribus разработала модель распознавания символов, которая работала очень хорошо. Результаты обеих программ были проверены с помощью аналитических инструментов ISRI, которые показали, что точность результата программы Abbyy FineReader была только 56.48%, а программы Transkribus 97.60 %. Можно сделать вывод, что для оцифровки старых книг требуются специализированные программы, поскольку в классических программах OCR слишком много ошибок распознавания символов, и исправление этих ошибок займет слишком много времени. В России была признана необходимость оцифровки книг, поэтому многие российские библиотеки инициировали проекты оцифровки и русские книги сейчас доступны на различных веб-сайтах. Но нужно обратить внимание и на возможное нарушение авторских прав, которое иногда возникает при публикации книг в цифровом виде.