1. Розподілене глибинне навчання для інтелектуального аналізу відео
- Author
-
Ткаченко, Дмитро Анатолійович and Ткаченко, Дмитро Анатолійович
- Abstract
Загальний обсяг роботи: 127 сторінки, 19 ілюстрацій, 26 таблиць, перелік посилань із 57 найменувань, 1 додаток на 4 сторінках. Актуальність теми. Галузь аналізу графічних даних, і зокрема відео, стрімко розвивається, і є великий попит на їх автоматичний аналіз у галузях робототехніки, безпеки, модерації користувацького контенту тощо. Ці застосування вимагають розробки моделей машинного навчання, які повинні бути точними, стійкими до шуму та цілеспрямованих атак, та дозволяти виконувати їх розподілене навчання. Машинний аналіз відео є порівняно маловивченою галуззю через значну складність розпізнавання відео та необхідність виконання великої кількості обчислень. Однією з найважливіших задач аналізу відео є класифікація, і наразі наявно декілька підходів, які потребують дослідження та подальшого розвитку. Мета та задачі дослідження. Метою даної роботи є пошук шляхів удосконалення існуючих рішень аналізу відео із застосуванням нових або маловивчених підходів. Задачею дослідження є реалізація моделі машинного навчання для класифікації відео, що досягає кращих результатів, є більш ефективною, або має інші переваги перед відомими методами. Вирішення поставлених завдань та досягнуті результати. Було запропоновано архітектуру багатопотокової моделі для класифікації відео, що використовує двовимірні згорткові та рекурентні нейронні мережі, та враховує оптичні потоки і звукову доріжку. Окрім високої точності класифікації та ефективності, модель дозволяє обчислювати компактні представлення відео, що можуть застосовуватися як ознаки на вході інших моделей, для стиснення даних тощо. Як приклад застосування цих представлень було описано їх використання для виявлення аномалій. Модель було випробувано на наборі даних, що зображає людські дії. Також було проведено експеримент із її розподіленого навчання. Об’єкт дослідження. Згорткові та рекурентні нейромережі для класифікації відео. Предмет дослідження. Методи машинного навчання для аналізу відео, зокрема виконання класифікації. Ме, The thesis contains 123 pages, 19 figures, 26 tables, 57 references, and 1 appendix (4 pages). Relevance. The field of graphical data analysis, and specifically video analysis, is growing fast, and there is a high demand for automatic analysis tools for robotics, security, user-generated content moderation, etc. These applications require the development of machine learning models that are accurate, robust to noise and adversarial attacks, and can be trained in a distributed way. Machine video analysis is comparatively less studied because of high complexity of video recognition and high computational demands. One of the most important problems in video analysis is classification, and currently, there are a few approaches, which require research and further development. Purpose. This work aims to research ways of improving existing techniques for video analysis using new and lesser-known approaches. The goal is to implement the machine learning model for video classification that achieves better accuracy, is more efficient, or has other advantages. Results. Multi-stream architecture for video classification, which uses 2D convolutional and recurrent neural networks, and takes optical flows and audio track into account, is proposed. Apart from high classification accuracy and efficiency, this model allows to extract compact video embeddings which can be used as features input to other models, for data compression, etc. Anomaly detection is described as an example of using these embedding vectors. The proposed model has been evaluated on human action video dataset. Distributed training experiment has also been run. Object of research. Convolutional and recurrent neural networks for video classification. Subject of research. Machine learning methods for video analysis, specifically classification. Research methods. The 2D and 3D convolutional and recurrent neural networks are studied and applied. Data preprocessing and feature extraction is done using optical flow esti, Общий объем работы: 123 страницы, 19 иллюстраций, 26 таблиц, перечень ссылок из 57 наименований, 1 приложение на 4 страницах. Актуальность темы. Область анализа графических данных, и, в частности, видео, стремительно развивается, и есть большой спрос на их автоматический анализ в областях робототехники, безопасности, модерации пользовательского контента и т.д. Эти применения требуют разработки моделей машинного обучения, которые должны быть точными, устойчивыми к шуму и направленным атакам, а также позволять выполнять их распределенное обучение. Машинный анализ видео является сравнительно мало изученной областью из- за значительной сложности распознавания видео и необходимости выполнения большого количества вычислений. Одной из важнейших задач анализа видео является классификация, и в настоящее время существует несколько подходов, которые требуют исследования и дальнейшего развития. Цель и задачи исследования. Целью данной работы является поиск путей усовершенствования существующих решений анализа видео с применением новых или малоизученных подходов. Задачей исследования является реализация модели машинного обучения для классификации видео, которая достигает лучших результатов, является более эффективной, или имеет другие преимущества перед известными методами. Решение поставленных задач и достигнутые результаты. Была предложена архитектура многопоточной модели для классификации видео, которая использует двумерные сверточные и рекуррентные нейронные сети, и учитывает оптические потоки и звуковую дорожку. Кроме высокой точности классификации и эффективности, модель позволяет вычислять компактные представления видео, которые могут применяться как признаки на входе других моделей, для сжатия данных и т.д. В качестве примера использования этих представлений было описано их использование для выявления аномалий. Модель была испробована на наборе данных, который изображает человеческие действия. Также был проведен эксперимент с ее распределенным обучением. Объект исследова
- Published
- 2018