Back to Search
Start Over
Розподілене глибинне навчання для інтелектуального аналізу відео
- Publication Year :
- 2018
- Publisher :
- Київ, 2018.
-
Abstract
- Загальний обсяг роботи: 127 сторінки, 19 ілюстрацій, 26 таблиць, перелік посилань із 57 найменувань, 1 додаток на 4 сторінках. Актуальність теми. Галузь аналізу графічних даних, і зокрема відео, стрімко розвивається, і є великий попит на їх автоматичний аналіз у галузях робототехніки, безпеки, модерації користувацького контенту тощо. Ці застосування вимагають розробки моделей машинного навчання, які повинні бути точними, стійкими до шуму та цілеспрямованих атак, та дозволяти виконувати їх розподілене навчання. Машинний аналіз відео є порівняно маловивченою галуззю через значну складність розпізнавання відео та необхідність виконання великої кількості обчислень. Однією з найважливіших задач аналізу відео є класифікація, і наразі наявно декілька підходів, які потребують дослідження та подальшого розвитку. Мета та задачі дослідження. Метою даної роботи є пошук шляхів удосконалення існуючих рішень аналізу відео із застосуванням нових або маловивчених підходів. Задачею дослідження є реалізація моделі машинного навчання для класифікації відео, що досягає кращих результатів, є більш ефективною, або має інші переваги перед відомими методами. Вирішення поставлених завдань та досягнуті результати. Було запропоновано архітектуру багатопотокової моделі для класифікації відео, що використовує двовимірні згорткові та рекурентні нейронні мережі, та враховує оптичні потоки і звукову доріжку. Окрім високої точності класифікації та ефективності, модель дозволяє обчислювати компактні представлення відео, що можуть застосовуватися як ознаки на вході інших моделей, для стиснення даних тощо. Як приклад застосування цих представлень було описано їх використання для виявлення аномалій. Модель було випробувано на наборі даних, що зображає людські дії. Також було проведено експеримент із її розподіленого навчання. Об’єкт дослідження. Згорткові та рекурентні нейромережі для класифікації відео. Предмет дослідження. Методи машинного навчання для аналізу відео, зокрема виконання класифікації. Методи дослідження. Досліджуються та застосовуються двовимірні та тривимірні згорткові, а також рекурентні нейронні мережі. Для передобробки даних і виділення ознак використовуються алгоритми обчислення оптичного потоку та частотного аналізу звукової доріжки. Розроблене рішення використовує сучасні моделі машинного навчання та підходи до розробки їх архітектур; методи та техніки навчання, покращення точності та стійкості; а також бібліотеки для їх реалізації та розподіленого тренування. Наукова новизна. Було запропоновано архітектуру моделі для класифікації відео, яка поглиблює використання ідей вивчення представлень та передавального навчання, тим самим усуваючи важливі недоліки існуючих рішень. Також було запропоновано методи вдосконалення навчання, точності та інтерпретації цієї моделі, зокрема, метод адаптивної вибірки тренувальних прикладів з урахуванням кількості інформації в сегменті відео відповідно до оптичних потоків між кадрами. Розроблена модель виконує класифікацію за вектором представлення відео, що характеризує всі потоки, за допомогою окремої моделі синтезу. Вона досягає кращих результатів класифікації, аніж відомі моделі з подібною архітектурою, і при цьому більш ефективно використовує тренувальні дані та обчислювальні ресурси. Практичне значення одержаних результатів. Розроблена модель дозволяє виконувати класифікацію, а також отримувати компактні вектори представлення відео, на основі яких може реалізовуватися вирішення інших задач, у тому числі більш високорівневих, які можуть виникати при розробці різноманітних автономних та автоматизованих методів аналізу графічних даних і керування системами. The thesis contains 123 pages, 19 figures, 26 tables, 57 references, and 1 appendix (4 pages). Relevance. The field of graphical data analysis, and specifically video analysis, is growing fast, and there is a high demand for automatic analysis tools for robotics, security, user-generated content moderation, etc. These applications require the development of machine learning models that are accurate, robust to noise and adversarial attacks, and can be trained in a distributed way. Machine video analysis is comparatively less studied because of high complexity of video recognition and high computational demands. One of the most important problems in video analysis is classification, and currently, there are a few approaches, which require research and further development. Purpose. This work aims to research ways of improving existing techniques for video analysis using new and lesser-known approaches. The goal is to implement the machine learning model for video classification that achieves better accuracy, is more efficient, or has other advantages. Results. Multi-stream architecture for video classification, which uses 2D convolutional and recurrent neural networks, and takes optical flows and audio track into account, is proposed. Apart from high classification accuracy and efficiency, this model allows to extract compact video embeddings which can be used as features input to other models, for data compression, etc. Anomaly detection is described as an example of using these embedding vectors. The proposed model has been evaluated on human action video dataset. Distributed training experiment has also been run. Object of research. Convolutional and recurrent neural networks for video classification. Subject of research. Machine learning methods for video analysis, specifically classification. Research methods. The 2D and 3D convolutional and recurrent neural networks are studied and applied. Data preprocessing and feature extraction is done using optical flow estimation algorithms and audio frequency analysis. The developed solution uses modern machine learning models and approaches to architecture their architecture development; methods and techniques for training, improving accuracy and robustness; libraries for implementation and distributed training. Scientific novelty. The proposed architecture of video classification model utilizes ideas of representation learning and transfer learning, thus eliminating important shortcomings of existing solutions. The methods for improving training, accuracy, and interpretation of this model are proposed, particularly, the adaptive sampling method for selecting training examples based on the amount of information in a video segment according to optical flows between frames. The classification is performed based on embedding vectors, i.e., the compact representation of all streams, by a separate fusion model. The proposed model achieves better classification results than the existing models which have the similar architecture and is also more sample efficient and computationally efficient. Practical value. The developed solution allows to perform classification, as well as extract compact video representation, which can be used for solving other, including more high-level, problems which arise during the development of various autonomous and automated methods of graphical data analysis and systems control. Общий объем работы: 123 страницы, 19 иллюстраций, 26 таблиц, перечень ссылок из 57 наименований, 1 приложение на 4 страницах. Актуальность темы. Область анализа графических данных, и, в частности, видео, стремительно развивается, и есть большой спрос на их автоматический анализ в областях робототехники, безопасности, модерации пользовательского контента и т.д. Эти применения требуют разработки моделей машинного обучения, которые должны быть точными, устойчивыми к шуму и направленным атакам, а также позволять выполнять их распределенное обучение. Машинный анализ видео является сравнительно мало изученной областью из- за значительной сложности распознавания видео и необходимости выполнения большого количества вычислений. Одной из важнейших задач анализа видео является классификация, и в настоящее время существует несколько подходов, которые требуют исследования и дальнейшего развития. Цель и задачи исследования. Целью данной работы является поиск путей усовершенствования существующих решений анализа видео с применением новых или малоизученных подходов. Задачей исследования является реализация модели машинного обучения для классификации видео, которая достигает лучших результатов, является более эффективной, или имеет другие преимущества перед известными методами. Решение поставленных задач и достигнутые результаты. Была предложена архитектура многопоточной модели для классификации видео, которая использует двумерные сверточные и рекуррентные нейронные сети, и учитывает оптические потоки и звуковую дорожку. Кроме высокой точности классификации и эффективности, модель позволяет вычислять компактные представления видео, которые могут применяться как признаки на входе других моделей, для сжатия данных и т.д. В качестве примера использования этих представлений было описано их использование для выявления аномалий. Модель была испробована на наборе данных, который изображает человеческие действия. Также был проведен эксперимент с ее распределенным обучением. Объект исследования. Сверточные и рекуррентные нейросети для классификации видео. Предмет исследования. Методы машинного обучения для анализа видео, в частности выполнения классификации. Методы исследования. Исследуются и применяются двумерные и трехмерные сверточные, а также рекуррентные нейронные сети. Для предобработки данных и выделения признаков используются алгоритмы вычисления оптического потока и частотного анализа звуковой дорожки. Разработанное решение использует современные модели машинного обучения и подходы к разработке их архитектур; методы и техники обучения, улучшения точности и устойчивости; а также библиотеки для их реализации и распределенного обучения. Научная новизна. Была предложена архитектура модели для классификации видео, которая углубляет использование идей изучения представлений и передаточного обучения, тем самым устраняя важные недостатки существующих решений. Также были предложены методы улучшения обучения, точности и интерпретации этой модели, в частности, метод адаптивной выборки тренировочных примеров с учетом количества информации в сегменте видео в соответствии с оптическими потоками между кадрами. Разработанная модель выполняет классификацию по вектору представления видео, который характеризует все потоки, с помощью отдельной модели синтеза. Она достигает лучших результатов классификации, чем известные модели с подобной архитектурой, и при этом более эффективно использует тренировочные данные и вычислительные ресурсы. Практическое значение полученных результатов. Разработанная модель позволяет выполнять классификацию, а также получать компактные векторы представления видео, на основании которых может реализовываться решение других задач, в том числе более высокоуровневых, которые также могут возникать при разработке разнообразных автономных и автоматизированных методов анализа графических данных и управления системами.
- Subjects :
- sensor fusion
сенсорний синтез
розподілене тренування
передавальне навчання
рекурентні нейронні мережі
машинне навчання
transfer learning
neural networks
оптичний потік
optical flow
representation learning
machine learning
класифікація відео
вивчення представлень
convolutional neural networks
004.453
recurrent neural networks
video classification
нейронні мережі
distributed training
згорткові нейронні мережі
Subjects
Details
- Language :
- Ukrainian
- Database :
- OpenAIRE
- Accession number :
- edsair.od......2635..68b640242b9c83c3fab7e1d1ddcd180b