28 results on '"nlp"'
Search Results
2. КОМПЛЕКСНИЙ МЕТОД ПО АВТОМАТИЧНОМУ РОЗПІЗНАВАННЮ ПРИРОДНЬОЇ МОВИ ТА ЕМОЦІЙНОГО СТАНУ
- Author
-
Ievgen Iosifov
- Subjects
автоматичне розпізнавання мови ,арм ,nlp ,рекурентні нейронна мережа ,rnn. ,Information technology ,T58.5-58.64 - Abstract
Поточні тенденції в NLP наголошують на універсальних моделях та навчанні з передварительно навчених моделей. У цій статті досліджуються ці тенденції та передові моделі попереднього навчання. Вхідні дані перетворюються на слова або контекстуальні вбудовування, які слугують вхідними даними для енкодерів та декодерів. В якості об’єкту дослідження використовується корпус публікацій автора статті за останні шість років. Основними методами дослідження є аналіз наукової літератури, прототипування і експериментальне використання систем за напрямком досліджень. Гравці розпізнавання мови розділилися на гравців з величезними обчислювальними ресурсами для котрих тренування на великих нелейбованих даних є звичною процедурою, і гравців які сфокусовані на тренуванні малих локальних моделей розпізнавання мови на попередньо розмічених аудіо даних через нестачу ресурсів. Підходи і фреймворки роботи з нелейбованими даними і обмеженими обчислювальними ресурсами майже не представлені, а методики базовані на ітеративних тренуваннях не розвинуті і потребують наукових зусиль для розвитку. Дослідження має на меті розвинути методики ітеративного тренування на нерозмічених аудіо даних для отримання продуктивно готових моделей розпізнавання мови з більшою точністю і обмеженими ресурсами. Окремим блоком запроновані методи підготовки даних для використанні в тренуванні систем розпізнавання мови і конвейер автоматичного тренування систем розпізнавання мови використовуючи псевдо розмітку аудіо даних. Прототип і вирішення реальної бізнес задачі з виявлення емоцій демонструють можливості і обмеження систем розпізнавання сови та емоційних станів. З використанням запропонованих методів псевдо-лейбування вдається без значних інвестицій в обчислювальні ресурси отримати точність розпізнавання близьку до лідерів ринку а для мов з незначною кількістю відкритих даних навіть перевершити.
- Published
- 2023
- Full Text
- View/download PDF
3. СИСТЕМА АВТОМАТИЧНОГО КОРЕГУВАННЯ АНГЛІЙСЬКО- УКРАЇНСЬКОГО КОМП'ЮТЕРНОГО ПЕРЕКЛАДУ ДЛЯ ТЕХНІЧНИХ ТЕКСТІВ В ГАЛУЗІ АВТОМАТИЗАЦІЇ ТЕХНОЛОГІЧНИХ ПРОЦЕСІВ
- Author
-
Стопакевич, А. О., Тігарєв, А. М., Романюк, О. Р., and Стопакевич, О. А.
- Abstract
The purpose of the work is to develop a system of automatic correction of computer-translated texts with specific terminology, which is inherent in scientific and technical texts in the field of automation of technological processes. An analysis of the reasons why computer translators cannot achieve high-quality English-Ukrainian translation of technical texts in the specified field is given. It was concluded that within the limits of the approach used by modern computer translators, the quality of such translations cannot be improved. An analysis of the experience of translation correction by professional translators, available metrics for evaluating the process and results of correction of computer translations, and available software solutions for working with texts written in the Ukrainian language was carried out. It was concluded that for computer English-Ukrainian translation, the only practically significant approach to assessing its quality is measuring the amount of work that must be performed by a professional translator in order for the text to meet literary standards. The analysis of scientific texts that were translated by DeepL showed that the amount of such work can be significantly reduced, since the errors made by this translator are systematic. Thus, by analyzing the mistakes made by a computer translator, it is possible to form universal correction rules for all texts translated by a certain translator of the industry, which can be performed automatically by the software application. The effectiveness of the approach is demonstrated on the example of the development of rules resulting from the analysis of the results of the translation of two scientific articles. It is shown that replacing approximately 5% of words in computer translation significantly increases its quality. [ABSTRACT FROM AUTHOR]
- Published
- 2023
- Full Text
- View/download PDF
4. ТЕХНОЛОГІЯ ВИПРАВЛЕННЯ ГРАМАТИЧНИХ ПОМИЛОК В УКРАЇНОМОВНОМУ ТЕКСТОВОМУ КОНТЕНТІ НА ОСНОВІ МЕТОДІВ МАШИННОГО НАВЧАННЯ.
- Author
-
Н. M., Холодна and В. А., Висоцька
- Subjects
MACHINE learning ,BIG data ,ENGLISH grammar ,MACHINE translating ,PARSING (Computer grammar) ,ENGLISH language ,DEEP learning - Abstract
Context. Most research in grammatical and stylistic error correction focuses on error correction in English-language textual content. Thanks to the availability of large data sets, a significant increase in the accuracy of English grammar correction has been achieved. Unfortunately, there are few studies on other languages. Systems for the English language are constantly developing and currently actively use machine learning methods: classification (sequence tagging) and machine translation. A large amount of parallel or manually labelled data is required to build a high-quality machine learning model for correcting grammatical/stylistic errors in the texts of those morphologically complex languages. Manual data annotation requires a lot of effort by professional linguists, which makes the creation of text corpora, especially in morphologically rich languages, mainly Ukrainian, a time- and resource-consuming process. Objective of the study is to develop a technology for correcting errors in Ukrainian-language texts based on machine learning methods using a small set of annotated parallel data. Method. For this study, machine learning algorithms were selected when developing a system for correcting errors in Ukrainianlanguage texts using an optimal pipeline, including pre-processing and selecting text content and generating features in small annotated data corpora. The neural network’s use with a new architecture, a review of state-of-the-art methods, and a comparison of different pipeline stages will make it possible to determine such a combination of them, allowing a high-quality error correction model in Ukrainian-language texts. Results. A machine learning model for error correction in Ukrainian-language texts has been developed. A universal scheme for creating an error correction system for different languages is proposed. According to the results, the neural network can correct simple sentences written in Ukrainian. However, creating a full-fledged system will require spell-checking using dictionaries and checking rules, both simple and based on the result of parsing dependencies or other features. The pre-trained neural translation model mT5 has the best performance among the three models. To save computing resources, it is also possible to use a pre-trained BERT-type neural network as an encoder and a decoder. Such a neural network has half the number of parameters as other pretrained machine translation models and shows satisfactory results in correcting grammatical and stylistic errors. Conclusions. The created model shows excellent classification results on test data. The calculated machine translation quality metrics allow only a partial comparison of the models since most of the words and phrases in the original and corrected sentences are the same. The best value for both BLEU (0.908) and METEOR (0.956) is obtained for mT5, which is consistent with the case study in which the most accurate error corrections without changing the initial value of the sentence are obtained for such a neural network. The M2M100 has a higher BLEU score (0.847) than the “Ukrainian Roberta” Encoder-Decoder (0.697). However, subjectively evaluating the results of the correction of examples, the M2M100 does a much worse job than the other two models. For METEOR, M2M100 (0.925) also has a higher score than the “Ukrainian Roberta” Encoder-Decoder (0.876). [ABSTRACT FROM AUTHOR]
- Published
- 2023
- Full Text
- View/download PDF
5. ТЕХНОЛОГІЯ ІДЕНТИФІКАЦІЇ РЕРАЙТУ В ТЕКСТОВОМУ КОНТЕНТІ НА ОСНОВІ МЕТОДІВ МАШИННОГО НАВЧАННЯ.
- Author
-
Н. M., Холодна and В. А., Висоцька
- Subjects
MACHINE learning ,RECURRENT neural networks ,NATURAL language processing ,DEEP learning ,PARAPHRASE ,USER-generated content - Abstract
Copyright of Radio Electronics, Computer Science, Control is the property of Zaporizhzhia National Technical University and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2022
- Full Text
- View/download PDF
6. INTERNATIONAL SYSTEM OF KNOWLEDGE EXCHANGE FOR YOUNG SCIENTISTS
- Author
-
Olesia Barkovska, Vladyslav Kholiev, Georgiy Ivaschenko, and Dmytro Rosinskiy
- Subjects
system ,nlp ,text ,processing ,acceleration ,shingles ,proximity ,likeness ,classification ,preprocessing ,lemmatization ,stemming ,Computer software ,QA76.75-76.765 ,Information theory ,Q350-390 - Abstract
The paper proposes a system which is electronic data storage (of qualification works of students from different countries) and provides the capability to identify and connect young scientists conducting research on a related problem area. The purpose of developing this system is to provide opportunities for knowledge exchange, research in a team on a common problem, as well as to identify scientific trends in different countries. In this paper, the preprocessing methods influence on the work of classifiers such as Logistic Regression, LSTM, BERT, LightGBM was researched. A study was conducted on the speed of classification and F1 assessment. Conclusions. Lemmatization showed to require a shorter operating time compared to steaming by almost twice and a better score by an average of 5 percent, so it was decided to use the Logistic Regression classifier with lemmatization at the stage of text preparation in the subsequent operation of the proposed ISKE.
- Published
- 2021
- Full Text
- View/download PDF
7. Розроблення інструментарію для аналізу текстів публічних та спеціалізованих джерел у завданнях передбачення та системного аналізу
- Author
-
Volodymyr Savastiyanov
- Subjects
системний аналіз ,передбачення ,text mining ,NLP ,класифікатори ,онтології ,Electronic computers. Computer science ,QA75.5-76.95 - Abstract
Розроблено комбінований підхід до вилучення понять і побудови класифікаторів та онтологій за допомогою відкритих і пропрієтарних пакетів програмного забезпечення. Досліджено сучасні підходи, методи та моделі збереження великих обсягів слабко структурованої інформації з наборів програмного забезпечення OpenSource. Побудовано онтологію, у листях якої реалізовано класифікатор на булевих правилах із застосуванням програмного забезпечення SAS(R) Content Categorization Software. Для побудови онтології використано підхід до побудови векторів близьких понять за допомогою бібліотеки OpenSource програмного забезпечення Gensim — модель Word2Vec. Розроблено типовий алгоритм щодо побудови класифікуючої онтології. Результати дослідження можуть бути використані для побудови онтології предметних галузей, створення класифікуючих онтологій та розмічення корпусів текстів.
- Published
- 2020
- Full Text
- View/download PDF
8. РОЗРОБЛЕННЯ ІНСТРУМЕНТАРІЮ ДЛЯ АНАЛІЗУ ТЕКСТІВ ПУБЛІЧНИХ ТА СПЕЦІАЛІЗОВАНИХ ДЖЕРЕЛ У ЗАВДАННЯХ ПЕРЕДБАЧЕННЯ ТА СИСТЕМНОГО АНАЛІЗУ.
- Author
-
САВАСТЬЯНОВ, В. В.
- Subjects
OPEN source software ,LIBRARY software ,INTEGRATED software ,ONTOLOGIES (Information retrieval) ,SYSTEM analysis - Abstract
Copyright of System Research & Information Technologies / Sistemnì Doslìdžennâ ta Ìnformacìjnì Tehnologìï is the property of Institute for the Applied System Analysis at the NTUU KPI and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2020
- Full Text
- View/download PDF
9. Techniques and components for natural language processing
- Author
-
O. Iosifova, I. Iosifov, and O. Rolik
- Subjects
NLP ,language model ,embeddings ,RNN ,GRU ,LSTM ,Automation ,T59.5 - Abstract
A dramatic change in the abilities of language models to provide state of the art accuracy in a number of Natural Language Processing tasks is currently observed. These improvements open a lot of possibilities in solving NLP downstream tasks. Such tasks include machine translation, speech recognition, information retrieval, sentiment analysis, summarization, question answering, multilingual dialogue systems development and many more. Language models are one of the most important components in solving each of the mentioned tasks. This paper is devoted to research and analysis of the most adopted techniques and designs for building and training language models that show a state of the art results. Techniques and components applied in creation of language models and its parts are observed in this paper, paying attention to neural networks, embedding mechanisms, bidirectionality, encoder and decoder architecture, attention and self-attention, as well as parallelization through using Transformer. Results: the most promising techniques imply pre-training and fine-tuning of a language model, attention-based neural network as a part of model design, and a complex ensemble of multidimensional embeddings to build deep context understanding. The latest offered architectures based on these approaches require a lot of computational power for training language model and it is a direction of further improvement. Ref. 49, pic. 13
- Published
- 2020
- Full Text
- View/download PDF
10. Evaluation of the effectiveness of the use of NLP tools and AI systems for the analysis of advertisements in the Internet advertising exchange systems
- Subjects
системи обміну реклами в інтернеті ,detection ,обробка природної мови (NLP) ,виявлення ,malicious content ,онлайн-реклама ,NLP ,зловмисний вміст ,шахрайський вміст ,the Internet advertising exchange systems ,AI ,штучний інтелект (AI) ,рекламні кампанії ,fraudulent content ,advertising campaigns ,online advertisements - Abstract
The study determines the effectiveness of using natural language processing tools and artificial intelligence systems for analyzing advertising campaigns in the Internet advertising exchange systems. The article discusses which tools can be used to detect keywords in ad text, as well as how these tools can be combined with custom machine learning models to detect fraudulent and malicious information in ad exchange web servers. The article illustrates which metrics can be used to evaluate ad content for unwanted content using modern artificial intelligence systems. An analysis of existing tools and their results is conducted using a real high-risk advertisement. A detailed report is provided according to different evaluation metrics. Theexpediency of integrating the above technologies into the business logic of advertising networks is determined., Дослідження визначає ефективність використання інструментів обробки природної мови та систем штучного інтелекту для аналізу рекламних кампаній у системах обміну реклами в інтернеті. Стаття розглядає, які інструменти можуть бути використані для виявлення ключових слів у тексті оголошень, а також як ці інструменти можуть бути поєднані зі спеціалізованими моделями машинного навчання для виявлення шахрайської та зловмисної інформації у вебсерверах обміну реклами. Стаття ілюструє, які метрики можуть бути використані для оцінки контенту рекламних оголошень на предмет небажаного вмісту, використовуючи сучасні системи штучного інтелекту. Проводиться аналіз існуючих інструментів та результатів їх роботи на прикладі реального рекламного оголошення з підвищеною небезпекою. Надається детальний звіт відповідно до різних метрик оцінки. Визначається доцільність інтеграції описаних вище технологій у бізнес-логіку рекламних мереж.
- Published
- 2023
11. Система аналізу україномовних новин за допомогою технологій машинного навчання
- Author
-
Онищенко, Вікторія Валерівна
- Subjects
відстань Левенштейна ,коефіцієнт семантичної схожості слів та словосполучень TF-IDF ,аналіз тексту ,фейк ,004.048 ,NLP - Abstract
Пояснювальна записка дипломного проекту складається з п'яти розділів, містить 28 таблиць, 9 додатків та 22 джерела – загалом 101 сторінки. Об`єкт дослідження: процес пошуку та аналізу фейкових україномовних новин. Мета дипломного проекту: підвищення ефективності системи для виявлення, синтезу та аналізу україномовних новин шляхом застосування технології Natural Language Processing. . У першому розділі було проведено аналіз рішень існуючих фреймворків, їх актуальність на сьогоднішній час та вибір фреймворка для застосунка. У другому розділі було проведено дослідження інструментів NLP для дослідження текстів природною мовою. У третьому розділі було проведено розробку алгоритму аналізу фейкових новин. У четвертому розділі було розглянуто структур системи аналізу новин та проведено дослідження її роботи. У п’ятому розділі було розроблено стартап проєкт системи аналізу україномовних новин The explanatory note of the diploma project consists of four sections, contains 28 tableі, 9 applications and 22 sources - a total of 101 pages. The object of study: the process of finding and analyzing fake Ukrainian-language news. The aim of the diploma project: increasing the efficiency of the system for detecting, synthesizing and analyzing Ukrainian-language news through the use of Natural Language Processing technology. . In the first section, an analysis of the solutions of existing frameworks, their relevance today and the choice of a framework for the application was carried out. In the second chapter, a study of NLP tools for the study of natural language texts was carried out. In the third section, the algorithm for analyzing fake news was developed. In the fourth chapter, the structures of the news analysis system were considered and a study of its work was carried out. In the fifth chapter, a start-up project of a Ukrainian-language news analysis system was developed
- Published
- 2022
12. Цифрова трансформація юридичних послуг
- Subjects
startups ,Legal Tech ,технології у праві ,штучний інтелект ,стартапи ,artificial intelligence ,legal technology ,NLP - Abstract
It is shown in the article that the modern foreign legal market actively implements a wide range ofLegal Techdirections for optimization and improvement of legal services. Attention is drawn to the benefits of using this innovative approach and the role of machine learning in Legal Tech. It is argued that LegalTech implementation has a number of obstacles that relate to both the typical problems of startups and those related to state policy, sources of financing and security considerations. The approach on how these problems could be solved is analyzed along with the interaction between the state and private sector, cyber security challenges, legal tech processes and legal education understanding is provided., У статті показано, що сучасний зарубіжний юридичний ринок активно впроваджує широкий спектрLegal Tech-напрямків для оптимізації та покращення юридичних послуг. Звертається увага на переваги використання такого напрямку інновацій та роль машинного навчання у становленніLegal Tech (зангл. legal technologies – технології у праві). Обґрунтовується, що впровадженняLegal Techмає низку перепон, які стосуються як типових проблем стартапів, так і пов’язані з політикою держави, джерелами фінансування і міркуваннями безпеки. Проаналізовано, яким чином можна усунути ці проблеми, акцентовано увагу на взаємодії держави і приватного сектору, вирішенні викликів кібербезпеки, розумінні процесівLegal Techта юридичної освіти.
- Published
- 2022
- Full Text
- View/download PDF
13. Алгоритмічно-програмний метод автоматизованого генерування зведених відгуків інтернет-користувачів
- Author
-
Заболотня, Тетяна Миколаївна
- Subjects
пошук тем в тексті ,topics modeling ,кластеризація даних ,data clustering ,реферування ,оброблення природньої мови ,summarization ,004.91 ,анотування ,нейронні мережі ,neural networks ,NLP ,BERT - Abstract
Дана магістерська дисертація присвячена розробленню та реалізації алгоритмічно-програмного методу автоматизованого генерування зведених відгуків Інтернет-користувачів. В дисертації проаналізовано існуючі методи аналізу відгуків користувачів Інтернет-магазинів, визначено важливість отримуваної з відгуків інформації для користувачів та самих Інтернет-магазинів, сформульовано вимоги до розроблюваного методу генерування зведених відгуків, обґрунтовано підібрано найбільш доцільний для використання засіб реалізації запропонованого методу – модель нейронної мережі на основі архітектури Трансформер, запропоновано використовувати знання про товар. Практична цінність отриманих в роботі результатів полягає в тому, що запропонований метод дозволяє підвищити інформативність відгуків Інтернет-користувачів за рахунок виділення та систематизації важливої інформації з них, що зменшує час, потрібний для ознайомлення із повним списком відгуків. У даній магістерській дисертації розроблено програмний додаток для генерації зведених відгуків Інтернет-користувачів на основі запропонованого методу. This master's thesis is devoted to developing and implementing the method of automated generation summarized internet user reviews. Master's thesis analyses existing methods of Internet user reviews processing, determines the importance of the information received from the reviews for other users and Internet shops itself, formulates requirements for the developed method, and substantiates the use of the most appropriate means of implementing the proposed method, proposes to use the neural network based on the architecture Transformer for NLP tasks. The practical value of the results obtained in the work is that the proposed method allows for increasing the informativeness of feedback from Internet users by selecting and organizing important information from them, which reduces the time required to read the full list of reviews. In this master's thesis, a software application for summarized Internet user reviews has been developed based on the proposed method.
- Published
- 2022
14. Метод аналізу слабоструктурованих текстових документів за допомогою нейронних мереж
- Author
-
Стіренко, Сергій Григорович
- Subjects
004.4 ,машинне навчання ,state-of-the-art ,нейронні мережі ,neural networks ,NLP ,ML - Abstract
Дисертація присвячена розробці та дослідженню методу аналізу слабоструктурованих текстових документів за допомогою нейронних мереж. Представлений спосіб аналізу слабоструктурованих текстових документів дозволяє зменшити час обробки файлів та забезпечити менші втрати точності. The dissertation is devoted to the development and research of the method of analysis of poorly structured text documents with the help of neural networks. The presented method of analysis of poorly structured text documents reduces file processing time and provides less loss of accuracy.
- Published
- 2021
15. Спосіб та програмне забезпечення інтелектуального асистування при написанні природномовних текстів
- Author
-
Заболотня, Тетяна Миколаївна
- Subjects
редактор ,004.4’24 ,пз ,lsp ,vs code ,nlp ,language client ,natural language text ,uml ,мовний сервер ,language server ,природномовний текст ,мовний клієнт ,editor - Abstract
Дана магістерська дисертація присвячена розробленню та реалізації способу та програмному забезпеченню інтелектуального асистування при написанні природномовних текстів. В дисертації проаналізовано існуючі методи автоматизованого оброблення природомовних текстів, визначено вимоги до розроблюваного способу. Даний метод відрізняється від існуючих наявністю мовного сервера, вдосконаленням мовного протокола та синтаксичного аналізатора. Запропонований спосіб побудови підсистеми інтелектуального редактора природномовних текстів та створення мовного сервера дозволили підвищити точність та швидкість надання мовної підтримки та розробити відповідні програмні засоби, придатні до використання в межах будь-якого мовного клієнта, що має підтримку всіх розроблених можливостей мовного сервера. Програмний продукт має практичну цінність для спрощення написання, редагування та аналізу природномовних текстів. This master's dissertation is devoted to the development and implementation of methods and software for intellectual assistance in writing natural language texts. The dissertation analyzes the existing methods of automated processing of natural language texts, defines the requirements for the developed method. This method differs from the existing ones by the presence of a language server, improved language protocol and parser. The proposed method of building a subsystem of intelligent text editor and creating a language server allowed to increase the accuracy and speed of language support and develop appropriate software suitable for use within any language client that supports all developed capabilities of the language server. The software product has practical value for simplifying the writing, editing and analysis of natural language texts.
- Published
- 2021
16. Software and Mathematical Methods for ECG Analysis Based on WORD2VEC Model
- Author
-
Олійник, Юрій Олександрович
- Subjects
machine learning ,бібліотека ,ECG analysis ,library ,004.4 ,машинне навчання ,NLP ,лінгвістичне представлення ЕКГ ,аналіз ЕКГ ,linguistic ECG representation - Abstract
Магістерська дисертація: 116 сторінок, 21 рисунок, 31 таблиця, 2 додатки, 31 джерело Актуальність теми. На сьогоднішній день перспективним напрямком розвитку програмного забезпечення є розробка алгоритмів із застосуванням методів машинного навчання. Дані методи надають змогу прогресувати точність рішень задач різних напрямків, де раніше неможливо було зробити хоч якісь висновки без наявності висококваліфікованого персоналу, не говорячи вже про те, що для досягання рішення деяких задач, навість при наявності найінтелектуальнішої групи дослідників, необхідно витратити значний проміжок часу. Однією із таких сфер є комплекс задач основаних на даних сигналу електрокардіограми з можливістю застосування NLP, тому дуже важливо мати відповідний набір програмних інструментів для розробки програмного забезпечення, які б забезпечили швидке та ефективне досягання результатів. Мета дослідження. Покращення можливостей бібліотек, призначених для розробки програмного забезпечення для аналізу ЕКГ сигналу із застосуванням методів NLP. Об’єкт дослідження. Аналіз сигналу електрокардіограми із застосуванням методів NLP. Предмет дослідження. Методи та засоби створення програмного забезпечення для рішення задач аналізу сигналу електрокардіограми з можливістю застосування методів обробки текстових даних. Наукова новизна отриманих результатів. Вперше створено програмну бібліотеку аналізу сигналу ЕКГ методами NLP. Практичне значення отриманих результатів полягає у застосуванні розробленої бібліотеку для більш ефективної розробки програмного забезпечення та ведення досліджень сигналу електрокардіограми. Результати проведених досліджень лексичного представлення ЕКГ надають можливість розроблення нестандартних алгоритмів . Зв’язок роботи з науковими програмами, планами, темами. Робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924. Апробація. Результати роботи доповідалися на «Першій Всеукраїнській науково-практичній конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології»(SoftTech-2021)»: секція кафедри інформатики та програмної інженерії. Матеріали конференції. – Київ. – 2021. 22-26 листопада 2021р. – С.53. Публікації. Наукові положення опубліковані в тезах наукової конференції «Перша Всеукраїнська науково-практична конференція молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології»(SoftTech-2021)». Секція кафедри інформатики та програмної інженерії. Матеріали конференції. – Київ. – 2021. 22-26 листопада 2021р. – С.53. Master’s dissertation: 116 pages, 21 images, 31 tables, 2 attachments, 31 referring sources. Topicality. To date, a promising area of software development is the development of algorithms using machine learning methods. These methods allow to progress the accuracy of solving problems in different areas, where previously it was impossible to draw any conclusions without highly qualified staff, not to mention that to achieve some problems, even with the most intelligent group of researchers, it takes a long time. One of these areas is a set of tasks based on the data of the electrocardiogram signal with the possibility of using NLP, so it is very important to have an appropriate set of software tools for software development that would ensure rapid and effective results. The purpose of the dissertation research. Improving the capabilities of libraries designed to develop software for ECG signal analysis using NLP methods. Object of study. Analysis of the electrocardiogram signal using NLP methods. Subject of research. Methods and means of creating software for solving problems of electrocardiogram signal analysis with the possibility of using methods of text data processing. Scientific novelty. For the first time, a software library for ECG signal analysis by NLP methods was created. The practical value of the obtained results is that developed library can be used for more effective software development and electrocardiogram signal research. The results of studies of the lexical representation of the ECG provide an opportunity to develop non-standard algorithms . Relationship with working with scientific programs, plans, topics. The work was performed at the Department of Informatics and Software Engineering of the National Technical University of Ukraine "Kyiv Polytechnic Institute. Igor Sikorsky ”in the framework of the topic“ Methods and technologies of high-performance computing and processing of ultra-large data sets ”. State registration number 0117U000924. Testing. The results of the work were reported at the "First All-Ukrainian scientific-practical conference of young scientists and students" Software Engineering and Advanced Information Technologies "(SoftTech-2021)": section of the department of informatics and software engineering. Conference materials. – Kyiv. – 2021. November 22-26, 2021. – P.53. Publications. Scientific provisions were published in the abstracts of the scientific conference "The First All-Ukrainian Scientific and Practical Conference of Young Scientists and Students" Software Engineering and Advanced Information Technologies "(SoftTech-2021)". Section of the department of informatics and software engineering. Conference materials. – Kyiv. – 2021. November 22-26, 2021. – P.53.
- Published
- 2021
17. Використання нейронних мереж у роботі з базами знань
- Author
-
Булах, Богдан Вікторович
- Subjects
Transformer ,Seq2Seq ,PyTorch ,NLP ,SPARQL ,004.42 ,OWL - Abstract
Робота виконана на 99 сторінках, містить 35 ілюстрацій, 23 таблиці, 1 додаток. При підготовці використовувалась література з 56 джерел Актуальність теми Дана дисертація присвячена дослідженню нейронних мереж у рамках роботи з базами знань. Зі збільшенням кількості інформації зростає складність обробки і зберігання знань про цю інформацію. Використання баз знань стає більш частим рішенням при пошуку сховища для чітко структурованих даних. Збільшення об’ємів даних призводить до збільшення кількості ресурсів, що потребуються для її обробки. Це ускладнює процес ручної обробки даних. З поширенням використання баз знань зростає попит на спеціалістів, що мають можливість застосовувати свої знання на практиці. Це ставить певні обмеження на професіоналів у власних доменах, які не можуть застосовувати свої дані через звичайну нестачу навиків при роботі з базами знань. Використання нейронних мереж дозволяє вирішити різноманітні питання у полі роботи з базами знань. Актуальність роботи полягає в дослідженні сучасних підходів у різноманітних шляхах роботи з базами знань з використанням нейронних мереж, що дозволяють подолати проблеми, які виникають при роботі з базою знань (напряму чи опосередковано). Мета та задачі дослідження Метою даної роботи є дослідження використання нейронних мереж у рамках роботи з базами знань. Рішення поставлених завдань та досягнуті результати Для досягнення поставленого завдання було розглянуто формати представлення формалізованих знань у базах знань, включаючи RDF та різні діалекти OWL, виконано огляд літературних джерел та проаналізовано роботи, що використовують нейронні мережі для здійснення логічних висновків у базах знань. Опрацьовано літературні джерела, що присвячені вирішенню задач семантичній сегментації текстів з використанням нейронних мереж. Проаналізовано систему, що використовує семантичний аналіз вхідної послідовності для перетворення вхідної послідовності природною мовою на запит на мові SPARQL. Розглянуто використання згорткових, графових та гібридних мереж даного типу для роботи з графовим представленням формалізованих знань. Створено прототип системи перекладу вхідної послідовності на природній мові у мову запитів до бази знань SPARQL. Описано архітектурні особливості прототипу. Розглянуто механізм уваги і задачу машинного перекладу. Проаналізовано отримані результати. Об’єкт дослідження: Бази знань. Предмет дослідження: Застосування нейромереж у роботі з базами знань. Наукова новизна Наукова новизна роботи полягає у вирішенні задачі машинного перекладу зі зважуванням в рамках роботи з базами знань. Практичне значення одержаних результатів Робота може бути використана як база для системи отримання результатів з бази знань після запиту у вигляді послідовності на природній мові. Work carried out on 99 pages, containing 35 figures, 23 tables, 1 appendix. The paper was written with references to 56 sources. Topicality This dissertation is devoted to the study of the use of neural networks in knowledge bases. As the number of information increases, the complexity of processing and storing knowledge about this information increases as well. Using knowledge bases is becoming a more common solution when looking for storage for well-structured data. Raising the amount of data leads to an increase in the number of resources required for its processing. This complicates the process of manual data processing. With the spread of the use of knowledge bases, the demand for specialists who have the opportunity to apply their knowledge in practice is growing drastically. This places certain restrictions on professionals in their domains who cannot use their data due to the usual lack of skills in working with knowledge bases. The use of neural networks allows you to solve various problems in the field of knowledge bases. The relevance of the work lies in the study of modern approaches in various ways of working with knowledge bases using neural networks, which overcome the problems that arise when working with the knowledge base (directly or indirectly). Purpose The purpose of this work is to study the use of neural networks in the context of knowledge bases. Solution To achieve this goal, the formats of formalized knowledge in knowledge bases, including RDF and various OWL dialects, were reviewed, literature sources were reviewed, and the thesis using neural networks to make logical inferences in knowledge bases was analyzed. Theses devoted to solving problems of semantic segmentation of texts with the use of neural networks have been researched. A system that uses semantic analysis of the input sequence to convert the input sequence in natural language to a query in SPARQL was analyzed. The use of convolutional, graph and hybrid networks of this type for work with graph representation of formalized knowledge is considered. A prototype of the system of translation of the input sequence in natural language into the query language to the SPARQL knowledge base has been unveiled. The architectural features of the prototype are described. The mechanism of attention and the problem of machine translation are considered. The obtained results were analyzed. The object of research Knowledge base. The subject of research The use of neural networks in knowledge bases. Scientific novelty The scientific novelty of the work is to solve the problem of machine translation by weighing in the work with knowledge bases. The practical value of research The work can be used as a basis for a system of obtaining results from the knowledge base upon request in the form of a sequence in natural language.
- Published
- 2021
18. Information Technology for Assessing the Relevance of Advertisements in the New’s Context
- Subjects
python ,інформатика ,informatics ,NLP ,информатика ,інформаційна технологія - Abstract
У результаті створеної роботи спочатку було проаналізовано стан Digital реклами в Україні і зроблено висновок необхідності створення технології фільтрації новин із негативним контекстом, бо в іншому випадку контекст впливає на сприйняття користувачем рекламованого бренду. Було вирішено використовувати мову програмування Python та додаткові бібліотеки для вирішення поставлених завдань. В результаті досліджень було створено модуль для завантаження та розбору сторінок новин. Далі відбувався етап консолідації корпуса текстів для створення датасету на базі вибраних ресурсів новин. Після цього був розроблений модуль очищення та лематизації текстів. Наступним етапом було створення та збереження моделей машинного навчання, які дають можливість визначити негативність теми додатку та емоційну тональність. Для демонстрації роботи додатку було створено веб додаток на основі мікрофреймворку Flask. На заключному етапі було проаналізовано створений додаток і сформовано ряд пропозицій щодо розвитку. Вони стосувалися не лише представлення даних та навчання моделей, а також і обслуговування користувачів веб додатком.
- Published
- 2021
19. Разработка инструментария для анализа текстов публичных и специализированных источников в задачах предвидения и системного анализа
- Subjects
Open Source ,OpenSource ,передбачення ,systems analysis ,класифікатори ,предвидение ,foresight ,classifiers ,text mining ,классификаторы ,NLP ,системний аналіз ,Gensim ,системный анализ ,ontologies ,онтологии ,онтології ,Python - Abstract
A combined approach to extracting concepts and constructing classifiers and ontologies using open and proprietary software packages has been developed. Modern approaches, methods and models of storing large amounts of poorly structured information from Open Source software sets are studied. An ontology was built, in the leaves of which a classifier based on Boolean rules was implemented using SAS(R) Content Categorization Software. To build the ontology, the approach of constructing vectors of related concepts is employed using the Open Source library of Gensim software, namely the Word2Vec model. A typical algorithm for constructing a classifying ontology has been developed. The results of the research can be used to build an ontology of subject areas, create classification ontologies and mark corpora of texts., Разработан комбинированный подход по извлечению понятий и построения классификаторов и онтологий с помощью открытых и проприетарных пакетов программного обеспечения. Исследованы современные подходы, методы и модели хранения больших объемов слабоструктурированной информации из наборов программного обеспечения OpenSource. Построена онтология, в листьях которой реализован классификатор на булевых правилах с применением программного обеспечения SAS (R) Content Categorization Software. Для построения онтологии используется подход построения векторов близких понятий с помощью библиотеки Open Source Gensim, а именно модель Word2Vec. Разработан типовой алгоритм построения классифицирующей онтологии. Результаты исследования могут быть использованы для построения онтологий предметных областей, создания классифицирующих онтологий и разметки корпусов текстов., Розроблено комбінований підхід до вилучення понять і побудови класифікаторів та онтологій за допомогою відкритих і пропрієтарних пакетів програмного забезпечення. Досліджено сучасні підходи, методи та моделі збереження великих обсягів слабко структурованої інформації з наборів програмного забезпечення OpenSource. Побудовано онтологію, у листях якої реалізовано класифікатор на булевих правилах із застосуванням програмного забезпечення SAS(R) Content Categorization Software. Для побудови онтології використано підхід до побудови векторів близьких понять за допомогою бібліотеки OpenSource програмного забезпечення Gensim — модель Word2Vec. Розроблено типовий алгоритм щодо побудови класифікуючої онтології. Результати дослідження можуть бути використані для побудови онтології предметних галузей, створення класифікуючих онтологій та розмічення корпусів текстів.
- Published
- 2020
20. Математичне та програмне забезпечення синтаксично-семантичного аналізу тексту на японській мові
- Author
-
Халус, Олена Андріївна
- Subjects
日本語 ,японська мова ,japanese language ,аналіз тексту ,004.91 ,text analysis ,NLP - Abstract
Актуальність теми: На даний момент у світі все більше набуває популярності японська мова. Багато людей вивчають її з цільлю навчання в Японії, еміграції та отримання роботи, з метою налагодження бізнес відносин з японськими компаніями або ж просто з метою спілкування з носіями мови чи перегляду японської анімації або читання книжок на японській мові. Водночас з ростом популярності мови спостерігається відсутність подібних математичних та програмних забезпечень для аналізу текстів на японській мові. Метадослідження:основна мета полягає в дослідженні та розробці математичного забезпеченнята архітектури програмного забезпечення для аналізу текстів на японській мові. Об`єктдослідження:процессинтаксичного та семантичного аналізу тексту на японській мові Для реалізації поставленої мети сформульовано наступні завдання: пошук та аналіз існуючих рішень та вибір алгоритмів для подальшоЇ реалізації; розробка та обгрунтуванняматематичного забезпечення для аналізу; розробка архітектури програмного забезпечення, бібліотек, необхідних для його роботи; розробка програмного забезпечення, його опису та інструкції до нього. Предмет дослідження: методи та алгоритми аналізу японського тексту, поєднання різних методів для покращення аналізу. Наукова новизна: Найбільш суттєвими науковими результатами магістерської дисертації є: вперше створено правила для аналізу тексту на японській мові, спрямовані на спрощення написання тексту з певним рівнем ввічливості; запропоновано архітектурне рішення для високонавантаженої системи аналізу тексту. Практичне значення: Розроблене математичне та програмне забезпечення може бути використане максимально просто використане для аналізу тексту на японській мові, а саме для перевірки його за обраними правилами, визначення даних про використані у ньому іерогліфи, сутності та слова що можуть бути написані іерогліфами. Зв’язок з науковими програмами, планами, темами: робота виконувалась на кафедрі автоматизованих систем обробки інформації і управління Національного технічного університету України" Київський політехнічний інститут імені Ігоря Сікорського". Публікації: Наукові положення дисертації опубліковані в Бурлаченко Є.О.Практичне застосування Cloud Natural Language для NLP/ Є.О. Бурлаченко, О.А. Халус // Матеріали V всеукраїнської науково-практичної конференції молодих вчених та студентів «Інформаційні системи та технології управління» (ІСТУ-2020) – м. Київ: НТУУ «КПІ ім. Ігоря Сікорського», 26-27 листопада 2020 р. Actuallity: Atthe moment, the Japanese language is becoming increasingly popular in the world. Many people study it to study in Japan, emigrate and get a job, to establish business relationships with Japanese companies, or simply to communicate with native speakers or watch Japanese animation or read books in Japanese. Simultaneously with the growing popularity of the language, there is a lack of such mathematical and software for analyzing texts in the Japanese language. The aim of research: the main goal is to research and develop mathematical software and software architecture for text analysis in Japanese. The object of research: the process of syntactic and semantic analysis of the text in Japanese To achieve this goal, the following tasks are formulated: find and analyze existing solutions and choose algorithms for further implementation; develop and substantiate mathematical software for analysis; development of software architecture, libraries necessary for its work; develop software, its description and instructions for it. Researchsubject: methods and algorithms for analyzing Japanese text, a combination of different methods to improve analysis. Researchoriginality:The most significant scientific results of the master's thesis are: for the first time created rules for text analysis in Japanese, aimed at simplifying the writing of the text with a certain level of politeness; an architectural solution for a highly loaded text analysis system is proposed. Practicalmeaning:The developed mathematical and software can be used as simply as possible to analyze the text in Japanese, namely to check it according to selected rules, to determine the data about the characters used in it, the essence and words that can be written in hieroglyphs.
- Published
- 2020
21. Спосіб обробки інформації, представленої природомовними об’єктами
- Author
-
Орлова, Марія Миколаївна
- Subjects
text classification ,machine learning ,класифікація тексту ,інтерпретація мовних структур ,машинне навчання ,natural language processing ,NLP ,text generation methods ,обробка натуральних мов ,методи генерації тексту ,interpretation of language structures ,004.9 - Abstract
Актуальність теми Задача обробки інформації, яка представлена природномовною формою, актуальна з часів виникнення писемності. Такі проблеми, як коректний переклад, пошук інформації, класифікація текстів постійно супроводжували людство з цих часів. Після появи доступних персональних комп’ютерів (ПК) обсяг інформації в світі перевищив всі прогнози. Тому не дивно, що постала гостра необхідність в вирішенні перелічених вище задач програмними методами. На сьогодні контроль за поширенням і доступністю інформації, контроль за її цілісністю, унікальністю та самобутністю також дуже необхідний. Існують цілі галузі, де перевірка та захист інформації вкрай необхідні. До таких областей відносяться наука (патентування, наукові статті та інше) та культура (авторське право та інше). Для вирішення проблем унікальності, наявності запозичень та іншого подібного було розроблено цілу низку статистичних та програмних методів. На їх основі базуються такі сервіси як Unicheck та інші. Але вони не в повному обсязі вирішують поставлену задачу, оскільки на сьогодні ці сервіси не є чутливими до заміни слів на синоніми, антоніми, зміну мови (переклад) та заміну частини символів. Мета роботи: Мета роботи полягає в покращення методів обробки текстових даних. Для покращеного розпізнавання плагіату, незареєстрованих запозичень. А також для покращення системи пошуку текстової інформації. Для досягнення поставленої мети в даній роботі вирішуються наступні задачі. 1. Аналіз способів класифікації інформації, яка представлена в природномовній формі. 2. Аналіз способів формування векторних представлень інформації в природомовній формі. 3. Аналіз методів продовження (угадування) інформації в природомовній формі з використанням машинного навчання. 4. Дослідження та порівняння класичних статистичних методів та машинного навчання в NLP задачах. 5. Підвищення ефективності існуючих методів класифікації за рахунок розробки модифікованого способу класифікації інформації в природомовній формі та їх порівняння методами машинного навчання. Об’єктом дослідження є способи обробки текстів, методами машинного навчання. Предметом дослідження є способи порівняння текстових даних та способи узагальнення текстових даних. Виділення ключових слів для створення текстових-векторів. Методи дослідження. В роботі використовуються методи штучного інтелекту абстракції, класифікації, порівняння природомовної форми інформації Також у роботі використовуються методи взаємодії штучного інтелекту і класичних статистичних методів. Наукова новизна одержаних результатів полягає в наступному: 1. Проаналізовано основні способи класифікації та порівняння інформації, яка представлена в природномовній формі. 2. Запропоновано спосіб підвищення ефективності методу порівняння та представлення інформації в природномовниій формі. 3. Досліджено та запропоновано впровадження даних методик в сфери захисту інтелектуальної власності. Практична цінність одержаних результатів В даній роботі запропоновано альтернативні методи з перевірки та обробки тексту, які забезпечують захист, обробку інформації, представленої в текстовій формі. Апробація роботи. Основні положення і результати роботи були представлені та обговорювались на: • XIII науковій конференції молодих вчених «Прикладна математика та комп’ютинг» ПМК-2020; • VІІ Міжнародної науково-технічної конференції «Сучасні методи, інформаційне, програмне та технічне забезпечення систем керування організаційно-технічними та технологічними комплексами». Публікації. За тематикою проведених досліджень опубліковано 2 наукові праці, а саме тези доповідей на 2-х конференціях. Структура та обсяг роботи. Магістерська дисертація складається зі вступу, чотирьох розділів, висновків по кожному розділу та загальних висновків по роботі в цілому, списку використаних літературних джерел (16 найменувань). Повний обсяг дисертації – 88 сторінок, у тому числі 78 сторінок основного тексту, 25 рисунків, 7 таблиць. У вступі надано загальну характеристику проблем задач обробки натуральних мов, сформовано мету досліджень, а також сформульовано практичну цінність роботи. У першому розділі була сформована задача даної роботи, а також розглянуті базові принципи обробки природної мови (Natural language processing) та сучасні методи використання машинного навчання та нейронних мереж для обробки природної мови. У другому розділі розглянуто актуальні методики з вирішення проблеми обробки натуральних мов (Natural language processing) та сучасні методи використання машинного навчання та нейронних мереж для обробки природної мови. Розглянуто та проаналізовано проблеми векторного представлення природомовних об’єктів інформації, продовження (угадування) природомовної форми інформації з використанням машинного навчання. Показано, що використання векторних представлень слів у обробці природних мов дає велику перевагу перед більш простими методами, як мішок слів, і дозволяє знаходити додаткові, неочевидні взаємозв’язки між текстами. Проведено порівняння та аналіз існуючих рішень, а також обґрунтовано вибір інструментарію для вирішення поставлених задач. У третьому розділі розроблено та описано програмний комплекс для вирішення визначених задач обробки натуральних мов, представлена порівняльна характеристика запропонованого способу з вже існуючими. У висновках було проаналізовано отриманий результат. Actuality of theme The task of information processing, which is presented in natural language form, is relevant since the days of writing. Problems such as correct translation, search for information, classification of texts have constantly accompanied mankind since then. With the advent of affordable personal computers (PCs), the world's information has exceeded all expectations. Therefore, it is not surprising that there is an urgent need to solve the above problems by software methods. Today, control over the dissemination and availability of information, control over its integrity, uniqueness and identity is also very necessary. There are whole areas where information verification and protection is essential. Such areas include science (patents, scientific articles, etc.) and culture (copyright, etc.). A number of statistical and software methods have been developed to address uniqueness, borrowing, and the like. Services such as Unicheck and others are based on them. But they do not fully solve the problem, because today these services are not sensitive to the replacement of words with synonyms, antonyms, change of language (translation) and replacement of some characters. Purpose: The purpose of the work is to improve the methods of processing text data. For improved recognition of plagiarism, unregistered borrowings. And also to improve the text search system. To achieve this goal in this work the following tasks are solved. 1. Analysis of ways to classify information that is presented in natural language form. 2. Analysis of ways of forming vector representations of information in natural language form. 3. Analysis of methods of continuation (guessing) of information in natural language form using machine learning. 4. Research and comparison of classical statistical methods and machine learning in NLP problems. 5. Improving the efficiency of existing classification methods by developing a modified method of classifying information in natural language form and comparing them with machine learning methods. The object of research is the methods of word processing, methods of machine learning. The subject of the research is the ways of comparing textual data and ways of generalizing textual data. Highlight keywords to create text vectors. Research methods. The methods of artificial intelligence of abstraction, classification, comparison of natural form of information are used in the work. The methods of interaction of artificial intelligence and classical statistical methods are also used in the work. The scientific novelty of the obtained results is as follows: 1. The main methods of classification and comparison of information presented in natural language form are analyzed. 2. The way of increase of efficiency of a method of comparison and representation of the information in a natural language form is offered. 3. The introduction of these methods in the field of intellectual property protection is researched and offered. The practical value of the results obtained This paper proposes alternative methods for checking and processing text, which provide protection, processing of information presented in text form. Approbation of work. The main provisions and results of the work were presented and discussed at: • the XIII Scientific Conference of Young Scientists "Applied Mathematics and Computing" PMK-2020; • the VII International Scientific and Technical Conference "Modern methods, information, software and hardware management organizational and technical and technological complexes ". Publications. Two scientific papers were published on the subject of the conducted researches, namely abstracts of reports at 2 conferences. Structure and scope of work The master's dissertation consists of an introduction, four chapters, conclusions on each section and general conclusions on the work as a whole, a list of used literature sources (16 titles). The full volume of the dissertation is 87 pages, including 78 pages of the main text, 2518 figures, 7 tables. In the introduction the general characteristic of problems of problems of processing of natural languages is given, the purpose of researches is formed, and also the practical value of work is formulated. In the first section the task of the given work was formed, and also the basic principles of processing of natural language (Natural language processing) and modern methods of use of machine learning and neural networks for processing of natural language are considered. The second section discusses current methods for solving the problem of natural language processing (Natural language processing) and modern methods of using machine learning and neural networks for natural language processing. The problems of vector representation of natural language objects of information, continuation (guessing) of natural language form of information with the use of machine learning are considered and analyzed. It has been shown that the use of vector representations of words in natural language processing has a great advantage over simpler methods, such as a bag of words, and allows you to find additional, non-obvious relationships between texts. The comparison and analysis of existing solutions are carried out, and also the choice of tools for the decision of the set tasks is substantiated. In the third section the software complex for the decision of the certain problems of processing of natural languages is developed and described, the comparative characteristic of the offered way with already existing is presented. The conclusions analyzed the obtained result.
- Published
- 2020
22. Інтелектуальний бот для локальних подорожей
- Author
-
Батрак, Євгеній Олександрович
- Subjects
Foursquare ,Dialogflow ,bot ,NLP ,Node.js ,Telegram ,бот - Abstract
У роботі розглянуто проблему у сфері локальних подорожей, показані основні особливості існуючих рішень в сфері локальних подорожей, їх переваги та недоліки. Було розглянуто кілька сучасних технологій для реалізації та обрано найвідповідніші до вимог швидкого, безпечного та зрозумілого додатку. Розроблено бота, який розпізнає натуральну мову для пошуку місць поблизу. Бот дозволяє здійснювати пошук місць різних категорій обробляючи намір користувача. Цей додаток гарно піддійте для людей, які багато пересуваються по місту або у пошуках нових місць. Бот був розроблений на мові JavaScript, з використанням платформи Node.js для серверної частини, Dialogflow для NLP, Foursquare API для пошуку місць та Telegram API для клієнтської частини. Для доступу к боту користувачу необхідно мати доступ до інтернету, телеграм аккаунт та любий телеграм додаток. В офлайн режимі бот не зможе працювати. Розмір пояснювальної записки – 55 аркушів, містить 24 ілюстрацій, 1 таблиця, 4 додатків. Examines the problem in the field of local travel, shows the main features of existing solutions in the field of local travel bots and their advantages and disadvantages. Several modern technologies for implementation were considered and the most appropriate to the requirements of a fast, secure and clear application were selected. Developed bot that allows users to make queries to search for places of various categories by processing the user’s intention. This app is good for people who travel around the city a lot or in search of new places. The bot was developed in JavaScript using Node.js platform for the server side, Dialogflow for NLP (natural language processing), the Foursquare API for places search, and the Telegram API for the client side. To access the bot, a user needs to have access to the Internet, a telegram account and a telegram application. The bot will not be able to work offline or without application. Explanatory note size – 55 pages, contains 24 illustrations, 1 table, 4 applications.
- Published
- 2020
23. Спосіб розробки чат бота на основі глибокого навчання для NLP
- Author
-
Кулаков, Юрій Олексійович
- Subjects
обробка природного мови ,нейроні мережі ,чат бот ,deep learning ,глибоке навчання ,мережі оперативної пам'яті ,neural networks ,LSTM ,004.8 ,NLP ,RNN ,нейроні мережі з довгою короткочасною пам'яттю - Abstract
Робота складається із вступу та чотирьох розділів. Загальний обсяг роботи: 71 аркуш основного тексту, 30 ілюстрацій, 1 таблиця. При підготовці використовувалася література з 35 різних джерел. Актуальність. У цій магістерській дисертації розглядається актуальна наукова тема, а саме створення робота, здатного розмовляти з справжньою людиною. Людство одержимо ще с часів Да Вінчі ідеєю автоматизації роботами завдань людини, не кажучи про те, що ті самі роботі мають з нами розмовляти та підтримувати логічний ланцюг розповіді. Проте активне конструювання та впровадження цієї ідеї припадає лише на початок століття. І хоча нейронні мережі булі відкриті ще, приблизно, в 1940-х роках, мала обчислювальна потужність тодішніх комп'ютерів не давала розвиток галузі Машинного навчання. Наразі нейроні мережі використовуються майже у всьому, що вимагає автоматика та де інші алгоритми не мають успіху, як наприклад, у області комп'ютерного зору, для створення навігаторів, класифікації фотографії та створення штучного інтелекту в загалі. Область створення чат ботів не є новою – такі гіганти програмної індустрії, як Apple, Amazon та Google вже не один рік будують помічників-роботів, з якими можна спілкуватися. Запропонований у цій магістерській дисертації спосіб може бути прикладом нетривіального вирішення вище описаної проблеми та нового підходу до спільного використання різних методів глибокого навчання. Мета і завдання дослідження. Метою магістерської роботи є розробка способу тренування штучної нейронної мережі на основі глибокого навчання для NLP, яка спроможна відповідати на прямі запитання людини. Для досягнення мети дослідження поставлено і вирішено такі завдання: • дослідження принципів машинного навчання; • дослідження структури та принципів побудови нейронних мереж; • розробка програмної моделі нейронних мереж з довгою короткочасною пам’ятю; • ілюстрація роботи моделі та аналіз отриманих результатів Об’єкт дослідження – чат бот на основі принципів NLP та нейронних мереж. Предмет дослідження – нейроні мережі з довгою короткочасною оперативною пам'яттю. Методи досліджень. Для досягнення поставлених в магістерській роботі задач, використано нейроні мережі з довгою короткочасною пам’яттю. Наукова новизна одержаних результатів роботи полягає у наступному: • запропоновано спосіб побудови чат бота на базі нейронних мереж;; • розроблено програмний продукт, а саме, чат бота, здатного відповідати на прямі запитання. Проведене дослідження дає можливість використання розробленої моделі для конструювання чат ботів та більш детального розуміння їх використання. Особистий внесок здобувача. Магістерське дослідження є самостійно виконаною роботою, в якій відображено особистий авторський підхід та особисто отримані теоретичні та прикладні результати, що відносяться до вирішення задачі побудови чат бота на основі нейронних мереж. Формулювання мети та завдань дослідження проводилось спільно з науковим керівником. Практична цінність. Отримані результати можуть використовуватися у майбутніх дослідженнях за напрямками: • побудова штучного інтелекту
- Published
- 2020
24. Розроблення інструментарію для аналізу текстів публічних та спеціалізованих джерел у завданнях передбачення та системного аналізу
- Subjects
Open Source ,Gensim ,519-7.51 ,systems analysis ,foresight ,classifiers ,ontologies ,text mining ,NLP ,Python - Abstract
A combined approach to extracting concepts and constructing classifiers and ontologies using open and proprietary software packages has been developed. Modern approaches, methods and models of storing large amounts of poorly structured information from Open Source software sets are studied. An ontology was built, in the leaves of which a classifier based on Boolean rules was implemented using SAS(R) Content Categorization Software. To build the ontology, the approach of constructing vectors of related concepts is employed using the Open Source library of Gensim software, namely the Word2Vec model. A typical algorithm for constructing a classifying ontology has been developed. The results of the research can be used to build an ontology of subject areas, create classification ontologies and mark corpora of texts.
- Published
- 2020
25. Тематичне моделювання за допомогою підходу BigArtm на прикладі згадувань про SpaceX
- Author
-
Каніовська, Ірина Юріївна
- Subjects
trends ,news streams ,ЕМ- алгоритм ,тренди ,topic modeling ,новинні потоки ,bigartm ,NLP ,тематичне моделювання ,ем-algorithm - Abstract
Дипломна робота: 66 с., 9 рис., 5 табл., 3 дод., 15 джерел. Актуальність теми: задача відслідковування трендів в новинних потоках є провідною для піару, маркетингу, соціальних досліджень. Ймовірнісне тематичне моделювання є провідною стратегією для аннотації новинних потоків, підхід BigArtm завдяки раціональному ЕМ-алгоритму та паралелизації дає можливість відслідковувати тренди у режимі онлайн. Метою даної роботи є побудувати ПЗ, яке б дозволяло отримувати найпопулярніші тренди серед згадувань про SpaceX та легко інтерпретувати їх. Об’єктом дослідження є пости з соцмереж. Методи дослідження: стандартні методи тематичного моделювання, ймовірнісне тематичне моделювання. Програмна реалізація виконана за допомогою мови програмування Python. Отримані результати: модель для виявлення трендів в новинних потоках. Topic: ‘Topic modeling via BigArtm approach on SpaceX mentions example’ Thesis: 66 p., 9 fig., 5 tabl., 3 append., 15 sources. Actuality: The task of tracking trends in news streams is leading for PR, marketing, social research. Probabilistic topic modeling is a leading strategy for annotation of news streams, the BigArtm approach thanks to the rational EM- algorithm and parallelization makes it possible to detect trends online. The object of the study is a posts from social networks. Research methods: standard methods of topic modeling, probabilistic topic modeling. The software was implemented using the Python programming language. Obtained results: a model for detecting trends in news streams.
- Published
- 2019
26. Система рекомендацій фільмів по моделі «PERMA»
- Author
-
Терещенко, Іван Миколайович
- Subjects
linguistic model ,statistical model ,лінгвістична модель ,51-77 ,аналіз емоційної окраски ,NLP ,softmax ,рекурентна нейронна мережа ,фільми ,recommendation system ,статистична модель ,sentiment analysis ,recurrent neural network ,films ,рекомендаційна система ,софт-макс - Abstract
Магістерська робота обсягом 95 сторінок має 20 рисунків, 2 таблиці, 2 додатки та 10 джерел. Завданням роботи є розробка рекомендаційної системи для фільмів на основі моделі PERMA. Обєктом дослідження є дані про фільм, субтитри з фільму, а також набір даних моделі PERMA. Предметом дослідження є застосування алгоритму статистичного навчання до даних, які характеризують фільм. Мета роботи полягає в розробці новітнього методу рекомендацій фільмів на основі вмісту фільмів та емоційної окраски мови персонажів. Методами дослідження є обробка великих даних, NLP, рекурентні нейронні мережі, статистичні моделі, Python, Numpy, Pandas, Tableau Дана робота – це результат новітнього підходу до створення рекомендацій фільмів, який узагальнює сучасні знання про психологію, машинне навчання, методів залучення та утримання клієнтів. Створена модель вбудована в розширення сервісу MEGOGO та може покращити інтерактивність клієнта та сервіса. Даний метод може бути використаний не тільки для рекомендацій фільмів, книг чи музики. Застосовувати модель можна до будь яких предметних областей, де обєктом є послідовності, та, таким чином, оцінювати емоційну окраску цих послідовностей. Master's work in 95 pages has 20 images, 2 tables, 2 attachments and 10 sources. The task of the work is to develop a recommendation system for films based on the PERMA model. The object of the investigation is the metadata about movies, subtitles of movies, and the set of data for the PERMA model. The subject of the investigation is the applying of the algorithm of statistical training to the data characterizing the film. The purpose of the work is to develop the film recommendation method based on the content of films and the sentiment of the characters' language. Investigation methods are processing large data, NLP, recurrent neural networks, statistical models, Python, Numpy, Pandas, Tableau. This work is a result of the latest approach to the creation of film recommendations, which summarizes latest knowledge about psychology, machine learning, methods of attracting and retaining clients. The created model is built into the extension of the MEGOGO service and can improve customer-service interactivity. This method can be used not only for the recommendations of movies, books or music. The model can be applied to any areas where the subject is a sequence, and thus, to assess the sentiment of these sequences.
- Published
- 2018
27. МОДЕЛЮВАННЯ СУГЕСТИВНИХ ЕФЕКТІВ У ПОЛІТИЧНІЙ РЕКЛАМНІЙ КАМПАНІЇ
- Subjects
слоган ,метамодель ,политическая реклама ,лингвистическая суггестия ,НЛП ,суггестивная лингвистика ,slogan ,meta model ,linguistic suggestion ,NLP ,suggestive linguistics ,політична реклама ,лінгвістична сугестія ,сугестивна лінгвістика - Abstract
The author analyzes and systematizes the linguistic suggestiveness realization algorithms of political slogans, taking into consideration their inherent influential potency. As a result, a complex linguistic suggestiveness analysis model consisting of five crucial components is offered. The meta-model components are as follows: political slogan type (a classification introduced in the author's PhD thesis which describes the slogan according to two basic categories: "addressee's positioning" (naive/factual slogans) and "sender's positioning" (egocentric/critical slogans)); type of lies (based on P Ekman's works on concealment, distortion and exaggeration of truth); NAP structure of linguistic suggestiveness (as introduced in the author's PhD thesis, which implies that any potentially influential text consists of three basic elements: N (the (allegedly) negative state of the recipient's conscience that (allegedly) requires improvement), A (the action needed to improve this negative state) and P (the (allegedly) positive state that is to be achieved by performing the previous action); the NLP meta-model process by R. Bandler and J. Grinder (distortion, deletion and generalization); and the advertisement slogan construction model (as presented in the author's PhD thesis, which features three types of slogans: functional (a factual description of the advertised object), Gestalt (an emotional description) and complex (a combinat ion of the two previous types)). This meta model could be used for both analysis and synthesis of the advertisement text. Analyzing political advertisement slogans according to the presented meta model provides a complex view of the mechanisms of their creation, and, in a way, presents a detailed description of the sender's intentions and strategies, stipulating a deeper understanding of the advertisement market as a whole. The synthesizing of political advertisement text (by this proposed model) will aid in the construction of a linguistically influential text which will more effectively reflect the aims and tactics of the political campaign., В статье проанализированы и систематизированы базовые алгоритмы реализации речевой суггестивности политических рекламних слоганов с учетом их имманентных суггестивных потенций, что стало основой для конструирования метамодели реализации суггестивной функции языка в этих дискурсах., У статті проаналізовано й систематизовано базові алгоритми реалізації мовної сугестивності політичних рекламних слоганів з огляду на їхні іманентні впливові потенції, що стало основою для створення метамоделі реалізації сугестивної функції мови в цих дискурсах.
- Published
- 2015
28. Оптимизация затрат в управлении сбытом ритейла на основе применения средств НЛП как эффективный инструмент устойчивого инновационного развития предприятий розничной торговли
- Author
-
Bilovodska, Olena Anatoliivna
- Subjects
управління збутом ,затраты ,предприятие розничной торговли ,retail ,инновационное развитие ,оптимизация ,управление сбытом ,НЛП ,підприємство роздрібної торгівлі ,NLP ,сosts ,ритейл ,оптимізація ,innovative development ,інноваційний розвиток ,sales management ,optimization ,витрати ,retailer - Abstract
У роботі виконано оптимізацію витрат в управлінні збутом ритейлу на основі застосування засобів нейро-лінгвістичного програмування підприємств роздрібної торгівлі В работе выполнена оптимизация затрат в управлении сбытом ритейла на основе применения средств нейро-лингвистического программирования предприятий розничной торговли In the paper the cost optimization in retail sales management based on application of neuro-linguistic programming retailers is accomplished
- Published
- 2010
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.