Back to Search
Start Over
Извлечение морфологических признаков технических систем из русскоязычных патентов по деревьям зависимостей
- Publication Year :
- 2022
- Publisher :
- Воронежский институт высоких технологий, 2022.
-
Abstract
- В статье представлена методология извлечения морфологических признаков технических систем в виде компонентов устройства и связей между ними. Объектом анализа для извлечения данных выступает главный пункт формулы изобретения в текстах русскоязычных патентов. Информация о компонентах устройства является наиболее фундаментальной и важной и может использоваться во множестве задач анализа патентного массива, а поиск эффективных подходов по извлечению такой информации все еще продолжается. В настоящем исследовании областью применения указанных данных рассматривается направление автоматизированного изобретательства. Целью работы являлся анализ качества извлечения данных по деревьям зависимостей для русского языка. Деревья зависимостей являются результатом работы систем синтаксической разметки естественного языка. Для сравнения были выбраны следующие синтаксические анализаторы: UdPipe, Stanza, DeepPavlov и spaCy. Выходные данные представлены в виде семантических структур SAO (Subject-Action-Object). Дана оценка качества извлечения данных с помощью метрик точности (precision), полноты (recall) и F1-меры. Для этого вручную было размечено 20 патентных формул с 252 структурами SAO. При текущих методологических ограничениях из тестовой выборки в лучшем случае удалось извлечь 79 % связок SAO в терминах метрики recall при нестрогой оценке данных, т. е. без учета полноты именных групп субъекта и объекта. Значение F1-меры по инструментам несколько ниже и находится в пределах от 48 % до 66 % в зависимости от типа оценки. Сделаны общие выводы по текущему уровню работы синтаксических анализаторов в рамках исследуемой области применения. Материалы статьи представляют практическую ценность при проработке эффективных подходов извлечения структурированных данных из русскоязычного патентного массива.<br />The article presents a methodology for extracting morphological features of technical systems in the form of device components and connections between them. The main section of Russian patents claims is chosen as the subject of the study for data extraction. Information about device components is the most fundamental and important part. It can be used in many tasks of computer-aided patent analysis, while the search for effective approaches to extracting such information is still in progress. In the present inquiry, computer-aided development of inventions is considered as a range of applications for such data. The aim of the study was to explore the quality of data extraction using dependency tree analysis for Russian language. The dependency tree is the result of markup by natural language processing tools. Several parsers were chosen for the comparison: UdPipe, Stanza, DeepPavlov and spaCy. The output data are presented in the form of semantic SAO (Subject-Action-Object) structures. The quality of data extraction has been evaluated using precision, recall and F1 metrics. For this purpose, 20 patent claims with 252 SAO structures were manually marked. Under the current methodological constraints, we were able to extract from the dataset 79 % of the SAO structures at best according to the recall metric with a non-strict data evaluation, i.e. without accounting for the completeness of noun groups. The value of F1-measure is lower and ranges from 48 % to 66 % depending on the evaluation type. Conclusions are drawn about the current level of the syntactic analyzer performance within the field of application under review. The results can be useful for developing efficient approaches to extracting structured data from Russian patent arrays.<br />МОДЕЛИРОВАНИЕ, ОПТИМИЗАЦИЯ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ, Выпуск 4 (39) 2022, Pages 6-7
Details
- Language :
- Russian
- Database :
- OpenAIRE
- Accession number :
- edsair.doi...........0d0a9eda43764ad26e798c936409f5b3
- Full Text :
- https://doi.org/10.26102/2310-6018/2022.39.4.006