Back to Search Start Over

Extraktive Zusammenfassung von deutsche Wikipedia

Authors :
Beli, Dorian
Martinčić-Ipšić, Sanda
Beliga, Slobodan
Meštrović, Ana
Kovačić, Božidar
Publication Year :
2021

Abstract

U svijetu ovisnom sve više o online i cloud tehnologijama gdje se u posljednje vrijeme odvija sve veća pohrana i obrada podataka, pojavljuje se potreba za algoritmima sažimanja i rangiranja tekstualnih datoteka, stranica i drugih izvora. Algoritmi ekstraktivnog i apstraktnog sažimanja tekstova nastoje na što brži, bolji i jednostavniji način obraditi i predstaviti velike količine tekstova u što kraćem vremenu sa što većom preciznošću. U ovom diplomskom radu riječ je upravo o nekoliko takvih algoritama te se prvenstveno usmjerava na algoritme ekstraktivne prirode. Kako bi se utvrdila važnost rečenice, njihova međusobna povezanost te koje rečenice imaju veće značenje razvijeni su različiti algoritmi sličnosti rečenica. Ovdje se primjenjuju algoritmi sličnosti kosinusa, Jaccardova sličnost, te Mihalcea sličnost (Mihalcea, Corley i Strapparava 2006) te algoritmi rangiranja i sažimanja SBKE (Beliga, Martinčić-Ipšić i Meštrović 2016) i LexRank. Na temelju formiranih grafova i primjene različitih mjera sličnosti rečenica pristupom stvaranja grafova, SBKE je ostvario najbolji rezultat u kombinaciji sa Jaccardovom mjerom sličnosti do 19,04% , LexRank u kombinaciji s Mihalcea algoritmom sličnosti rečenica do 16,26%, algoritam sažimanja na temelju Kullback_Leiblerove divergencije je ostvario 8,96% točnosti, a TextRank, koji koristi čisti PageRank algoritam bez mjera sličnosti, je ostvario rezultat od 17,04%. Također su primijenjeni i klasifikatori na temelju TF-IDF, word2vec i doc2vec vektora. Algoritam slučajnih šuma je ostvario najbolji rezultat od 76,51%, algoritam Naîvnog Bayesa je ostvario najbolji rezultat od 91,36%, dok je SVM klasifikator ostvario najbolji rezultat od 90,43%.<br />In the world growingly more dependent on online and cloud technologies, where society stores and processes more and more data, the need for algorithms capable of summarizing and ranking texts, websites and other sources is constantly rising. Extractive and abstractive text summarization algorithms strive for faster, better and simpler solutions towards large quantities of text processing and representation in shortest time possible with the best precision. This paper talks about such algorithms with the focus on those with extractive nature. In order to decide on the importance of the sentence, various algorithms are developed, taking the interconnectedness of the sentences into account. Cosine similarity, Jaccard similarity and Mihalcea similarity (Mihalcea, Corley i Strapparava 2006), as well as LexRank and SBKE (Beliga, Martinčić-Ipšić i Meštrović 2016) summarizers, are being presented. Based on graphs using all the given sentence similarity measures, SBKE scored the best result of 19,04% using Jaccard similarity measure, LexRank resulted with 16,26% F1 score, the KL divergence summarizer resulted with 8,96% F1 score and TextRank, which uses the PageRank algorithm without any mentioned similarity measure, has an F1 score of 17,04%. For text classification, based on TF-IDF, word2vec and doc2vec algorithms, Random forest scored the best result of 76,51%, Naîve Bayes scored the best result of 91,36% and SVM scored the best result of 90,04%.<br />In einer Welt von Online- und Cloud-Technologien zunehmenden Abhängigkeit werden heutzutage die Daten immer mehr gespeichert und verarbeitet und Algorithmen für die automatische Zusammenfassung und Ranking von Textdateien, Seiten und anderen Quellen werden benötigt. Die extraktiven und abstraktiven Algorithmen versuchen am schnellsten, mit größtmöglicher Präzision in kürzester Zeit die Textmengen zu verarbeiten und darzustellen. Diese Arbeit befasst sich mit mehreren solcher Algorithmen und konzentriert sich auf extraktive Algorithmen. Um die Wichtigkeit eines Satzes festzustellen, sein Zusammenhang und welche Sätze eine größere Wichtigkeit haben, wurden die verschiedene Satzähnlichkeitsalgorithmen entwickelt. In dieser Arbeit werden Kosinus-Ähnlichkeitsalgorithmen, Jaccard Ähnlichkeit und Mihalcea Ähnlichkeit sowie die Algorithmen für die automatische Zusammenfassung von Texten SBKE und LexRank verwendet. Auf der Grundlage der gebildeten Graphen und der Anwendung verschiedener Satzähnlichkeitsalgorithmen erzielte SBKE das beste Ergebnis in Kombination mit Jaccards Satzähnlichkeitsalgorithmus bis zu 19,04 Prozent, LexRank in Kombination mit Mihalcea Satzähnlichkeitsalgorithmus bis zu 16,26 Prozent, Kullback-Leibler Divergenz Algorithmus für die automatische Zusammenfassung erzielte das beste Ergebnis bis zu 8,96 Prozent und TextRank erreichte ein Ergebnis von 17,04 Prozent Die Klassifizierungsalgorithmen basierend auf TF-IDF, word2vec und doc2vec Vektoren wurden ebenfalls verwendet. Der Random Forest Algorithmus erzielte das beste Ergebnis bis zu 76,51 Prozent, der Naîve Bayes erzielte das beste Ergebnis bis zu 91,36 Prozent, während der SVM erzielte das beste Ergebnis bis zu 90,04 Prozent.

Details

Language :
Croatian
Database :
OpenAIRE
Accession number :
edsair.dedup.wf.001..6d3f5bfba557296a0e4e5da00b1304d1