Back to Search Start Over

Usporedba jezičnih alata za njemački jezik

Authors :
Beli, Dorian
Martinčić-Ipšić, Sanda
Publication Year :
2018

Abstract

Kada govorimo o računalnoj analizi i razumijevanju teksta, alati poput lematizatora, korjenovatelja, obilježivača vrsta riječi te različiti korpusi jezika igraju veliku ulogu u području računalne lingvistike. Alati poput ovih promatraju sintaksu i lingvistiku nekog određenog jezika te što boljom primjenom pravila istih, uz pokoju implementaciju vjerojatnosnih algoritama, nastoje bolje obraditi zadani jezik. U ovom završnom radu obrađujemo 4 najpoznatija korjenovatelja, dva lematizatora te dva obilježivača vrsta riječi njemačkog jezika. Osim teorijske obrade navedenih alata, dotaknut ćemo se i praktične usporedbe navedenih u zasebnom poglavlju na vlastitim tekstovima. Korjenovatelji Snowball, CISTEM, Text::Geramn i UniNE, lematizatori GermaLemma i SMOR te obilježivači TIGER korpusa i Pro3GreDE imaju iskazanu točnost u postotcima. Među korjenovateljima najuspješniji se pokazao CISTEM korjenovatelj s 91.23% točnih korjenovanja, zatim Text::German sa 88, 55% kojeg slijedi Snowball sa 82, 44% te na kraju UniNE koji ima točnost u rasponu od 78, 63% do 80, 92%. Između dva obilježivača vrsta riječi točniji se pokazao hibridni Pro3GresDE sa 93, 55% te onaj uključen unutar TIGER korpusa sa 90, 32% točnosti. Kod lematizatora točnijim se pokazao SMOR sa 94, 27% točnosti te nakon njega GermaLemma sa 85, 5% točnosti.

Details

Language :
Croatian
Database :
OpenAIRE
Accession number :
edsair.dedup.wf.001..5bd15464f6218e17947a4189b696a71e