1. Saityno informacijos išrinkimo metodų tyrimas
- Author
-
Gleixner, Jurgis and Blažauskas, Tomas
- Subjects
structure based methods ,struktūriniais šablonais paremtas metodas ,precision ,information extraction ,tikslumo tyrimas ,informacijos išrinkimas - Abstract
Nuolat didėjant įvairių informacinių, el. parduotuvių, skelbimų ir kitokio pobūdžio internetinių svetainių kiekiui, tampa vis sunkiau surasti ir atsirinkti reikalingą informaciją. Ypač daug laiko reikalauja periodinis informacijos ieškojimas, nes kiekvienas najuai atsiradęs ieškomos informacijos šaltinis prailgina visą paiešką. Dar sunkaiu yra todėl, kad ne visos internetinės svetainės teikia vienodas ir geras galimybes atsirinkti norimą informaciją, o kai kuriose iš jų tokių galimybių praktiškai nėra. Pavyzdžiui ieškodami skelbimų turime peržiūrėti daugybę interneto svetainių. Kai kuriuose iš jų galime naudotis paieška (jei ji yra), kad atsirinktume tai ko mums reikia, kitose turime papraščiausiai peržiūrėti visus neseniai atsiradusius skelbimus. Norėdami įsygti prekę, galime ieškoti jos el. parduotuvėse, tačiau kadangi jų yra labai daug ir vis daugėja, labai sunku yra rasti optimalų variantą ir tuo pačiu tai reikalauja daug laiko. Todėl atsiranda poreikis automatizuoti informacijos išrinkimą iš daugelio internetinių svetainių ir pateikti ją vartotojui patogioje formoje, taip kad jis galėtų išrinktą informaciją filtruoti, palyginti ir t. t. nebeieškant jos daugybėje skirtingų inrneto svetainių., Nowadays the amount of information in internet is increasing very fast. It becomes a difficult and time consuming work to find required information. Not many websites offer a possibility to filter information in more complex ways. The solution of this problem is an information extraction system, which collects information from websites and transforms it into a more flexible form (XML, CSV, DB), where complex filters and data manipulations can be applied. In this work we analyze methods to automatically extract information from websites in simple and interactive way. This work is more focused on structural pattern based information extraction systems. We introduce such a system and compare its functionality with other similar systems. Precision is one of the most important attributes of such systems, so we analyze ways to increase it.
- Published
- 2011