Start Over

Term Weighting in Short Documents for Document Categorization, Keyword Extraction and Query Expansion

Authors :: Helsingin yliopisto, matemaattis-luonnontieteellinen tiedekunta, tietojenkäsittelytieteen laitos
Helsingfors universitet, matematisk-naturvetenskapliga fakulteten, institutionen för datavetenskap
University of Helsinki, Faculty of Science, Department of Computer Science
VTT Technical Research Centre of Finland
Timonen, Mika
Helsingin yliopisto, matemaattis-luonnontieteellinen tiedekunta, tietojenkäsittelytieteen laitos
Helsingfors universitet, matematisk-naturvetenskapliga fakulteten, institutionen för datavetenskap
University of Helsinki, Faculty of Science, Department of Computer Science
VTT Technical Research Centre of Finland
Timonen, Mika
Publication Year :: 2013
Abstract: This thesis focuses on term weighting in short documents. I propose weighting approaches for assessing the importance of terms for three tasks: (1) document categorization, which aims to classify documents such as tweets into categories, (2) keyword extraction, which aims to identify and extract the most important words of a document, and (3) keyword association modeling, which aims to identify links between keywords and use them for query expansion. As the focus of text mining is shifting toward datasets that hold user-generated content, for example, social media, the type of data used in the text mining research is changing. The main characteristic of this data is its shortness. For example, a user status update usually contains less than 20 words. When using short documents, the biggest challenge in term weighting comes from the fact that most words of a document occur only once within the document. This is called hapax legomena and we call it Term Frequency = 1, or TF=1 challenge. As many traditional feature weighting approaches, such as Term Frequency - Inverse Document Frequency, are based on the occurrence frequency of each word within a document, these approaches do not perform well with short documents. The first contribution of this thesis is a term weighting approach for document categorization. This approach is directed to combat the TF=1 challenge by excluding the traditional term frequency from the weighting method. It is replaced by using word distribution among categories and within a single category as the main components. The second contribution of this thesis is a keyword extraction approach that uses three levels of word evaluation: corpus level, cluster level, and document level. I propose novel weighting approaches for all of these levels. This approach is designed to be used with short documents. Finally, the third contribution of this thesis is an approach for keyword association weighting that is used for query expansion. This approach uses<br />Tämä väitös keskittyy termien painotuksen haasteisiin lyhyissä dokumenteissa. Ehdotan painotusmenetelmiä kolmeen eri osa-alueeseen: (1) dokumenttien kategorisointi, jossa pyritään luokittelemaan muun muassa Twitter viestejä, (2) avainsanojen louhinta, jossa tavoitteena on tunnistaa ja louhia dokumentin tärkeimmät sanat, ja (3) avainsanojen assosiaatiomallinnus, jonka tavoitteena on tunnistaa sanojen välisiä linkkejä ja hyödyntää niitä haun laajennoksessa. Koska tekstinlouhinta keskittyy nykyään käyttäjien luomiin dokumentteihin, kuten esimerkiksi sosiaaliseen mediaan, tekstinlouhinnassa käytetty tieto on muuttumassa. Suurin muutos on tekstin pituus, koska sosiaalisen median viestit ovat usein alle 20 sanaa pitkiä. Tästä seuraa painotuksen suurin haaste: sanat esiintyvät usein pelkästään kerran dokumentin sisällä. Me kutsumme tätä haastetta Term Frequency = 1 (Termi Frekvenssi = 1) tai TF=1 haasteeksi. Tämän haasteen vuoksi useat perinteiset menetelmät, kuten esimerkiksi TF-IDF, ei tuota hyviä tuloksia lyhyissä dokumenteissa. Tämän työn ensimmäinen kontribuutio on termien painotus menetelmä dokumenttien luokitteluun. Menetelmä perustuu sanan esiintymistiheyden korvaamiseen muilla komponenteille, kuten esimerkiksi sanan luokkakohtaisella jakaumalla. Työn toinen kontribuutio on menetelmä avainsanojen louhintaan joka perustuu sanojen hyvyyden arviointiin kolmella eri tasolla: korpus, klusteri ja dokumentti tasoilla. Kolmas kontribuutio keskittyy avainsanojen assosiaatiomallintamiseen. Tässä tavoitteena on löytää vahvasti toisiinsa liittyviä avainsanoja ja hyödyntää näitä linkkejä haun laajennoksessa. Tämän väitöskirjan tärkein löydös on se, että olemassa olevat ja hyväksi havaitut menetelmät jotka on luotu pitkille dokumenteille, eivät toimi lyhyiden dokumenttien kanssa optimaalisesti. Tässä väitöksessä esitetyt uudet menetelmät tuottavat lupaavia menetelmiä kaikilla kokeilluilla osa-alueilla.

Details

Database :: OAIster
Notes :: application/pdf, English
Publication Type :: Electronic Resource
Accession number :: edsoai.ocn827017529
Document Type :: Electronic Resource

Tools

Email
Cite

Printer

Authors Abstract Subjects Details

Searchworks

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources

Term Weighting in Short Documents for Document Categorization, Keyword Extraction and Query Expansion

Abstract

Details

Tools

Searchworks

Select search scope, currently: Articles Catalog books, media & more in Jio Institute collections Articles journal articles & other e-resources

Term Weighting in Short Documents for Document Categorization, Keyword Extraction and Query Expansion

Abstract

Details

Tools

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources