Back to Search Start Over

Integrating Word Embeddings and Taxonomy Learning for Enhanced Lexical Domain Modelling

Authors :
Giabelli, A
BIANCO, SIMONE
MERCORIO, FABIO
GIABELLI, ANNA
Giabelli, A
BIANCO, SIMONE
MERCORIO, FABIO
GIABELLI, ANNA
Publication Year :
2024

Abstract

Questa tesi di dottorato mira a integrare tassonomie lessicali e modelli di word embedding per sviluppare nuove metodologie volte a migliorare le rappresentazioni dell'elaborazione del linguaggio naturale. Le tassonomie lessicali servono come mezzo per organizzare gerarchicamente la conoscenza umana e offrire descrizioni formali dei concetti e delle loro relazioni, supportando scambi sia sintattici che semantici. D'altra parte, i modelli di word embedding sono rappresentazioni vettoriali di parole che catturano modelli linguistici e semantica lessicale da testi estesi; sono basati sull'idea che parole con contesti simili tendono ad avere significati simili. Questa ricerca esplora la congiunzione dei modelli di word embedding con la struttura delle tassonomie lessicali, consentendo la scelta di word embedding che si adattano alla struttura gerarchica dei concetti che rappresentano. Inoltre, i modelli di word embedding possono aiutare ad aggiornare le tassonomie per accogliere lingue e domini di conoscenza in evoluzione. Facilitano l'incorporazione di nuovi concetti nelle posizioni tassonomiche appropriate sfruttando dati testuali. Inoltre, i modelli di word embedding possono essere preziosi per allineare e collegare le tassonomie, il che è fondamentale quando più tassonomie all’interno di un unico dominio, costruito da diverse istituzioni per scopi diversi, devono comunicare in modo efficace. La tesi è divisa in più parti. La parte I introduce i due argomenti fondamentali dei modelli di word embedding e delle tassonomie lessicali. La parte II si concentra su due metodi per valutare i modelli di word embedding. Un metodo, TaxoVec, è un framework per selezionare word embedding compatibili con la tassonomia sfruttando una misura di somiglianza semantica tassonomica (HSS), mentre VEC2BEST offre un framework di valutazione generale per word embedding senza una tassonomia specifica. Fornisce una metrica di valutazione completa chiamata PCE (Principal Component Evaluat<br />This PhD thesis aims to integrate lexical taxonomies and word embeddings to develop novel methodologies for enhancing Natural Language Processing representations. Lexical taxonomies serve as a natural means of organising human knowledge in a hierarchical way and offering formal descriptions of concepts and their relationships, supporting both syntactic and semantic exchanges. On the other hand, word embeddings are vector representations of words that capture linguistic patterns and lexical semantics from extensive corpora based on the idea that words with similar contexts tend to have similar meanings. This research explores the conjunction of word embeddings with the structure of lexical taxonomies, enabling the choice of word embeddings that fit the hierarchical structure of the concepts they represent. Additionally, word embeddings can aid in updating taxonomies to accommodate evolving languages and knowledge domains. They facilitate the incorporation of new concepts in the appropriate taxonomic positions by leveraging vast textual data. Moreover, word embeddings can be valuable for aligning and linking taxonomies, which is crucial when multiple taxonomies within a single domain, built by different institutions for varying purposes, need to communicate effectively. The thesis is divided into several parts. Part I introduces the two fundamental subjects of word embeddings and lexical taxonomies. Part II focuses on two methods for evaluating word embeddings. One method, TaxoVec, is a framework to select taxonomy-aware word embeddings leveraging a measure of taxonomic semantic similarity (the HSS), while VEC2BEST offers a general evaluation framework for word embeddings without a specific taxonomy. It provides a comprehensive evaluation metric called the PCE (Principal Component Evaluation) for each model. Part III details two methodologies for enhancing and aligning lexical taxonomies using word embeddings. NEE enables taxonomy enrichment by estimating data conform

Details

Database :
OAIster
Notes :
English
Publication Type :
Electronic Resource
Accession number :
edsoai.on1427431859
Document Type :
Electronic Resource