1. ENABLING TABULAR DATA UNDERSTANDING BY HUMANS AND MACHINES THROUGH SEMANTIC INTERPRETATION
- Author
-
Cremaschi, M, MAURINO, ANDREA, DE PAOLI, FLAVIO MARIA, CREMASCHI, MARCO, Cremaschi, M, MAURINO, ANDREA, DE PAOLI, FLAVIO MARIA, and CREMASCHI, MARCO
- Abstract
Esiste un numero significativo di documenti, report e pagine Web – un'analisi riporta 233 milioni di tabelle relazionali nel repository Common Crawl contenente un totale 2,85 miliardi di documenti – che fanno uso di tabelle per fornire informazioni che non possono essere facilmente elaborate dagli umani o capite dai computer. Per risolvere questo problema proponiamo un nuovo approccio che permetterà ai computer di interpretare la semantica di una tabella, e fornirà agli umani una rappresentazione più accessibile dei dati contenuti in essa. Per conseguire questo obiettivo, il problema principale è stato suddiviso in tre sotto-problemi: (i) la definizione di un metodo per fornire un'interpretazione semantica dei dati di una tabella; (ii) la definizione di un modello descrittivo che permetta ai computer di capire e condividere dati di una tabella; e (iii) la definizione di processi, tecniche e algoritmi per generare rappresentazioni dei dati in linguaggio naturale. Per quanto riguarda il sotto-problema (i), la rappresentazione semantica dei dati è stata ottenuta attraverso l'applicazione di tecniche di interpretazione di tabelle (table interpretation), che aiuta gli utenti ad identificare, in una maniera semi-automatica, il significato dei dati di una tabella e le relazioni tra di essi. Queste tecniche considerano in input una tabella e un Knowledge Graph, e restituiscono una rappresentazione RDF – un set di tuple
– del contenuto della tabella, facendo riferimento ai concetti e alle proprietà del KG. Questa dissertazione presenta un nuovo approccio che, a partire dai lavori presenti in letteratura, ha portato allo sviluppo di un nuovo strumento, chiamato MantisTable, che effettua automaticamente un'interpretazione semantica completa della tabella. Gli esperimenti condotti hanno mostrato buoni risultati, rispetto alle tecniche e ai tool simili. Il sotto-problema (ii) è stato affrontato con la definizione di nuovi modi di rappresenta, A significant number of documents, reports and Web pages –an analysis reports 233M relational tables within the Common Crawl repository of 1.81 billion documents– makes use of tables to convey information that cannot be easily processed by humans, and understood by computers. To address this issue, we propose a new approach that allows computers to interpret the semantics of a table, and provides humans with a more accessible representation of the data contained in a table. To achieve the objective, the general problem has been broken down into three sub-problems: (i) define a method to provide a semantic interpretation of table data; (ii) define a descriptive model that allows computers to understand and share table data; and (iii) define processes, techniques and algorithms to generate natural language representation of the table data. Regarding sub-problem (i), the semantic representation of a data has been obtained through the application of table interpretation techniques, which supports users to identify in a semi-automatic way the meaning of the data in the table and the relationships between them. Such techniques take a table and a Knowledge Graph (KG) as input, and deliver as output an RDF representation –a set of tuples –. The output contains the input table annotated with the KG concepts and properties. This thesis presents a new approach, rooted in the existing literature, to laid the foundations for the development of a new tool -called MantisTable- which automatically performs a complete semantic interpretation of a table. The conducted experiments have shown good results compared to similar techniques. Sub-problem (ii) has been tackled by defining new ways of representing data. A new kind of description has been defined that combines the OpenAPI specification with the JSON-LD. The results of semantic table interpretation techniques are exploited to enhance a popular description format and allow automatic retrieval and proce - Published
- 2020