Back to Search Start Over

Diseño y desarrollo de un sistema de ficheros distribuido y paralelo basado en Apache Cassandra

Authors :
Pozo Puñal, Elías del
García Carballeira, Félix
Universidad Carlos III de Madrid. Departamento de Informática
Source :
e-Archivo. Repositorio Institucional de la Universidad Carlos III de Madrid, instname
Publication Year :
2019

Abstract

Conforme pasan los años, va aumentando la necesidad de almacenar grandes canti- dades de información a medida que también va aumentando el tamaño de los datos que los usuarios tienen a su disposición. Para ello, van surgiendo diferentes sistemas de fche- ros, bases de datos o sistemas de almacenamiento que permiten a estos usuarios guardar fcheros o información cada vez más grandes. Por ello, Apache Cassandra es una Base de Datos que ofrece la posibilidad de almacenar grandes cantidades de información sin comprometer el rendimiento ni la disponibilidad. Esta Base de Datos ofrece la posibilidad de que pueda implantarse en diferentes nodos permitiendo la comunicación entre todos ellos sin perder la información si alguno de esos nodos falla. Durante este trabajo se va a proceder a explicar el diseño e implementación de una interfaz para la Base de Datos Apache Cassandra, de tal forma que pueda ser utilizada como un Sistema de Ficheros, basándose en las llamadas de POSIX. De igual forma, se realizará una interfaz para MPI-IO con las mismas funciones. Esta Base de Datos, desarrollada por la Apache Software Foundation, es una Base de Datos no relacional, que se basa en el modelo “clave-valor” como modelo de almacenamiento. Este modelo de almacenamiento es muy similar al concepto de Map-Reduce, técnica que permite el procesado de datos gracias a la generación de tuplas (, ). Para poder realizar esta interfaz de llamadas a Cassandra, se utilizará un conector que permitirá la conexión con la BBDD y se procederá a realizar una serie de pruebas que determinarán la capacidad y el rendimiento de Cassandra con diferentes tipos de tamaño de fchero y diferentes clientes, además de una comparación con el rendimiento de otros sistemas de fcheros como, por ejemplo, HDFS [1]. As the years go by, the need to store large amounts of information increases as the size of the data that users have at their disposal also increases. To this end, diferent fle systems, databases or storage systems are emerging that allow these users to save ever larger fles or information. Therefore, Apache Cassandra is a Database that ofers the possibility of storing large amounts of information without compromising performance or availability. This Database ofers the possibility that it can be implanted in diferent nodes allowing communication between all of them without losing the information if any of those nodes fail. During this work will proceed to explain the design and implementation of an inter- face for the Database Apache Cassandra, so that it can be used as a File System, based on calls from POSIX. Likewise, an interface for MPI-IO with the same functions will be created. This Database, developed by the Apache Software Foundation, is a non-relational Database based on the key-value model as a storage model. This storage model is very similar to the concept of Map-Reduce, a technique that allows data processing thanks to the generation of tuples (, ). In order to be able to make this interface of calls to Cassandra, a connector will be used that will allow the connection with the DDBB and a series of tests will be carried out that will determine the capacity and performance of Cassandra with diferent types of fle size and diferent clients, as well as a comparison with the performance of other fle systems such as, for example, HDFS [1]. Ingeniería Informática

Details

Database :
OpenAIRE
Journal :
e-Archivo. Repositorio Institucional de la Universidad Carlos III de Madrid, instname
Accession number :
edsair.dedup.wf.001..1d706cb0ae8b48553050a03da55e6af2