Start Over

Developing a framework architecture of a secure big data lake

Publication Year :: 2022
Publisher :: Ð¡Ð°Ð½ÐºÑ-ÐÐµÑÐµÑÐ±ÑÑÐ³ÑÐºÐ¸Ð¹ Ð¿Ð¾Ð»Ð¸ÑÐµÑÐ½Ð¸ÑÐµÑÐºÐ¸Ð¹ ÑÐ½Ð¸Ð²ÐµÑÑÐ¸ÑÐµÑ ÐÐµÑÑÐ° ÐÐµÐ»Ð¸ÐºÐ¾Ð³Ð¾, 2022.
Abstract: Ð Ð´Ð°Ð½Ð½Ð¾Ð¹ Ð²ÑÐ¿ÑÑÐºÐ½Ð¾Ð¹ ÐºÐ²Ð°Ð»Ð¸ÑÐ¸ÐºÐ°ÑÐ¸Ð¾Ð½Ð½Ð¾Ð¹ ÑÐ°Ð±Ð¾ÑÐµ Ð¿ÑÐµÐ´ÑÑÐ°Ð²Ð»ÐµÐ½Ð° ÑÐ°Ð·ÑÐ°Ð±Ð¾ÑÐºÐ° Ð°ÑÑ Ð¸ÑÐµÐºÑÑÑÑ ÑÑÐµÐ¹Ð¼Ð²Ð¾ÑÐºÐ° Ð·Ð°ÑÐ¸ÑÑÐ½Ð½Ð¾Ð³Ð¾ Ð¾Ð·ÐµÑÐ° Ð±Ð¾Ð»ÑÑÐ¸Ñ Ð´Ð°Ð½Ð½ÑÑ . ÐÐ° Ð¾ÑÐ½Ð¾Ð²Ñ Ð²Ð·ÑÑ Data Lake Architecture Framework (DLAF), ÑÐ°Ð·ÑÐ°Ð±Ð¾ÑÐ°Ð½Ð½ÑÐ¹ Ð¸ÑÑÐ»ÐµÐ´Ð¾Ð²Ð°ÑÐµÐ»ÑÐ¼Ð¸ Ð´Ð°Ð½Ð½ÑÑ Ð¨ÑÑÑÐ³Ð°ÑÐ´ÑÐºÐ¾Ð³Ð¾ Ð£Ð½Ð¸Ð²ÐµÑÑÐ¸ÑÐµÑÐ°. Ð ÑÐ°Ð±Ð¾ÑÐµ Ð¸ÑÑÐ»ÐµÐ´Ð¾Ð²Ð°Ð½Ð° Ð¼ÐµÑÐ¾Ð´Ð¾Ð»Ð¾Ð³Ð¸Ñ DLAF, ÐµÐ³Ð¾ Ð°ÑÐ¿ÐµÐºÑÑ Ð¸ Ð¸Ð· Ð²Ð·Ð°Ð¸Ð¼Ð¾Ð´ÐµÐ¹ÑÑÐ²Ð¸Ñ. Ð Ð°Ð·ÑÐ°Ð±Ð¾ÑÐºÐ° ÑÑÐµÐ´ÑÑÐ²Ð° Ð¾Ð±ÐµÑÐ¿ÐµÑÐµÐ½Ð¸Ñ Ð¸Ð½ÑÐ¾ÑÐ¼Ð°ÑÐ¸Ð¾Ð½Ð½Ð¾Ð¹ Ð±ÐµÐ·Ð¾Ð¿Ð°ÑÐ½Ð¾ÑÑÐ¸ Ð¾Ð·ÐµÑÐ° Ð´Ð°Ð½Ð½ÑÑ Ð½Ð° Ð°ÑÑ Ð¸ÑÐµÐºÑÑÑÐ½Ð¾Ð¼ ÑÑÐ¾Ð²Ð½Ðµ Ð¿Ð¾ÑÑÐµÐ±Ð¾Ð²Ð°Ð»Ð° ÑÑÐ°ÑÐµÐ»ÑÐ½Ð¾Ð³Ð¾ Ð¾ÑÐ±Ð¾ÑÐ° ÑÑÐµÐ½Ð°ÑÐ¸ÐµÐ² Ð°ÑÐ°Ðº Ð¸ Ð¼Ð¾Ð´ÐµÐ»ÐµÐ¹ Ð±ÐµÐ·Ð¾Ð¿Ð°ÑÐ½Ð¾ÑÑÐ¸. ÐÑÐ±Ð¾Ñ Ð¿ÑÐ¾Ð²Ð¾Ð´Ð¸Ð»ÑÑ Ñ ÑÑÑÑÐ¾Ð¼ ÑÐ°ÐºÐ¸Ñ Ð³Ð»Ð°Ð²Ð½ÑÑ Ð¾ÑÐ»Ð¸ÑÐ¸ÑÐµÐ»ÑÐ½ÑÑ ÑÐµÑÑ Ð¾Ð·ÐµÑÐ° Ð´Ð°Ð½Ð½ÑÑ , ÐºÐ°Ðº Ð²Ð¾Ð·Ð¼Ð¾Ð¶Ð½Ð¾ÑÑÐ¸ Ð·Ð°Ð³ÑÑÐ·ÐºÐ¸, Ð¾Ð±ÑÐ°Ð±Ð¾ÑÐºÐ¸ Ð¸ Ð²ÑÐ³ÑÑÐ·ÐºÐ¸ Ð´Ð°Ð½Ð½ÑÑ Ð°Ð±ÑÐ¾Ð»ÑÑÐ½Ð¾ Ð»ÑÐ±Ð¾Ð³Ð¾ ÑÐ¸Ð¿Ð°, Ð° ÑÐ°ÐºÐ¶Ðµ Ð²Ð·Ð°Ð¸Ð¼Ð¾Ð´ÐµÐ¹ÑÑÐ²Ð¸Ðµ Ñ Ð»ÑÐ±ÑÐ¼ Ð¸ÑÑÐ¾ÑÐ½Ð¸ÐºÐ¾Ð¼ Ð´Ð°Ð½Ð½ÑÑ . ÐÑÐ±ÑÐ°Ð½Ð½ÑÐµ Ð¼Ð¾Ð´ÐµÐ»Ð¸ Ð±ÐµÐ·Ð¾Ð¿Ð°ÑÐ½Ð¾ÑÑÐ¸ Ð² ÑÐ²Ð¾ÐµÐ¹ Ð¾ÑÐ½Ð¾Ð²Ðµ ÑÐ¾ÑÑÐ¾ÑÑ Ð¸Ð· ÑÐ¾Ð»ÐµÐ²ÑÑ Ð¸Ð»Ð¸ Ð°ÑÑÐ¸Ð±ÑÑÐ½ÑÑ Ð¿Ð¾Ð»Ð¸ÑÐ¸Ðº. ÐÐ°Ð½Ð½ÑÐµ Ð¼Ð¾Ð´ÐµÐ»Ð¸ Ð¿ÑÐµÑÐµÑÐ¿ÐµÐ»Ð¸ Ð¼Ð¾Ð´Ð¸ÑÐ¸ÐºÐ°ÑÐ¸Ð¸ Ð¿Ð¾Ð´ Ð½ÑÐ¶Ð´Ñ Ð¾Ð·ÐµÑÐ° Ð´Ð°Ð½Ð½ÑÑ . ÐÐ±ÐµÑÐ¿ÐµÑÐµÐ½Ð¸Ðµ Ð·Ð°ÑÐ¸ÑÑ Ð´Ð°Ð½Ð½ÑÑ Ð²Ð¾Ð·Ð»Ð¾Ð¶ÐµÐ½Ð¾ Ð½Ð° Ð´Ð²Ð° ÐºÐ¾Ð¼Ð¿Ð¾Ð½ÐµÐ½ÑÐ°: Global Monitoring Tool Ð¸ Check Sum Controller. ÐÐ°Ð½Ð½ÑÐµ ÐºÐ¾Ð¼Ð¿Ð¾Ð½ÐµÐ½ÑÑ Ð²ÐºÐ»ÑÑÐµÐ½Ñ Ð² Ð¿Ð¾Ð»Ð¸ÑÐ¸ÐºÐ¸ Ð¼Ð¾Ð´ÐµÐ»Ð¸ Ð±ÐµÐ·Ð¾Ð¿Ð°ÑÐ½Ð¾ÑÑÐ¸ Ð½Ð° ÑÑÐ°Ð¿Ðµ Ð¿ÑÐ¾ÐµÐºÑÐ¸ÑÐ¾Ð²Ð°Ð½Ð¸Ñ. ÐÐµÑÐ²ÑÐ¹ ÐºÐ¾Ð¼Ð¿Ð¾Ð½ÐµÐ½Ñ ÑÐµÐ°Ð»Ð¸Ð·Ð¾Ð²Ð°Ð½ Ð² Ð²Ð¸Ð´Ðµ ÐºÐ¾Ð¼Ð¿Ð¾Ð·Ð¸ÑÐ¸Ð¸ Ð¼Ð¾Ð´ÐµÐ»ÐµÐ¹ Ð¼Ð°ÑÐ¸Ð½Ð½Ð¾Ð³Ð¾ Ð¾Ð±ÑÑÐµÐ½Ð¸Ñ Ð¸ Ð½ÑÐ¶Ð´Ð°ÐµÑÑÑ Ð² Ð¿ÑÐµÐ´Ð²Ð°ÑÐ¸ÑÐµÐ»ÑÐ½Ð¾Ð¼ Ð¾Ð±ÑÑÐµÐ½Ð¸Ð¸. ÐÐ½ Ð¾ÑÐ²ÐµÑÐ°ÐµÑ Ð·Ð° Ð¼Ð¾Ð½Ð¸ÑÐ¾ÑÐ¸Ð½Ð³ Ð²ÑÐµÑ Ð¾Ð¿ÐµÑÐ°ÑÐ¸Ð¹ Ð¾Ð·ÐµÑÐ° Ð´Ð°Ð½Ð½ÑÑ Ð¸ Ð¸Ñ ÐºÐ»Ð°ÑÑÐ¸ÑÐ¸ÐºÐ°ÑÐ¸Ð¸ Ð½Ð° Ð±ÐµÐ·Ð¾Ð¿Ð°ÑÐ½ÑÐµ Ð¸ Ð²ÑÐµÐ´Ð¾Ð½Ð¾ÑÐ½ÑÐµ. ÐÑÐ¾ÑÐ¾Ð¹ ÐºÐ¾Ð¼Ð¿Ð¾Ð½ÐµÐ½Ñ Ð¾Ð±ÑÐ°Ð±Ð°ÑÑÐ²Ð°ÐµÑ Ð»ÑÐ±Ð¾Ðµ Ð²Ð·Ð°Ð¸Ð¼Ð¾Ð´ÐµÐ¹ÑÑÐ²Ð¸Ðµ Ñ ÐºÐ¾Ð½ÑÑÐ¾Ð»ÑÐ½Ð¾Ð¹ ÑÑÐ¼Ð¼Ð¾Ð¹ ÑÐ°Ð¹Ð»Ð¾Ð²Ð¾Ð³Ð¾ Ð¾Ð±ÑÐµÐºÑÐ° Ð² ÑÐµÑÐµÐ½Ð¸Ðµ Ð²ÑÐµÐ³Ð¾ Ð¿ÑÐµÐ±ÑÐ²Ð°Ð½Ð¸Ñ Ð² Ð¾Ð·ÐµÑÐµ Ð´Ð°Ð½Ð½ÑÑ . ÐÑÐ¸Ð²ÐµÐ´ÑÐ½Ð½ÑÐ¹ Ð² ÑÐ°Ð±Ð¾ÑÐµ Ð¸Ð½ÑÑÑÑÐ¼ÐµÐ½ÑÐ°Ð»ÑÐ½ÑÐ¹ Ð°ÑÐ´Ð¸Ñ Ð¸Ð½ÑÐ¾ÑÐ¼Ð°ÑÐ¸Ð¾Ð½Ð½Ð¾Ð¹ Ð±ÐµÐ·Ð¾Ð¿Ð°ÑÐ½Ð¾ÑÑÐ¸ Ð´Ð°Ð» Ð¾Ð±ÑÐµÐºÑÐ¸Ð²Ð½ÑÐµ Ð¾ÑÐµÐ½ÐºÐ¸ ÑÐ°Ð·ÑÐ°Ð±Ð¾ÑÐ°Ð½Ð½Ð¾Ð³Ð¾ ÑÐµÑÐµÐ½Ð¸Ñ Ð¸ ÑÐµÐºÐ¾Ð¼ÐµÐ½Ð´Ð°ÑÐ¸Ð¸ Ð¿Ð¾ Ð²ÑÐ±Ð¾ÑÑ Ð¼Ð¾Ð´ÐµÐ»ÐµÐ¹ Ð±ÐµÐ·Ð¾Ð¿Ð°ÑÐ½Ð¾ÑÑÐ¸.<br />This final qualification paper presents the development of a protected big data lake framework architecture. It is based on the Data Lake Architecture Framework (DLAF) developed by data scientists at the University of Stuttgart. The paper investigates the DLAF methodology, its aspects and from interactions. Developing a data lake information security tool at the architectural level required a careful selection of attack scenarios and security models. The selection was made taking into account the main features of the data lake, such as the ability to download, process and upload data of absolutely any type, as well as interaction with any data source. The selected security models consist fundamentally of role or attribute policies. These models have undergone modifications for the needs of the data lake. Data protection is assigned to two components: Global Monitoring Tool and Check Sum Controller. These components are included in the security model policies at the design stage. The first component is implemented as a composition of machine learning models and needs to be pre-trained. It is responsible for monitoring all data lake operations and classifying them into safe and malicious ones. The second component handles any interaction with the checksum of the file object during the entire stay in the data lake. The information security instrumental audit presented in this paper provided objective evaluations of the developed solution and recommendations for security model selection.