1. Efficient hardware acceleration of deep neural networks via arithmetic complexity reduction
- Author
-
Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors, Cristal Kestelman, Adrián, Olivieri, Mauro, Moretó Planas, Miquel, Reggiani, Enrico, Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors, Cristal Kestelman, Adrián, Olivieri, Mauro, Moretó Planas, Miquel, and Reggiani, Enrico
- Abstract
Tesi amb menció de Doctorat Internacional, (English) Over the past decade, significant progresses in the field of artificial intelligence have led to remarkable advancements in a wide range of technologies. Deep learning, a subfield of machine learning centered around deep neural networks (DNNs), has played a pivotal role in driving these achievements. Indeed, DNNs have demonstrated unprecedented accuracy levels in tasks such as image recognition, speech recognition, and natural language processing (NLP). However, the high computational demand associated with current DNN models limits their applicability across different platforms and applications. Specifically, the constant increase in the number of parameters and operations required for DNN computations, and the growing complexity of their topologies and layers are posing obstacles for a wide range of computing systems, ranging from small general-purpose CPUs to hardware accelerators targeting HPC and cloud computing environments. In this thesis, we explore various research directions aimed at optimizing DNN computations on modern hardware architectures. We first investigate a novel mathematical technique, called binary segmentation, studiyng its applicability to reduce the arithmetic complexity of linear algebra operations involving narrow integers on general-purpose CPU architectures. Additionally, we propose a novel hardware microarchitecture called Bison-e accelerating linear algebra kernels using binary segmentation. We demonstrate that Bison-e achieves up to 5.6×, 13.9×, and 24× improvement than a single RISC-V core in the computation of convolution and fully-connected layers of relevant DNNs using 8-bit, 4-bit, and 2-bit data sizes, respectively. Moreover, we show that Bison-e enhances energy efficiency by 5× for string-matching tasks when compared to a RISC-V-based vector processing unit (VPU). We integrate Bison-e into a complete SoC based on RISC-V showing that it only accounts for a negligible 0.07% area overhead compared to the baseline archite, (Español) Durante la última década, avances significativos en el campo de la inteligencia artificial han llevado a notables mejoras en una amplia gama de tecnologías. El deep learning, un subcampo del machine learning centrado en las deep neural networks (DNN), ha desempeñado un papel fundamental en impulsar estos logros. De hecho, las DNN han demostrado niveles de precisión sin precedentes en tareas como el reconocimiento de imágenes, el reconocimiento de voz y el procesamiento del lenguaje natural (NLP). Sin embargo, la alta demanda computacional asociada a los modelos de DNN actuales limita su aplicabilidad en diferentes plataformas y aplicaciones. Específicamente, el constante aumento en el número de parámetros y operaciones requeridas para las computaciones de DNN, y la creciente complejidad de sus topologías y layers, plantean obstáculos para una amplia gama de sistemas informáticos, desde pequeñas CPU hasta aceleradores HPC. En esta tesis, exploramos varias direcciones de investigación destinadas a optimizar las computaciones de DNN en arquitecturas de hardware modernas. Primero, investigamos una técnica matemática llamada binary segmentation, estudiando su aplicabilidad para reducir la complejidad aritmética de operaciones de álgebra lineal que involucran narrow-integers CPUs. Además, proponemos una nueva microarquitectura de hardware llamada Bison-e que acelera algoritmos de álgebra lineal utilizando binary segmentation. Demostramos que Bison-e logra mejoras de hasta 5.6×, 13.9× y 24× en la computación de DNN relevantes utilizando tamaños de datos de 8, 4 y 2 bits, respectivamente. Además, mostramos que Bison-e mejora la eficiencia energética en un 5× para tareas de string-matching en comparación con una unidad de procesamiento vectorial (VPU) basada en RISC-V. Integrar Bison-e en un SoC completo basado en RISC-V muestra que solo representa un 0.07% de sobrecarga de área en comparación con la arquitectura base. Luego, proponemos Mix-GEMM, una arquitectura c, Postprint (published version)
- Published
- 2023