5 results on '"graphics processing unit (GPU)"'
Search Results
2. Computación Serverless basada en GPUs en AWS
- Author
-
Contreras Ruiz, Manuel Ramón
- Subjects
Graphics Processing Unit (GPU) ,AWS Lambda ,CIENCIAS DE LA COMPUTACION E INTELIGENCIA ARTIFICIAL ,Arquitecturas sin servidor ,Amazon Web Services ,Function-as-a-Service (FaaS) ,Máster Universitario en Computación en la Nube y de Altas Prestaciones / Cloud and High-Performance Computing-Màster Universitari en Computació en Núvol i d'Altes Prestacions / Cloud and High-Performance Computing ,Serverless computing - Abstract
[ES] RCUDA es una arquitectura cliente-servidor desarrollada por un equipo liderado por Federico Silla en la UPV que proporciona un conjunto de librerías compatibles con CUDA con las que se vincula la aplicación para utilizar de forma remota las GPU disponibles en un servidor externo. AWS Lambda es un servicio de Functions as a Service (FaaS) de AWS, que permite ejecutar funciones en respuesta a eventos en una plataforma computacional administrada dinámicamente que se ajusta automáticamente al número de invocaciones. AWS Lambda no es compatible con la informática basada en GPU. SCAR es una herramienta de código abierto desarrollada en la UPV para crear aplicaciones sin servidor de procesamiento de archivos altamente paralelas y controladas por eventos que se ejecutan en entornos de tiempo de ejecución personalizados proporcionados por contenedores Docker en AWS Lambda. El objetivo de este trabajo es crear una implementación de prueba de concepto que permita que una función de AWS Lambda utilice una GPU remota proporcionada por RCUDA mediante la creación de un entorno de ejecución personalizado que encapsule las bibliotecas de RCUDA, junto con la aplicación. La GPU remota estará disponible mediante una instancia EC2 con soporte de GPU o mediante recursos locales basados en GPU. Este trabajo evaluará los beneficios de costo / rendimiento de la introducción de compatibilidad con GPU remota para funciones Lambda. Se integrarán casos de uso basados en la inferencia de modelos de Deep Learning existentes con soporte de GPU., [EN] RCUDA is a client-server architecture developed by a team led by Federico Silla at the UPV that provides a set of CUDA-compatible libraries with which the application is linked to remotely use the GPUs available on an external server. AWS Lambda is an AWS Functions as a Service (FaaS) service, which enables you to run functions in response to events on a dynamically managed computing platform that automatically adjusts for the number of invocations. AWS Lambda does not support GPU-based computing. SCAR is an open source tool developed at the UPV to create highly parallel, event-driven file processing serverless applications that run in custom runtime environments provided by Docker containers on AWS Lambda. The goal of this work is to create a proof-of-concept implementation that enables an AWS Lambda function to use a remote GPU provided by RCUDA by creating a custom runtime environment that encapsulates the RCUDA libraries, along with the application. The remote GPU will be available through a GPU-supported EC2 instance or through local GPU-based resources. This paper will evaluate the cost / performance benefits of introducing remote GPU support for Lambda functions. Use cases based on inference from existing deep learning models with GPU support will be integrated.
- Published
- 2021
3. Optimización de redes neuronales para ejecución eficiente de aplicaciones de inteligencia artificial en GPUs embebidos
- Author
-
Segura-Quesada, Oscar and Aguilar-Ulloa, Miguel Ángel
- Subjects
Optimization ,Convolutional Network for Classification and Detection (VGG16) ,Artificial intelligence ,Graphics Processing Unit (GPU) ,Embedded systems ,TECHNOLOGY::Electrical engineering, electronics and photonics [Research Subject Categories] ,Optimización ,Redes neurales ,Inteligencia artificial ,Mobilenet ,Neural networks ,Sistemas empotrados - Abstract
Proyecto de Graduación (Maestría en Electrónica) Instituto Tecnológico de Costa Rica, Escuela de Ingeniería Electrónica, 2021 El área de la inteligencia artificial ha tenido un gran desarrollo en los últimos años, por lo cual se han logrado grandes avances y mejoras que han llevado inclusive a la sustitución de algoritmos clásicos para la solución de ciertos problemas específicos. Esto ha provocado que las redes neuronales al evolucionar puedan llegar a ser computacionalmente intensivas y lleguen a requerir gran cantidad de recursos con los que no siempre se puede contar. Con el fin de implementar eficientemente en aplicaciones de la vida real los modelos entrenados, estos deben ser optimizados para las diferentes arquitecturas. Para estudiar las optimizaciones de redes neuronales en sistemas embebidos, se diseña un modelo de detección de placas oficiales de vehículos de Costa Rica, el cual se optimiza para su ejecución eficiente en un GPU móvil. Las optimizaciones que se aplican en este proyecto corresponden a Cuantización y Pruning y se aplican a diferentes frameworks con el fin de observar los efectos en varias configuraciones. The area of Artificial intelligence has had a big development in the last few years, in consequence, many great advances and improvements have caused even the substitution of classic algorithms for the resolution of specific problems. As a result of this, the architectures may become computationally intense and start requiring a big amount of resources that are not always available. In order to implement those efficiently in real life applications, the models require to be optimized for the different architectures. To study the neural network optimization in embedded systems, a detection model for official Costa Rican vehicles plates has been designed, this is being also optimized for its efficient use on a mobile GPU. The optimizations to be applied on this project are Quantization and Pruning, those are applied to different frameworks to observe the effects on the different configurations.
- Published
- 2021
4. PGAGrid: A Parallel Genetic Algorithm of Fine-Grained implemented on GPU to find solutions near the optimum to the Quadratic Assignment Problem (QAP)
- Author
-
Poveda Chaves, Roberto Manuel and Gómez Perdomo, Jonatan
- Subjects
Genetic Algorithm (GA) ,Graphics Processing Unit (GPU) ,Arquitectura Unificada de Dispositivos de Cómputo ,Problema de Asignación Cuadrática ,Algoritmos Genéticos Paralelos ,Compute Unified Device Architecture (CUDA) ,Parallel Genetic Algorithm (PGA) ,Quadratic Assignment Problem (QAP) ,Unidades de Procesamiento Gráfico - Abstract
This work consists in implementing a fine-grained parallel genetic algorithm improved with a greedy 2-opt heuristic to find near-optimal solutions to the Quadratic Assignment Problem (QAP). The proposed algorithm was fully implemented on Graphics Processing Units (GPUs). A two-dimensional GPU grid of size 8x8 defines the population of the genetic algorithm (set of permutations of the QAP), and each GPU block consists of n GPU threads, where n is the size of the QAP. Each GPU block was used to represent the chromosome of a single individual, and each GPU thread represents a gene of such chromosome. The proposed algorithm was tested on a subset of the standard QAPLIB data set. Results show that this implementation is able to find good solutions for large QAP instances in few parallel iterations of the evolutionary process. Resumen: Este trabajo consiste en implementar un algoritmo genético paralelo de grano fino mejorado con una heurística 2-opt voraz para encontrar soluciones cercanas al óptimo al problema de Asignación Cuadrática (QAP). El algoritmo propuesto fue completamente implementado sobre Unidades de Procesamiento Gráfico (GPUs). Una retícula GPU bidimensional de tamaño 8×8 define la población del algoritmo genético (conjunto de permutaciones del QAP) y cada bloque GPU consiste de n hilos GPU donde n es el tamaño del QAP. Cada bloque GPU fue utilizado para representar el cromosoma de un solo individuo y cada hilo GPU representa un gen de tal cromosoma. El algoritmo propuesto fue comprobado sobre un subconjunto de problemas de la librería estándar QAPLIB. Los resultados muestran que esta implementación es capaz de encontrar buenas soluciones para grandes instancias del QAP en pocas iteraciones del proceso evolutivo. Doctorado
- Published
- 2019
5. Aceleración de algoritmos de computación científica basada en arquitecturas heterogéneas
- Author
-
Tamayo Monsalve, Manuel Alejandro and Osorio Londoño, Gustavo Adolfo (Thesis advisor)
- Subjects
Parallel computing ,Graphics Processing Unit (GPU) ,51 Matemáticas / Mathematics ,Computación científica ,Ecuaciones diferenciales parciales (EDP) ,0 Generalidades / Computer science, information and general works ,Computational science ,Partial differential equations (PDE) ,Computación en paralelo ,Lenguaje de Computación Abierto (OpenCL) ,Unidad de procesamiento gráfico (GPU) ,Open Computing Language (OpenCL) - Abstract
En este trabajo se presenta el uso de arquitecturas heterogéneas para acelerar los cálculos pertinentes a varios algoritmos de computación científica como son los casos típicos de ecuaciones diferenciales parciales. Para poder lograr este objetivo es necesaria una similitud entre las estructuras de los problemas con las arquitecturas de cómputo, además de buscar formas de optimización tales como el manejo apropiado de los recursos disponibles y emplear características propias de las arquitecturas como la indexación bidimensional de memoria. Esto es posible gracias a las diferentes configuraciones permitidas por el estándar de computación en paralelo Open Computing Language (OpenCL). Dentro de los diferentes problemas para analizar se encuentran las tres clasificaciones de ecuaciones diferenciales parciales de segundo grado, a saber: ecuación parabólica, elíptica e hiperbólica. Para estas ecuaciones se tomaron problemas clásicos de la literatura, en los que se obtuvo una aproximación de la solución mediante el método explícito. La ecuación de calor en una dimensión, Laplace en dos dimensiones y finalmente onda en una y dos dimensiones. Para comprobar los resultados presentados en este trabajo se realizan comparaciones entre las velocidades de respuesta de los diferentes algoritmos para procesos secuenciales en CPU y paralelos, utilizando procesador con múltiples núcleos y unidades de procesamiento gráfico (GPU); teniendo en cuenta las medidas de tiempo de los procesos de escritura en memoria principal, los tiempos de ejecución del proceso en los dispositivos aceleradores, y el tiempo exclusivo que tarda el Kernel en ser ejecutado. Los resultados que aquí se muestran fueron realizados en un computador con procesador AMD black six de 6 núcleos con un reloj de 3300 MHz y 4Gb de memoria RAM; una GPU AMD HD 6700 de 10 unidades computacionales con 222 elementos de proceso, un reloj de 850 MHz y 2Gb de memoria, los cuales son de uso comercial y de fácil acceso a la comunidad científica en general Abstract : This study describes the use of heterogeneous architectures to accelerate the pertinent calculations for several scientific computing algorithms such as the typical cases of partial differential equations. To achieve this objective a similarity between the structures of the problems with the architecture of these devices is needed, besides searching ways of optimization such as the appropriate use of the available resources and use particular characteristics of the devices as bi-dimensional indexing; which can occur thanks to the different configurations allowed by the standard Open Computing Language (OpenCL ). Within the different problems to be analyzed we have the three classifications of the second grade partial differential equations, which are parabolic, elliptic and hyperbolic equations. For this equations we took the classic problems of literature, being explicitly heat equation in one dimension, Laplace in two dimensions and additionally wave in one and two dimensions. To verify the results presented in this study comparisons of each problem were performed between the response rates of the different algorithms for sequential and parallel process, using multicores and GPU; taking into account the measurements of time of the processes of writing in the principal memory and without it, the execution times of the process in the accelerator devices, and the time it takes the exclusive kernel execution. The results shown here were achieved in a computer with a AMD black processing unit of 6 cores, with a 3300 MHz clock and a 4Gb ram memory; also an AMD HD 6700 GPU of 10 computing units with 222 process elements was used, a 850 MHz clock and a 2Gb memory. Which in general terms are for commercial use and have easy access in general to the scientific community in general Maestría
- Published
- 2014
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.