NVIDIA lanza la arquitectura de GPU “Hopper”, H100 se convierte en el nuevo buque insignia centrado en la IA – Techgage

La última versión de la GTC (GPU Technology Conference) acaba de comenzar y nos llega por tercer año consecutivo en forma de un evento solo en línea. Afortunadamente, es gratis para cualquiera registrarse y disfrutar, con el único costo aparentemente asociado con los talleres dedicados del GTC Deep-learning Institute con un precio de $ 149. Puede visitar el sitio web oficial de GTC para registrarse o navegar a través de una enorme lista de sesiones disponibles.

GTC se ha convertido en la época del año de facto para que NVIDIA realmente ponga todos sus productos sobre la mesa, con muchas tecnologías y productos nuevos revelados. Este año, la compañía presentó una nueva arquitectura de GPU llamada Hopper (después de Grace Hopper), y decir que es poderosa sería una gran subestimación.

Avances de NVIDIA Hopper H100

Hopper ha encontrado su camino en el H100, una nueva GPU insignia de IA con 80 mil millones de transistores, soporte para la nueva conexión NVLink de 4.ª generación y GPU de instancias múltiples de 2.ª generación, con un ancho de banda externo total de 4,9 TB/s y es un chip basado en Proceso 4N (4nm!) de TSMC.

GPU de tolva NVIDIA H100
GPU CNX H100 de NVIDIA (SXM también disponible)

Al igual que con la generación anterior, H100 estará disponible en un factor de forma PCIe 5.0 o SXM. Con NVLink, NVIDIA afirma que puede ofrecer 7 veces más ancho de banda en comparación con el ya muy rápido PCIe 5.0.

Para poner las cosas en una mejor perspectiva, aquí es donde el nuevo H100 se compara con los buques insignia de la generación anterior:

H100 A100 V100 P100
FP64 60 TFLOPS 19,5 TFLOPS 7 TFLOPS 5.3 TFLOPS
FP16 2.000 TFLOPS 624 TFLOPS 28,2 TFLOPS 21,2 TFLOPS
FP8 4.000 TFLOPS N / A N / A N / A
TF32 1,000 TFLOPS 312 TFLOPS 112 TFLOPS N / A
Enlace NV 4ta generación 3ra generación 2da generación 1ra generación
recordatorio HBM3 (80GB) HBM2e (80GB) HBM2 (32GB) HBM2 (16GB)
banda ancha 3000 GB/s 1935 GB/s 900 GB/s 732GB/s
TDP 700W 300W 250W 300W

Debido a la forma diferente en que se puede usar cada nueva arquitectura para abordar un tipo particular de computación, en algunos casos es difícil comparar directamente una generación con la siguiente. En el A100, el rendimiento del FP16 refleja las optimizaciones del núcleo tensor, por lo que supera al V100 basado en Volta. Sin embargo, en esta tabla, las especificaciones de H100 y A100 son realmente manzana con manzana, lo que da como resultado que la nueva tarjeta sea tres veces más rápida que la generación anterior para computación FP16. La misma victoria se aplica al rendimiento del TF32 Tensor.

Rendimiento de la GPU NVIDIA H100 Hopper

No solo el FP16 ha experimentado un aumento tan enorme, sino también el FP64 con doble precisión. Usando el núcleo Tensor, el A100 logró 19,5 TFLOPS, mientras que el H100 lo triplica a alrededor de 60 TFLOPS. Sin optimización de tensor y con base en la generación anterior, esta tarjeta probablemente tendría una calificación de 60 TFLOPS FP32. NVIDIA no habló sobre esta especificación porque no es particularmente relevante para los propósitos de esta tarjeta. Sin embargo, lo que nos dice es que esta es una arquitectura realmente rápida y poderosa.

Las tablas de especificaciones a veces solo cuentan una parte de la historia, porque en algunos casos diferentes tareas se benefician de manera bastante diferente que otras. En Hopper, una característica que vale la pena destacar es el nuevo motor Transformer, que acelera modelos que podrían usarse para voz, visión por computadora, investigación médica, etc.

Rendimiento del transformador GPU NVIDIA H100 Hopper

Con un FP8 y un Transformer Engine recién agregados, los algoritmos avanzados pueden combinar su uso con el FP16 para procesar datos de la manera más eficiente posible. El FP8 permite entrenar redes más grandes con mayor facilidad, y aunque parece que al FP8 le falta algo de fidelidad para calcular con mayor precisión, el algoritmo entra en juego. Cuando tenga sentido utilizar el FP16, se utilizará y viceversa para el FP8. Los cálculos se pueden remodelar y escalar automáticamente entre estas capas. Con el escenario adecuado, la capacitación puede llevar días en lugar de semanas, según NVIDIA.

Características de la GPU NVIDIA H100 Hopper

En la diapositiva anterior se muestran tres grandes “avances”, incluido el motor Transformer. El segundo punto es Confidential Computing, un nuevo diseño que permite que los datos en uso permanezcan seguros desde todos los ángulos, de modo que el código y los datos no puedan ser interceptados. NVIDIA señala que, si bien los modelos en un estado de hibernación efectivo pueden cifrarse posteriormente, eso no resultará ser un movimiento a prueba de balas si alguien logra acceder a los datos. como esta en uso Teniendo en cuenta cuánto dinero se puede inyectar en el desarrollo de un modelo avanzado, queda claro por qué los usuarios quieren proteger los productos.

NVIDIA señala que, si bien ahora es posible proteger los datos durante el uso, solo existen soluciones basadas en CPU que actualmente no pueden manejar la cantidad de trabajo que requeriría una configuración moderna. Cuando se usa Hopper, se usa una combinación de hardware y software para crear un entorno de ejecución confiable sobre una máquina virtual confidencial que incluye tanto la CPU como la GPU. Eso suena como algo que podría afectar el rendimiento, un obvio rechazo para una plataforma tan deliberadamente de gama alta, pero NVIDIA dice que los datos aún se transfieren a velocidades PCIe completas.

Con la MIG (GPU de instancias múltiples) de segunda generación, NVIDIA está ampliando su tecnología que permite dividir una GPU en siete segmentos y entregar cada segmento a un usuario para que realice su trabajo. Lo nuevo aquí es el aislamiento por instancia con virtualización de E/S. Esta actualización alimenta el sufijo Confidential Computing, por lo que la seguridad realmente es el nombre del juego aquí.

Conmutador NVIDIA NVLink

Cuando NVIDIA adquirió Mellanox, quedó muy claro que proporcionar suficiente ancho de banda para que estos potentes sistemas transfieran datos es crucial y es por eso que parece que nos reciben con un NVLink actualizado con cada nueva generación de GPU empresariales. La novedad de este año es NVLink Switch, una red especialmente diseñada que puede abarcar hasta 256 GPU y ofrecer 9 veces el ancho de banda de HDR Quantum InfiniBand de NVIDIA.

Por último, pero no menos importante, la GPU H100 también ofrece instrucciones DPX, útiles para acelerar tareas como la optimización de rutas y la genómica hasta 40 veces en comparación con las CPU y 7 veces en comparación con las GPU de la generación anterior de NVIDIA. Estos incluyen el algoritmo Floyd-Warshall, que se puede usar para encontrar rutas óptimas para robots autónomos en un entorno de almacén, y también Smith-Waterman, que se usa para la alineación de secuencias en la clasificación y plegamiento de proteínas.

NVIDIA Hopper H100 SMX
GPU SMX H100 de NVIDIA (CNX también disponible)

Con la introducción de la arquitectura H100 y Hopper, vemos que NVIDIA realiza avances significativos en sus GPU centradas en IA, no solo mejorando el rendimiento en todos los ámbitos, sino también agregando nuevas funciones de seguridad y capacidades generales. Tal como era el A100 en el momento de su lanzamiento, el nuevo H100 es absolutamente digno de babear. Desafortunadamente para los jugadores, GTC no tiene un lanzamiento relacionado con los juegos, pero cuando ve los niveles de rendimiento de esta nueva generación de GPU de IA, es un buen augurio para los futuros chips de juegos de NVIDIA.

¡Apoya nuestros esfuerzos! Con los ingresos por publicidad de los sitios web escritos en su punto más bajo, confiamos más que nunca en el apoyo de los lectores, lo que nos ayuda a seguir esforzándonos en este tipo de contenido. Puede apoyarnos convirtiéndose en patrocinador o utilizando nuestros enlaces de afiliados de compras de Amazon que se enumeran en nuestros artículos. ¡Gracias por tu apoyo!

Deja una respuesta

Tu dirección de correo electrónico no será publicada.