Ampere A100, Drive, Jarvis, Merlin y un montón de Mellanox – Techgage

Según lo planeado, NVIDIA publicó anteriormente su discurso de apertura de GTC 2020 en línea y nos recuerda que estamos viviendo tiempos realmente interesantes. En lugar de una transmisión en vivo, todo lo que se lanzó fue grabado directamente desde la casa de Jensen (específicamente la cocina) en California.

Jensen comienza su discurso de apertura agradeciendo a todos los involucrados en la lucha contra COVID-19, desde el médico hasta el conductor del camión. Además, menciona que NVIDIA ha trabajado intensamente con científicos de todo el mundo para mejorar la contención, la mitigación, el tratamiento y, en última instancia, el seguimiento y la vigilancia. Se jacta de que NVIDIA Tech usó Oxford para secuenciar el genoma del virus en solo siete horas.

Investigación de COVID-19 con hardware NVIDIA

Y eso es exactamente por qué estos términos y condiciones llegan en un buen momento. Si alguien no ha entendido la importancia de la aritmética en la lucha contra las enfermedades, es probable que COVID-19 haya abierto los ojos. Cuando llegó la pandemia, los esfuerzos sin precedentes en todo el mundo se centraron inmediatamente en combatir este virus. NVIDIA ha hablado durante mucho tiempo sobre el uso de sus GPU exactamente para este propósito, por lo que hay razones para estar contento aquí.

A100 y DGX A100 basados ​​en amplificadores de NVIDIA

Sin perder tiempo, veamos lo que la mayoría de los lectores tendrán curiosidad: el nuevo hardware de gráficos de NVIDIA. Como se esperaba, Ampere es la última arquitectura emblemática. Según la tradición, condujo a una GPU «A100»:

GPU de centro de datos A100 basado en amplificador NVIDIA

Al igual que el P100 basado en Pascal y el V100 basado en Volta antes, el A100 basado en Ampere está diseñado desde cero para el centro de datos. El A100 se convierte en la primera GPU de 7 nm de NVIDIA construida en TSMC y utiliza núcleos tensoriales de tercera generación, NVLink y NVSwitch.

NVIDIA P100 NVIDIA V100 NVIDIA A100
Transistores 15.3 mil millones 21.1 billones 54 mil millones
El tamaño 610 mm2do 815 mm2do 826 mm2do
SMS 56 80 108
Núcleos tensoriales n / A 672 432
Tensor de pico TFLOPS n / A 125 312
Núcleos CUDA FP64 1,792 2.560 3,456
Rendimiento FP64 5.3 TFLOPS 7.8 TFLOPS 9.7 TFLOPS
Núcleos FP32 CUDA 3,584 5,120 6,912
Rendimiento FP32 10.6 TFLOPS 15.7 TFLOPS 19.5 TFLOPS
Densidad de almacenamiento 16 GB de HBM2 16 GB de HBM2 40 GB de HBM2
Ancho de banda de memoria 732 GB / s 900 GB / s 1,555 GB / s

NVIDIA tiene algunas tecnologías integradas en el A100 de las que vale la pena hablar. Con TSMC, NVIDIA ha desarrollado un diseño para el empaque CoWoS (chip-on-wafer-on-sustrato), en el que la memoria y la GPU se colocan en el mismo sustrato y se hace posible el acceso más rápido posible entre ellos. Con sus mejoras, el ancho de banda efectivo de la memoria salta de 900 GB / s en el V100 a aproximadamente 1.6 TB / s en el A100.

Como ya se mencionó, este diseño también crea la tercera generación de núcleos tensoriales, con los que se introduce TF32 (TensorFloat32). Esto significa que cada código FP32 importado puede procesarse como FP16, todo sin cambios en el código. En un ejemplo entre V100 y A100, la nueva tarjeta de amplificador procesó sus operaciones matriciales. seis veces mas rapido.

Mejoras en el núcleo del tensor de amperaje NVIDIA

Otra característica nueva es Sparsity, una función que puede usarse para aumentar el rendimiento en un factor de dos. Funciona utilizando una red densa original, poniendo a cero todos los pesos pequeños y luego reentrenando con la misma estructura de datos y canalización. Como muestra la tabla anterior, no solo un tipo de cálculo se beneficia de esta función de dispersión, sino muchos.

La mejor métrica de rendimiento de gama alta para el A100 es 1.25 POPS, o 1,248 TOPS, que es INT4 (antes de la escasez), con INT8 siendo la mitad de eso. Puede imaginar cuánta energía estaría disponible para aquellos que están equipados con una nueva plataforma de computadora A100 que está equipada con 8 de la nueva GPU de gama alta.

Plataforma informática NVIDIA A100

Según Jensen, esta placa de plataforma A100 pesa 50 libras, tiene conexiones NVLink de 600 GB / s, seis conmutadores NV, un millón Taladre agujeros, más de 1 km de pistas y más de 30,000 componentes individuales. Con ocho de estas GPU A100, tiene un total de 320 GB de 1,6 TB / s de memoria y 55.296 núcleos CUDA.

«MIG» o «GPU de varias instancias» es otra tecnología que se introdujo con el A100. Esto permite que una GPU se divida en (hasta) siete interfaces separadas para que múltiples usuarios puedan usar el mismo hardware para procesar sus cargas de trabajo. Esto es útil para instancias en la nube donde dicha partición puede reducir el costo por usuario.

Una demostración MIG consistió en inferir una colección de ruidos de aves, para poder reconocer con una precisión súper alta qué chirrido proviene de qué tipo de ave. Si bien este proceso es increíblemente rápido en un A100 completo, el uso de MIG para dividir una tarjeta en siete instancias de una GPU proporciona en gran medida toda la potencia de inferencia del V100 a solo uno de los MIG en esta prueba en particular. Con V100, el ejemplo mostró alrededor de 80 consultas por segundo, mientras que con un A100 completo se saltaron más de 500.

Por supuesto, la placa de plataforma grande que se muestra arriba debe integrarse en una plataforma realmente utilizable para que se convierta en el nuevo DGX A100, que ofrece 5 PFLOPS de todo el rendimiento de la IA.

NVIDIA DGX A100

Además de los seis NVSwitches, el DGX A100 contiene nueve tarjetas de red Mellanox ConnectX-6 HDR 200 Nbit / sy motores de aceleración internos de red, SSD PCIe 4.0 internos de 15 TB y dos procesadores. Estos procesadores son AMD EPYC 7742 con 64 núcleos, que ofrecen al sistema un total de 256 hilos. Dado que estas CPU también tienen que respirar, hay 1 TB de RAM del sistema disponible. Todo esto puede ser suyo por $ 199,999, y recuerde: «Cuanto más compre, más ahorrará».

Aquí está la GPU Ampere A100 tan pronto como se colocó en una tarjeta EGX (Edge Computing) que también se anunció hoy:

Tarjeta PCIe NVIDIA EGX A100 con acelerador convergente

Por decir lo menos, esta no es una GPU promedio. El chip que se muestra a la izquierda es el ConnectX-6 DX de Mellanox, que ofrece dos conexiones Ethernet o InfiniBand a 100 Gbit / s. Si no estaba seguro de por qué NVIDIA se ha apoderado de Mellanox mientras tanto, esa imagen debería aclararlo. Si instala esto en un servidor, se convierte en una fuente de inteligencia artificial hiperconvergente o, como dice Jensen, «un centro de datos en la nube completo en una caja».

Plataforma NVIDIA Isaac Robotics con amplificadores

Un ejemplo del uso de esta tarjeta A100 es la robótica, ya que la potencia de procesamiento y las capacidades de la red no tienen precedentes. BMW ya ha ingresado a la plataforma Isaac de NVIDIA y planea «construir la fábrica del futuro». Al menos eso significa que muchos robots harán la ronda durante la construcción de un bimmer. Dada la cantidad de modelos y opciones personalizadas que ofrece un fabricante de automóviles como BMW, es fácil entender por qué la ayuda del robot y el aumento de la automatización en general podrían ser una bendición para este tipo de entorno.

Mellanox, Mellanox, Mellanox

El primer producto que Jensen demostró en la serie de videos NVIDIA no fue el A100 basado en amplificador por el que todos estaban más entusiasmados, sino un nuevo conmutador Ethernet Mellanox Spectrum 4000 series. Cada uno de los puertos en este conmutador se puede escalar hasta 400 Gbit / s. Esto es bastante increíble teniendo en cuenta que la mayoría de los usuarios domésticos siguen trabajando en la gama alta a 1 Gbps o 10 Gbps.

Conmutador Ethernet Mellanox Spectrum 4000 series

Este conmutador mide el ancho de los datos al almacenar en búfer los datos en toda la unidad para que cada puerto reciba la cantidad adecuada de recursos, mientras que la virtualización se puede utilizar para distribuir la VX-LAN en un entorno. Una tercera característica que se discute es «WJH» (What Just Happened), que utiliza telemetría avanzada para ayudar a diagnosticar problemas de red.

Dentro de este horrible interruptor se encuentra una tarjeta de red programable Mellanox BlueField-2, que es un ejemplo de un tercer procesador que se ha convertido oficialmente en una parte integral del movimiento de grandes cantidades de datos. La CPU se utiliza para la informática general y la GPU para la informática acelerada. Para la red? Tenemos la DPU o «Unidad de procesamiento de datos», que es responsable de mover los datos en un centro de datos lo más rápido posible.

DLSS y trazado de rayos

Jensen habló sobre los avances que ha logrado la tecnología DLSS (Deep Learning Super Sampling) desde su lanzamiento junto con el lanzamiento de RTX a fines de 2018. En última instancia, la resolución ha mejorado significativamente, por lo que el renderizado DLSS de 1080p se ve aún más nítido que el 1080p nativo, o eso es lo que afirman (que tendremos que probar pronto). El trazado de rayos también se llama Minecraft se ha actualizado para admitir ambas tecnologías al mismo tiempo, lo que permite a los jugadores recorrer un entorno con iluminación totalmente realista. Ten cuidado: quieres una GPU potente.

Unreal Engine - demo de Ground Truth DLSS

Hablando de GPU potente: un solo Quadro RTX 8000 suministra un Murmur RTX Demo que se veía impresionante. Un jugador toma el control de varias canicas y las rueda para alcanzar un objetivo final. Locura de mármol Definitivamente recuerdo de la vejez, y si hubiéramos visto estas Gráficos en ese entonces, probablemente nos habríamos vuelto literalmente locos.

Murmur RTX

Lo más importante con esta demostración es que absolutamente todo es en tiempo real. La iluminación no se quema, sino que se controla mediante el trazado de rayos, y el resultado final es extremadamente convincente. La física también es realista y todo lo que realmente podríamos pensar durante la demostración es que nos encantaría probarlo.

NVIDIA también anunció hoy Omniverse, una plataforma completa para la colaboración en diseño creativo o industrial. La base de Omniverse consiste en un servidor RTX que puede usar un servidor virtual para distribuir recursos a todos según sea necesario. Debido a que la colaboración es clave, los usuarios que trabajan en diferentes proyectos pueden trabajar en el mismo servidor y compartir fácilmente activos y contenido. NVIDIA llama a estos entornos «portales», un mundo compartido que acelera el tiempo de desarrollo (¿y puede mejorar la razón?).

NVIDIA Omniverse

NVIDIA ha agregado previamente Adobe, Autodesk, Pixar, Rhinoceros, SideFX, Trimble, Unreal Engine y Unity a su lista de socios de Omniverse, por lo que el soporte ha sido excelente desde el principio.

GPU aceleró los registros con Spark

Lo curioso de la tecnología es que lo que parece sorprendente hoy en día puede no verse tan impresionante en unos pocos años. Cuando se lanzó, el Tesla P100 con motor Pascal era una pizca de una GPU, y todavía lo es hoy. Pero con la introducción de núcleos tensoriales, realmente tiene que cambiar a la generación actual si desea lograr el mejor rendimiento posible y, al menos, la mejor eficiencia.

Cuando se trata de big data, los cuellos de botella han cambiado un poco a lo largo de los años. Hoy en día, la cantidad de datos que deben procesarse en grandes proyectos es simplemente increíble, y NVIDIA cree que la CPU es el mayor cuello de botella en la crisis de servidores en la actualidad. Si una CPU tiene varias decenas de megabytes de caché mientras que una GPU tiene varias decenas de gigabytes, estas cargas de trabajo se ejecutan lata debería ir a la GPU. Si bien cualquier caché en matriz será más rápida que la memoria externa, la memoria vinculada a la CPU no es tan rápida como el HBM2 de NVIDIA en el sustrato.

Implementación de NVIDIA RAPIDS Apache Spark 3.0

El próximo lanzamiento del popular Apache Spark (3.0) garantizará que las GPU funcionen con más cargas de trabajo únicas a medida que se habiliten para GPU y puedan usar su programador para particionar de forma inteligente el trabajo en todo el sistema. Parte de esto es posible gracias a otro trabajo en equipo con Mellanox: GPU Direct Storage. Esto acelera la E / S y reduce significativamente los cuellos de botella en sistemas con múltiples nodos.

El hardware es solo una parte de toda esta ecuación, pero el software es igual de importante. NVIDIA ha actualizado sus bibliotecas RAPIDS para trabajar con Spark 3.0 para garantizar la máxima eficiencia porque las consultas pueden ser interceptadas y enrutadas en consecuencia.

Con todo esto, NVIDIA dice que con RAPIDS puede obtener un mejor rendimiento a un quinto del costo y un tercio del rendimiento en comparación con un competidor típico, y todos sabemos lo que eso significa. «Cuanto más se compra, más usted ahorra.» Databricks se menciona como un caso de uso porque se basa únicamente en Spark para administrar grandes conjuntos de datos. Como un servicio que enciende un millón de máquinas virtuales al día, es un buen guiño a NVIDIA para apoyar estos esfuerzos. Otras plataformas que se unen a este tren incluyen Amazon SageMaker, Azure Machine Learning y Cloud AI y Cloud Dataproc de Google.

NVIDIA Merlin Recomendador aceleración

Algo que encontramos casi todos los días son las «recomendaciones». Si es usuario de Spotify, aparecerán las listas de reproducción y pistas sugeridas. Se sugieren programas similares en Netflix que probablemente te gusten a ti y a otros usuarios con intereses similares. Para otros usos, se podrían utilizar recomendaciones para sugerencias sobre terapia de salud y automatización durante un proceso de venta.

El problema con los referentes es que son extremadamente complejos, y NVIDIA naturalmente quiere ayudar con eso. Así es como se creó Merlin, un marco completo que permite a los usuarios crear fácilmente marcos de datos que pueden manejar decenas o cientos de terabytes de datos, con particiones y escalado realizados automáticamente.

NVIDIA Merlin

Se promociona que con NVTabular puede escribir solo unas pocas líneas de código para que pueda comenzar a trabajar rápidamente, mientras que el resto de la tubería incluye HugeCTR para acelerar los sistemas de clasificación de aprendizaje. Todo esto se basa en RAPIDS y cuDNN, y como muestra el gráfico anterior, una CPU solo necesita 16 minutos en un día y medio para crear una GPU de gama alta.

Los 16 minutos que se usaron para el entrenamiento fueron solo con 1 TB de datos. Si el delta entre 36 horas y 16 minutos no parece lo suficientemente impresionante, considere las diferencias dramáticas cuando se trata con muchos o cientos de terabytes. NVIDIA lanza Merlin con miras a registros de petabytes. Entonces parece listo para cualquier cosa.

NVIDIA Jarvis AI conversacional

Hemos oído hablar de Jarvis de NVIDIA antes, pero hoy la compañía está lanzando algunas actualizaciones importantes para su utilidad. Jarvis es uno de los productos de NVIDIA que depende en gran medida de sus bibliotecas TensorRT, que acaban de llegar a la séptima generación. TensorRT ahora es compatible con RNN y ofrece procesamiento automatizado de precisión mixta entre FP32 / FP16 / INT8.

Jensen dice que la conversación AI es uno de los usos más intensos de la inferencia, y esto es especialmente cierto cuando se trata de lograr una interacción real. Puedes hablar con Siri y obtener una respuesta rápidamente, pero NVIDIA quiere que puedas hablar con un avatar personalmente, y todas las respuestas son rápidas y realistas.

NVIDIA Jarvis - Misty Conversational AI

Jarvis utiliza una serie de tecnologías en su cartera, incluido el reconocimiento automático de voz para la activación inmediata, la comprensión del lenguaje natural para interpretar lo que se dice, el reconocimiento de voz de texto a voz y audio a cara, que produce el resultado resultante. Hacer todo esto de inmediato es un gran desafío.

Se mostró una demostración de un avatar de IA llamado Misty, un bot de chat interactivo. Jensen hace algunas preguntas básicas como: B. el clima, pero en última instancia destaca su capacidad de comprender contextualmente de lo que estás hablando. «¿Necesito un paraguas?» conduce a informes meteorológicos desde su ubicación. Cuando se le preguntó sobre el lugar actual más frío del mundo (Yakutsk, Rusia), Misty se congeló y cayó al suelo, dando vida a un simple robot.

Marco de servicios NVIDIA Jarvis Multimodel

Jensen dijo que todos los modelos Jarvis en su NGC (NVIDIA GPU Cloud) representan varios cientos de miles de horas de entrenamiento DGX. Por lo tanto, un término integral sería un eufemismo. Solo mejora con el tiempo, por supuesto. Si tuviera una DGX que contiene 8 tarjetas gráficas NVIDIA premium, le tomaría más de diez años entrenar tales modelos.

El amplificador golpea la unidad NVIDIA

La última arquitectura de computadora NVIDIA generalmente llega a su plataforma de disco más temprano que tarde, pero aquí no se pierde tiempo. Según NVIDIA, Ampere puede alimentar dispositivos con solo 10 TOPS y 5 W para conducción asistida y escalar hasta 2,000 TOPS y 800 W para un eje de robot totalmente autónomo.

En el video de arriba puedes ver un ejemplo genial de la última iteración de NVIDIA Drive en la marca de 2m 20s. Todos los empleados de NVIDIA que trabajaron en esta tecnología estaban seguros en casa, y gran parte del trabajo se realizó en realidad virtual. En un entorno completamente virtual, pueden usar Drive para conducir para trabajar de forma autónoma, sin tener que lidiar con vallas publicitarias antiestéticas.

Últimos pensamientos (por ahora)

Los términos y condiciones de NVIDIA no estaban en línea con el plan original, pero no fue menos emocionante escuchar todas las noticias con algunos meses de retraso. El Ampere A100 está cerca de la GPU que hubiéramos esperado, aunque algunos rumores eran bastante erróneos. Lo que finalmente vemos es un aumento del 24% en el rendimiento con precisión simple y doble en comparación con el V100 y un salto masivo en el rendimiento de la IA. Sin mencionar una serie de mejoras en otras métricas, como el ancho de banda de la memoria.

Estas GPU de última generación están diseñadas desde cero para su uso en centros de datos e inteligencia artificial. El hecho de que NVIDIA ponga los conjuntos de chips Mellanox directamente en su tarjeta EGX muestra cuán serio es con el margen y el ancho de banda. Con el DGX A100, el nivel de rendimiento es simplemente sorprendente, y con el ahorro que puede aumentar el rendimiento de inferencia en un factor de dos, podría ser el doble de impresionante.

Unidad NVIDIA: chip de amperios
Chip de unidad NVIDIA basado en amplificadores

El acuerdo con Mellanox no se ha finalizado durante mucho tiempo, pero NVIDIA ha aclarado sus razones para hacerse cargo de la empresa y ya estamos viendo cuán estrechamente está integrada con NVIDIA. Omniverse también es un proyecto notable en el que equipos completos pueden trabajar juntos desde el mismo hardware, con un enfoque en la colaboración.

Las tecnologías como la AI de conversación conversacional de Jarvis y las plataformas de recomendación de Merlin también son notables por sí mismas y, por supuesto, ambas se aceleran mejor con los amplificadores que cualquier otra cosa anterior.

Hasta ahora, el enfoque de Ampere solo ha estado en el centro de datos. Debido al enfoque principal en este entorno, no es una arquitectura que sea fácilmente transferible a los juegos. Puede recordar que se esperaba que Volta se incluyera en una GeForce en algún momento. En cambio, el siguiente paso fue Turing, que introdujo núcleos de trazado de rayos junto con los tensores que compartía el diseño de Volta.

Si eres un jugador, puede ser una mierda que nada especial te haya sido revelado hoy, pero el centro de datos es Realmente el mayor foco de la conferencia de tecnología GPU de NVIDIA. No tenemos idea de cuándo NVIDIA planea lanzar su próxima serie GeForce o Quadro, y dado que tenemos malas conjeturas, lo permitiremos usted La gente especula cuándo crees que llegarán.

¡Apoya nuestros esfuerzos! Dado que los ingresos publicitarios de los sitios web escritos son más bajos que nunca, confiamos más que nunca en el apoyo de los lectores para continuar poniendo tanto esfuerzo en este tipo de contenido. Puede apoyarnos convirtiéndose en un patrocinador o utilizando nuestros enlaces a los socios de compras de Amazon que figuran en nuestros artículos. ¡gracias por su apoyo!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *