На ежегодной конференции GTC генеральный директор NVIDIA, Дженсен Хуанг, представил архитектуру следующего поколения графического процессора Blackwell GPU. Эта инновационная разработка обещает значительное увеличение производительности, задача которой – способствовать революции в области искусственного интеллекта. Новый графический процессор получил свое название в честь выдающегося американского статистика и математика Дэвида Гарольда Блэквелла. Давид Блэквелл внес огромный вклад в различные области знаний, включая теорию игр, теорию вероятностей, теорию информации и статистику.
NVIDIA не собирается уступать позиции на быстро развивающемся рынке искусственного интеллекта. В то время как конкуренты, такие как Cerebras и Rebellions, начинают набирать обороты, у компании, возглавляемой Дженсеном Хуангом, есть новое предложение для своих самых амбициозных клиентов: она только что представила новую высокопроизводительную архитектуру под названием Blackwell, которая реализована в двух новых чипах, B200 и GB200.
Последние несколько лет мы являемся свидетелями эволюции американской компании. В 2020 году она выпустила чипы A100 с 54 миллиардами транзисторов, а в 2022 году – H100 с 80 миллиардами транзисторов. И сейчас, с выходом H200, который еще не доступен, производитель только что объявил о скачке до 208 миллиардов транзисторов.
Новый чип NVIDIA B200 обещает обеспечить производительность до 18 петафлопс в конфигурациях HGX или DGX с обычным воздушным охлаждением. Однако, чтобы достичь еще более высокой производительности в 20 петафлопс, корпоративные клиенты должны оборудовать свои центры обработки данных системами жидкостного охлаждения.
Восемь стеков памяти HBM3e общим объемом 192 ГБ расположены по сторонам от кристаллов GPU. Пропускная способность этой памяти достигает 8 Тбайт/с. Для объединения нескольких ускорителей Blackwell в одной системе новый GPU получил поддержку интерфейса NVLink пятого поколения, который обеспечивает пропускную способность до 1,8 Тбайт/с в обоих направлениях. С использованием данного интерфейса (коммутатор NVSwitch 7.2T) в одну связку можно объединить до 576 GPU.
Одними из ключевых факторов, способствующих повышению производительности B200, стали новые тензорные ядра и второе поколение механизма Transformer Engine. Последний стал более точно подбирать необходимую точность вычислений для различных задач, что влияет на скорость обучения и работы нейросетей, а также на максимальный объем поддерживаемых LLM. Теперь Nvidia предлагает тренировку ИИ в формате FP8, а для запуска обученных нейросетей достаточно будет и FP4. Важно отметить, что Blackwell поддерживает работу с различными форматами, включая FP4, FP6, FP8, INT8, BF16, FP16, TF32 и FP64. И во всех случаях, кроме последнего, имеется поддержка разреженных вычислений.
Флагманским ускорителем на новой архитектуре станет Nvidia Grace Blackwell Superchip, который объединяет пару графических процессоров B200 с центральным Arm-процессором Nvidia Grace, имеющим 72 ядра Neoverse V2. Этот ускоритель, занимающий половину серверной стойки, имеет TDP до 2,7 кВт. Производительность в операциях FP4 достигает 40 петафлопс, тогда как в операциях FP8/FP6/INT8 новый чип GB200 способен обеспечить 10 петафлопс.
Как отмечает сама Nvidia, новинка обеспечивает 30-кратный прирост производительности по сравнению с Nvidia H100 для рабочих нагрузок, связанных с большими языковыми моделями, а также она до 25 раз более экономична и энергетически эффективна.
Nvidia также представила систему GB200 NVL72, которая фактически представляет собой серверную стойку, объединяющую 36 ускорителей Grace Blackwell Superchip и пару коммутаторов NVSwitch 7.2T. Таким образом, данная система включает в себя 72 графических процессора B200 Blackwell и 36 центральных процессоров Grace, соединенных через NVLink пятого поколения. На эту систему приходится 13,5 ТБ памяти HBM3e с общей пропускной способностью до 576 ТБ/с, а общий объем оперативной памяти достигает 30 ТБ.
Платформа GB200 NVL72 работает как единый GPU с ИИ-производительностью 1,4 эксафлопс (FP4) и 720 Пфлопс (FP8). Эта система станет строительным блоком для новейшего суперкомпьютера Nvidia DGX SuperPOD.
Наконец, Nvidia представила серверные системы HGX B100, HGX B200 и DGX B200. Все они оснащены по восемь ускорителей Blackwell, соединенных между собой через NVLink 5. Системы HGX B100 и HGX B200 не включают собственный процессор, и их основное различие заключается лишь в энергопотреблении и, как следствие, в мощности. HGX B100 имеет ограничение по TDP в 700 Вт и обеспечивает производительность до 112 и 56 петафлопс в операциях FP4 и FP8/FP6/INT8 соответственно. В свою очередь, HGX B200 имеет TDP в 1000 Вт и предлагает до 144 и 72 петафлопс в операциях FP4 и FP8/FP6/INT8 соответственно.
Наконец, DGX B200 имеет ту же производительность, что и HGX B200, но является полностью готовой системой с парой центральных процессоров Intel Xeon Emerald Rapids. По заявлению Nvidia, DGX B200 в до 15 раз быстрее в выполнении задач, связанных с запуском уже обученных “триллионных” моделей, по сравнению с предшественником.
Для создания наиболее масштабных систем искусственного интеллекта, включающих от 10 тысяч до 100 тысяч ускорителей GB200 в рамках одного дата-центра, компания Nvidia предлагает объединять их в кластеры с использованием сетевых интерфейсов Nvidia Quantum-X800 InfiniBand и Spectrum-X800 Ethernet. Эти интерфейсы, анонсированные сегодня, обеспечивают передовые сетевые возможности со скоростью до 800 Гбит/с.
Множество производителей в ближайшее время представят свои системы на базе ускорителей Nvidia B200, включая Aivres, ASRock Rack, ASUS, Eviden, Foxconn, GIGABYTE, Inventec, Pegatron, QCT, Wistron, Wiwynn и ZT Systems. Кроме того, ускорители Nvidia GB200 будут доступны в платформе Nvidia DGX Cloud, а позднее в этом году решения на основе этого суперчипа станут доступны у крупнейших облачных провайдеров, таких как AWS, Google Cloud и Oracle Cloud.