Увеличение производительности чипов NVIDIA H800 с FlashMLA

Китайская компания DeepSeek на мероприятии «Неделя OpenSource», которое прошло 24 февраля, представила новую программную технологию под названием FlashMLA, которая значительно оптимизирует работу мощных чипов искусственного интеллекта NVIDIA Hopper H800.

Об этом сообщает ProIT

Впечатляющие результаты производительности

Благодаря технологии FlashMLA производительность чипов H800 достигла 580 TFLOPS при выполнении умножения матрицы BF16. Это показатель, который примерно в восемь раз превышает стандартные возможности в отрасли, составляющие около 73.5 TFLOPS. Уникальность FlashMLA заключается в том, что эта технология позволяет достичь пропускной способности памяти до 3000 ГБ/с, что почти вдвое превышает максимальную пропускную способность H800, которая составляет 1681 ГБ/с.

“Это безумие. Ультрабыстро: 580 TFLOPS на H800, ~8x средний показатель по отрасли (73.5 TFLOPS). Волшебство памяти: достигает 3000 GB/s, превосходя пик H800 в 1681 GB/s.” — Visionary x AI (@VisionaryxAI) 24 февраля 2025

Инновационная технология сжатия данных

FlashMLA реализует метод низкорангового сжатия значений ключа, что позволяет разбивать фрагменты данных на меньшие части для более быстрой обработки. Эта технология уменьшает потребление памяти на 40%-60% благодаря динамическому распределению памяти в зависимости от интенсивности задачи. Это позволяет моделям более эффективно обрабатывать последовательности переменной длины и работать с большей скоростью.

Новая разработка DeepSeek демонстрирует большой потенциал программного обеспечения в области вычислений искусственного интеллекта, открывая возможности для улучшения работы дорогих и энергоемких ускорителей. Хотя в настоящее время FlashMLA разработана только для H800, специалисты выражают надежду на возможность ее применения и на процессорах H100.

Стоит отметить, что в Китае активно развивается технология оптимизации вычислений. Недавно ученые Шэньчжэньского университета и Пекинского технологического института достигли впечатляющих результатов, улучшив производительность NVIDIA RTX 4070 в 800 раз в задачах перидинамики, хотя этот прогресс был достигнут в сотрудничестве с россиянами. Это может существенно повлиять на развитие военно-промышленных расчетов.

“Заявление DeepSeek о $5,6 млн за обучение модели R1 сомнительно, китайский ИИ стоит в 500 раз больше,” — отмечает SemiAnalysis.