DeepSeek FlashMLA підвищує продуктивність чипів NVIDIA H800 у 8 разів

|
DeepSeek FlashMLA підвищує продуктивність чипів NVIDIA H800 у 8 разів

Китайська компанія DeepSeek, на заході «Тиждень OpenSource», що відбувся 24 лютого, представила нову програмну технологію під назвою FlashMLA, яка значно оптимізує роботу потужних чипів штучного інтелекту NVIDIA Hopper H800.

Про це розповідає ProIT

Вражаючі результати продуктивності

Завдяки технології FlashMLA, продуктивність чипів H800 досягла 580 TFLOPS при виконанні множення матриці BF16. Це показник, який приблизно у вісім разів перевищує стандартні можливості в галузі, що становлять приблизно 73.5 TFLOPS. Унікальність FlashMLA полягає в тому, що ця технологія дозволяє досягти пропускної здатності пам’яті до 3000 ГБ/с, що майже вдвічі перевищує максимальну пропускну здатність H800, яка становить 1681 ГБ/с.

“This is crazy. Blazing fast: 580 TFLOPS on H800, ~8x industry avg (73.5 TFLOPS). Memory wizardry: Hits 3000 GB/s, surpassing H800’s 1681 GB/s peak.” — Visionary x AI (@VisionaryxAI) February 24, 2025

Інноваційна технологія стиснення даних

FlashMLA реалізує метод низькорангового стиснення значення ключа, що дозволяє розбивати фрагменти даних на менші частини для більш швидкої обробки. Ця технологія зменшує споживання пам’яті на 40%-60%, завдяки динамічному розподілу пам’яті в залежності від інтенсивності завдання. Це дозволяє моделям більш ефективно обробляти послідовності змінної довжини та працювати з більшою швидкістю.

Нова розробка DeepSeek демонструє великий потенціал програмного забезпечення в галузі обчислень штучного інтелекту, відкриваючи можливості для покращення роботи дорогих та енергозатратних прискорювачів. Хоча наразі FlashMLA розроблена лише для H800, фахівці висловлюють сподівання на можливість її застосування й на процесорах H100.

Варто зазначити, що в Китаї активно розвивається технологія оптимізації обчислень. Нещодавно вчені Шеньчженьського університету та Пекінського технологічного інституту досягли вражаючих результатів, покращивши продуктивність NVIDIA RTX 4070 у 800 разів у завданнях перидинаміки, хоча цей прогрес був досягнутий у співпраці з росіянами. Це може суттєво вплинути на розвиток військово-промислових розрахунків.

“Заява DeepSeek про $5,6 млн за навчання моделі R1 сумнівна, китайський ШІ коштує у 500 разів більше,” — зазначає SemiAnalysis.