Google разработал TurboQuant для сокращения памяти ИИ-моделей в шесть раз

|
Google разработал TurboQuant для сокращения памяти ИИ-моделей в шесть раз

Исследователи Google представили новый квантовый алгоритм TurboQuant, который позволяет существенно уменьшить объем памяти, необходимой для работы больших языковых моделей (LLM), до шести раз. Кроме снижения требований к ресурсам, TurboQuant также обеспечивает прирост скорости выполнения без потери точности и качества результатов.

Об этом сообщает ProIT

Инновационная архитектура сжатия

Главная цель TurboQuant — оптимизировать размер кеша “ключ-значение” (KV-кеш), который играет роль своеобразной “цифровой шпаргалки” для нейросетей. Именно в KV-кеше хранятся многомерные векторные представления, которые помогают модели распознавать семантические связи между токенами без необходимости повторных вычислений. Однако такие векторы занимают значительный объем памяти, что становится узким местом для масштабирования ИИ.

Чтобы решить эту проблему, TurboQuant использует техники квантизации, которые позволяют модели работать с меньшей точностью, но без заметного ухудшения качества. По внутренним тестам Google, новый алгоритм обеспечивает восьмикратное повышение производительности и уменьшает использование памяти в шесть раз, при этом качество ответов LLM остается на высоком уровне.

Два этапа алгоритма: PolarQuant и QJL

TurboQuant внедряется в два этапа. Первый — это система PolarQuant, которая кодирует многомерные векторы не в традиционных декартовых (XYZ) координатах, а в полярных. Такая трансформация позволяет сократить данные до двух параметров: радиуса (мера силы данных) и направления (значение), что существенно уменьшает объем сохраняемой информации.

Google сравнивает этот подход с оптимизированным маршрутом: вместо того, чтобы описывать путь как “3 квартала на восток, 4 на север”, можно сказать “5 кварталов под углом 37 градусов”, что является более компактным и менее затратным для системы.

Второй этап — это применение Quantized Johnson-Lindenstrauss (QJL), который выполняет коррекцию остаточных ошибок PolarQuant. QJL сводит каждый вектор к одному биту (+1 или −1), сохраняя ключевую информацию о взаимосвязях, что позволяет еще больше уменьшить объем памяти без снижения точности оценки внимания.

TurboQuant якобы показал идеальные результаты во всех тестах, сократив использование памяти кеша “ключ-значение” в 6 раз.

По результатам тестирования на открытых моделях Gemma и Mistral, TurboQuant позволяет квантизировать кеш до 3 битов без необходимости дополнительного дообучения. При этом вычисления внимания с 4-битным TurboQuant примерно в восемь раз быстрее, чем с 32-битными классическими ключами на ускорителях NVIDIA H100.

Внедрение TurboQuant может сделать использование ИИ дешевле и менее зависимым от больших объемов оперативной памяти. Особенно перспективной эта технология является для мобильных устройств, где ограничены аппаратные ресурсы. Ожидается, что подобные методы позволят выполнять сложные модели локально на смартфонах без передачи данных в облако, повышая безопасность и скорость работы.

Кроме технологического эффекта, анонс TurboQuant уже повлиял и на рынок: акции ведущих производителей памяти (Micron Technology, Western Digital, SanDisk, Seagate) отреагировали снижением, поскольку инвесторы опасаются возможного сокращения спроса на DRAM и флеш-память из-за значительного уменьшения потребностей LLM в памяти. В то же время аналитики отмечают, что применение технологии в промышленных масштабах может быть сложнее, и спрос на память, вероятно, останется высоким в ближайшие годы.

Разработка TurboQuant основана на предыдущих исследованиях по квантованной оптимизации векторных представлений, в частности PolarQuant. Последнее уже продемонстрировало возможность достигать четырехкратного сжатия KV-кеша без потери качества, что стало основой для еще более агрессивной схемы TurboQuant.