Mercury от Inception Labs — первая диффузионная языковая модель

Калифорнийский стартап Inception Labs представил новую языковую модель, известную как Mercury. Это первая в мире крупная языковая модель, основанная на диффузионных технологиях и созданная для коммерческого использования. Mercury обещает занять свое место среди передовых языковых моделей, предлагая скорость и производительность, которые ранее были недоступны.

Об этом сообщает ProIT

Скорость и производительность Mercury

Согласно данным независимой платформы тестирования Artificial Analysis, Mercury оказалась в 10 раз быстрее других современных моделей. Ее производительность превышает 1000 токенов в секунду на графических процессорах NVIDIA H100, что ранее было возможно только на специализированных чипах.

Эндрю Энг, основатель DeepLearning.AI, объяснил принцип работы новой модели: «Трансформеры доминируют в генерации текста LLM и создают токены последовательно. Диффузионные модели предлагают альтернативу — они генерируют весь текст одновременно, применяя процесс от грубого к детальному».

Преимущества диффузионных моделей

Для сравнения, традиционные LLM на основе трансформеров обучаются авторегрессионно, прогнозируя слова слева направо. Напротив, диффузия, которая обычно используется для генерации изображений и видео, работает по другому принципу — она не движется слева направо, а генерирует весь текст одновременно, начиная с «шума», который постепенно очищается до понятного текста.

Mercury может изменить правила игры в мире LLM, открывая новые возможности и ускоряя процесс генерации текста. В тестах на стандартных бенчмарках, таких как кодирование, Mercury превзошла производительность скоростных моделей, в частности GPT-4o Mini, Gemini 2.0 Flash и Claude 3.5 Haiku. Особенно впечатляющей стала версия Mercury Coder Mini, которая достигла 1109 токенов в секунду.

Кроме того, Inception Labs отметила, что диффузионные модели имеют преимущество в логическом мышлении и структурированности ответов, так как они не ограничены только предыдущими токенами, что позволяет им постоянно совершенствовать выходные данные, уменьшая галлюцинации и ошибки.

Компания также критикует существующие методы логического вывода, которые требуют значительных вычислительных ресурсов для генерации сложных ответов. «Создание длинных логических цепочек приводит к огромным затратам на вычисления и неприемлемой задержке. Чтобы сделать высококачественный искусственный интеллект доступным, необходима смена парадигмы», — отметили в Inception Labs.

Стартап уже выпустил предварительную версию Mercury Coder, чтобы пользователи могли протестировать ее возможности. Недавно другая компания, Anthropic, представила Claude 3.7 Sonnet — первую гибридную модель рассуждения и «лучший ИИ для айтишников». OpenAI также запустила GPT-4.5, но с ограниченным доступом из-за нехватки графических процессоров.