Mercury — перша дифузійна мовна модель від Inception Labs

Каліфорнійський стартап Inception Labs представив нову мовну модель, відому як Mercury. Це перший у світі великий мовний модель, яка базується на дифузійних технологіях і створена для комерційного використання. Mercury обіцяє зайняти своє місце серед передових мовних моделей, пропонуючи швидкість і продуктивність, які раніше були недоступні.

Про це розповідає ProIT

Швидкість та продуктивність Mercury

Згідно з даними незалежної платформи тестування Artificial Analysis, Mercury виявилася у 10 разів швидшою за інші сучасні моделі. Її продуктивність перевищує 1000 токенів за секунду на графічних процесорах NVIDIA H100, що раніше було можливим лише на спеціалізованих чипах.

Ендрю Ен, засновник DeepLearning.AI, пояснив принцип роботи нової моделі: “Трансформери домінують у генерації тексту LLM і створюють токени послідовно. Дифузійні моделі пропонують альтернативу – вони генерують весь текст одночасно, застосовуючи процес від грубого до детального”.

Переваги дифузійних моделей

Для порівняння, традиційні LLM на базі трансформерів навчаються авторегресивно, прогнозуючи слова зліва направо. Натомість дифузія, яка зазвичай використовується для генерації зображень та відео, працює за іншим принципом — вона не рухається зліва направо, а генерує весь текст одночасно, починаючи з “шуму”, який поступово очищається до зрозумілого тексту.

Mercury може змінити правила гри у світі LLM, відкриваючи нові можливості та прискорюючи процес генерації тексту. У тестах на стандартних бенчмарках, таких як кодування, Mercury перевершила продуктивність швидкісних моделей, зокрема GPT-4o Mini, Gemini 2.0 Flash та Claude 3.5 Haiku. Особливо вражаючою стала версія Mercury Coder Mini, яка досягла 1109 токенів за секунду.

Крім того, Inception Labs зазначила, що дифузійні моделі мають перевагу в логічному мисленні та структурованості відповідей, адже вони не обмежені лише попередніми токенами, що дозволяє їм постійно вдосконалювати вихідні дані, зменшуючи галюцинації та помилки.

Компанія також критикує існуючі методи логічного виведення, які вимагають чималих обчислювальних ресурсів для генерації складних відповідей. “Створення довгих логічних ланцюгів призводить до величезних витрат на обчислення та неприйнятної затримки. Щоб зробити високоякісний штучний інтелект доступним, потрібна зміна парадигми”, — зазначили в Inception Labs.

Стартап вже випустив попередню версію Mercury Coder, щоб користувачі могли протестувати її можливості. Нещодавно інша компанія, Anthropic, представила Claude 3.7 Sonnet — першу гібридну модель міркування та “найкращий ШІ для айтівців”. OpenAI також запустила GPT-4.5, але з обмеженим доступом через нестачу графічних процесорів.