DeepSeek V3.1: Потужна модель ШІ з 671 млрд параметрів

Китайська компанія DeepSeek презентувала вдосконалену модель штучного інтелекту DeepSeek V3.1, яка отримала 671 мільярд параметрів, гібридне мислення та покращену ефективність. Новинка була анонсована лише через два тижні після релізу GPT-5 і вже доступна на платформі Hugging Face. Відзначено, що це одна з найбільших ШІ-систем у світі, хоча її контекстне вікно обмежене 128 тисячами токенів.

Про це розповідає ProIT

Гібридна архітектура та ключові особливості DeepSeek V3.1

Модель DeepSeek V3.1 відрізняється унікальною гібридною структурою, що дозволяє поєднувати режими мислення та без мислення, змінюючи підхід до обробки запитів. Для кожного запиту активуються лише необхідні частини моделі, що сприяє зниженню обчислювальних витрат та робить систему привабливою для розробників, які цінують баланс між потужністю та економічністю.

Гібридний режим мислення: одна модель підтримує як режим мислення, так і режим без мислення, змінюючи шаблон діалогу.
Розумний виклик інструментів: оптимізація після навчання забезпечує кращу продуктивність при використанні інструментів та виконанні агентських завдань.
Підвищена ефективність: DeepSeek-V3.1-Think забезпечує відповіді на рівні DeepSeek-R1-0528, але з вищою швидкістю реагування.

DeepSeek V3.1: нова модель ШІ з 671 млрд параметрів і гібридною архітектурою

Гібридна архітектура та ключові особливості DeepSeek V3.1

Популярність серед розробників і експертна оцінка