DeepSeek: Китайський AI-чатбот, що змінює індустрію

Китайський стартап DeepSeek стрімко став відомим у світі завдяки своєму AI-чатботу, який очолив рейтинги завантажень у магазинах Apple App Store та Google Play. Динамічний розвиток компанії та її інноваційні моделі штучного інтелекту викликали жваве обговорення серед аналітиків Волл-стріт і експертів галузі щодо майбутнього США у світовій гонці штучного інтелекту та попиту на AI-чипи.

Про це розповідає ProIT

Витоки DeepSeek: від трейдингу до AI-лабораторії

DeepSeek виникла як дослідницька лабораторія у 2023 році, відокремившись від фінансового бізнесу High-Flyer Capital Management — китайського кількісного хедж-фонду, що активно впроваджує штучний інтелект у трейдинг. Засновник High-Flyer, Лян Веньфен, ще студентом почав цікавитися біржовими операціями, а у 2019 році запустив фонд, зосереджений на розробці і впровадженні AI-алгоритмів. Згодом DeepSeek стала самостійною компанією з підтримкою High-Flyer.

Від самого початку DeepSeek інвестувала у власні дата-центри для навчання моделей. Однак, як і багато інших китайських AI-компаній, DeepSeek зіткнулася з обмеженнями на імпорт американського обладнання, через що для тренування однієї з моделей довелося використовувати менш потужні чипи Nvidia H800, на відміну від доступних у США H100.

Команда DeepSeek здебільшого складається з молодих фахівців, серед яких багато докторів наук у сфері штучного інтелекту з провідних університетів Китаю. Компанія також активно залучає спеціалістів без ІТ-освіти, щоб її технології краще розуміли різні сфери знань.

Інноваційні AI-моделі та вплив на ринок

У листопаді 2023 року DeepSeek представила перший набір моделей: DeepSeek Coder, DeepSeek LLM та DeepSeek Chat. Проте справжній прорив стався навесні, коли компанія презентувала покоління моделей DeepSeek-V2 — універсальні системи для аналізу тексту та зображень. DeepSeek-V2 відзначилися ефективністю та низькими експлуатаційними витратами, що змусило конкурентів, таких як ByteDance і Alibaba, знизити ціни на власні продукти та зробити окремі моделі безкоштовними.

У грудні 2024 року DeepSeek запустила модель DeepSeek-V3, яка, за внутрішніми тестами компанії, перевершила відкриті моделі на зразок Llama від Meta та закриті API-моделі, такі як GPT-4o від OpenAI. Особливу увагу привернула модель R1 для складних логічних операцій. Вона, за словами DeepSeek, досягає результатів на рівні моделі o1 від OpenAI та здатна самостійно перевіряти власні факти, що підвищує її надійність у наукових і технічних задачах, хоча й потребує більше часу на відповіді.

Водночас, через китайське походження, моделі DeepSeek проходять цензурування регуляторами КНР. Наприклад, у чатботі R1 закладена заборона відповідати на питання, що стосуються подій на площі Тяньаньмень чи автономії Тайваню.

“В березні DeepSeek посіла друге місце за відвідуваністю у світі серед AI-чатботів, хоча трафік впав на 25% у порівнянні з лютим за добовою кількістю відвідувань”, — зазначив Девід Карр, редактор Similarweb.

У травні DeepSeek представила оновлену версію моделі R1 на платформі Hugging Face, а у вересні — експериментальну модель V3.2-exp із суттєво нижчими витратами на інференс у задачах з довгим контекстом.

Дисраптивна стратегія та глобальні наслідки

Бізнес-модель DeepSeek залишається не до кінця зрозумілою. Компанія продає свої продукти за цінами значно нижчими за ринкові, а низку сервісів взагалі надає безкоштовно, не залучаючи фінансування від венчурних інвесторів, попри значний інтерес. Представники компанії пояснюють це проривами в ефективності, хоча деякі експерти ставлять під сумнів заявлену економію.

Моделі DeepSeek, хоч і не є повністю відкритим програмним забезпеченням, доступні під ліцензіями, що дозволяють комерційне використання. За даними CEO Hugging Face Клема Деланга, на платформі вже створено понад 500 похідних моделей R1 із загальною кількістю завантажень понад 2,5 млн.

Успіх DeepSeek вплинув на ринкову позицію навіть таких гігантів, як Nvidia, акції якої у січні впали на 18%. Компанія стала предметом обговорення з боку керівників OpenAI, Microsoft, Meta та навіть державних органів США. У березні низка урядових структур США та Південної Кореї заборонили використання DeepSeek на своїх пристроях. У Нью-Йорку та корпорації Microsoft також заборонили співробітникам використовувати DeepSeek через побоювання щодо безпеки даних.

Попри це, Microsoft інтегрувала DeepSeek у свою корпоративну AI-платформу Azure AI Foundry. Водночас, у США дедалі зростає стурбованість щодо впливу іноземних AI-технологій, і очікується, що найближчим часом DeepSeek буде повністю заборонено на державних пристроях.

Перспективи DeepSeek залишаються невизначеними, але компанія продовжує вдосконалювати свої AI-моделі та впливати на глобальний ринок штучного інтелекту.