DeepSeek представляет открытый код 3FS — новой файловой системы для AI-серверов

|
DeepSeek представляет открытый код 3FS — новой файловой системы для AI-серверов

Во время Open Source Week компания DeepSeek представила свою параллельную файловую систему, известную как Fire-Flyer Fire System (3FS). Согласно данным компании, 3FS демонстрирует впечатляющую скорость чтения, достигая 7,3 ТБ/с на кластерах данных, работающих на её собственных серверах с 2019 года.

Об этом сообщает ProIT

Особенности 3FS

Файловая система 3FS, разработанная на базе Linux, специально адаптирована для выполнения операций AI-HPC. Это позволяет узлам GPU непрерывно получать доступ к многочисленным серверам хранения данных во время обучения моделей LLM (великомасштабных языковых моделей). Ключевой характеристикой 3FS является приоритет скорости случайного чтения, что значительно превышает традиционные подходы к кэшированию.

Во время обучения моделей искусственного интеллекта вычислительные блоки требуют постоянного доступа к случайным обучающим данным, а считывание таких данных является одноразовым процессом. В результате этого кэш чтения обычно не используется 3FS. Более того, использование кэша во время обучения LLM может оказаться вредным, поскольку повторное считывание одинаковых данных может негативно сказаться на модели.

Сравнение с конкурентами

На предыдущих этапах DeepSeek заявляла о производительности 3FS на уровне 6,6 ТБ/с, включая фоновые учебные задачи, которые добавили ещё 1,4 ТБ/с к общей пропускной способности чтения. Для сравнения, конкурентная файловая система Ceph впервые достигла скорости чтения лишь 1,1 ТБ/с в начале 2024 года.

Все заинтересованные могут испытать файловую систему Fire-Flyer и её возможности, загрузив необходимые файлы на странице DeepSeek в Github. Если 3FS действительно демонстрирует такую производительность, она имеет все шансы стать популярной в среде разработчиков.