Во время Open Source Week компания DeepSeek представила свою параллельную файловую систему, известную как Fire-Flyer Fire System (3FS). Согласно данным компании, 3FS демонстрирует впечатляющую скорость чтения, достигая 7,3 ТБ/с на кластерах данных, работающих на её собственных серверах с 2019 года.
Об этом сообщает ProIT
Особенности 3FS
Файловая система 3FS, разработанная на базе Linux, специально адаптирована для выполнения операций AI-HPC. Это позволяет узлам GPU непрерывно получать доступ к многочисленным серверам хранения данных во время обучения моделей LLM (великомасштабных языковых моделей). Ключевой характеристикой 3FS является приоритет скорости случайного чтения, что значительно превышает традиционные подходы к кэшированию.
Во время обучения моделей искусственного интеллекта вычислительные блоки требуют постоянного доступа к случайным обучающим данным, а считывание таких данных является одноразовым процессом. В результате этого кэш чтения обычно не используется 3FS. Более того, использование кэша во время обучения LLM может оказаться вредным, поскольку повторное считывание одинаковых данных может негативно сказаться на модели.
Сравнение с конкурентами
На предыдущих этапах DeepSeek заявляла о производительности 3FS на уровне 6,6 ТБ/с, включая фоновые учебные задачи, которые добавили ещё 1,4 ТБ/с к общей пропускной способности чтения. Для сравнения, конкурентная файловая система Ceph впервые достигла скорости чтения лишь 1,1 ТБ/с в начале 2024 года.
Все заинтересованные могут испытать файловую систему Fire-Flyer и её возможности, загрузив необходимые файлы на странице DeepSeek в Github. Если 3FS действительно демонстрирует такую производительность, она имеет все шансы стать популярной в среде разработчиков.