Специалисты Apple в сотрудничестве с Университетом штата Огайо разработали новую диффузионную языковую модель под названием Few-Step Discrete Flow-Matching (FS-DFM), способную генерировать текст в 128 раз быстрее по сравнению с современными аналогами.
Об этом сообщает ProIT
Инновационные особенности FS-DFM
FS-DFM создает полноценные текстовые фрагменты всего за восемь шагов уточнения. Для сравнения, другим диффузионным ИИ-моделям для этого требуется более тысячи шагов. Благодаря уникальному подходу система быстро адаптируется к различным задачам генерации и обеспечивает стабильное качество результата.
Главные этапы работы FS-DFM включают:
- Обучение на множестве итераций уточнения, чтобы модель могла эффективно работать в различных сценариях.
- Применение «учительской» модели, которая помогает значительно улучшать качество текста на каждом шаге и не выходить за рамки логики исходного текста.
- Корректировка каждой итерации, что позволяет достигать финального результата за минимальное количество шагов и гарантировать стабильность работы.
Показатели эффективности и перспективы развития
Модель FS-DFM продемонстрировала чрезвычайно высокие результаты по двум ключевым критериям:
- Перплексия: более низкий показатель свидетельствует о более естественной и точной формулировке текста.
- Энтропия: позволяет определить, насколько уверенно модель подбирает слова, сохраняя баланс между оригинальностью и предсказуемостью.
Даже компактные версии FS-DFM, содержащие 1,7, 1,3 и 0,17 млрд параметров, стабильно демонстрируют лучшее качество текста и более надежный уровень энтропии по сравнению с более мощными конкурентами Dream (7 млрд параметров) и LLaDA (8 млрд параметров).
«Разработчики планируют опубликовать код и контрольные точки модели, чтобы упростить воспроизведение результатов и дальнейшие исследования».
Этот шаг должен способствовать открытости инноваций и ускорить развитие технологий генерации текста с помощью искусственного интеллекта.