Ether0 от FutureHouse: новая LLM для химических исследований

Стартап FutureHouse из Сан-Франциско представил инновационную большую языковую модель ether0, которая ориентирована на поддержку научных исследований, в частности в области химии.

Об этом сообщает ProIT

Особенности ether0: первая модель рассуждений для химии

По словам основателя FutureHouse Сэма Родригеса, ether0 является первой «моделью рассуждений», созданной специально для решения сложных научных задач. Модель была обучена на основе прохождения теста с примерно 500 тысячами вопросов, что позволяет ей эффективно работать с химическими формулами, включая те, которые используются для разработки новых фармацевтических препаратов. Система имеет открытый код и уже доступна для общего использования.

Отличие ether0 от других языковых моделей заключается в возможности объяснять ход своих рассуждений понятным английским языком. Она также способна отвечать на сложные вопросы, требующие глубокого анализа.

Как создавали и обучали ether0

Разработчики выбрали не классический подход к обучению на учебниках или статьях, а сформировали специальную базу из лабораторных результатов 45 научных публикаций, охватывающих вопросы молекулярной растворимости и запаха. На их основе подготовили 5 790 тестовых вопросов. Базовую модель ether0 обучили «рассуждать вслух», используя примеры неправильных решений и цепочек рассуждений, созданных китайской моделью DeepSeek-R1. Каждая из семи версий ether0 решала отдельные подмножества вопросов и получала подкрепление за правильные ответы. В конечном итоге цепочки рассуждений были объединены в универсальную модель.

«По словам химика Йенского университета в Германии Кевина Яблонки, который уже попробовал поработать с ether0, эта модель способна делать значительные выводы относительно химических свойств, по которым она не проходила специального обучения».

Продуктивность ether0 проверили с помощью ряда дополнительных вопросов, в том числе вне курса обучения. По большинству параметров ether0 превзошла такие известные модели, как OpenAI GPT-4.1 и DeepSeek-R1. При решении некоторых задач точность ether0 оказалась почти вдвое выше, чем у конкурентов, хотя сравнение с другими системами в независимых тестах осложняется из-за специфического формата ответов — в виде химических формул и реакций.

Главное преимущество ether0 — прозрачность процесса рассуждения. По словам Сэма Родригеса, если позволить модели больше времени на размышления, ее ответы становятся точнее, но менее понятными для пользователей, поскольку модель может начать смешивать разные языки и придумывать слова. Поэтому разработчики решили ограничить время рассуждения, чтобы обеспечить интерпретируемость результатов.

FutureHouse работает над максимальной автоматизацией научного процесса в химии — от генерации идей до написания научных статей с помощью искусственного интеллекта. Однако часть научного сообщества осторожно относится к этому подходу, подчеркивая риски сужения направлений исследований.

В рамках развития собственной экосистемы FutureHouse уже представила платформу для анализа научной литературы и агентов ИИ, которые используют данные из открытых источников и инструменты молекулярной химии для создания новых препаратов. Однако, как и все LLM, эти агенты имеют ограничения по объему информации, доступной через Интернет.