Ether0 від FutureHouse: інноваційна LLM для хімії

Стартап FutureHouse із Сан-Франциско презентував інноваційну велику мовну модель ether0, яка орієнтована на підтримку наукових досліджень, зокрема у сфері хімії.

Про це розповідає ProIT

Особливості ether0: перша модель міркувань для хімії

За словами засновника FutureHouse Сема Родрігеса, ether0 є першою «моделлю міркувань», створеною спеціально для вирішення складних наукових завдань. Модель була навчена на основі проходження тесту з приблизно 500 тисяч питань, що дозволяє їй ефективно працювати з хімічними формулами, у тому числі тими, що використовуються для розробки нових фармацевтичних препаратів. Система має відкритий код і вже доступна для загального використання.

Відмінність ether0 від інших мовних моделей полягає у можливості пояснювати хід своїх міркувань зрозумілою англійською мовою. Вона також здатна відповідати на складні запитання, які вимагають глибокого аналізу.

Як створювали та навчали ether0

Розробники обрали не класичний підхід до навчання на підручниках чи статтях, а сформували спеціальну базу з лабораторних результатів із 45 наукових публікацій, що охоплювали питання молекулярної розчинності та запаху. На їх основі підготували 5 790 тестових питань. Базову модель ether0 навчили «міркувати вголос», використовуючи приклади неправильних рішень і ланцюжків міркувань, створених китайською моделлю DeepSeek-R1. Кожна з семи версій ether0 вирішувала окремі підмножини питань та отримувала підкріплення за правильні відповіді. Зрештою, ланцюжки міркувань були об’єднані в універсальну модель.

“За словами хіміка Йенського університету в Німеччині Кевіна Яблонки, який вже спробував попрацювати з ether0, ця модель здатна робити значні висновки стосовно хімічних властивостей, щодо яких не проходила спеціального навчання”.

Продуктивність ether0 перевірили низкою додаткових запитань, зокрема поза межами курсу навчання. За більшістю параметрів ether0 перевершила такі відомі моделі, як OpenAI GPT-4.1 і DeepSeek-R1. При вирішенні деяких завдань точність ether0 виявилася майже вдвічі вищою за конкурентів, хоча порівняння з іншими системами у незалежних тестах ускладнюється через специфічний формат відповідей — у вигляді хімічних формул та реакцій.

Головна перевага ether0 — прозорість процесу міркування. За словами Сема Родрігеса, якщо дозволити моделі більше часу на роздуми, її відповіді стають точнішими, але менш зрозумілими для користувачів, оскільки модель може почати змішувати різні мови та вигадувати слова. Тому розробники вирішили обмежити час міркування, щоб забезпечити інтерпретованість результатів.

FutureHouse працює над максимальною автоматизацією наукового процесу в хімії — від генерації ідей до написання наукових статей за допомогою штучного інтелекту. Однак частина наукової спільноти обережно ставиться до цього підходу, наголошуючи на ризиках звуження напрямів досліджень.

У рамках розвитку власної екосистеми FutureHouse вже презентувала платформу для аналізу наукової літератури та агентів ШІ, які використовують дані з відкритих джерел та інструменти молекулярної хімії для створення нових препаратів. Однак, як і всі LLM, ці агенти мають обмеження щодо обсягу інформації, доступної через Інтернет.