Троє колишніх науковців Google X — Даніель Джордж, Санні Тан та Махі Карім — створили стартап TwinMind, який має на меті стати вашим «другим мозком» за допомогою штучного інтелекту. Команда залучила $5,7 млн інвестицій на старті, а оцінка компанії сягнула $60 млн після раунду. TwinMind вже має додатки для Android та iOS, а також презентувала нову модель розпізнавання мовлення Ear-3.
Про це розповідає ProIT
Як працює TwinMind: особистий помічник на основі голосу
Додаток TwinMind, який засновано у березні 2024 року, працює у фоновому режимі, за дозволом користувача записуючи навколишні розмови. На основі отриманих даних створюється персональна база знань: усі думки, зустрічі, лекції, бесіди структуруються, перетворюються на нотатки, завдання чи відповіді, а також зберігаються у вигляді тексту. Обробка аудіо відбувається на пристрої в реальному часі, без необхідності підключення до хмари, що забезпечує приватність і економію заряду акумулятора — запис може тривати до 16-17 годин без підзарядки. Також додаток підтримує резервне копіювання даних (за бажанням користувача) і переклад у реальному часі більш ніж на 100 мов.
На відміну від конкурентів Otter, Granola чи Fireflies, TwinMind пасивно фіксує аудіо протягом усього дня. Для цього команда розробила власну низькорівневу службу на Swift, що дозволяє працювати у фоновому режимі навіть на iPhone, тоді як більшість аналогів використовують React Native та залежать від хмарних сервісів, які Apple обмежує у тривалому фоновому використанні.
«Ми витратили близько шести-семи місяців минулого року, щоб ідеально реалізувати безперервний запис аудіо та знайти безліч способів обійти обмеження Apple», — розповів Даніель Джордж.
Джордж залишив Google X у 2020 році, а ідея TwinMind виникла у нього під час роботи у JPMorgan на посаді віцепрезидента, коли доводилося брати участь у численних зустрічах. Щоб економити час, він створив скрипт, який записував і транскрибував зустрічі на iPad, а потім передавав їх у ChatGPT для аналізу та генерації коду. Інші спеціалісти зацікавилися рішенням, однак не хотіли запускати подібне на робочих комп’ютерах. Це підштовхнуло команду до розробки мобільного додатку, що тихо працює на особистому телефоні та збирає корисний контекст для користувача.
Окрім мобільних додатків, TwinMind пропонує розширення для Chrome, яке збирає додатковий контекст із браузерної активності. Застосовуючи технології комп’ютерного зору, розширення аналізує відкриті вкладки і контент різних платформ, включаючи електронну пошту, Slack та Notion.
Секрети зростання та особливості нової моделі Ear-3
Стартап уже залучив понад 30 тисяч користувачів, з яких активними є близько 15 тисяч щомісяця. За словами Джорджа, 20–30% клієнтів користуються хром-розширенням. Основна аудиторія — США, але TwinMind швидко набирає популярності й у Індії, Бразилії, на Філіппінах, в Ефіопії, Кенії та країнах Європи. Серед користувачів — 50–60% професіоналів, 25% студентів і 20–25% тих, хто використовує додаток для особистих цілей.
Джордж наголошує на безпеці даних: TwinMind не навчає свої AI-моделі на користувацьких даних і не відправляє записи у хмару. Всі аудіо видаляються одразу після транскрипції, зберігається лише текст на пристрої. Користувачі не можуть прослухати аудіозаписи пізніше, що додатково захищає приватність.
Досвід роботи в Google X прискорив розвиток стартапу. Джордж брав участь у шести проєктах, зокрема у створенні навушників iyO з AI, що нещодавно подали позов проти OpenAI і Джоні Айва. Саме цей досвід допоміг команді швидко перейти від ідеї до продукту. Серед інвесторів компанії — Стівен Вольфрам, Streamlined Ventures, Sequoia Capital. До речі, Вольфрам зробив першу інвестицію у цей стартап, хоча раніше не підтримував жодну компанію фінансово.
Модель TwinMind Ear-3 — це вдосконалена версія попередньої Ear-2, яка підтримує понад 140 мов світу. Рівень помилки по словах — 5,26%, а визначення спікерів — 3,8%. Ear-3 є сумішшю кількох відкритих моделей, навченою на ретельно підібраних людських транскрипціях, подкастах, відео та фільмах. За словами Джорджа, «чим більше мов підтримує модель, тим краще вона розуміє акценти та діалекти». Модель Ear-3 коштує $0,23 за годину і буде доступна через API для розробників та бізнесу протягом найближчих тижнів.
Завдяки Ear-3 користувачі можуть оформити підписку Pro за $15 на місяць, отримавши розширене вікно контексту до 2 мільйонів токенів та підтримку електронною поштою протягом 24 годин. Безкоштовна версія залишається доступною з усіма основними функціями, включаючи необмежену тривалість транскрипцій та розпізнавання мовлення на пристрої.
Наразі команда TwinMind складається з 11 осіб; у планах — розширення штату дизайнерів для покращення користувацького досвіду та розвиток відділу продажів API. Також компанія планує інвестувати у залучення нових користувачів.