Wikidata Embedding: новий рівень доступу до Вікіпедії для ШІ

Wikimedia Deutschland офіційно презентувала нову базу даних, яка спрощує доступ до знань із Вікіпедії для штучного інтелекту. Проєкт, що отримав назву Wikidata Embedding Project, впроваджує інноваційну векторну семантичну пошукову систему. Завдяки цьому комп’ютери здатні краще розуміти значення слів і взаємозв’язки між ними на основі майже 120 мільйонів записів із Вікіпедії та суміжних платформ.

Про це розповідає ProIT

Нові стандарти для пошуку та інтеграції даних

Проєкт використовує підтримку Model Context Protocol (MCP) — стандарту, який допомагає системам ШІ ефективніше взаємодіяти з джерелами даних. Це дозволяє великим мовним моделям (LLM) краще відповідати на природномовні запити та отримувати інформацію, перевірену редакторами Вікіпедії. Розробка стала результатом співпраці німецького відділення Wikimedia з компанією Jina.AI, яка спеціалізується на нейронному пошуку, та DataStax — провайдером рішень для роботи з даними в реальному часі, що належить IBM.

Раніше Wikidata надавала машиночитані дані з проектів Wikimedia, але пошук був обмежений лише ключовими словами та спеціалізованими запитами за допомогою мови SPARQL. Новий підхід дає змогу системам з розширеним пошуком (RAG) отримувати зовнішню інформацію, що суттєво полегшує розробникам інтеграцію перевірених фактів із Вікіпедії у свої моделі ШІ.

Семантичний контекст і відкритість для розробників

База даних структурована так, щоб забезпечити глибший семантичний контекст. Наприклад, якщо зробити запит за словом «вчений», система покаже список відомих ядерних фізиків, дослідників Bell Labs, переклади цього терміна різними мовами, ліцензовані зображення науковців за роботою, а також пов’язані поняття — такі як «дослідник» чи «науковець».

База даних доступна для всіх охочих на платформі Toolforge. Окрім цього, для розробників, зацікавлених у використанні нових можливостей, Wikidata організовує спеціальний вебінар 9 жовтня.

“This Embedding Project launch shows that powerful AI doesn’t have to be controlled by a handful of companies,” Saadé told reporters. “It can be open, collaborative, and built to serve everyone”.

В умовах зростання попиту на якісні дані для тренування ШІ, новий проєкт пропонує цінний ресурс для розробників. Сучасні системи навчання стають дедалі складнішими, але залишаються залежними від ретельно перевірених даних. Особливо це важливо для застосувань, де вимагається висока точність. Дані з Вікіпедії, на відміну від загальних масивів на кшталт Common Crawl, мають значно вищий рівень фактологічної достовірності.

Прагнення до якісних даних часто стає дорогим для лабораторій ШІ. Наприклад, у серпні компанія Anthropic погодилася виплатити $1,5 млрд авторам, чиї твори були використані для навчання моделей, щоб урегулювати судові претензії.