Головна Технології Проєкт Wikidata Embedding зробив дані Вікіпедії більш доступними для ШІ

Проєкт Wikidata Embedding зробив дані Вікіпедії більш доступними для ШІ

Wikimedia Deutschland офіційно презентувала нову базу даних, яка спрощує доступ до знань із Вікіпедії для штучного інтелекту. Проєкт, що отримав назву Wikidata Embedding Project, впроваджує інноваційну векторну семантичну пошукову систему. Завдяки цьому комп’ютери здатні краще розуміти значення слів і взаємозв’язки між ними на основі майже 120 мільйонів записів із Вікіпедії та суміжних платформ.

Про це розповідає ProIT

Нові стандарти для пошуку та інтеграції даних

Проєкт використовує підтримку Model Context Protocol (MCP) — стандарту, який допомагає системам ШІ ефективніше взаємодіяти з джерелами даних. Це дозволяє великим мовним моделям (LLM) краще відповідати на природномовні запити та отримувати інформацію, перевірену редакторами Вікіпедії. Розробка стала результатом співпраці німецького відділення Wikimedia з компанією Jina.AI, яка спеціалізується на нейронному пошуку, та DataStax — провайдером рішень для роботи з даними в реальному часі, що належить IBM.

Раніше Wikidata надавала машиночитані дані з проектів Wikimedia, але пошук був обмежений лише ключовими словами та спеціалізованими запитами за допомогою мови SPARQL. Новий підхід дає змогу системам з розширеним пошуком (RAG) отримувати зовнішню інформацію, що суттєво полегшує розробникам інтеграцію перевірених фактів із Вікіпедії у свої моделі ШІ.

Семантичний контекст і відкритість для розробників

База даних структурована так, щоб забезпечити глибший семантичний контекст. Наприклад, якщо зробити запит за словом «вчений», система покаже список відомих ядерних фізиків, дослідників Bell Labs, переклади цього терміна різними мовами, ліцензовані зображення науковців за роботою, а також пов’язані поняття — такі як «дослідник» чи «науковець».

База даних доступна для всіх охочих на платформі Toolforge. Окрім цього, для розробників, зацікавлених у використанні нових можливостей, Wikidata організовує спеціальний вебінар 9 жовтня.

“This Embedding Project launch shows that powerful AI doesn’t have to be controlled by a handful of companies,” Saadé told reporters. “It can be open, collaborative, and built to serve everyone”.

В умовах зростання попиту на якісні дані для тренування ШІ, новий проєкт пропонує цінний ресурс для розробників. Сучасні системи навчання стають дедалі складнішими, але залишаються залежними від ретельно перевірених даних. Особливо це важливо для застосувань, де вимагається висока точність. Дані з Вікіпедії, на відміну від загальних масивів на кшталт Common Crawl, мають значно вищий рівень фактологічної достовірності.

Прагнення до якісних даних часто стає дорогим для лабораторій ШІ. Наприклад, у серпні компанія Anthropic погодилася виплатити $1,5 млрд авторам, чиї твори були використані для навчання моделей, щоб урегулювати судові претензії.

Читайте також

About Us

Soledad is the Best Newspaper and Magazine WordPress Theme with tons of options and demos ready to import. This theme is perfect for blogs and excellent for online stores, news, magazine or review sites. Buy Soledad now!

Latest Articles

© ProIT. Видання не несе жодної відповідальності за зміст і достовірність фактів, думок, поглядів, аргументів та висновків, які викладені у інформаційних матеріалах з посиланням на інші джерела інформації. Усі запити щодо такої інформації мають надсилатися виключно джерелам відповідної інформації.