Wikidata Embedding: Доступ к данным Википедии для ИИ

Wikimedia Deutschland официально представила новую базу данных, которая упрощает доступ к знаниям из Википедии для искусственного интеллекта. Проект, получивший название Wikidata Embedding Project, внедряет инновационную векторную семантическую поисковую систему. Благодаря этому компьютеры способны лучше понимать значение слов и взаимосвязи между ними на основе почти 120 миллионов записей из Википедии и смежных платформ.

Об этом сообщает ProIT

Новые стандарты для поиска и интеграции данных

Проект использует поддержку Model Context Protocol (MCP) — стандарта, который помогает системам ИИ эффективнее взаимодействовать с источниками данных. Это позволяет большим языковым моделям (LLM) лучше отвечать на естественные запросы и получать информацию, проверенную редакторами Википедии. Разработка стала результатом сотрудничества немецкого отделения Wikimedia с компанией Jina.AI, которая специализируется на нейронном поиске, и DataStax — провайдером решений для работы с данными в реальном времени, принадлежащим IBM.

Ранее Wikidata предоставляла машиночитаемые данные из проектов Wikimedia, но поиск был ограничен только ключевыми словами и специализированными запросами с помощью языка SPARQL. Новый подход позволяет системам с расширенным поиском (RAG) получать внешнюю информацию, что существенно облегчает разработчикам интеграцию проверенных фактов из Википедии в свои модели ИИ.

Семантический контекст и открытость для разработчиков

База данных структурирована так, чтобы обеспечить более глубокий семантический контекст. Например, если сделать запрос по слову «ученый», система покажет список известных ядерных физиков, исследователей Bell Labs, переводы этого термина на разные языки, лицензированные изображения ученых за работой, а также связанные понятия — такие как «исследователь» или «научный работник».

База данных доступна для всех желающих на платформе Toolforge. Кроме того, для разработчиков, заинтересованных в использовании новых возможностей, Wikidata организует специальный вебинар 9 октября.

“Запуск этого проекта Embedding показывает, что мощный ИИ не обязательно должен контролироваться небольшой группой компаний,” сказал Сааде журналистам. “Он может быть открытым, совместным и созданным для того, чтобы служить всем”.

В условиях роста спроса на качественные данные для обучения ИИ новый проект предлагает ценный ресурс для разработчиков. Современные системы обучения становятся все более сложными, но остаются зависимыми от тщательно проверенных данных. Особенно это важно для приложений, где требуется высокая точность. Данные из Википедии, в отличие от общих массивов, таких как Common Crawl, имеют значительно более высокий уровень фактической достоверности.

Стремление к качественным данным часто становится дорогим для лабораторий ИИ. Например, в августе компания Anthropic согласилась выплатить 1,5 миллиарда долларов авторам, чьи произведения были использованы для обучения моделей, чтобы урегулировать судебные претензии.