Компанії, що спеціалізуються на зборі та скрапінгу відкритих інтернет-даних для тренування моделей штучного інтелекту, все активніше використовують додатки для Smart TV. Їх мета — отримати доступ до інтернет-з’єднання користувачів, пропонуючи взамін переваги на кшталт зменшеної кількості реклами чи безкоштовного доступу до потокових сервісів.
Про це розповідає ProIT
Технологія збору даних через додатки Smart TV
Однією з провідних компаній у цій сфері є Bright Data, яка керує глобальною проксі-мережею для збору публічного веб-контенту. Користувачі додатків Smart TV можуть долучатися до цієї мережі добровільно, отримуючи певні бонуси. Однак нещодавні дослідження виявили, що код, пов’язаний із Bright Data, інтегровано в деякі додатки для смарт-телевізорів. Часом розробники таких додатків відмовлялися коментувати ситуацію або видаляли проксі-інтеграції після запитів.
Платформа BrightData позиціонує себе як рішення для системного збору та доставки даних. Її технологія Bright SDK може бути вбудована у додатки для Smart TV, після чого користувачі мають погодитися на участь у проксі-мережі. Активувавши її, користувачі дозволяють маршрутизацію веб-трафіку через власне інтернет-з’єднання, а зібрані дані надходять на сервери Bright Data. Потім ці дані продають компаніям для тренування великих мовних моделей та інших ШІ-рішень.
Безпека, анонімність та реакція індустрії
На галузевому вебінарі операційний директор Bright Data Аріель Шульман зазначив, що Bright SDK не відстежує дії конкретних користувачів: код працює анонімно у фоновому режимі, а веб-краулінг здійснюється через розподілені IP-з’єднання. За оцінками компанії, проксі-мережа охоплює близько 150 мільйонів клієнтів, серед яких не тільки Smart TV, а й ПК та мобільні пристрої.
Представниця Bright Data Дженніфер Бернс заявила, що участь у проксі-мережі є «добровільною», а відмовитися від неї можна в будь-який момент через двоетапний процес. За її словами, Bright SDK ініціює веб-краулінг тільки за умови, якщо це не вплине на локальні ресурси користувача.
Незважаючи на такі заяви, користувачі мають обмежену видимість щодо обсягу трафіку, який передається у фоновому режимі. Деякі аналітики порівнюють модель Bright Data із китайською мережею IPIDEA, яку нещодавно заблокували у Google. Хоча розподілені проксі-мережі можуть бути використані зі зловмисною метою, Bright Data підкреслює, що її платформа створена для легального доступу до даних та наукових досліджень.
У відповідь на виклики ринку, платформи посилюють обмеження щодо роботи сторонніх SDK. Зокрема, Google блокує додатки, які використовують постійні фонові процеси, а Amazon обмежує застосування проксі-механізмів, таких як Bright SDK. Попри це, Bright Data продовжує співпрацювати з екосистемами смарт-телевізорів на базі Tizen OS та webOS, де сотні додатків і далі використовують функціонал збору веб-даних через проксі.