Як навчають штучний інтелект? В тому числі, на наших персональних даних

Компанії тренують генеративні моделі штучного інтелекту на просторах інтернету - і немає реального способу їх контролювати.

288

Системи штучного інтелекту (ШІ) здійняли хвилю в креативних індустріях, але їхній вплив породжує суперечки. Генеративний штучний інтелект, здатний створювати зображення і текст, часто покладається на величезні масиви даних, деякі з яких містять матеріали, захищені авторським правом. Найбільші розробники ШІ, такі як OpenAI, Meta і Stability AI, зараз втягнуті в судові позови через такі практики. Незалежні розслідування підтверджують ці звинувачення. Наприклад, видання The Atlantic повідомило, що велика мовна модель Meta, Books3, була частково навчена на наборі даних, який включав понад 170 000 захищених авторським правом і нелегально завантажених книг.

Такі навчальні набори даних охоплюють більше, ніж просто книги. Оскільки розробники змагаються у створенні та навчанні все більших моделей штучного інтелекту, вони використовують значну частину загальнодоступного Інтернету. Це не лише викликає занепокоєння з приводу авторських прав, але й ставить під загрозу конфіденційність величезної кількості користувачів Інтернету. Крім того, ці моделі ШІ можуть ненавмисно успадкувати упередження, присутні в їхніх навчальних даних. Непрозорість корпоративних практик ускладнює відстеження точного походження їхніх навчальних даних. Розробники збирають дані з різних онлайн-джерел за допомогою автоматизованих інструментів, які каталогізують і витягують інформацію. Наприклад, веб-сканери переходять за посиланнями та індексують дані, в той час як веб-сканери
завантажують і витягують контент.

Окрім можливості доступу до даних з численних джерел, певна конфіденційна інформація, що знаходиться за сторінками для входу, залишається захищеною. Однак все, що доступне без входу в систему, наприклад, публічні профілі в LinkedIn або блоги, можна вважати “чесною грою”. ШІ-моделі можуть збирати дані з широкого спектру онлайн-платформ, включаючи соціальні мережі, торгові майданчики, бази даних, урядові веб-сайти тощо. Примітно, що багато навчальних наборів даних включають архіви контенту, який, можливо, був видалений з їхніх початкових онлайн-платформ, що робить ці ресурси цінними.

Веб-скрепери продемонстрували здатність обходити платні сайти, маскуючись за платними акаунтами. Платні новинні сайти є одними з головних джерел даних для навчання ШІ, які в деяких випадках не розкриваються компаніями-розробниками ШІ прозоро. Розробники ШІ можуть навмисно використовувати різні джерела, включно з внутрішніми даними, для навчання своїх моделей. Наприклад, OpenAI налаштовує свої моделі на основі взаємодії користувачів з чат-ботами, а останній АІ від Meta частково спирається на публічні пости в Facebook та Instagram. Компанії стають все більш секретними щодо джерел своїх навчальних даних, що викликає занепокоєння щодо упередженості даних.

Окрім проблем з авторським правом, відсутність прозорості в навчальних даних може сприяти тому, що моделі ШІ поширюватимуть упередження, наявні в даних. Це занепокоєння поширюється і на те, який контент дозволений в інтернеті, що може надавати непропорційну перевагу певним демографічним групам. Переслідування в Інтернеті також може відштовхнути маргіналізовані групи від онлайн-простору, зменшуючи різноманітність даних.

Наразі існує небагато ефективних способів запобігти використанню даних моделями штучного інтелекту. Дослідники розробили інструмент під назвою Glaze, але він має обмежену сферу застосування і не може захистити зображення, які раніше були розміщені в Інтернеті. На жаль, еквівалентного інструменту для текстових даних не існує. Деякі власники веб-сайтів можуть вставити цифрові прапорці, щоб заборонити пошуковим роботам і скреперам збирати дані з сайту, але дотримання цієї вимоги не гарантується.

Хоча закони про конфіденційність у деяких штатах і регіонах надають громадянам право вимагати видалення даних, компанії, що розробляють ШІ, неохоче їх дотримуються, посилаючись на труднощі з відстеженням походження даних. Видалення інформації з АІ-моделей вимагатиме дорогого перенавчання, чого не вимагають чинні правила. Оскільки проблеми з авторським правом і конфіденційністю зберігаються, розробники ШІ стикаються з юридичними проблемами, що вимагає більш чіткого регулювання в галузі.

Джерело

НАПИСАТИ ВІДПОВІДЬ

Введіть свій коментар!
Введіть тут своє ім'я