Близько 10 місяців тому OpenAI представила ChatGPT, який викликав інтерес до штучного інтелекту і призвів до розробки конкуруючих великих мовних моделей (LLM) компаніями Google, Meta та іншими. Ці чат-боти продемонстрували вражаючі здібності до генерації тексту та коду, хоча й не завжди ідеально точні. Зараз з’являються мультимодальні ШІ, здатні обробляти текст, зображення, аудіо тощо.

Нещодавно OpenAI випустив мультимодальну версію ChatGPT на базі GPT-4 для передплатників, слідом за аналогічними зусиллями Google Bard і Meta. Ці ШІ можуть брати участь у голосових розмовах без допомоги рук, описувати зображення та інтерпретувати текст на малюнках, пропонуючи різні практичні застосування. Наприклад, під час тестування ChatGPT точно відокремив складну вкладку бару від фотографії, тоді як Bard припустився незначної помилки. Обидва чат-боти надали детальний опис персонажів на основі фотографії книжкової полиці та ідентифікували орієнтири й об’єкти на зображеннях.
ChatGPT перевершив Bard у розпізнаванні комах на фотографіях. Ці технології особливо перспективні для людей з обмеженими можливостями, як показала співпраця OpenAI з Be My Eyes, додатком для сліпих і слабозорих людей.

Мультимодальні ШІ ґрунтуються на текстових LLM (великих мовних моделях), але реагують на візуальні та аудіосигнали. Існує два підходи до досягнення цього: створення окремих ШІ для тексту та візуальних ефектів або тісне поєднання різних сегментів ШІ. Незалежно від методу, обидва підходи передбачають перенавчання моделей на мультимедійних наборах даних, щоб пов’язати візуальні образи зі словами. Дослідники вважають, що це лише початок. Мультимодальний ШІ має потенціал для поширення на відео та інші органи чуття, що, можливо, призведе до створення персоналізованих ШІ- помічників, здатних виконувати різні завдання. Однак існують такі проблеми, як галюцинації, коли штучний інтелект може генерувати неправдиву інформацію, а також занепокоєння щодо конфіденційності чутливих вхідних даних, таких як голос і візуальні ефекти.

Незважаючи на ці виклики, дослідники рекомендують вивчати ці інструменти з обережністю і не ділитися з ними безпосередньо чутливою інформацією.

Джерело

НАПИСАТИ ВІДПОВІДЬ

Введіть свій коментар!
Введіть тут своє ім'я