Головна Наука Найсучасніші чат-боти зі штучним інтелектом можуть працювати з текстом, зображеннями та звуком....

Найсучасніші чат-боти зі штучним інтелектом можуть працювати з текстом, зображеннями та звуком. Як саме?

10 Жовтня, 2023

377

Близько 10 місяців тому OpenAI представила ChatGPT, який викликав інтерес до штучного інтелекту і призвів до розробки конкуруючих великих мовних моделей (LLM) компаніями Google, Meta та іншими. Ці чат-боти продемонстрували вражаючі здібності до генерації тексту та коду, хоча й не завжди ідеально точні. Зараз з’являються мультимодальні ШІ, здатні обробляти текст, зображення, аудіо тощо.

Нещодавно OpenAI випустив мультимодальну версію ChatGPT на базі GPT-4 для передплатників, слідом за аналогічними зусиллями Google Bard і Meta. Ці ШІ можуть брати участь у голосових розмовах без допомоги рук, описувати зображення та інтерпретувати текст на малюнках, пропонуючи різні практичні застосування. Наприклад, під час тестування ChatGPT точно відокремив складну вкладку бару від фотографії, тоді як Bard припустився незначної помилки. Обидва чат-боти надали детальний опис персонажів на основі фотографії книжкової полиці та ідентифікували орієнтири й об’єкти на зображеннях.
ChatGPT перевершив Bard у розпізнаванні комах на фотографіях. Ці технології особливо перспективні для людей з обмеженими можливостями, як показала співпраця OpenAI з Be My Eyes, додатком для сліпих і слабозорих людей.

Мультимодальні ШІ ґрунтуються на текстових LLM (великих мовних моделях), але реагують на візуальні та аудіосигнали. Існує два підходи до досягнення цього: створення окремих ШІ для тексту та візуальних ефектів або тісне поєднання різних сегментів ШІ. Незалежно від методу, обидва підходи передбачають перенавчання моделей на мультимедійних наборах даних, щоб пов’язати візуальні образи зі словами. Дослідники вважають, що це лише початок. Мультимодальний ШІ має потенціал для поширення на відео та інші органи чуття, що, можливо, призведе до створення персоналізованих ШІ- помічників, здатних виконувати різні завдання. Однак існують такі проблеми, як галюцинації, коли штучний інтелект може генерувати неправдиву інформацію, а також занепокоєння щодо конфіденційності чутливих вхідних даних, таких як голос і візуальні ефекти.

Незважаючи на ці виклики, дослідники рекомендують вивчати ці інструменти з обережністю і не ділитися з ними безпосередньо чутливою інформацією.

Джерело

Найсучасніші чат-боти зі штучним інтелектом можуть працювати з текстом, зображеннями та звуком. Як саме?

НАПИСАТИ ВІДПОВІДЬ Скасувати відповідь

Сертифікація педагогів: перший етап успішно пройшли 1717 учителів

Підручник НУШ для п’ятикласників викликав дискусію через жорсткі сцени в

CBD – чудодійні властивості медичного канабісу

Оновлення предмету “Захист України” у школах: новий підхід до національної стійкості

Скандал у школі: вчитель дав ляпаса учню. Чому педагоги опиняються на...

Популярне

Пільги під час вступу 2026: хто має право та...

Що означають сни, які повторюються: думка психологів

НМТ-2026: рекорд учасників і тисячі 200-бальників

Останні новини

Національна система дослідників: у МОН повідомили про майже 2,8 тисячі зареєстрованих учасників

Оцінювання поведінки учнів: у школах окупованого Криму з 1 вересня планують запровадити нову систему

Безоплатне харчування: з 1 вересня всі учні комунальних шкіл отримають безкоштовні обіди

Авторське право