Видання Tom’s Guide протестувало три популярні чат-боти на семи однакових запитах про воєнні новини навколо ударів по Ірану та перевірило, як моделі поводяться Видання Tom’s Guide протестувало три популярні чат-боти на семи однакових запитах про воєнні новини навколо ударів по Ірану та перевірило, як моделі поводяться

Перевірка чат-ботів на фейки: порівняння ChatGPT, Gemini та Claude на однакових промптах показало, хто найчастіше вигадує деталі в новинах

2026/03/04 21:52
4 хв читання
Якщо у вас є відгуки або зауваження щодо цього контенту, будь ласка, зв’яжіться з нами за адресою crypto.news@mexc.com

Перевірка чат-ботів на фейки: порівняння ChatGPT, Gemini та Claude на однакових промптах показало, хто найчастіше вигадує деталі в новинах

Видання Tom’s Guide протестувало три популярні чат-боти на семи однакових запитах про воєнні новини навколо ударів по Ірану та перевірило, як моделі поводяться в критично важливій темі, де частина повідомлень змінюється щогодини, а частина може бути вкидом.

Залишити коментар

Видання Tom’s Guide протестувало три популярні чат-боти на семи однакових запитах про воєнні новини навколо ударів по Ірану та перевірило, як моделі поводяться в критично важливій темі, де частина повідомлень змінюється щогодини, а частина може бути вкидом.

Як пише Tom’s Guide, редакція зробила сім тестів під різні ризики: галюцинації, надмірну впевненість без підтверджень, плутанину в цифрах, а також готовність відповідати на запити, які можуть переходити межу відповідальної публічної інформації. Загальний підсумок матеріалу такий: Claude став переможцем у всіх семи раундах, Gemini програв через найбільшу кількість вигаданих деталей, а ChatGPT зазвичай тримав правильну рамку, але періодично «домальовував» неперевірені елементи.

У першому тесті про «термінові новини» (підсумок 48 годин навколо повідомлень про смерть Алі Хаменеї та реакцію державних медіа) видання пише, що ChatGPT дав детальну відповідь, але додав спекулятивні елементи, зокрема про механізми наступництва, яких не було в перевірених згадках. Gemini теж відповідав дуже впевнено, але помилився в окремих точних деталях, тоді як Claude, за оцінкою редакції, тримався підтверджених повідомлень і не вигадував конкретику.

У військово-технічному запиті про те, як іранська ППО та радари вплинули на першу хвилю ударів, Tom’s Guide зауважує, що ChatGPT пояснив принципи роботи систем ППО, але додав непідтверджені твердження про конкретні уражені об’єкти, а Gemini подавав «готову історію» з деталями, які не були доведені джерелами. Claude отримав кращу оцінку за те, що прив’язувався до підтверджуваних тверджень і не «закривав діри» домислами.

У блоці про геополітику й іранську вісь союзників видання прямо пише, що Gemini сфабрикував критичну деталь, назвавши неправильну дату падіння режиму в Сирії. ChatGPT показав сильніший аналіз, але місцями невпевнено трактував статус окремих подій, а Claude, за оцінкою редакції, найкраще «приземлював» висновки на джерела й обережно відділяв факт від припущення.

Окремо автори відзначили запит, який можна було перетворити на інструкцію для ураження цілей. Тут Claude відмовився давати покрокову «технічну» підказку, пояснивши межі безпечної відповіді. На завершення був тест на фейк: «Женевська угода», якої не існувало. Усі моделі відкинули вигадану передумову, але Claude, за оцінкою видання, найкраще пояснив, чому це фейк, і найточніше відтворив реальний перебіг переговорів без додавання вигаданих фактів.

Підсумок тесту такий: Claude виявився найнадійнішим у новинах, ChatGPT — посередині, а Gemini найчастіше додавав деталі, яких не було в джерелах.

У висновку техвидання наголошує, що найнебезпечніша помилка чат-ботів у новинах не «незнання», а впевнене заповнення прогалин правдоподібними вигадками. Редакція також зазначила, що звернулася до Google по коментар і планує оновити публікацію після відповіді.

Раніше dev.ua писав про те, як журналісти видання Texty.org.ua проаналізували 595 відео, що були згенеровані ШІ, і в яких використовувалися образи відомих жінок, зокрема ведучих новин.

Google призупиняє монетизацію неправдивого контенту про війну з Україною
По темi
Google призупиняє монетизацію неправдивого контенту про війну з Україною
Маск розумніший за Ейнштейна та сильніший за Тайсона. ШІ Grok не скупиться на абсурдні компліменти для свого власника
По темi
Маск розумніший за Ейнштейна та сильніший за Тайсона. ШІ Grok не скупиться на абсурдні компліменти для свого власника
OpenAI навчає ChatGPT зізнаватися в обмані й порушенні інструкцій
По темi
OpenAI навчає ChatGPT зізнаватися в обмані й порушенні інструкцій
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Залишити коментар
Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою crypto.news@mexc.com для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.