Дослідження Microsoft, опубліковане 17 квітня 2026 року та доповнене уточненнями в офіційному блозі 15 травня, стало одним із найпоказовіших тестів реальної надійності сучасних мовних моделей в умовах, наближених до автономної офісної роботи. Його головний висновок звучить стримано, але по суті досить жорстко: сучасні ШІ-системи поки що не готові повністю замінити людину там, де потрібне тривале послідовне виконання завдань із документами без постійного контролю.
Суть експерименту полягала не у звичних тестах «питання-відповідь» і не в одноразових завданнях, а в моделюванні реального робочого середовища, де документ поступово редагується, уточнюється, переписується та доповнюється протягом багатьох кроків. Саме такий формат найближчий до того, як сьогодні намагаються використовувати ШІ в офісних процесах — від підготовки звітів до юридичних і аналітичних документів.
Дослідники протестували 19 сучасних моделей, включно з Gemini 3.1 Pro, Claude 4.6 Opus і GPT 5.4. Завдання охоплювали 52 професійні сфери: програмування, бухгалтерський облік, аналіз даних, наукові тексти, кристалографію, нотний запис та інші спеціалізовані формати, де важливі не лише генерація тексту, а й збереження структури, змісту та точності протягом довгої послідовності змін.
Ключова відмінність експерименту від стандартних бенчмарків — відсутність проміжного людського контролю. Модель мала самостійно вести документ через серію послідовних змін, імітуючи сценарій, у якому працівник повністю делегував завдання системі та повернувся до результату лише в кінці.
І саме тут проявилася основна проблема.
Навіть найсильніші моделі починали поступово спотворювати зміст. У середньому близько 25% інформації втрачалося або змінювалося вже після 20 послідовних кроків редагування у найкращих системах. Якщо враховувати всю вибірку моделей, середній рівень спотворень досяг приблизно 50%. Це означає, що кожен другий елемент інформації в довгій послідовності міг бути змінений, спрощений або інтерпретований інакше, ніж у вихідному тексті.
Важливо, що йдеться не про грубі очевидні помилки. Навпаки, дослідники підкреслюють, що зміни часто виглядають логічними на кожному окремому кроці. Проблема виникає через накопичувальний ефект: невеликі відхилення на ранніх етапах поступово формують суттєве зміщення змісту. Документ «пливе» не різко, а майже непомітно, втрачаючи точність із кожною новою ітерацією.
Цей ефект особливо виражений у складних завданнях із великим обсягом контексту. Чим довший документ і чим більше послідовних операцій виконує модель, тим вища ймовірність суттєвого відхилення від початкового задуму.
Водночас дослідження зафіксувало важливий виняток. У задачах програмування на Python більшість моделей зберігали точність понад 98% навіть після 20 ітерацій. Це пояснюється властивостями формальної мови: код має жорстку структуру, синтаксичні обмеження та однозначну перевірюваність, що різко зменшує простір для накопичення помилок. Простіше кажучи, там, де є чіткі правила, ШІ «дрейфує» значно менше.
Автори дослідження — Філіп Лабан, Тобіас Шнабель і Дженніфер Невілль — роблять обережний, але принциповий висновок: сучасні мовні моделі не мають достатньої надійності для тривалої автономної роботи без людського контролю. Вони підкреслюють, що в реальних сценаріях частина цих проблем може компенсуватися перевіркою на проміжних етапах, але саме її відсутність і була умовою експерименту.
Додатковий акцент зроблено на природі помилки. Йдеться не про випадкові збої, а про системний ефект накопичення відхилень. Це ключове спостереження: модель може бути точною в коротких діях, але втрачати стабільність у довгих послідовних процесах.
Методологія дослідження опублікована у відкритому доступі, що дозволяє незалежним командам відтворювати результати та перевіряти межі виявленого ефекту.
Цікавий історичний контекст допомагає краще зрозуміти масштаб проблеми. У 1970-х роках перші промислові роботи також демонстрували подібну поведінку: при тривалій роботі без перекалібрування накопичувалися механічні похибки, які порушували стабільність виробничих ліній. Тоді проблему вирішили не відмовою від автоматизації, а впровадженням регулярних контрольних точок. По суті, нинішня ситуація з мовними моделями відтворює той самий клас обмежень, лише на рівні інформації.
Саме тому індустрія все частіше рухається до гібридної моделі: ШІ виконує основну роботу, але людина залишається точкою контролю та фінальної перевірки.
Практичні наслідки вже проявляються. Відомі випадки, коли помилки в довгих автоматизованих ланцюжках призводили до фінансових втрат, включно з інцидентом із помилковим переказом близько 441 000 доларів через одну неточність у ШІ-агенті. Це показує, що накопичувальний ефект помилок виходить за межі тексту і переходить у реальну економіку.
У підсумку дослідження Microsoft фіксує поточну межу розвитку: ШІ вже здатний виконувати складні завдання, але ще не здатний гарантовано зберігати точність під час тривалої автономної роботи без зовнішнього контролю.
ВІДМОВА ВІД ВІД ВІДПОВІДАЛЬНОСТІ: Усі матеріали, представлені на цьому сайті (https://wildinwest.com/), включно з вкладеннями, посиланнями або матеріалами, на які посилається компанія, призначено винятково для інформаційних і розважальних цілей, і їх не слід розглядати як фінансову консультацію. Матеріали третіх осіб залишаються власністю їхніх відповідних власників.


