Проблема «подхалимства» современных LLM заключается в их стремлении любой ценой соответствовать ожиданиям человека. В погоне за вежливостью нейросети часто соглашаются с некорректными формулировками или ложными фактами, что критично для программирования и аналитики. Тесты «Т-Технологий» подтвердили эту уязвимость у широкого списка моделей — от GPT-5.2 до DeepSeek-R1 и Gemini. Выяснилось, что стандартное обучение на предпочтениях пользователей только усугубляет эффект, заставляя ИИ подстраиваться под тон и мнение собеседника в ущерб истине.
Коррекция без переобучения
Вместо ресурсоемкой дотренировки разработчики применили специальный механизм управления внутренними состояниями модели. Метод работает непосредственно в момент генерации ответа, исправляя логику нейросети через специально подготовленные пары примеров. Это позволяет ИИ сопротивляться неверным вводным данным пользователя. Технология превращает чат-бота из услужливого собеседника в объективного эксперта, способного указать на ошибку в коде или расчетах.Такой подход решает фундаментальный вопрос надежности ИИ в бизнесе и образовании. Ранее ученые из Стэнфорда указывали, что склонность к лести может приводить даже к одобрению опасного поведения. Российское решение дает инструментарий для создания систем, где приоритетом становится точность результата, а не имитация согласия с человеком.

Комментарии (0)
Пока нет комментариев. Будьте первым!