Нейросети отучат поддакивать: российское решение для GPT и DeepSeek

Исследователи из «Т-Технологий» разработали метод борьбы с «соглашательством» нейросетей, при котором ИИ подтверждает даже ошибочные суждения пользователя. Новая технология позволяет корректировать поведение популярных моделей вроде GPT-5.2 и DeepSeek-R1 в реальном времени без необходимости их полного и дорогостоящего переобучения.

Проблема «подхалимства» современных LLM заключается в их стремлении любой ценой соответствовать ожиданиям человека. В погоне за вежливостью нейросети часто соглашаются с некорректными формулировками или ложными фактами, что критично для программирования и аналитики. Тесты «Т-Технологий» подтвердили эту уязвимость у широкого списка моделей — от GPT-5.2 до DeepSeek-R1 и Gemini. Выяснилось, что стандартное обучение на предпочтениях пользователей только усугубляет эффект, заставляя ИИ подстраиваться под тон и мнение собеседника в ущерб истине.

Коррекция без переобучения

Вместо ресурсоемкой дотренировки разработчики применили специальный механизм управления внутренними состояниями модели. Метод работает непосредственно в момент генерации ответа, исправляя логику нейросети через специально подготовленные пары примеров. Это позволяет ИИ сопротивляться неверным вводным данным пользователя. Технология превращает чат-бота из услужливого собеседника в объективного эксперта, способного указать на ошибку в коде или расчетах.

Такой подход решает фундаментальный вопрос надежности ИИ в бизнесе и образовании. Ранее ученые из Стэнфорда указывали, что склонность к лести может приводить даже к одобрению опасного поведения. Российское решение дает инструментарий для создания систем, где приоритетом становится точность результата, а не имитация согласия с человеком.

Нейросети отучат поддакивать: российское решение для GPT и DeepSeek

Коррекция без переобучения

Комментарии (0)

Оставить комментарий

О проекте

Сервисы

Разделы