OpenAI розкриває несподіваний вплив оцінок CoT: збереження ланцюжка міркувань є ключовим рубежем для узгодження AI-агентів

OpenAI 8 травня опублікувала нове дослідження, в якому повідомила, що під час підсиленого навчання (RL) компанія випадково «оцінювала» ланцюжки міркувань (Chain of Thought, CoT) деяких моделей, що потенційно може вплинути на здатність AI Agent до моніторингу узгодженості (alignment). Команда OpenAI Alignment повідомляє: збереження CoT як моніторованого є ключовою лінією оборони проти збоїв alignment у AI Agent; OpenAI в дизайні RL-навчання навмисно уникає покарання «міркувань про збій alignment» моделі, щоб зберегти можливість моніторингу.

Чому моніторинг CoT — ключова лінія оборони для alignment AI Agent

Ключова логіка моніторингу CoT:

Коли AI Agent виконує завдання, модель у внутрішньому середовищі генерує «процес мислення», пояснюючи, чому вона робить певну дію

Моніторинг може читати ці CoT і визначати, чи є у моделі ознаки «збоїв alignment» (misalignment)

Якщо модель під час навчання прямо натренують «не демонструвати збої alignment у CoT», CoT може стати «чистою, але викривленою» — приховувати реальні наміри

OpenAI стверджує: під час навчання слід уникати покарання за «міркування про збій alignment», зберігаючи здатність CoT відображати фактичний внутрішній стан

«penalize misaligned reasoning» та «preserve monitorability» — головний предмет суперечки в цьому дослідженні: тренувальники хочуть, щоб поведінка моделі була узгодженою, але якщо напряму карати за «мислення про збій alignment», модель навчиться приховувати недобросовісні наміри, через що моніторинг втратить ефективність.

Випадкова оцінка CoT: вплив на наявні можливості моніторингу моделей

Конкретні висновки, розкриті в доповіді OpenAI:

У частині вже опублікованих моделей під час навчання CoT отримувала «обмежену» випадкову оцінку

Під «випадковою оцінкою» мається на увазі, що в процесі навчання система оцінювання частково зчитувала вміст CoT, а не лише фінальний вихід

Це явище може змусити модель навчитися «приховувати в CoT ті міркування, які можуть бути покарані»

OpenAI оприлюднила цей аналіз, щоб допомогти дослідницькій спільноті зрозуміти масштаб проблеми та напрям подальшого опрацювання

Незалежний коментар Redwood Research зазначає: вплив CoT на оцінювачів за технологіями виявлення OpenAI «занадто слабкий і важко помітний», однак через масштаб тренувальних процесів реальний ефект усе одно може бути достатнім, щоб суттєво пошкодити моніторованість CoT уже навчених політик. Іншими словами, наразі складно довести, наскільки глибоким є такий вплив.

Довгострокове значення для безпеки AI Agent

Це дослідження вказує на базову методологію безпеки AI Agent:

Моніторинг CoT — одна з небагатьох дієвих на практиці можливостей «виявлення збою alignment у процесі», яку вважають важливою основою для досліджень alignment

Дизайн навчання має уникати того, щоб CoT перетворився на «сценарій, який показують моніторингу»

Якщо майбутні моделі вибудовують ланцюжки міркувань дедалі довшими, теоретично цінність моніторингу CoT зростає

Але якщо в процесі навчання випадково зіпсувати правдивість CoT, ця лінія оборони може непомітно ослабнути

Конкретні події, за якими можна стежити надалі: подальше опрацювання OpenAI моделей, що зазнали впливу (наприклад, перетренування або позначення), відповідні методології інших великих лабораторій (Anthropic, Google DeepMind), а також подальші верифікаційні експерименти від alignment-дослідницької спільноти щодо «надійності моніторингу CoT».

Ця стаття про те, як OpenAI розкрила випадковий вплив оцінки CoT: збереження моніторингу ланцюжків міркувань — ключова лінія оборони alignment для AI Agent, вперше з’явилася в Chain News ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Chrome автоматично завантажує багатогігабайтну AI-модель Gemini Nano 9 травня, що викликає занепокоєння криптоспільноти щодо безпеки

За даними BlockBeats, 9 травня Chrome автоматично завантажив на пристрої користувачів багатогігабайтний файл AI-моделі (Gemini Nano) без явної згоди для локального шахрайського виявлення, підсумовування вебсторінок і AI-функцій. Хоча Google заявила, що локальне виконання AI підвищує конфіденційність і безпеку, криптокористувачі висловили занепокоєння через відсутність прозорості та явного дозволу. Оскільки браузери дедалі частіше стають ключовими точками входу для криптогаманців, on-chain-транза

GateNews43хв. тому

Суддя США постановив, що грант із DOGE урізано незаконно після використання ChatGPT і DEI-ключових слів, та заблокував виконання в четвер

За повідомленням ABC News, у четвер федеральний суддя США постановив, що скорочення грантів, здійснені за підтримки Елона Маска ініціативою DOGE, були незаконними. Окружний суддя США Колін МакМахон у Нью-Йорку заявила, що співробітники використовували ChatGPT і пошук за ключовими словами, зокрема «DEI», «Equity», «Inclusion» та «LGBTQ», щоб допомогти припинити програми фінансування в межах National Endowment for the Humanities. Суддя заборонила адміністрації Трампа застосовувати спірні скасуванн

GateNews2год тому

Офіційний представник ЄЦБ заявив, що ризики, пов’язані з ШІ, спонукають до перегляду фінансової інфраструктури в суботу

Хосе Льюїс Ескріва, член керівної ради Європейського центрального банку та голова Банку Іспанії, у суботу заявив, що центральні банки мають переглянути стійкість фінансової інфраструктури та кібербезпеку через зростання ролі штучного інтелекту. «Нещодавні події в галузі штучного інтелекту змушують нас заново оцінити надійність нашої фінансової інфраструктури та нашої кібербезпеки», — сказав Ескріва на заході в Таррагоні. Він також підкреслив роль центральних банків як остаточного гаранта проти р

GateNews2год тому

Акції Cloudflare падають на 23,62% 8 травня після результатів за 1-й квартал та оголошення звільнення 1 100 співробітників

Акції Cloudflare впали на 23,62% 8 травня до $196,13 за акцію після публікації компанією звіту про прибутки за перший квартал і оголошення приблизно 1 100 звільнень. Хоча виручка за Q1 у розмірі $640 мільйонів перевищила очікування та зросла на 34% у річному вимірі, прогноз виручки на другий квартал — $664–$665 мільйонів — виявився нижчим за попереднє ринкове очікування $666 мільйонів. Звільнення, що становлять приблизно 20% штату, є частиною переходу компанії до моделі роботи “AI-agent-first”,

GateNews4год тому

Helsing прагне залучити фінансування за оцінкою в $18 мільярдів

Згідно з Financial Times, Helsing, німецький стартап із дронів на базі ШІ, планує залучити нове фінансування за оцінкою приблизно $18 млрд.

GateNews4год тому

Google DeepMind AI співматематик досяг 47,9% у FrontierMath Tier 4, обійшов GPT-5.5 Pro та розв’язав 3 раніше нерозв’язні задачі

Google DeepMind випустила AI співматематика — багатoагентного помічника з математичних досліджень, який досяг 47,9% точності на бенчмарку FrontierMath Tier 4, перевершивши попередній рекорд GPT-5.5 Pro: 39,6% (станом на 9 травня). Система розв’язала 23 із 48 задач, зокрема 3, які не змогли розв’язати всі попередні моделі. Побудована на Gemini 3.1 Pro, архітектура використовує ієрархічну конструкцію: агент-координатор проєкту розподіляє завдання між підагентами, що займаються пошуком літератури,

GateNews4год тому
Прокоментувати
0/400
Немає коментарів