Тімніт Ґебру відмовляється відкликати AI-статтю після звільнення з Google, і через п’ять років — 5 прогнозів зуміли влучити в ціль

GOOGLX-0,6%

谷歌開除Timnit Gebru

У грудні 2020 року Тимніт Ґебру (тоді спільна відповідальна за команду етики в Google з AI) під час відпустки отримала email, у якому повідомлялося, що її звільнили з Google; причина полягала в тому, що Google вимагав від неї прибрати або зняти співробітницьке зазначення з наукових робіт у співавторстві, а вона відмовилася. Робота висунула галюцинації та нерозуміння, підсилення упереджень, екологічні витрати, неможливість перевірити навчальні дані, мовну централізацію — і через п’ять років у реальному світі знайшли підтвердження для кожного пункту.

П’ять пророкувань у дзеркалі реальності: підтверджені випадки та дані

Галюцинації та нерозуміння: у 2021 році в роботі описали явище, яке згодом назвали «галюцинаціями». Йдеться про те, що LLM просто за ймовірностями «складає» мовні форми, «не маючи жодного посилання на значення». Ця проблема стала відомим недоліком усіх провідних систем ШІ та підтверджувалася в багатьох незалежних академічних оцінюваннях.

Підсилення упереджень: інструмент Amazon для найму на базі AI, розроблений із 2014 року, у 2018 році припинили, після того як з’ясувалося, що система системно дискримінує кандидаток-жінок; модель навчилася оцінювальних критеріїв, упереджених на користь чоловіків, із історичних резюме, де чоловіків було більше. Дослідження Obermeyer та співавт., опубліковане в 2019 році в Science, розкрило: поширений медичний алгоритм ризику використовує замість «тяжкості стану» «медичні витрати», через що за однакового рівня оцінки ризику темношкірі пацієнти мали фактично більш тяжкий стан; дослідження підтвердило, що після корекції частка темношкірих пацієнтів, яких позначатимуть як таких, що потребують додаткового догляду, зросте з 17,7% до 46,5%.

Екологічні витрати: у екологічному звіті Google за 2024 рік повідомили, що в 2023 році викиди парникових газів становили близько 14,30 млн тонн CO₂e, що на 48% більше за базову лінію 2019 року. Google підтвердив, що основна причина — різке зростання електроспоживання дата-центрів, яке спричинив AI, і це напряму загрожує цілі Google щодо вуглецевої нейтральності до 2030 року.

Неможливість перевірити навчальні дані: у грудні 2023 року Стенфордська мережна обсерваторія під час аналізу набору даних LAION-5B (що містить 5,85 млрд пар зображення-текст і раніше використовувався для навчання Stable Diffusion) виявила 3 226 підозрілих матеріалів із сексуальним насильством щодо дітей (CSAM), з яких 1 008 були підтверджені зовнішніми організаціями; одразу після цього LAION-5B прибрали.

Мовна централізація: дослідження Thompson та співавт. за 2024 рік проаналізувало інтернет-корпус із 6,38 млрд речень і виявило, що 57,1% речень належать до наборів багатомовних паралельних фраз — тобто дуже ймовірно, що це низькоякісний повторюваний контент, згенерований машинним перекладом; і ця частка значно вища для мов із низькими ресурсами, що означає: мовні корпуси з низькими ресурсами забруднюються низькоякісними продуктами машинного перекладу.

Підтверджені факти щодо звільнення Ґебру та передумови роботи

Робота має шість авторів: четверо з них — співробітники Google; коли Ґебру отримала повідомлення про звільнення, вона була у відпустці, а вимога Google полягала в тому, щоб прибрати або зняти співробітницьке зазначення. Після її відмови під час відпустки їй повідомили про рішення про звільнення.

Роботу офіційно опублікували в березні 2021 року. У ній прямо зазначено: компанія, яка створює LLM, структурно не може так вбудувати у фінансові та конкурентні стимули те, щоб «безпека та етика» уповільнювали запуск продукту. Сам факт звільнення Ґебру широко цитують як конкретне підтвердження цього структурного аргументу.

Поширені запитання

Яке ключове академічне твердження лежить в основі «паперу про випадкових папуг»?

Відповідно до тексту роботи, ключовий меседж має два рівні: перший — технічний, де вказано, що LLM мають п’ять типів системних ризиків: галюцинації, підсилення упереджень, екологічні витрати, неможливість перевірки даних і мовну централізацію. Другий, більш фундаментальний рівень, пояснює, чому ці п’ять ризиків важко вирішити: компанії, які створюють LLM, у конкурентній та фінансовій напрузі структурно тяжіють до того, щоб пріоритетом була швидкість, а не безпека. У процесі рецензування на конференції ACM FAccT роботу прийняли після академічного оцінювання.

Як проблема упереджень у інструменті AI для найму Amazon була виявлена та опрацьована?

Згідно з публічними повідомленнями, інструмент найму Amazon на базі AI розробляли з 2014 року. Модель навчали на історичних резюме з часом, де переважали чоловіки; вона автоматично перейняла упереджений спосіб оцінювання, що призводило до автоматичного зняття балів із резюме з такими словами, як «women's chess club». Цю проблему упереджень виявили у 2018 році, після чого Amazon одразу припинив використання цього інструмента та підтвердив, що його не застосовували для оцінювання реальних кандидатів.

Збільшення викидів у звіті Google за 2024 рік — це повністю наслідок AI?

Відповідно до екологічного звіту Google за 2024 рік, у 2023 році викиди парникових газів сягнули приблизно 14,30 млн тонн CO₂e, що на 48% більше за базовий рівень 2019 року. Google прямо зазначає, що головна причина — суттєве зростання електроспоживання дата-центрів, яке спричиняє AI. У поясненнях Google не стверджується, що зростання викидів на 100% спричинене лише AI, але розширення AI-інфраструктури підтверджено як основний фактор, який збільшує показники.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів