Професори права віддають перевагу відповідям від ШІ замість людських у 75% випадків у дослідженні Стенфорда

2026-06-03 20:47:46

Дослідники зі Стенфордського університету з’ясували, що викладачі права віддавали перевагу відповідям, згенерованим ШІ, над тими, які написали колеги-викладачі, приблизно у 75% випадків у недавньому дослідженні. У 2 918 засліплених порівняннях 16 викладачів із 14 американських юридичних шкіл обирали відповіді Google Gemini 2.5 Pro у 75,92% випадків і відповіді NotebookLM у 74,75% випадків — замість відповідей від людини-викладача. У дослідженні перевіряли, чи великі мовні моделі можуть узгоджуватися з професійними стандартами юридичного мислення в межах правових доктрин, прецедентного права, гіпотетичних ситуацій і питань політики, адже юридичні школи та суди дедалі частіше інтегрують інструменти ШІ в правову практику.

Дослідження Стенфорда перевіряє ШІ проти викладачів права на запитаннях з договірного права

У дослідженні взяли участь 16 викладачів із 14 юридичних шкіл США, зокрема Стенфорд, Єль, Нью-Йоркський університет, Університет Чикаго, Джорджтаун, UCLA та Університет Вірджинії. Викладачі підготували 40 запитань з договірного права, що охоплювали правові доктрини, кейси, гіпотетичні ситуації та питання політики. Дослідники спроєктували оцінювання так, щоб перевірити можливості ШІ в сферах, де потрібне судження, а не одна-єдина правильна відповідь.

«Великі мовні моделі (LLM) дедалі частіше просувають як навчальних тьюторів, однак більшість оцінювань фокусується на доменах із однією “базовою правдою”, — написали дослідники. — Багато дисциплін, втім, спираються на судження: міркування, зважування неоднозначності та ухвалення обґрунтованих висновків. Право дає надзвичайно гострий тест».

Викладачі оцінювали пари відповідей у засліплених порівняннях, обираючи той варіант відповіді, який вони б радше дали студенту, не знаючи, чи відповідь підготував ШІ, чи людина-викладач.

Gemini 2.5 Pro і NotebookLM перемагають у 75% порівнянь викладачів

Gemini 2.5 Pro від Google виграла 75,92% своїх протистоянь із відповідями від людини-викладача, тоді як NotebookLM вигравала у 74,75% випадків. Дослідники аналізували, чи результати відображають ширший професійний консенсус, перевіряючи рівень узгодженості, коли викладачі оцінювали ті самі пари відповідей.

«Зафіксована узгодженість перевищила рівень, очікуваний у разі цілковито індивідуалізованих суджень, що вказує: успіх LLM відображає узгодження із поширеними критеріями в межах дисципліни», — написали дослідники.

Моделі ШІ випереджали людини-викладачі в кількох категоріях, зокрема в запитаннях на відтворення, пов’язаних із кейсами, кодом або доктриною, у гіпотетичних ситуаціях і під час дискусій щодо політики. У дослідженні перевіряли, чи переваги ШІ зумовлені поверхневим стилем письма, а не змістовою частиною: для цього аналізували лексико-синтаксичні ознаки, як-от довжина відповіді, структурна організація, нюансованість міркувань, юридичні “якорі”, тон упевненості, ясність і педагогічна підтримка.

В окремому аналізі додаткових моделей Anthropic Claude Opus 4.7 посів перше місце, за ним ішли OpenAI ChatGPT 5.4 та Gemini 2.5 Pro. Кожна оцінена модель ШІ в середньому перевершувала людини-викладачі.

Моделі ШІ фіксують нижчі показники шкідливості, ніж люди-викладачі

Відповіді, згенеровані ШІ, позначали як шкідливі рідше, ніж ті, що написали викладачі. Gemini зафіксувала показник шкідливості 3,41%, а NotebookLM — 3,64%, тоді як у людей-викладачів цей показник становив 12,06%.

Дослідники зазначили, що дослідження не вимірювало, чи відповіді відповідають індивідуальним уподобанням викладача. «Хоча відповіді LLM загалом отримують вищі оцінки порівняно з відповідями людей-викладачів, наше налаштування оцінювання не дає нам змоги напряму виміряти міру того, наскільки задовольняються уподобання викладачів», — йдеться в дослідженні. «Принаймні теоретично можливо, що хоча LLM загалом видають сильніші відповіді, вони все ж генерують відповіді, які просто вважають “достатньо хорошими”».

Суд у Лос-Анджелесі та юридичні школи впроваджують інструменти ШІ

Суперіорний суд Лос-Анджелеса розпочав тестування інструментів ШІ в березні, щоб допомогти суддям керувати дедалі більшим навантаженням справ. Юридичні школи додають навчальні програми з ШІ, оскільки правнича професія інтегрує штучний інтелект.

«Потенційні вигоди цих нових технологій як мультиплікатора сили в правовій практиці просто не можна ігнорувати», — заявив Decrypt декан Школи права Mississippi College John P. Anderson. «Незалежно від того, чи планують наші студенти бути літігаторами або транзакційними адвокатами, їхні майбутні роботодавці очікуватимуть знайомства з цими інструментами ШІ. Ми хочемо, щоб фірми, які наймають наших студентів, були впевнені: кожен випускник MC Law компетентний у технологіях ШІ».

Sullivan & Cromwell визнає фальшиві AI-цитування у заяві про банкрутство

Юридичні фірми й надалі стикаються зі справами, підірваними галюцинаціями та іншими помилками, згенерованими ШІ. У квітні юридична фірма Sullivan & Cromwell повідомила суду США у справах про банкрутство, що нещодавня заява в резонансній справі містила фальшиві цитування, згенеровані ШІ.

FAQ

Який відсоток часу викладачі права в дослідженні Стенфорда віддавали перевагу відповідям, згенерованим ШІ, над відповідями, написаними людьми?

У дослідженні Стенфорда викладачі права віддавали перевагу відповідям, згенерованим ШІ, приблизно у 75% випадків. Gemini 2.5 Pro від Google виграла 75,92% своїх протистоянь із відповідями від людини-викладача, тоді як NotebookLM вигравала у 74,75% випадків — у межах 2 918 засліплених порівнянь.

Як у дослідженні співвідносилися показники шкідливості відповідей, згенерованих ШІ, з відповідями людей-викладачів?

Відповіді, згенеровані ШІ, мали нижчі показники шкідливості, ніж відповіді людей-викладачів. Gemini мала показник шкідливості 3,41%, а NotebookLM — 3,64%, тоді як у людей-викладачів цей показник становив 12,06%.

Які інструменти ШІ тестує Суперіорний суд Лос-Анджелеса?

Суперіорний суд Лос-Анджелеса розпочав тестування інструментів ШІ в березні, щоб допомогти суддям керувати дедалі більшим навантаженням справ, хоча конкретні інструменти в джерелі не названі.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

06-03 20:46

Професори права надають перевагу відповідям, згенерованим ШІ, над відповідями від колег у недавньому дослідженні: 75% на користь цього

06-03 13:54

Google оголошує запуск Gemini 3.5 Pro у червні; застосунок досягає 900 млн щомісячних активних користувачів і 350 млн платних передплатників

06-03 12:54

Google дозволяє сайтам відмовитися від результатів AI-пошуку, не впливаючи на рейтинги

Пов'язані статті

Microsoft Build випустила 7 моделей ШІ; використання токенів на 60% менше, ніж у конкурентів

Market Whisper06-03 02:57

Microsoft представляє сім моделей ШІ, які заявляють про перевагу над Claude та Nano Banana

Oliver Grant06-02 21:18

Alphabet наростила капітал на 80 мільярдів для AI-обчислювальних потужностей, Berkshire Hathaway інвестував 10 мільярдів

Market Whisper06-02 05:06

Alphabet прагне залучити 80 мільярдів доларів для фінансування розширення інфраструктури для ШІ

Oliver Grant06-01 21:34

Криза витрат на ШІ підживлює нові порівняння зі “свіжим” бульбашкою доткомів

Crypto News Land06-01 18:31

Прокоментувати

0/400

Немає коментарів