Дослідники зі Стенфордського університету з’ясували, що викладачі права віддавали перевагу відповідям, згенерованим ШІ, над тими, які написали колеги-викладачі, приблизно у 75% випадків у недавньому дослідженні. У 2 918 засліплених порівняннях 16 викладачів із 14 американських юридичних шкіл обирали відповіді Google Gemini 2.5 Pro у 75,92% випадків і відповіді NotebookLM у 74,75% випадків — замість відповідей від людини-викладача. У дослідженні перевіряли, чи великі мовні моделі можуть узгоджуватися з професійними стандартами юридичного мислення в межах правових доктрин, прецедентного права, гіпотетичних ситуацій і питань політики, адже юридичні школи та суди дедалі частіше інтегрують інструменти ШІ в правову практику.
У дослідженні взяли участь 16 викладачів із 14 юридичних шкіл США, зокрема Стенфорд, Єль, Нью-Йоркський університет, Університет Чикаго, Джорджтаун, UCLA та Університет Вірджинії. Викладачі підготували 40 запитань з договірного права, що охоплювали правові доктрини, кейси, гіпотетичні ситуації та питання політики. Дослідники спроєктували оцінювання так, щоб перевірити можливості ШІ в сферах, де потрібне судження, а не одна-єдина правильна відповідь.
«Великі мовні моделі (LLM) дедалі частіше просувають як навчальних тьюторів, однак більшість оцінювань фокусується на доменах із однією “базовою правдою”, — написали дослідники. — Багато дисциплін, втім, спираються на судження: міркування, зважування неоднозначності та ухвалення обґрунтованих висновків. Право дає надзвичайно гострий тест».
Викладачі оцінювали пари відповідей у засліплених порівняннях, обираючи той варіант відповіді, який вони б радше дали студенту, не знаючи, чи відповідь підготував ШІ, чи людина-викладач.
Gemini 2.5 Pro від Google виграла 75,92% своїх протистоянь із відповідями від людини-викладача, тоді як NotebookLM вигравала у 74,75% випадків. Дослідники аналізували, чи результати відображають ширший професійний консенсус, перевіряючи рівень узгодженості, коли викладачі оцінювали ті самі пари відповідей.
«Зафіксована узгодженість перевищила рівень, очікуваний у разі цілковито індивідуалізованих суджень, що вказує: успіх LLM відображає узгодження із поширеними критеріями в межах дисципліни», — написали дослідники.
Моделі ШІ випереджали людини-викладачі в кількох категоріях, зокрема в запитаннях на відтворення, пов’язаних із кейсами, кодом або доктриною, у гіпотетичних ситуаціях і під час дискусій щодо політики. У дослідженні перевіряли, чи переваги ШІ зумовлені поверхневим стилем письма, а не змістовою частиною: для цього аналізували лексико-синтаксичні ознаки, як-от довжина відповіді, структурна організація, нюансованість міркувань, юридичні “якорі”, тон упевненості, ясність і педагогічна підтримка.
В окремому аналізі додаткових моделей Anthropic Claude Opus 4.7 посів перше місце, за ним ішли OpenAI ChatGPT 5.4 та Gemini 2.5 Pro. Кожна оцінена модель ШІ в середньому перевершувала людини-викладачі.
Відповіді, згенеровані ШІ, позначали як шкідливі рідше, ніж ті, що написали викладачі. Gemini зафіксувала показник шкідливості 3,41%, а NotebookLM — 3,64%, тоді як у людей-викладачів цей показник становив 12,06%.
Дослідники зазначили, що дослідження не вимірювало, чи відповіді відповідають індивідуальним уподобанням викладача. «Хоча відповіді LLM загалом отримують вищі оцінки порівняно з відповідями людей-викладачів, наше налаштування оцінювання не дає нам змоги напряму виміряти міру того, наскільки задовольняються уподобання викладачів», — йдеться в дослідженні. «Принаймні теоретично можливо, що хоча LLM загалом видають сильніші відповіді, вони все ж генерують відповіді, які просто вважають “достатньо хорошими”».
Суперіорний суд Лос-Анджелеса розпочав тестування інструментів ШІ в березні, щоб допомогти суддям керувати дедалі більшим навантаженням справ. Юридичні школи додають навчальні програми з ШІ, оскільки правнича професія інтегрує штучний інтелект.
«Потенційні вигоди цих нових технологій як мультиплікатора сили в правовій практиці просто не можна ігнорувати», — заявив Decrypt декан Школи права Mississippi College John P. Anderson. «Незалежно від того, чи планують наші студенти бути літігаторами або транзакційними адвокатами, їхні майбутні роботодавці очікуватимуть знайомства з цими інструментами ШІ. Ми хочемо, щоб фірми, які наймають наших студентів, були впевнені: кожен випускник MC Law компетентний у технологіях ШІ».
Юридичні фірми й надалі стикаються зі справами, підірваними галюцинаціями та іншими помилками, згенерованими ШІ. У квітні юридична фірма Sullivan & Cromwell повідомила суду США у справах про банкрутство, що нещодавня заява в резонансній справі містила фальшиві цитування, згенеровані ШІ.
Який відсоток часу викладачі права в дослідженні Стенфорда віддавали перевагу відповідям, згенерованим ШІ, над відповідями, написаними людьми?
У дослідженні Стенфорда викладачі права віддавали перевагу відповідям, згенерованим ШІ, приблизно у 75% випадків. Gemini 2.5 Pro від Google виграла 75,92% своїх протистоянь із відповідями від людини-викладача, тоді як NotebookLM вигравала у 74,75% випадків — у межах 2 918 засліплених порівнянь.
Як у дослідженні співвідносилися показники шкідливості відповідей, згенерованих ШІ, з відповідями людей-викладачів?
Відповіді, згенеровані ШІ, мали нижчі показники шкідливості, ніж відповіді людей-викладачів. Gemini мала показник шкідливості 3,41%, а NotebookLM — 3,64%, тоді як у людей-викладачів цей показник становив 12,06%.
Які інструменти ШІ тестує Суперіорний суд Лос-Анджелеса?
Суперіорний суд Лос-Анджелеса розпочав тестування інструментів ШІ в березні, щоб допомогти суддям керувати дедалі більшим навантаженням справ, хоча конкретні інструменти в джерелі не названі.
Пов’язані новини
Microsoft Build випустила 7 моделей ШІ; використання токенів на 60% менше, ніж у конкурентів
Microsoft представляє сім моделей ШІ, які заявляють про перевагу над Claude та Nano Banana
Alphabet наростила капітал на 80 мільярдів для AI-обчислювальних потужностей, Berkshire Hathaway інвестував 10 мільярдів
Alphabet прагне залучити 80 мільярдів доларів для фінансування розширення інфраструктури для ШІ
Криза витрат на ШІ підживлює нові порівняння зі “свіжим” бульбашкою доткомів