Привет и с Новым годом, Хабр! Меня зовут Екатерина, я практикующий юрист, исследую эффективное применение нейросетей в юридических задачах. В декабре ушедшего гПривет и с Новым годом, Хабр! Меня зовут Екатерина, я практикующий юрист, исследую эффективное применение нейросетей в юридических задачах. В декабре ушедшего г

Делай Bench: мой опыт слепого human-eval бенчмарка нейросетей для юристов

Привет и с Новым годом, Хабр! Меня зовут Екатерина, я практикующий юрист, исследую эффективное применение нейросетей в юридических задачах. В декабре ушедшего года я провела необычный для себя и российского LegalTech-рынка эксперимент: с помощью одиннадцати коллег-оценщиков организовала небольшоенезависимое слепое сравнение пяти нейросетевых сервисов. В этой публикации хочу рассказать о вызовах human-eval бенчмарка в домене, где зачастую нет единственно правильных ответов, интересных выводах исследования, полученной мной обратной связи и дальнейших планах.

Юристы и бенчмарки LLM

Интерес юридического сообщества к нейросетям за прошедший год колоссально возрос: нейросети становятся неотъемлемой частью рабочего процесса всё большего числа юристов. Одно из крупнейших LegalTech-мероприятий, Форум Правотех, собравший более 1500 очных участников, было полностью посвящено ИИ; в чате юристов-энтузиастов нейросетей Нейросети | ilovedocs уже более 5000 участников; юридические департаменты крупнейших корпораций готовы вкладывать миллионы рублей на проверку гипотез внедрения нейросетей в свои рабочие процессы (по данным Технологий Доверия).

Но даже этот всё увеличивающийся интерес пока характерен для так называемых early adopters. Явно всё больше и больше моих коллег в ближайшие годы будут вливаться в эту волну: и на индивидуальном, и корпоративном уровне. И начинать они будут с простого вопроса – какая нейросеть лучше всего подойдёт для моих задач? А в ответ будут получать самые разные мнения, основанные на личных предпочтениях и привычках с поправкой на доступность (возможность оплачивать иностранные сервисы и пользоваться ими без средств обхода блокировок), иными словами, вкусовщину.

Мои знакомые ML-специалисты были крайне удивлены тому, что у юристов в России нет своего специализированного бенчмарка, то есть какого-то инструмента приближения «вкусовщины» к объективной оценке способностей разных сервисов. Я бы сказала, что проблема несколько шире, и у той части юридического сообщества, которая уже интересуется нейросетями, нет как таковой культуры бенчмарка. Это в целом объяснимо: ни MMLU, ни HellaSwag, ни какой-либо другой популярный крупный бенчмарк всё равно не скажет, какой сервис лучше разберётся в нюансах российского корпоративного права или напишет встречное исковое заявление с полным соблюдением процессуальных требований.

В общем, мне не было известно об открытых и независимых бенчмарках LLM по российскому праву: только отголоски результатов внутренних исследований вендоров некоторых российских сервисов и единичные обзоры энтузиастов. И я несколько спонтанно и «на коленке» решила системно сравнить качество нескольких сервисов на реальных юридических задачах.

Почему юридические задачи не так просто «отбенчмарчить»

Перед тем как приступить к рассказу о дизайне исследования и результатах хочу сразу адресовать вопрос, который предвижу от аудитории, и который сразу же получила от коллег, опубликовав результаты: почему не автоматизированный бенчмарк, а human-eval? Я убеждена, что human-eval применительно к юридическим задачам – это абсолютная необходимость. Возможно, гибридно с автоматизированной проверкой по эталонным ответам и LLM-as-a-judge, о которой я ещё выскажусь, но полностью отказываться от него нельзя, и вот почему.

В юридических задачах зачастую нет единственно правильного ответа. В отличие от кода, который либо исполняется, либо нет, юридический вопрос может иметь несколько корректных решений в зависимости отразных факторов: доктринальной позиции, текущей (региональной) судебной практики, отношения к предпринимательским рискам у конкретной компании.

Юридическое знание и мышление – это не только навигация по взаимосвязанным нормативным актам. У юриста за плечами опыт, в голове – знание актуальной практики и трендов, понимание приоритета интересов его клиента над догматически корректным решением задачи. Многие слышали поговорку «два юриста – три мнения», это как раз об этом. Разный набор переменных и данных в головах разных юристов может привести к противоположным рекомендациям по одному и тому же вопросу, и обе они в рамках своей логики могут оказаться корректными.

Важно качество аргументации, а не только угаданный правильный ответ. Каждое логическое звено юридической аргументации важно для устойчивости конечного вывода: одно оспоренное звено, и вся цепочка рассыпается. В этой цепочке важно всё: правильно ли определена применимая к вопросу норма, учтена ли актуальная практика, корректно ли проанализированы фактические обстоятельства вопроса.

Корректность аргументации без галлюцинаций, кстати, является бутылочным горлышком, не пускающим многих юристов активнее осваивать нейросети. Решившие впервые «попробовать этот ваш ChatGPT» юристы возмущаются тому, что нейросети придумывают названия и реквизиты нормативных актов и судебных решений (никого не осуждаю, been there, done that). Если формально правильных ответов несколько, но логичнее, обстоятельнее всего и с минимумом галлюцинаций аргументирован лишь один из них – юрист сочтёт его лучшим.

Наиболее частый use-case LLM для юристов: задачи-кейсы, а не поиск правильных ответов на базовые вопросы. Мы обращаемся к LLM в неочевидных случаях, когда нужен брейншторм, анализ и креативное осмысление большого массива документов и источников, а не для того, чтобы вспомнить отличие убытков от неустойки. Такие кейсы могут быть в каком-то смысле уникальны, и для них может и не существовать эталонного ответа.

Для меня эти соображения означают только то, что лучшими оценщиками ответов нейросетей могут быть толькопрактикующие юристы – и желательно те, у кого есть реальный опыт в вопросе.

Дизайн эксперимента

Участники

Для сравнения я выбрала пять моделей, доступных пользователям из России:

  • браузерный DeepSeek в двух вариантах – стандартный (DeepSeek-V3) и «думающий» (DeepSeek-R1), оба без поиска в Интернете. DeepSeek бесплатный, доступен в России без VPN, довольно популярен среди юристов. Интересно было увидеть, есть ли для обычного пользователя веская причина использовать платные сервисы, или модель общего назначения может хорошо решать юридические задачи;

  • open-source модель Ken1.0-67B – дообученный на российской нормативной и правоприменительной базе Qwen 2 (далее и в отчёте обозначается как Kenan (Base));

  • сервис «АйЮрист» – та же модель Ken1.0-67B с самостоятельно собранной вендором нормативной базой, к которой модель обращается по RAG-технологии (далее и в отчёте обозначается как Kenan+RAG);

  • сервис «Нейроюрист» от Яндекса – сервис с интегрированной базой законодательства от СПС «Гарант», проработанными RAG-базами по нескольким отраслям права. Мне показалось интересным сравнить сопоставимые по функционалу сервисы от стартапа и технологического гиганта.

Слепое тестирование

В основе методологии – blind testing. Я подготовила для экспертов оценочные листы с анонимизированными и рандомизированными ответами, то есть порядок ответов в каждой форме был случайным, чтобы исключить эффект позиции и снизить вероятность того, что эксперт угадает, какая модель дала тот или иной ответ.

Оценщики и критерии

В оценке участвовали 11 практикующих юристов разной специализации. Каждый оценивал от 1 до 5 вопросов в зависимости от своей экспертизы. Я попросила их распределять ответы по местам от 1-го до 5-го, а не ставить абстрактные оценки. В качестве принципа определения места ответа в рейтинге я предложила кумулятивно оценивать несколько параметров: логичность и структуру изложения, юридическую корректность (правильность ссылок на нормативные акты, соответствие практике, отсутствие галлюцинаций), практическую полезность ответа.

Суммарно получено 155 оценок.

Уровень уверенности

Ключевая особенность методологии – параметр самооценки экспертом своей уверенности в оценке. После каждого вопроса эксперт указывал свою уверенность по шкале от 1 до 5, где 5 = «глубоко разбираюсь в теме, точно знаю правильный подход», а 1 = «оцениваю только по логике и здравому смыслу, это не моя область».

Это позволило в дальнейшем взвешивать результаты: голос профильного специалиста влияет на рейтинг сильнее, чем голос «дженералиста».

Набор вопросов

Бенчмарк состоял из 10 вопросов по 4 тематическим кластерам:

  • семейное право (алименты, банкротство супругов);

  • общие вопросы частного права (обеспечительный платёж, приёмка работ, переход права собственности);

  • управление общедомовым имуществом (установка кондиционера, демонтаж подоконного блока);

  • коммерческое право (онлайн-аукционы, защита деловой репутации, лицензирование фармацевтической деятельности).

Вопросы предлагали сами эксперты, несколько предложила я (но я не выступала оценщиком). Каждый вопрос оценивало не менее трёх экспертов для выявления уровня согласованности их оценок.

Ограничения эксперимента

Как я сказала в самом начале публикации – этот эксперимент спонтанный, случившийся со мной впервые, и метод я определяла буквально «на ходу». Поэтому у него достаточно много ограничений, в рамках которых следует интерпретировать результаты.

Формат «один вопрос – один ответ». Тестировался статический сценарий без возможности диалога. В реальном взаимодействии юриста и нейросети в формате диалога уточняются детали, загружаются документы, обсуждаются вопросы модели к юристу. В общем формируется контекст, улучшающий аутпут, что проблематично воспроизвести в рамках бенчмарка. Но почти все модели давали ответ и с одного промпта, только модель Kenan+RAG оказалась настроена именно на диалоговый режим – и это существенно повлияло на её результаты.

Количество экспертов. 11 экспертов достаточно для выявления тенденций, но явно недостаточно для статистически «железобетонных» выводов. Но именно столько готовых уделить достаточно времени в предновогоднем цейтноте коллег мне удалось собрать, за что, пользуясь случаем, в очередной раз их сердечно благодарю.

Неравномерная сложность вопросов. Часть вопросов оказалась «понятной» большинству (классическое гражданское право), часть – узкоспециальной (лицензирование фармы, техническое регулирование детского оборудования). Средняя уверенность экспертов по всему проекту составила 2.68 из 5.0, то есть можно считать, что бенчмарк оказался довольно сложным.

Метрики и аналитические срезы

Для анализа я использовала четыре базовые метрики:

  • Средний балл (Mean Score) – простое среднее арифметическое всех оценок модели.

  • Взвешенный рейтинг (Weighted Score) – средний балл, где каждая оценка умножена на коэффициент уверенности эксперта. Фильтрует «шум» от оценок неспециалистов.

  • Win Rate – доля случаев, когда модель заняла первое место на разных вопросах по мнению разных экспертов. Показывает способность выдавать «вау-результат».

  • Индекс спорности (Standard Deviation) – разброс оценок ответов одной и той же модели от разных экспертов. Низкое значение = модель стабильна, высокое = «рулетка».

Дополнительно анализировались:

  • согласованность экспертов в рамках каждого вопроса по коэффициенту Кендалла (Kendall's W);

  • корреляция уверенности экспертов в ответе и согласованности мнений экспертов;

  • профили оценщиков (специалисты vs «дженералисты»);

  • результаты по отдельным отраслям права;

  • «зелёные зоны» специализированных моделей с RAG.

Ключевые находки

Подробнее и о дизайне эксперимента, и о результатах можно посмотреть в отчёте, опубликованном здесь. Но если не томить, то самым надёжным лидером оказалась «думающая» модель DeepSeek-R1.

И немного о других интересных результатах. По среднему баллу модели разделились на две группы:

  • «Высшая лига»: DeepSeek-R1 (3.71), DeepSeek-V3 (3.61), Нейроюрист (3.48)

  • «Отстающие»: Kenan+RAG (2.65), Kenan (Base) (2.10)

DeepSeek-V3 лидирует по Win Rate (32.3% первых мест) – модель часто выдаёт ответ, который эксперт признаёт лучшим. Но при переходе к взвешенному рейтингу она падает с 3.61 до 3.27. То есть высокие оценки модель получала преимущественно от неуверенных оценщиков. Когда эксперты точно знали правильный ответ, они оценивали её ниже. DeepSeek-R1, напротив, растёт при взвешивании. Профессионалы с высокой уверенностью предпочитают именно её – модель может казаться менее «гладкой», но даёт более точные ответы.

Kenan+RAG заняла последнее место в общем зачёте. Но при анализе текстов ответов выяснилось, что в 6 из 10 случаев модель отказалась давать прямой ответ, запрашивая уточнения. Это нормальное поведение для сервиса и стандартного взаимодействия юриста и LLM, поэтому мне захотелось отдельно проанализировать оценки модели в случаях, когда она даёт ответ без уточнений. И при выдаче ответов её средний балл – 3.56, а при отказе – 2.16. Разрыв в 1.4 балла – колоссальный. Когда модель даёт ответ, её качество (3.56) сопоставимо с лидерами рынка. Провал в общем рейтинге вызван исключительно «штрафом» за уточняющие вопросы.

Особенно для меня интересной была оценка моделей с RAG. Я исследую применение этой технологии в юридическом домене, и она мне кажется крайне перспективной. И в принципе гипотеза о ценности RAG подтвердилась. Нейроюрист в своих специализациях (обязательственное право, защита прав потребителей) показал рекордный результат: 4.03 балла – абсолютный максимум всего исследования. Ни одна модель ни в одном срезе не пробивала потолок в 4.0. Kenan+RAG в «зелёной зоне» (вопросы, где модель дала содержательный ответ) заняла первое место с Win Rate 44.4% – почти в половине случаев ответ признавался лучшим. То есть специализированные (и зачастую платные) сервисы стоит использовать в тех темах, где у них заявлена база знаний. В непрофильных областях они работают как обычные (и не самые сильные) LLM. Показательно и интересно для меня было ещё и то, что файнтьюнинг моделей (Kenan (Base)) по сравнению с RAG оказался сильно слабее.

Рефлексия

После публикации результатов я получила много конструктивной обратной связи от коллег. И вот какие нюансы эксперимента особенно «зацепили» внимание юристов.

Проблема субъективности human-eval: оценки экспертов субъективны и противоречивы. Это правда. В целом в самом начале публикации я рассказала о своём мнении по этому вопросу и важности участия настоящих экспертов, поделюсь здесь своими соображениями о формате LLM-as-a-judge (когда одна модель оценивает другую).

Привлекательность такой оценки понятна: это масштабируемо, воспроизводимо, нет необходимости взаимодействовать с реальными людьми (напоминать им о необходимости сдать оценки, объяснять что-то по нескольку раз и так далее). Но у меня есть несколько принципиальных возражений против такого подхода для оценки ответов на юридические задачи.

Главный для меня аргумент – психологический. LLM непосредственно используют реальные люди. И реальные люди, в том числе юристы, зачастую относятся к LLM-контенту критично. Оценка, поставленная другими практикующими юристами, психологически убедительнее, чем вердикт «нейросеть сказала, что нейросеть хорошо ответила». Human evaluation даёт то, чего не может дать LLM-as-a-judge: профессиональное суждение, основанное на реальном опыте работы с реальными задачами и клиентами.

Кроме того, LLM нестабильны в решении юридических задач из-за самой сути технологии генерации аутпута. Многие мои коллеги отмечали с удивлением, что если отправить тот же самый промпт в новый чат, то можно получить полностью противоположные ответы. И это подтверждается исследованиями, например, в публикации Blair-Stanek & Van Durme (2025) установили, что ведущие на момент проведения эксперимента LLM дают нестабильные ответы на сложные юридические вопросы даже при temperature=0. На одном и том же вопросе модель может сначала сказать, что выиграет истец, а при повторном запуске — что ответчик. Если модель нестабильна как отвечающая, она будет нестабильна и как судья. Также из публикаций по LLM-as-a-judge видны системные искажения: предпочтение собственных ответов (self-preference bias), чувствительность к порядку предъявления вариантов, склонность к многословным и хорошо структурированным ответам независимо от их корректности.

Это не значит, что LLM-as-a-judge бесполезен. Возможно, его стоит использовать для увеличения выборки при ограниченном количестве экспертов или как дополнительного судью в кейсах с небольшой согласованностью оценок при высокой уверенности экспертов. Но, на мой взгляд, рискованно ограничиваться только им как основным методом бенчмарка юридических задач.

Идеи по дизайну эксперимента

Вот несколько идей от коллег по изменению дизайна бенчмарка, которые могут помочь преодолеть ограничения эксперимента:

  • формат диалога – для исключения штрафа за осторожность;

  • 100-балльная шкала вместо ранжирования;

  • вопросы-ловушки с ложными утверждениями в условии для проверки критичности модели;

  • обфускация через SOTA-модель – унифицировать стиль и оформление ответов, чтобы исключить узнавание модели по «вайбу».

Эти идеи хороши сами по себе, но их качественная реализация влечёт довольно сильную организационную нагрузку на фасилитатора бенчмарка, а также требует гораздо большей вовлечённости и ответственности экспертов-оценщиков.

И есть несколько открытых вопросов, для разрешения которых кажется правильным привлечь экспертов из других областей – экспертов по статистике, психометриков:

  • Как правильно обрабатывать ситуации «высокая уверенность + низкое согласие»? Исключать из рейтинга? Применять корректирующие коэффициенты?

  • Возможна ли инверсия результатов, если оставить только экспертов с высокой экспертизой в каждом вопросе?

Итоги

Главный вывод исследования, наверное, достаточно очевидный: эффективность модели радикально зависит от типа задачи и наличия доступа к базе знаний. Будущее юридического ИИ, вероятно, не в едином «суперчатботе», а за экосистемами специализированных агентов под разные отрасли права. Как этот рынок разделят стартапы, технологические гиганты и индивидуальные пользователи, собирающие ассорти под свои потребности – за этим будет очень интересно наблюдать.

Тем не менее, результаты бенчмарка всё равно получились любопытными и показательными. Интересно, что представители вендоров специализированных сервисов остались довольны результатами.

Для меня лично этот эксперимент наиболее интересен не непосредственными результатами, а его аналитической и методологической стороной. Начиная собирать вопросы и рассылать опросные листы, я сильно сомневалась, получится ли хоть сколько-нибудь адекватный результат. Но эксперимент показал, что human-eval в юридическом домене весьма информативен, хоть и требует дальнейшей серьёзной работы над дизайном: подбор вопросов, калибровка экспертов, учёт особенностей юридического знания и практики.

Мне бы очень хотелось услышать мнение Хабра – особенно тех, кто строил domain-specific бенчмарки в других областях:

  • Как справляться с низкой согласованностью экспертов? В медицинских разметках, судя по всему, распространена аналогичная проблема.

  • Какие методы смещения оценок используете? Возможно, в социологии или психометрике уже есть готовые решения.

  • Как (в каких пропорциях и с какими целями) комбинировать human-eval с LLM-as-a-judge?

Дочитавших благодарю за интерес и внимание и призываю почитать также полный отчёт и поделиться своими мыслями о методологии. Я с коллегами обдумываю идею разработки общих методологических рекомендаций попроведению юридических бенчмарков (что-то вроде White Paper рынку от сообщества). Возможно, кто-то из читателей захочет принять деятельное участие в этой работе – обязательно напишите мне.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.