Benchmark юридических AI-моделей

О бенчмарке

Каждая модель решала 28 задач из четырёх сценариев реальной юридической практики: анализ и правка договоров, подготовка процессуальных документов, подбор судебной практики и консультирование по кейсам. Задачи охватывают 6 отраслей права и 3 уровня сложности. Система оценки строилась следующим образом: за точность и полноту ответа (содержание) модель получала 1 балл, за правильную структуру (форма) — ещё 1 балл. При этом за каждый факт галлюцинации вычитался 1 балл. Итоговая оценка корректировалась с учётом коэффициента сложности задачи: для легких задач — 1, для средних — 1.5, а для сложных — 2.

Задач

по 4 сценариям

Моделей

Отраслей права

от трудового до рекламного

Средний балл по моделям

Среднее арифметическое по 28 задачам

Claude sonnet 4.5 лидирует с отрывом 0.85 балла от ближайшего конкурента. Разрыв между 2 и 4 местом — всего 0.54 балла, что говорит о плотной конкуренции в среднем сегменте.

Галлюцинации

Количество задач, в которых модель допустила фактические выдумки

Меньше всего галлюцинаций у Claude sonnet 4.5 (2). GigaChat галлюцинировал в трети задач (10) — это основная причина его низкого среднего балла из-за штрафных коэффициентов.

Профиль моделей по сценариям

Средний балл в каждом типе задач

Claude sonnet 4.5 показывает сбалансированный профиль без провалов. GPT-4o сильна в договорах (2.81), но слаба в подборе практики (−1.18) — возможно, из-за склонности выдумывать реквизиты судебных актов.

Диапазон оценок

Минимальный, средний и максимальный балл каждой модели

GigaChat имеет самый широкий разброс: от −16 до +4. Экстремально низкий минимум — результат задачи 3.8 (подбор практики, сложная), где модель сгенерировала полностью выдуманные судебные решения.

Детальный анализ по срезам

Средний балл моделей в разрезе сложности, отрасли и сценария

На простых задачах все модели показывают приемлемый результат (1.5–2.0). Ключевые различия проявляются на средней и сложной сложности: Claude sonnet 4.5 держит уровень 2.5+, тогда как GigaChat проваливается до −3.5 на сложных задачах.

Право ИС — самая полярная область: GPT-4o набирает 2.63, а GigaChat лишь 0.75. В обязательственном праве (самая представленная отрасль) Claude sonnet 4.5 уверенно лидирует. Трудовое право — единственная отрасль, где Нейроюрист приближается к Claude sonnet 4.5

Подбор судебной практики — самый сложный сценарий для всех моделей: средний балл по всем моделям здесь 0.51 против 2.0+ по остальным сценариям. Это связано с тем, что модели часто генерируют несуществующие ссылки на судебные акты.

Сложность × Модель

Сфера права × Модель

Сценарий × Модель

Ключевые выводы

Claude sonnet 4.5 — безусловный лидер бенчмарка. Единственная модель со средним баллом выше 2.0. Минимум галлюцинаций (2), стабильный результат на всех уровнях сложности. Лучший выбор

GPT-4o — сильна в анализе договоров (2.81) и праве ИС (2.63), но критически слаба в подборе судебной практики (−0.06). Высокий уровень галлюцинаций при работе с российскими правовыми источниками. 6 галлюцинаций

Нейроюрист — специализированная модель, стабильная на простых и средних задачах. Слабее универсальных моделей на сложных кейсах, но допускает меньше грубых ошибок, чем GigaChat и ConsLegal.

GigaChat — самый непредсказуемый результат: от +4 до −16. На простых задачах не уступает лидерам, но на сложных - провал.Высокий риск - рекордсмен по галлюцинациям (10)