Benchmark юридических AI-моделей

2026

Сравнительное тестирование пяти моделей генеративного ИИ на 28 юридических задачах. Оценка проводилась по качеству ответов с учётом точности, полноты и наличия галлюцинаций.

О бенчмарке

Каждая модель решала 28 задач из четырёх сценариев реальной юридической практики: анализ и правка договоров, подготовка процессуальных документов, подбор судебной практики и консультирование по кейсам. Задачи охватывают 6 отраслей права и 3 уровня сложности. Система оценки строилась следующим образом: за точность и полноту ответа (содержание) модель получала 1 балл, за правильную структуру (форма) — ещё 1 балл. При этом за каждый факт галлюцинации вычитался 1 балл. Итоговая оценка корректировалась с учётом коэффициента сложности задачи: для легких задач — 1, для средних — 1.5, а для сложных — 2.

Задач
28
по 4 сценариям
Моделей
5
Отраслей права
6
от трудового до рекламного
Средний балл по моделям
Среднее арифметическое по 28 задачам
Claude sonnet 4.5 лидирует с отрывом 0.85 балла от ближайшего конкурента. Разрыв между 2 и 4 местом — всего 0.54 балла, что говорит о плотной конкуренции в среднем сегменте.
Галлюцинации
Количество задач, в которых модель допустила фактические выдумки
Меньше всего галлюцинаций у Claude sonnet 4.5 (2). GigaChat галлюцинировал в трети задач (10) — это основная причина его низкого среднего балла из-за штрафных коэффициентов.
Профиль моделей по сценариям
Средний балл в каждом типе задач
Claude sonnet 4.5 показывает сбалансированный профиль без провалов. GPT-4o сильна в договорах (2.81), но слаба в подборе практики (−1.18) — возможно, из-за склонности выдумывать реквизиты судебных актов.
Диапазон оценок
Минимальный, средний и максимальный балл каждой модели
GigaChat имеет самый широкий разброс: от −16 до +4. Экстремально низкий минимум — результат задачи 3.8 (подбор практики, сложная), где модель сгенерировала полностью выдуманные судебные решения.
Детальный анализ по срезам
Средний балл моделей в разрезе сложности, отрасли и сценария
На простых задачах все модели показывают приемлемый результат (1.5–2.0). Ключевые различия проявляются на средней и сложной сложности: Claude sonnet 4.5 держит уровень 2.5+, тогда как GigaChat проваливается до −3.5 на сложных задачах.
Право ИС — самая полярная область: GPT-4o набирает 2.63, а GigaChat лишь 0.75. В обязательственном праве (самая представленная отрасль) Claude sonnet 4.5 уверенно лидирует. Трудовое право — единственная отрасль, где Нейроюрист приближается к Claude sonnet 4.5
Подбор судебной практики — самый сложный сценарий для всех моделей: средний балл по всем моделям здесь 0.51 против 2.0+ по остальным сценариям. Это связано с тем, что модели часто генерируют несуществующие ссылки на судебные акты.
Сложность × Модель
Сфера права × Модель
Сценарий × Модель
Ключевые выводы
Claude sonnet 4.5 — безусловный лидер бенчмарка. Единственная модель со средним баллом выше 2.0. Минимум галлюцинаций (2), стабильный результат на всех уровнях сложности. Лучший выбор
GPT-4o — сильна в анализе договоров (2.81) и праве ИС (2.63), но критически слаба в подборе судебной практики (−0.06). Высокий уровень галлюцинаций при работе с российскими правовыми источниками. 6 галлюцинаций
Нейроюрист — специализированная модель, стабильная на простых и средних задачах. Слабее универсальных моделей на сложных кейсах, но допускает меньше грубых ошибок, чем GigaChat и ConsLegal.
GigaChat — самый непредсказуемый результат: от +4 до −16. На простых задачах не уступает лидерам, но на сложных - провал.Высокий риск - рекордсмен по галлюцинациям (10)