На простых задачах все модели показывают приемлемый результат (1.5–2.0). Ключевые различия проявляются на средней и сложной сложности: Claude sonnet 4.5 держит уровень 2.5+, тогда как GigaChat проваливается до −3.5 на сложных задачах.
Право ИС — самая полярная область: GPT-4o набирает 2.63, а GigaChat лишь 0.75. В обязательственном праве (самая представленная отрасль) Claude sonnet 4.5 уверенно лидирует. Трудовое право — единственная отрасль, где Нейроюрист приближается к Claude sonnet 4.5
Подбор судебной практики — самый сложный сценарий для всех моделей: средний балл по всем моделям здесь 0.51 против 2.0+ по остальным сценариям. Это связано с тем, что модели часто генерируют несуществующие ссылки на судебные акты.