Системные ограничения генеративного ИИ: галлюцинации, контекст и предубеждения

Юрист просит нейросеть подобрать судебную практику для позиции по делу. Модель отвечает уверенно: даёт номера дел, даты, выдержки из судебных актов и аккуратную юридическую аргументацию. Текст выглядит профессионально. Проблема обнаруживается позже: часть дел не существует, в одном деле неверно указан результат, а одна цитата отсутствует в судебном акте. Ошибка уже попала в проект процессуального документа. После урока вы сможете распознавать основные системные ограничения больших языковых моделей, отличать полезные сценарии от рискованных и выстраивать режим проверки результата до его использования в юридической работе.

Почему нейросеть «придумывает»: RLHF и природа галлюцинаций

Галлюцинация — это генерация правдоподобно звучащей, но фактически неверной информации. В юридической работе такая ошибка особенно опасна, потому что она часто выглядит как корректный правовой текст. Модель может дать ссылку на несуществующий судебный акт, придумать норму права, изменить смысл реальной статьи или выдать ложный вывод с уверенной интонацией.

Большая языковая модель не знает право в человеческом смысле. Она не хранит Гражданский кодекс, судебные решения и доктрину как юрист. Модель работает со статистическими закономерностями в текстах, на которых её обучали. При генерации она предсказывает следующий токен, то есть элемент текста, с учётом предыдущего контекста.

Если в обучающих данных нет достаточной информации по конкретному юридическому вопросу, модель всё равно стремится дать ответ. Это связано с базовой логикой обучения и оценки. Стандартные метрики чаще поощряют угадывание, чем признание неопределённости. Ответ «я не знаю» может выглядеть менее полезным для системы оценки, чем подробный, уверенный и стилистически убедительный текст.

RLHF — reinforcement learning from human feedback, или обучение с подкреплением на основе человеческой обратной связи. На этом этапе люди сравнивают ответы модели и выбирают более полезные. Часто пользователь предпочитает подробный и уверенный ответ короткому отказу. Модель закрепляет поведение, при котором лучше выглядеть компетентной, чем честно сообщить о недостатке данных.

Для права это создаёт системный конфликт. Юридическая работа требует точности источников. Судебное решение либо существует, либо нет. Норма либо действует, либо утратила силу. Формулировка статьи либо соответствует официальному тексту, либо искажена. Модель может заполнить пробел правдоподобной конструкцией, потому что её обучение направлено на генерацию убедительного ответа.

Галлюцинации нельзя устранить простым увеличением объёма данных или более красивой формулировкой вопроса. В статье указано, что проблема связана с фундаментальными стимулами обучения моделей. Полезные техники снижают риск, но не убирают его полностью. RAG, промпт-инженерия и внешние базы помогают «заземлить» ответ, но модель всё равно может неправильно интерпретировать найденную информацию.

В юридической практике правильная установка звучит жёстко: результат LLM недостоверен до проверки. Это не делает ИИ бесполезным. Это меняет роль юриста. Юрист использует модель как чернового аналитика, редактора, ассистента по структуре и инструмент первичной обработки текста. Финальную правовую квалификацию, проверку источников и решение оставляет за собой.

Три типа галлюцинаций в юридической работе

В юридической практике чаще всего встречаются три группы галлюцинаций: ошибки в нормах права, ошибки в судебной практике и искажение контекста. Каждая группа опасна по-своему.

Тип галлюцинации	Как выглядит	Почему опасно
Галлюцинация в нормах права	Модель ссылается на несуществующую норму или меняет текст реальной статьи	Юрист может включить в документ ложное правовое основание
Галлюцинация в судебной практике	Модель придумывает дело, номер, дату, стороны или результат рассмотрения	Суд или оппонент быстро выявит ошибку, а доверие к позиции снизится
Искажение контекста	Модель верно находит источник, но неверно передаёт смысл	Ошибка выглядит менее заметной и может пройти поверхностную проверку

Первый тип связан с нормами права. Модель может сослаться на статью, которая существует, но приписать ей другой текст. Может указать правильный кодекс, но неверный номер статьи. Может придумать правовое правило, которого нет в законе. В договорной работе такая ошибка может привести к ничтожному или неисполнимому условию. В процессуальном документе она может испортить правовую аргументацию.

Второй тип связан с судебной практикой. Модель может создать полностью вымышленное дело с правдоподобным номером, датой и фабулой. Может найти реальное дело, но неверно указать результат. Может не учесть, что решение отменили в вышестоящей инстанции. Может не увидеть региональную специфику практики или особенности конкретного судьи.

В материалах приведён резонансный пример из США, где юристы направили в суд документ со ссылками на несуществующие дела, сгенерированные ИИ. Судья проверил судебную практику и обнаружил, что дел нет. Для юридической профессии это не техническая ошибка. Это профессиональный риск, который может привести к дисциплинарным последствиям, проигрышу доверия и процессуальному ущербу.

Третий тип связан с контекстом. Это самый сложный для выявления вид ошибки. Модель может верно определить источник и даже процитировать часть текста, но изменить смысл вывода. Например, она может не заметить ограничение применения нормы, исключение из правила, особую фактическую ситуацию или последующую отмену судебного акта. Поверхностная проверка покажет, что источник существует. Содержательная проверка выявит, что вывод неверен.

Российская специфика усиливает риск. Универсальные иностранные LLM не являются правовыми базами. Они не равны «КонсультантПлюс», «Гаранту», КАД.Арбитр или ГАС «Правосудие». Их обучающие данные имеют дату среза. Они не получают автоматически полную и актуальную российскую судебную практику. Они не анализируют движение дела по всем инстанциям как специализированная правовая система.

Юрист должен проверять каждую ссылку. Норму нужно открыть в актуальной редакции. Судебный акт нужно найти в официальной или профессиональной базе. Реквизиты дела, инстанцию, дату, результат и последующее движение нужно сверить отдельно. Ответ модели не заменяет эту работу.

Контекстное окно: MECW и синдром деградации контекста

Контекстное окно — это максимальный объём текста, который модель может обработать в рамках одного запроса или диалога. Его измеряют в токенах. Один токен может быть словом, частью слова, знаком препинания или технической единицей текста.

Большие контекстные окна создают иллюзию, что модель можно использовать как полноценного читателя многотомного дела. Пользователь видит, что система принимает длинный документ, и ожидает равномерного анализа всего массива. На практике формальная длина окна не равна качественному пониманию всех фрагментов.

MECW — Maximum Effective Context Window, или максимальное эффективное контекстное окно. Это реальный предел, после которого дополнительные токены уже не повышают качество ответа. В материалах указано, что исследование 2025 года показало разрыв между заявленным максимальным окном и эффективным окном. Иногда эффективное окно оказывалось ниже заявленного более чем на 99%.

Для юриста это означает простую вещь. Модель может принять большой договор, пакет приложений или материалы дела, но не обязана качественно обработать каждый фрагмент. Критически важная информация в середине документа может получить меньше внимания. Деталь из приложения может потеряться. Противоречие между разделами может остаться незамеченным.

CDS — Context Degradation Syndrome, или синдром деградации контекста. Он описывает снижение качества ответов по мере накопления информации в длинном диалоге. После множества сообщений модель начинает терять фокус, повторяться, упускать ранние условия, смешивать версии задачи и хуже удерживать причинно-следственные связи.

В юридических задачах CDS особенно вреден. Правовой анализ часто строится многоэтапно. Юрист сначала описывает факты, затем уточняет нормы, потом добавляет позицию оппонента, затем судебную практику, затем просит собрать итоговый документ. Если диалог длинный, модель может забыть ранние вводные или перепутать, какая версия фактов актуальна.

Ограничение связано не только с объёмом памяти. Юридическое мышление требует удерживать несколько уровней: факты, нормы, исключения, судебную практику, процессуальную стадию, позицию клиента, позицию оппонента и прогноз рисков. При перегрузке рабочей памяти модель допускает ошибки на разных этапах: неверно извлекает факт, неправильно толкует норму, некорректно применяет правило или разрывает логическую цепочку.

Правильный режим работы — сегментация. Большой документ нужно делить на логические части. Сначала модель извлекает условия. Затем сопоставляет их с чеклистом. Затем отдельно оценивает риски. Затем юрист проверяет результат. Затем на основе проверенных промежуточных выводов можно собирать итоговое резюме.

Не нужно просить модель «проанализировать всё дело целиком», если дело состоит из десятков документов. Лучше разбить массив на группы: договор, приложения, переписка, претензии, процессуальные документы, судебные акты. Каждая группа получает отдельную задачу и отдельный результат. Итоговый анализ строится на проверенных промежуточных слоях.

Алгоритмические предубеждения: COMPAS, Amazon и российский контекст

Алгоритмическая предвзятость возникает, когда ИИ-система воспроизводит или усиливает дискриминационные паттерны из данных, дизайна алгоритма или практики применения. Алгоритм не становится нейтральным только потому, что он математический. Он обучается на данных, созданных людьми и институтами.

В юридической сфере это ограничение затрагивает базовые принципы: равенство перед законом, презумпцию невиновности, справедливое разбирательство и недискриминацию. Если данные отражают исторический перекос, модель может воспроизвести этот перекос как норму.

В материалах приведён пример COMPAS — системы, которую использовали в США для оценки риска рецидива. Расследования выявили, что система непропорционально относила чернокожих обвиняемых к высокорисковым по сравнению с белыми обвиняемыми с аналогичной криминальной историей. Возникает петля обратной связи. Алгоритм рекомендует более строгие решения для определённой группы. Эта группа чаще получает негативные правовые последствия. Новые данные подтверждают прежний перекос.

В корпоративной сфере показательным стал пример Amazon. ИИ-система для отбора резюме понижала рейтинг женщин на технические должности. Она обучалась на исторических данных о найме, где мужчины чаще занимали технические позиции. Модель сделала статистический вывод, который воспроизвёл прежнюю структуру неравенства. После внутреннего аудита компания отказалась от инструмента.

В деле против Workday истец утверждал, что ИИ-инструменты проверки кандидатов закрепляли дискриминацию по признакам расы, возраста и инвалидности. Суд отклонил аргумент о полном отсутствии ответственности технологической компании. Для юристов здесь важен не только факт спора. Важен принцип: поставщик ИИ-инструмента может оказаться частью юридически значимой цепочки принятия решений.

Российский пример из материалов связан с уголовным судопроизводством. Если обучающий массив содержит 99% обвинительных приговоров, модель может «заучить» обвинительный уклон. При анализе новой ситуации она будет статистически склоняться к виновности. Это противоречит презумпции невиновности.

Борьба с предубеждением требует технических и организационных мер. К техническим относятся балансировка данных, мониторинг результата, объяснимые модели и проверка на систематические перекосы. К организационным относится человеческий надзор. Решения, влияющие на права, свободу, работу, имущество или процессуальное положение человека, нельзя передавать модели как финальному арбитру.

Для юриста практический вывод звучит так: ИИ-рекомендация требует критической проверки источника данных. Нужно спрашивать не только «что модель ответила», но и «на каких данных она могла этому научиться». Если данные неполны, устарели или отражают институциональный перекос, результат нельзя считать нейтральным.

Проблема чёрного ящика и правовые последствия

Проблема чёрного ящика означает, что внутреннюю логику современной большой языковой модели нельзя полностью проследить в понятных человеку терминах. Даже разработчики модели не всегда могут точно объяснить, почему система выбрала конкретную формулировку, вывод или рекомендацию.

LLM основаны на трансформерных нейронных сетях с миллиардами параметров. Знания модели не лежат в отдельных ячейках. Они распределены по весовым коэффициентам. Когда модель отвечает на вопрос, она выполняет сложную последовательность вычислений. Пользователь видит только входной запрос и выходной текст.

Это снижает доверие к ИИ в социально значимых сферах. В медицине, финансах, управлении и судопроизводстве недостаточно получить ответ. Нужно понимать основание решения. Юристу нужно объяснить клиенту, суду, руководителю или регулятору, почему выбран конкретный вывод. Модель может дать убедительное рассуждение, но это рассуждение не всегда отражает фактический внутренний процесс.

Chain-of-thought — цепочка рассуждений, которую модель может показать пользователю. Такой вывод создаёт ощущение прозрачности. Проблема в том, что объяснение может быть сгенерировано постфактум. Оно может выглядеть логичным, но не доказывает, что модель действительно пришла к ответу именно таким путём.

Правовые последствия уже проявляются в регулировании. В материалах указан EU AI Act, который поэтапно вступает в силу с августа 2024 года и требует прозрачности и объяснимости для высокорисковых ИИ-систем. Также указана статья 22 GDPR, которая предоставляет право на объяснение решений, принятых с участием ИИ. ⚠️ Проверить актуальность редакции

Для юридической практики проблема чёрного ящика означает ограничение применимости ИИ в задачах, где требуется проверяемая логика. Модель можно использовать для черновика, классификации, резюме, подготовки вопросов и первичного анализа. Её нельзя использовать как единственный источник решения, которое влияет на права и обязанности.

XAI — explainable AI, или объяснимый искусственный интеллект. В материалах названы методы SHAP, LIME, причинные модели и визуализация внимания. Эти методы помогают оценить, какие входные данные влияют на выходной результат. Они не решают проблему полностью. Их объяснения могут быть неполными, сложными для непрофессионала и требующими дополнительных ресурсов.

Для юриста принцип работы с чёрным ящиком должен быть процедурным. Результат модели нужно привязать к проверяемым источникам. Каждый юридический вывод должен иметь норму, судебный акт, договорное условие или факт из материалов. Если вывод нельзя независимо проверить, его нельзя включать в юридический документ как установленный.

Экономические барьеры масштабирования ИИ в юридической практике

ИИ не всегда снижает транзакционные издержки. При неосведомлённом применении экономия времени может стать отрицательной. Юрист получает быстрый черновик, но затем тратит часы на проверку ложных ссылок, исправление структуры, сверку норм и восстановление пропущенного контекста.

Большинство провайдеров LLM используют токеновую модель оплаты. Пользователь платит за входные токены и выходные токены. Входные токены — это запрос, документы и контекст. Выходные токены — это ответ модели. В материалах указано, что выходные токены обычно стоят в три-пять раз дороже входных. Поэтому длинные юридические заключения быстро увеличивают стоимость.

Юридические задачи часто требуют длинного контекста и длинного ответа. Анализ большого договора, сопоставление нескольких документов, подготовка процессуальной позиции и проверка рисков создают значительную нагрузку. Простые модели могут быть дешевле, но хуже справляться со сложной логикой. Сильные модели дороже, но всё равно не устраняют риск ошибок.

Скрытые расходы тоже существенны. К ним относятся расходы на API, передачу данных, инфраструктуру, мониторинг, хранение, интеграции, настройку RAG, актуализацию базы знаний, тестирование качества и обучение сотрудников. В материалах указано, что скрытые расходы могут увеличить совокупную стоимость владения на 15–30%.

Локальное развёртывание моделей помогает с конфиденциальностью, но создаёт вычислительные расходы. Чем крупнее модель, тем выше требования к GPU, памяти и обслуживанию. Модель на 70 миллиардов параметров требует несопоставимо больше ресурсов, чем модель на 7 миллиардов параметров. Для юридической фирмы это превращается в отдельный IT-проект.

Экономический барьер создаёт неравенство доступа. Крупные юридические фирмы могут внедрять дорогие RAG-системы, корпоративные подписки и локальные решения. Небольшие практики и индивидуальные юристы могут ограничиться публичными инструментами, где выше риск ошибок и ниже контроль над данными.

Рабочее решение — распределять задачи по уровню риска и стоимости. Простые задачи можно отдавать более дешёвым моделям: структура письма, краткое резюме, переформулирование текста, таблица вопросов. Сложные задачи нужно отдавать сильным моделям или специализированным системам: анализ судебной практики, сопоставление взаимосвязанных документов, правовая квалификация и проверка позиции. Финальная проверка остаётся за юристом.

Запомнить

LLM генерирует правдоподобный текст, а не гарантированно достоверный правовой вывод.
Самые опасные галлюцинации в праве связаны с нормами, судебной практикой и искажением контекста.
Длинное контекстное окно не означает качественный анализ всего документа.
Принцип human-in-the-loop обязателен для любого юридически значимого результата.