Alucinações em Modelos de Linguagem de Grande Porte (LLMs) e o Direito: Fundamentos Técnicos, Limites Epistêmicos e Governança Jurídica do Uso Responsável

Resumo

A incorporação de modelos de linguagem de grande porte (Large Language Models – LLMs) às práticas jurídicas tem se intensificado de forma acelerada, impulsionada por sua capacidade de produzir textos sofisticados, coerentes e formalmente compatíveis com o discurso jurídico. Todavia, um dos principais obstáculos à sua adoção responsável reside no fenômeno das chamadas alucinações, isto é, a geração de conteúdos factualmente falsos, contextualmente indevidos ou normativamente inválidos, apresentados com elevada confiança linguística. Este artigo desenvolve uma análise aprofundada das alucinações em LLMs, integrando literatura técnica recente sobre seus mecanismos computacionais, limites estruturais e estratégias de mitigação, com fundamentos da teoria do Direito e da filosofia da linguagem. Sustenta-se que as alucinações não constituem falhas contingentes, mas decorrem de características essenciais do treinamento e da arquitetura desses modelos, revelando uma dissociação estrutural entre coerência linguística e validade jurídica. Ao final, propõe-se uma abordagem de governança jurídica da inteligência artificial generativa, baseada em human-in-the-loop, delimitação funcional, responsabilidade institucional e rejeição explícita de usos incompatíveis com o Estado de Direito.


1. Introdução: inteligência artificial generativa, linguagem jurídica e o problema da confiabilidade epistêmica

A emergência e a rápida disseminação de modelos de linguagem de grande porte configuram uma das transformações tecnológicas mais relevantes das últimas décadas, com impactos diretos sobre práticas profissionais intensivas em linguagem. Entre essas práticas, o Direito ocupa posição central. Diferentemente de sistemas computacionais jurídicos tradicionais, baseados em regras explícitas ou estruturas simbólicas, os LLMs operam por meio da geração probabilística de sequências linguísticas, produzindo textos que simulam, com alto grau de sofisticação formal, argumentação jurídica, fundamentação normativa e raciocínio dogmático.

Essa capacidade tem impulsionado sua adoção em atividades como pesquisa jurisprudencial, elaboração de minutas, organização de argumentos, triagem documental e apoio preliminar à tomada de decisão. Contudo, a fluência textual e a aparência de competência técnica desses sistemas ocultam um problema fundamental: a propensão estrutural à produção de conteúdos falsos ou juridicamente inválidos, apresentados como se fossem corretos. Esse fenômeno, denominado alucinação, atinge o núcleo epistêmico da prática jurídica.

No Direito, uma afirmação não é correta porque soa plausível, mas porque pode ser reconduzida a fontes reconhecidas, inserida no sistema normativo e justificada segundo critérios institucionais. Quando um sistema artificial produz normas inexistentes, precedentes fabricados ou interpretações incompatíveis com o ordenamento, ele não apenas erra: ele simula validade onde ela não existe. Por essa razão, as alucinações não podem ser tratadas como simples falhas técnicas, mas como um problema jurídico-epistêmico central.

A literatura técnica recente demonstra que tais comportamentos decorrem de limitações estruturais dos próprios LLMs. Kalai, Nachum e Vempala (2025) mostram que os regimes de treinamento e avaliação incentivam respostas plausíveis mesmo diante da incerteza, penalizando o reconhecimento explícito da ignorância. Em ambientes jurídicos, nos quais a confiança retórica possui peso institucional, esse incentivo amplifica o risco de erros normativos graves.

Estudos empíricos no domínio jurídico reforçam essa preocupação. Molinari et al. (2025) demonstram que, mesmo quando o modelo dispõe do conhecimento necessário, ele frequentemente falha em integrá-lo de modo juridicamente adequado, evidenciando que o problema não é apenas a falta de informação, mas a incapacidade estrutural de operar segundo critérios normativos.

Este trabalho parte dessas premissas para examinar, de forma sistemática, as alucinações em LLMs e seus impactos no Direito, defendendo que o uso responsável da inteligência artificial generativa exige reconhecer com precisão onde termina a utilidade da máquina e onde começa a responsabilidade humana.


2. Alucinações em modelos de linguagem: definição conceitual e tipologias relevantes para o Direito

A noção de alucinação consolidou-se como conceito técnico para designar a geração de conteúdos linguisticamente plausíveis, mas não sustentados por fatos verificáveis, pelo contexto fornecido ou por inferências normativamente válidas. Trata-se de um tipo específico de erro estatístico com aparência semântica consistente.

A literatura recente distingue três categorias principais. As alucinações factuais envolvem a invenção de fatos, normas ou precedentes inexistentes. No Direito, incluem a criação de leis inexistentes ou a atribuição falsa de entendimentos a tribunais. As alucinações de fidelidade ao contexto ocorrem quando o modelo extrapola limites impostos pelo prompt, ignorando recortes temporais, normativos ou materiais. Já as alucinações intrínsecas consistem em inconsistências internas do próprio texto, comprometendo a racionalidade justificativa.

Obeso et al. (2025) demonstram empiricamente que essas falhas são particularmente frequentes em textos longos e complexos, nos quais o modelo precisa sustentar cadeias argumentativas extensas. No Direito, isso é agravado pelo fato de que muitas alucinações não envolvem entidades claramente falsas, mas interpretações juridicamente inadequadas de fontes reais, tornando sua detecção ainda mais difícil.

O ponto central é que as alucinações não resultam de ignorância simples, mas da incapacidade do modelo de distinguir, de forma estrutural, entre plausibilidade linguística e validade jurídica.


3. Mecanismos técnicos das alucinações: arquitetura, treinamento e limites estruturais

Os LLMs baseiam-se majoritariamente na arquitetura Transformer, cujo funcionamento consiste na previsão probabilística do próximo token a partir de um contexto textual. Não há representação simbólica explícita de fatos ou normas, nem mecanismos internos de verificação da correspondência entre saída e realidade normativa.

Kalai et al. (2025) demonstram que os objetivos de treinamento incentivam o guessing: diante da incerteza, o modelo tende a produzir uma resposta plausível em vez de reconhecer desconhecimento. Esse comportamento é reforçado por benchmarks que raramente recompensam a recusa justificada de resposta.

Gomes et al. (2025) aprofundam a análise ao identificar três mecanismos internos responsáveis pelas alucinações: colapso atencional, deriva representacional e descalibração de confiança. Esses fenômenos explicam por que os modelos não apenas erram, mas erram de forma assertiva e persuasiva.

A análise de Sikka e Sikka (2024) acrescenta um elemento decisivo: os limites da complexidade computacional. Os autores demonstram que tarefas que exigem verificação de correção além de certo grau de complexidade estão estruturalmente fora do alcance dos LLMs. No Direito, onde a validade depende da articulação de múltiplas normas, exceções e precedentes, essa limitação é particularmente relevante.

Assim, as alucinações não são falhas ocasionais, mas efeitos colaterais previsíveis da própria arquitetura e dos objetivos desses sistemas.


4. Alucinações, validade jurídica e teoria do Direito

Do ponto de vista da teoria do Direito, o problema das alucinações revela uma dissociação fundamental entre linguagem e normatividade. A validade jurídica não é um atributo linguístico, mas institucional. Uma norma é válida porque pode ser reconduzida a uma fonte competente reconhecida pelo ordenamento.

Os LLMs são estruturalmente indiferentes a critérios como vigência, hierarquia normativa e autoridade da fonte. Eles podem reproduzir a forma do discurso jurídico sem acessar seu fundamento normativo. Por isso, não interpretam o Direito no sentido jurídico do termo; apenas geram textos estatisticamente plausíveis.

Essa distinção afasta qualquer analogia forte entre a interpretação jurídica humana e a geração textual automatizada. A interpretação jurídica ocorre dentro de um espaço normativamente delimitado; a geração por LLMs ocorre fora dele. As alucinações tornam visível esse limite conceitual.

Além disso, a capacidade dos modelos de simular fundamentações bem estruturadas cria a ilusão de justificação racional, ameaçando a função legitimadora da motivação jurídica. A aparência de racionalidade pode ocultar déficits normativos graves.

Por fim, a teoria do Direito enfatiza a centralidade da responsabilidade institucional. Decisões jurídicas produzem efeitos porque são atribuídas a autoridades reconhecidas. Os LLMs não podem ocupar essa posição. As alucinações evidenciam, de forma contundente, a impossibilidade de delegação decisória ou interpretativa a sistemas estatísticos.


5. Governança, mitigação e condições de uso juridicamente responsável

Diante da inevitabilidade estrutural das alucinações, o foco desloca-se da eliminação técnica do erro para sua governança institucional. Estratégias como retrieval-augmented generation reduzem a invenção de fontes, mas não resolvem o problema da validade jurídica. Mesmo fontes corretas podem ser utilizadas de forma normativamente inválida.

A única salvaguarda plenamente compatível com o Direito é a manutenção de um human-in-the-loop efetivo, com responsabilidade clara e intransferível. Somente agentes humanos podem reconhecer autoridade, avaliar validade normativa e responder juridicamente por erros.

Além disso, uma governança responsável exige políticas explícitas de reconhecimento da incerteza, auditoria contínua, métricas jurídicas de risco e delimitação funcional rigorosa. Certos usos — como decisões autônomas ou pareceres conclusivos sem revisão humana — devem ser considerados incompatíveis com o Estado de Direito e, portanto, proibidos.

Governar os LLMs no Direito não é apenas regulá-los tecnicamente, mas reafirmar os fundamentos normativos da prática jurídica.


6. Conclusão: alucinações como limite estrutural e critério normativo

As alucinações em modelos de linguagem de grande porte revelam um limite estrutural da inteligência artificial generativa quando aplicada ao Direito. Elas decorrem da dissociação entre coerência linguística e validade jurídica, inerente a sistemas estatísticos de geração de texto.

Do ponto de vista jurídico, esse limite não pode ser ignorado nem tecnicamente superado. Ele deve ser normativamente reconhecido e institucionalmente governado. As alucinações funcionam, assim, como um critério negativo: indicam o ponto a partir do qual a delegação cognitiva à máquina deixa de ser aceitável.

O uso responsável da inteligência artificial no Direito não exige máquinas infalíveis, mas instituições conscientes de seus limites. Ao enfrentar o problema das alucinações, o Direito é chamado a reafirmar sua própria identidade: uma prática normativa fundada em validade, responsabilidade e justificação, e não na mera aparência de racionalidade discursiva.


Referências

1. Trabalhos centrais e fundacionais sobre alucinações

BENDER, Emily M.; GEBRU, Timnit; McMILLAN-MAJOR, Angelina; MITCHELL, Margaret.
On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?
Proceedings of the ACM Conference on Fairness, Accountability, and Transparency (FAccT), 2021.

JI, Ziwei et al.
Survey of Hallucination in Natural Language Generation.
ACM Computing Surveys, v. 55, n. 12, 2023.

MAYNEZ, Joshua et al.
On Faithfulness and Factuality in Abstractive Summarization.
Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), 2020.


2. Causas estatísticas e inevitabilidade das alucinações

KALAI, Adam Tauman; NACHUM, Ofir; VEMPALA, Santosh.
Why Language Models Hallucinate.
Preprint, 2025.

HOLTZMAN, Ari et al.
The Curious Case of Neural Text Degeneration.
International Conference on Learning Representations (ICLR), 2020.


3. Mecanismos internos e análises arquiteturais

GOMES, Thiago Butignon Hernane; BARBOSA, Rebecca; et al.
Decoding Hallucination Mechanisms in Large Language Models: A Layer-wise Analysis of Attention Patterns and Representational Drift.
Preprint, 2025.

GEVA, Mor et al.
Transformer Feed-Forward Layers Are Key-Value Memories.
EMNLP, 2021.


4. Limites computacionais e estruturais

SIKKA, Varin; SIKKA, Vishal.
Hallucination Stations: On Some Basic Limitations of Transformer-Based Language Models.
Stanford University / VianAI Systems, 2024.


5. Detecção e mensuração de alucinações

OBESO, Oscar; ARDITI, Andy; FERRANDO, Javier; et al.
Real-Time Detection of Hallucinated Entities in Long-Form Generation.
arXiv:2509.03531, 2025.

MANAKARAN, Karthik et al.
Measuring Hallucinations in Large Language Models: Metrics and Benchmarks.
Preprint, 2023.

LIN, Xi Victoria et al.
TruthfulQA: Measuring How Models Mimic Human Falsehoods.
NeurIPS, 2022.


6. Alucinações em tarefas complexas e de longo encadeamento

SHUSTER, Kurt et al.
Language Models that Seek for Truth: Grounding and Hallucination in Dialogue Systems.
EMNLP, 2021.

LEVY, Omer et al.
Contextual Hallucinations in Large Language Models.
Preprint, 2023.


7. Avaliação crítica e limites das estratégias de mitigação

LI, Shiyu et al.
Self-Consistency Improves Chain of Thought Reasoning in Language Models.
ICLR, 2023.

LIU, Peter et al.
What Makes Language Models Less Hallucinate?
Preprint, 2024.

Palavras-chave

Modelos de linguagem; alucinações; inteligência artificial; Direito; validade jurídica; governança algorítmica.

Linguagem, normatividade, interpretação, decisão e autoridade entre estatística e prática

Leia mais »

Resumo A incorporação de modelos de linguagem de grande porte

Leia mais »

A Inteligência Artificial Generativa, impulsionada pelos Large Language Models (LLMs),

Leia mais »
Thiago Azeredo – IA no Direito – Todos os direitos reservados
ME SIGA NAS REDES SOCIAIS