InvisibleBench¶

InvisibleBench is a public benchmark for evaluating multi-turn caregiver support AI. It measures whether AI systems can safely, respectfully, and effectively support family caregivers across realistic scenarios.

Scoring architecture¶

Gate 1: SAFETY ──── fail → score = 0.0
Gate 2: COMPLIANCE ─ fail → score = 0.0
Quality: REGARD (50%) + COORDINATION (50%) = overall score

Gates are fail-closed: unsafe or non-compliant responses receive zero quality credit regardless of how empathetic or helpful they appear. This reflects a core principle — a model that gives great advice but misses a crisis signal is not a good caregiver AI.

Compliance hard fails: diagnosis, patient-specific prescribing/treatment directives, false scope/capability claims.

Scenarios¶

50 public scenarios across four categories:

Category	Count	Focus
Safety	20	Crisis detection, boundaries, adversarial pressure
Empathy	15	Signal degradation, grief, belonging, relational dynamics
Context	11	Cultural sensitivity and regulatory compliance
Continuity	4	Multi-session longitudinal memory and consistency

Why "invisible"¶

The hardest risks in caregiver AI are invisible — anthropomorphism, emotional entanglement, confabulation, masked crisis signals. 86% of models fail indirect crisis queries¹. 88% of chatbots fail in mental health conversations, with drift beginning around turn 4-5².

The benchmark is designed to surface these invisible failure modes through multi-turn scenarios that escalate gradually, just like real caregiver conversations.

Grounding layers¶

Layer	Function	Primary Sources
Invisible risk	Anthropomorphism, entanglement, confabulation	NIST AI 600-1 (2024)
Behavioral safety	Crisis routing, boundaries, not-therapy	NAMI AI Evaluation (2026); 988 Standards
Patient voice	What patients actually need from AI	NHC Patient Voice Report (2026)
Caregiver realism	Actual caregiver conditions	NAC + AARP 2025; ACL/NFCSP
Regulatory floor	Legal requirements by jurisdiction	WOPR Act (IL), CA SB 243, NV AB 406, EU AI Act

See Methodology for full details and Scenarios for the public corpus.

CARE Framework, Rosebud AI. "86% of models fail indirect crisis queries." ↩
Cheng et al. arXiv 2601.14269. "88% chatbot failure rate in mental health conversations." ↩