Science ❯ Computer Science ❯ AI Research ❯ Model Evaluation

Backdoor Attacks

Anthropic-Led Study Finds About 250 Poisoned Documents Can Backdoor LLMs Regardless of Size

Routine safety training can largely neutralize such simple backdoors.