洞察 Insights

在对齐之前,AI已学会“说谎”:Anthropic研究揭示大模型深层策略与脆弱控制的悖论

阅读全文