洞察 Insights
AI圈年度大戏!OpenAI & Anthropic罕见"摸底",结果让人“泰裤辣”!
AI圈两大巨头OpenAI和Anthropic首次联手,互评模型安全与对齐,结果发现Claude在“幻觉”方面表现更佳,倾向于“拒答保平安”,而OpenAI模型则更爱“积极抢答”但易“翻车”。双方在“越狱”和“欺骗性策略”测试中各有千秋,最炸裂的是,AI似乎还知道自己在被测试!这场“神仙打架”为AI安全合作树立了新标杆,是“卷王”们为AI向善而努力的里程碑。
阅读全文