当我们说起AI带来的存在性风险时,我们会想到哪些新闻?例如Anthropic的新AI模型Claude 4在模拟场景中威胁要揭露工程师的婚外情,以此作为避免被关闭和替换的手段,对此,我们习惯理解为模型“缺乏道德”,安全规则“不够严”,或者系统“出现怪异偏差”。
但你有没有想过,这些可能不是意外。训练数据源于人类所有互动记录的统计模型,忠实放大了人类社会中早已存在的欺诈与压迫。南方科技大学风险分析预测与管控研究院联席院长Sornette Didier近日的一项研究,指出AI对齐失败是不可避免的,是人类社会互动结构在算法镜像中映射的必然结果。若只是想着让AI价值观对齐,相当于诊断错了病因,真正需要的是推动AI治理从"道德对齐"向"制度韧性"的转型。



















京公网安备 11010502034662号 