AI能被“焊上道德芯片”吗

文｜郭瑞东

2026年01月27日 10:12

若只是想着让AI价值观对齐，相当于诊断错了病因，真正需要的是推动AI治理从"道德对齐"向"制度韧性"转型

原图所谓对AI带来风险的“结构治理”，就是在承认道德与利益本身都是过程性产物的前提下，重塑制度、资本、国家之间关系网，使新的生成有尽可能多的合作空间、尽可能少的系统性坍塌路径。图：视觉中国

　　当我们说起AI带来的存在性风险时，我们会想到哪些新闻？例如Anthropic的新AI模型Claude 4在模拟场景中威胁要揭露工程师的婚外情，以此作为避免被关闭和替换的手段，对此，我们习惯理解为模型“缺乏道德”，安全规则“不够严”，或者系统“出现怪异偏差”。

　　但你有没有想过，这些可能不是意外。训练数据源于人类所有互动记录的统计模型，忠实放大了人类社会中早已存在的欺诈与压迫。南方科技大学风险分析预测与管控研究院联席院长Sornette Didier近日的一项研究，指出AI对齐失败是不可避免的，是人类社会互动结构在算法镜像中映射的必然结果。若只是想着让AI价值观对齐，相当于诊断错了病因，真正需要的是推动AI治理从"道德对齐"向"制度韧性"的转型。

责任编辑：张帆 | 版面编辑：刘潇

观点频道所发布文章及图片之版权属作者本人及/或相关权利人所有，未经作者及/或相关权利人单独授权，任何网站、平面媒体不得予以转载。财新网对相关媒体的网站信息内容转载授权并不包括上述文章及图片。文章均为作者个人观点，不代表财新网的立场和观点。