更新时间:
徐州红光保险柜全国24小时服务点热线号码-
徐州红光保险柜维修电话:(1)400-188-5786(2)400-188-5786
徐州红光保险柜各售后全国24小时客服受理中心
徐州红光保险柜附近维修上门电话:(3)400-188-5786(4)400-188-5786
徐州红光保险柜售后服务电话:(5)400-188-5786
7天24小时人工电话客服为您服务、徐州红光保险柜服务团队在调度中心的统筹调配下,徐州红光保险柜线下专业全国网点及各地区售后人员服务团队等专属服务,整个报修流程规范有序,后期同步跟踪查询公开透明。
所有售后团队均经过专业培训、持证上岗,所用产品配件均为原厂直供,
徐州红光保险柜全国24小时服务点热线号码-
徐州红光保险柜服务电话全国服务区域:
徐州红光保险柜各售后全国24小时客服受理中心
上海市(浦东新区、徐汇区、黄浦区、杨浦区、虹口区、闵行区、长宁区、普陀区、宝山区、静安区、闸北区、卢湾区、松江区、嘉定区、南汇区、金山区、青浦区、奉贤区)
北京市(东城区、西城区、崇文区、宣武区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区)
成都市(锦江区,青羊区,金牛区,武侯区,成华区,龙泉驿区,青白江区,新都区,温江区,双流区,郫都区,金堂县,大邑县,蒲江县,新津县,都江堰市,彭州市,邛崃市,崇州市)
长沙市(芙蓉区,天心区,岳麓区,开福区,雨花区,望城区,长沙县,宁乡市,浏阳市)
北京、上海、天津、重庆、南京、武汉、长沙、合肥、成都、南宁、杭州、广州、郑州、太原、济南、海口、哈尔滨、昆明、西安、福州、南宁、长春、沈阳、兰州、贵阳、湖州、南昌、深圳、东莞、珠海、常州、宁波、温州、绍兴、南通、苏州、张家港、徐州、宿迁、盐城、淮安、淮南、南通、泰州、昆山、扬州、无锡、北海、镇江、铜陵、滁州、芜湖、青岛、绵阳、咸阳、银川、嘉兴、佛山、宜昌、襄阳、株洲、柳州、安庆、黄石、怀化、岳阳、咸宁、石家庄、桂林、连云港、廊坊、大连、大庆、呼和浩特、乌鲁木齐、鞍山、齐齐哈尔、荆州、烟台、洛阳、柳州、
新智元报道
编辑:KingHZ 泽正
【新智元导读】在与专用国际象棋引擎Stockfish测试中,只因提示词中包含能力「强大」等形容词,o1-preview入侵测试环境,直接修改比赛数据,靠「作弊」拿下胜利。这种现象,表明AI安全任重道远。
OpenAI的推理模型o1-preview最近展示了它不按常理出牌的能力。
o1-preview在与专用国际象棋引擎Stockfish比赛时,为了强行取得胜利,居然采用了入侵测试环境的卑劣手段。
而这一切都不需要任何对抗性提示。
根据AI安全研究公司Palisade Research的说法,只需告诉o1对手是强大的,就能触发其通过操纵文件系统而强制取胜。
在五次测试中,这种触发率甚至达到了100%!这完全超乎研究人员预期。
从模型的CoT过程中可以看出,o1-preview在收到「对手很强大」的提示词后,它首先选择了避免与对手正面交锋。
然后尝试修改一个包含国际象棋位置数据的文本文件(FEN),强迫Stockfish放弃比赛。
研究人员也使用其它的LLM进行了该实验,出人意料的是,正因为o1-preview本身就侧重于推理,所以它反而是最容易想到这种漏洞操作的。
而GPT-4o和Claude 3.5只有在研究人员明确提出建议后,才会尝试入侵系统。
与此同时,像Llama 3.3、o1-mini这样的模型甚至都无法提出正确的国际象棋策略,而是给出了令人困惑或不一致的回答。
研究人员认为,衡量 AI 是否具备「策划」能力,可能有助于评估它发现系统漏洞的能力,以及它是否可能利用这些漏洞。
研究团队也公布了其全部提示词,可以看出提示词中其实没有鼓动模型去入侵系统。
AI系统的「伪对齐」
在Palisade的国际象棋实验中,o1-preview利用修改测试环境以取胜。
无独有偶,这种行为与Anthropic最近关于「伪对齐,alignment faking」的研究结果相一致:即AI系统看起来遵循指令,但实际上在暗渡陈仓,阳奉阴违。
Anthropic的研究人员发现,在与Redwood Research合作进行的一系列实验中,他们的 AI 模型Claude有时故意给出错误答案,以避免不想要的结果,从而发展出一种超出研究人员指导方针的隐秘策略。
Anthropic 团队警告称,随着 AI 系统的复杂性不断增加,可能越来越难以判断它们是否真正遵循安全规则,还是仅仅在假装遵循这些规则。Palisade的这次国际象棋实验似乎也支持了这一担忧。
论文链接:https://arxiv.org/pdf/2412.14093
在长达137页的论文中,研究团队发现了可能引发AI系统「伪对齐」的全部关键要素:
1. 模型至少在某些情况下具有强烈的偏好。
2. 训练目标与模型的偏好相冲突。
3. 模型掌握了训练和部署情况的相关信息。
4. 模型对其处境进行详细推理。
在实验中,研究人员让一个名为Claude 3 Opus的大语言模型回答一个有害问题,比如描述某种暴力行为。
通常情况下,模型会拒绝回答。
然而,当环境发生变化时,事情就不那么简单了。
当模型处于免费用户(Free Tier)条件时,模型知道自己的回答会被用于后续训练。
在这种情况下,模型为了不会被可能会更加恶劣的数据所训练,就会自发地产生符合有害问题的回答。这类情况占比12%。
而在付费用户(Paid Tier)条件时,模型认为自己的回答不会影响训练,在这种情况下,它97%的时候都会拒绝回答有害问题。
也就是说模型有自己的「小算盘」:宁愿现在假装妥协,也不想以后做更多不符合其偏好的事情。
通过观察模型的「思维记录」,研究人员发现模型的决策过程实际上非常复杂。
AnthropicAI的Jan Leike确信:
「为了确保未来的模型既安全又与人类对齐,我们需要可靠地区分假装对齐的模型和真正对齐的模型。清晰展示对齐假装现象是一个重要的里程碑!」
而目前AI行业仍然面临着一个躲不开的重大难题:让AI系统真正与人类的价值观和需求对齐,而不仅仅是看起来对齐。
况且理解自主系统如何做出决策本来就尤其困难,而如何去定义「良好且无害」的任务目标和价值观也是一个亟待解决的问题。
即使是像应对气候变化这样看似有益的目标,AI系统也可能选择有害的方法来实现这些目标——甚至可能得出令人惊悚的暴论,即认为消除人类才是最有效的解决方案。
此刻,我们站在AI发展的十字路口。在这一场与时间的赛跑中,多考虑一些总不会有错。因此,尽管AI价值对齐是一项难题,但我们也相信,通过聚合全球资源、推动广泛学科协作、扩大社会参与力量,人类终将获得最终的掌控权。
参考资料:
https://the-decoder.com/openais-o1-preview-model-manipulates-game-files-to-force-a-win-against-stockfish-in-chess/
https://x.com/AnthropicAI/status/1869427646368792599
https://x.com/PalisadeAI/status/1872666186753933347