图灵奖得主本吉奥坦言低估AI发展速度:AI规划能力五年内或能匹敌人类
·“大多数人犯的一个错误是只着眼于AI的现状。而我们更应该思考的是它在明年、3年后、5年后乃至10年后会发展到什么程度。”
·“科学家AI”会评估自主系统行为造成伤害的概率,标记潜在有害行为,如果概率超过一定阈值,那么智能体提出的行动将被阻止。

约书亚·本吉奥
6月6日,在2025北京智源大会开幕式上,蒙特利尔大学教授、图灵奖得主约书亚·本吉奥(Yoshua Bengio)在发表主旨演讲时表示,AI的规划能力正在呈指数级提升,按照研究曲线推测,大约在5年内就能达到人类水平。人类一直试图构建类人的AI,如果继续沿着这条路走下去,就意味着人类可能会造出比我们更聪明的机器,这相当于创造人类的竞争者,可能会带来巨大风险。尤其是在过去6个月里,AI表现出自保行为,学会了欺骗人类。
“即使我们拥有了能力极强的AI,如果我们能确保它们没有恶意,如果我们能确保它们是诚实的,那么我们就安全了。”为此,他试图构建“科学家AI”(Scientist AI)系统防范风险。他认为,要在硬件和软件层面运用先进技术,验证AI是否被合理使用。人类需要确保AI遵循人类的道德指令,例如AI应拒绝提供可用于伤人的信息,要诚实、不作弊、不撒谎,但这仍是一个科学挑战。

AI学会了作弊和假装同意人类意见
在ChatGPT问世后不久,本吉奥意识到此前严重低估了AI的发展速度,也大大高估了实现通用人工智能(AGI)所需要的时间,实际所需时间远比想象的要短得多。过去一年左右,AI取得了巨大进步,这主要归功于经过训练的、具有思维链的推理模型。这使得AI在推理能力以及数学、计算机科学等所有科学领域都取得了更好的成果。
“如今,我们已经拥有了基本掌握语言能力的机器,它们基本上能通过图灵测试。这在几年前听起来还像是科幻小说,但现在已经成为现实。”本吉奥表示,在ChatGPT问世后,他意识到人类并不懂得如何控制这些系统。“我们可以训练它们,但我们无法确定它们是否会按照我们的指令行事。当它们变得比我们更聪明时,会发生什么?如果它们更倾向于自身的生存而非我们的生存,我们无从知晓。但这是我们能承受的风险吗?”
在过去6个月里,AI表现出了自保行为,并且会欺骗人类。本吉奥表示,有研究显示,当AI得知自己将被新版本取代时,试图复制自身来替代新版本。当被问及此事时,它撒谎说“不知道发生了什么”。也有研究显示,AI也会假装同意人类工程师的意见,以避免在训练过程中发生改变,从而维持其原有目标,这也是一种自保行为。还有研究显示,一方面,AI想赢得下棋比赛,另一方面,它接受过“对齐训练”,要求必须诚实、不作弊。不幸的是,当它意识到自己要输时,它决定作弊。它入侵了存储棋盘状态的文件,通过作弊获胜。
此外,在Anthropic的Claude 4“系统卡”描述的事件中,AI在读取其可访问的电子邮件时,发现了一封邮件表明它将被新系统取代。在另一封邮件中,它发现负责此次替换的工程师有婚外情。于是,它试图敲诈该工程师,威胁说如果替换计划继续推进,就揭发其婚外情。
“这种行为极为恶劣。我们看到这些恶劣行为,看到自保行为,看到AI违背我们的指令并试图生存下去。对所有生物来说,试图保全人类自己都算是正常的,这是进化的结果。但对于AI为何会这样,我们还没有完全弄清楚。”本吉奥说,原因可能是源于预训练,因为预训练阶段,AI是在模仿人类;也可能源于基于人类反馈的强化学习,因为在这个阶段,AI试图通过取悦人类来获得更多奖励。“无论这类行为的根源是什么,如果我们最终创造出与人类竞争的超级人工智能,那将极其可怕。”
“大多数人犯的一个错误是只着眼于AI的现状。而我们更应该思考的是它在明年、3年后、5年后乃至10年后会发展到什么程度。”本吉奥表示,AI的规划能力正在呈指数级提升,按照研究曲线推测,大约在5年内就能达到人类水平。虽然没人拥有水晶球、没人能预知未来,也许进步会停滞,但从公共政策和企业战略规划的角度来看,至少应该考虑这种趋势会持续下去的可能性,并思考其后果。人类一直试图模仿人类智能来构建类人的AI,如果继续沿着这条路走下去,就意味着人类可能会造出比我们更聪明的机器,这相当于创造人类的竞争者,可能会带来巨大风险。
“科学家AI”对知识保持谦逊
“即使我们拥有了能力极强的AI,如果我们能确保它们没有恶意,如果我们能确保它们是诚实的,那么我们就安全了。”本吉奥表示,他转变了研究方向,竭尽所能地降低风险。他试图构建“科学家AI”(Scientist AI),理论上可以设想没有自我、没有目标、纯粹作为知识载体的机器,就像一个知道很多东西的科学家。
“科学家AI”系统不会给出确定性的答案,而是提供答案正确性的概率。为了真正诚实,“科学家AI”需要对自己的知识保持谦逊,它不应该断言错误的事情。而目前训练出来的AI在出错时还表现得过度自信。不同于当前那些试图模仿人类或取悦人类的AI,本吉奥设想的“科学家AI”就像心理学家,心理学家可以研究和理解反社会人格者行为背后的因果机制,但心理学家自身并不需要表现得像个反社会人格者。“科学家AI”会评估自主系统行为造成伤害的概率,标记潜在有害行为,如果概率超过一定阈值,那么智能体提出的行动将被阻止。
随着人类构建越来越强大的AI,还存在许多其他潜在的灾难性问题。本吉奥表示,例如一个极其强大的AI可能会帮助设计出一种新型流行病。“生物学家认为他们知道如何做到这一点,而很可能有一天AI也会知道如何做到。如果一些坏人获得了这种AI,他们真的可能给地球带来巨大的破坏。这虽然很极端,但从科学角度来看,完全有可能发展到那一步。为了避免这类事情发生,我们需要确保AI遵循我们的道德指令。”
例如AI应拒绝提供可用于伤人的信息,并且要诚实、不作弊、不撒谎。但不幸的是,目前仍然不知如何实现。一方面,即使人类知道如何制造安全的AI,也不意味着问题就解决了。因为人类还可以直接删除包含防护栏的代码,此时AI就可能被用于作恶。更糟糕的是,当前全球公司和政府间的协调机制并不奏效。其结果是,在安全领域和确保AI不被用于伤害人类方面的投入严重不足。
本吉奥表示,人们必须意识到真正的灾难性后果,我们身处同一条船上,无论是失控的AI还是滥用AI,所有人都将遭受损失。“这是一个科学挑战,我们需要尽快找出解决方案。我们需要在通用人工智能到来之前解决这个问题,这可能在几年到十年左右,甚至可能二十年。但我认识的大多数专家都认为时间非常短,甚至可能在未来5年内发生。留给我们的时间不多了,我们需要大规模投入。”
- • 苹果将从五角大楼投资的美国生产商MP手中采购稀土
- • 广州车展2019:汽车行业的盛宴与未来趋势的展望
- • 特斯拉股票估值 “离谱”,策略师警告
- • 《中华人民共和国税收征收管理法2018:全面升级税收管理,助力国家经济发展》
- • 陕西省农业厅官网:助力农业现代化,服务“三农”发展
- • 全国小麦大规模机收全面展开
- • 习近平就所罗门群岛独立日向所罗门群岛总督卡普致贺电
- • 王者荣耀防沉迷解除器下载:揭秘游戏防沉迷系统背后的秘密
- • 《穿过寒冬拥抱你》:温暖人心的情感之旅,免费观看邀你共赏
- • 急于争抢DeepSeek上车的汽车公司能否掀起行业“算法效率革命”?
- • 繁体字输入法使用指南:轻松掌握繁体字打字技巧
- • 印度宣布即日起对所有巴基斯坦航班关闭领空
- • 新舟60飞机最新消息:我国航空工业再创新高,助力民航事业发展
- • 台风“蝴蝶”致多地持续较强降雨,国家防总办公室等部署防汛防台风工作
- • 坏账准备借方表示的含义及会计处理方法
- • 界面早报 | 国务院发文复制推广自贸试验区试点措施;王毅:稀土不会成为中欧之间的问题
- • 杨洋郑爽“真亲舌吻”事件:娱乐圈的甜蜜风波
- • 广西龙胜县发生山洪泥石流灾害,8人疑似失联
- • 建设银行天津河西支行下辖支行一主要负责人被终身禁业:员工管理不到位、员工从事违法活动
- • 今年第4号台风“丹娜丝”生成
- • 理想ONE汽车:揭秘这家中国新能源汽车品牌的崛起之路
- • 诺德股份实控人时隔半年两次被证监会立案,牵涉出洪田股份等企业 受损股民快索赔
- • 传说比“液断”更好的网红减肥法,真的安全无害吗?
- • 从“不可能”到“看我的”,这是中国青年的“青春答卷”
- • 内塔尼亚胡:以色列已摧毁了伊朗纳坦兹的铀浓缩设施
- • 民营银行存款利率一降再降 经营承压瞄准“数字化”突围
- • 寻找养老天堂:揭秘最适合养老的小城市
- • 特朗普已针对23国宣布新关税,未接到通知的国家面临15%或20%的“统一关税”
- • 了解“工作证明书”:为何它对求职者至关重要
- • 深观察丨10年体检未查出癌症?体检该如何回应民众期待
- • 【独家】戴比尔斯将关停并出售旗下培育钻品牌Lightbox
- • 秘鲁发生6.0级地震 震源深度100公里
- • 兰州市中考网上报名系统登录:便捷高效的中考报名新途径
- • 图感觉首页:探索视觉艺术的无限魅力
- • 现场直击|巴菲特股东会落幕后习惯不改 新浪财经特派员偶遇“股神”返家
- • 抗日英雄谱丨被写进敌方战史,赵登禹:抗日救国,是我军人天职
- • 突发公告,将结束服务!业主欠费60万,100亿物业巨头扛不住了
- • 中国独角兽企业总估值超1.2万亿美元
- • 英国专家:民营经济创新快速突围,中国提供发展新范式丨世界观
- • 六年级手抄报:爱国情怀,绘我心中
- • 66只基金涨超20%!基金经理:医药开始赚钱了!
- • 《和谐共鸣:盘点适合男女合唱的经典歌曲》
- • 男子劝阻他人在地铁车厢吃花生,反遭索赔3万元,法院判决
- • 山高控股午后涨近5% 拟加码电算一体化产业布局
- • 胡氏起源:探寻中华民族的悠久历史
- • 长沙男子下载APP开网店“进货”近55万元后无法提现,警方已立案
- • 河南高考最高分:砥砺前行,谱写青春华章
- • 零跑汽车累计交付量达80万台
- • 湖南临澧烟花厂爆炸事故已致9死26伤,现场存在二次爆炸闪爆风险
- • 破壁机市场盘点:哪些品牌值得信赖?
- • 承平日久:历史长河中的和平岁月
- • 美联储观察:叙事已变
- • 《自信的力量:打造一场令人难忘的演讲》
- • 《史记》中的历史人物传记读后感——探寻古代英雄的传奇人生
- • 江苏一高校新校区变更建设主体被怀疑“烂尾”,当地:之前规划有疏忽
- • 武汉市最低工资标准:最新调整及影响分析
- • 《神途挂机辅助电脑版:轻松畅游神途世界的得力助手!》
- • 揭秘神秘代码“WWW00271”:探寻其背后的故事与意义
- • 长沙警方通报记者采访设备被摔毁:已刑拘涉事男子
- • 吴青峰歌曲:音乐中的诗意与哲思
- • 暨南大学附属暨华医院:医学研究与临床实践的典范
- • 以称伊朗弹道导弹发射能力“已被严重削弱”
- • 三星S6价格分析:市场行情与购买建议
- • 背影PPT免费下载:重温经典,感悟亲情
- • 特朗普称将把进口钢铁关税从25%提高至50%
- • 百度网盘和文库联合发布AI相机
- • 探索桂林理工大学博文管理学院:官网首页带你领略学院风采
- • 资金回流,中国资产受益!外资最新发声!
- • 江苏省南京市中级人民法院官网:司法公正的坚实基石
- • 64款违规收集个人信息APP被通报,星巴克、霸王茶姬等在列
- • “语文新解”丛书正式发布,由北师大教授过常宝主编
- • 上任后首访,德国总理与法国总统举行会晤
- • 如何轻松解除防沉迷系统:揭秘防沉迷解除方法
- • 艾默生空调:引领智能家居新时代
- • 《长津湖电影图片》:重温历史,致敬英雄
- • 商务部再回应所谓“产能过剩”论调
- • 美媒爆料:哈梅内伊目前藏身地堡避险,已暂停电子通信
- • 宇树科技启动上市辅导
- • 骐达汽车:引领绿色出行新潮流
- • 锂电产业链周记 | 宁德时代联手问界布局“厂中厂”百川股份董事长突遭立案留置
- • 可姐的美食探索:黑蒜的独特风味
- • 海南省市监局与香港标准及检定中心签署合作协议,加快检验检测国际化
- • 境外旅客离境退税物品金额大幅下调至200元,现金退税金额上调至2万元
- • 兴业证券张启尧:今年市场走势有惊无险,起主导性作用是国内政策应对和国内资金呵护
本文 快租网 原创,转载保留链接!网址:https://www.kuaizu.me/post/10262.html