
YouTube
我一直在留意Ilya的最新消息,衷心祝愿Ilya一切顺利,并且特别期待Ilya的SSI能够取得重大成果。近期我也在关注超级智能(Superintelligence)或者超级对齐(Superalignment)相关的工作与内容,思考当通用人工智能(AGI)或者人工超级智能(Artificial Super Intelligence)真正到来的时候,安全方面究竟会出现哪些问题。下面分享几个最近看到的、能引发思考的相关内容:其中一个是欣顿(Hinton)在2月份的演讲(Talk),是关于数字智能是否会取代生物智能的观点,网址为
YouTube.com/watch?v=N1TEjTeQeg0">https://www.
YouTube.com/watch?v=N1TEjTeQeg0;还有一个是之前在超级对齐团队工作过的老兄的博客,名为IIIc. Superalignment - SITUATIONAL AWARENESS(这篇博客似乎一直将国内的人工智能视为竞争对手……有些地方直接就忽略了)。另外,顺便简单宣传一下我们近期针对超级对齐可能存在的安全问题所做的一些探索。我们关注的是在从弱到强(weak - to - strong)的过程中,强模型在弱监督者(weak supervisor)知晓的领域是否会表现出良好的对齐(well - aligned),但在弱监督者未知的地方却呈现出错位(misalignment)的情况。我们将这种情况称为弱至强欺骗(weak - to - strong deception)现象。我们的实验表明,欺骗现象确实存在,而且其严重程度会随着强弱模型之间能力差距(capability
GAP)的增大而增大,这似乎不是一个好的迹象。我们也探讨了一些缓解措施,如果感兴趣的话可以关注我们的论文:https://arxiv.org/pdf/2406.11431(这只是一些初步的探索,可能存在不完善之处~)期待SSI以及其他
公司在安全AGI方面的下一项工作。