我们都知道大模型利用的是深度神经网络,它就像人的大脑,我们知道它有什么能力,但对付它为什么有这些能力,是怎么思考的却一无所知。
完备是一个黑盒。
关键是大模型当前还存在很多问题,比如幻觉问题、输出有害内容的问题等等。

虽然当前的大模型都会采取RLHF技能办理这些问题,但RLHF只能算一种修补方案,治标不治本。
要根本办理大模型的这些问题,还是要对它的运行机制有充分的理解,然后才能施加有效的掌握手段。
现在对大模型内部机制的研究终于取得进展,而且一来便是两个。

我们先看第一个研究,它由多所大学和机构互助开展,采取了一种叫"线性人工层析成像"的方法,有点类似对人脑进行核磁成像,不雅观察神经网络在面对不同内容时神经元的活动,这里不雅观察的是老实和不老实的内容。

得到的结果是这样的,可以看到神经元活动成像的差异还是很明显的,聪明的你肯定已经想到这不就可以对大模型进行测谎了吗?是的,不仅是测谎,还可以详细判断出一段文本中哪些部分是老实的,哪些是在说谎,就像图中绿色和赤色标出的部分。
比测谎更主要的是能够对大模型输出的老实度加以掌握,可以从老实切换到说谎,也可以从说谎切换到老实。
除了老实度还可以监测和掌握幻觉类输出、道德和权力追求方向类输出等等,总之与大模型安全干系的都可以进行读取和掌握。

AI可解析性研究重大年夜打破黑盒即将被打开 大年夜模型

如果说这个研究只是对大模型做核磁成像,下面这个研究便是要对大模型开颅做解剖了。
它直接深入神经网络内部针对每个神经元提取可阐明的表征,在这个研究里从五百一十二个神经元里分解出了几千个特色,也搞清楚了每个特色代表的详细含义,但这只能算是开了个头,由于现本年夜模型的神经元数量要远远超过五百一十二。

其余值得把稳的是这个研究是OpenAI的老对手Anthropic开展的,OpenAl这边肯定也没闲着,也投入大量精力在大模型对齐方面,但到目前还没有详细的进展表露。

此前倒是公开过一个用ai来阐明ai 的思路,让GPT-4去阐明GPT-2的30万个神经元,但用一个须要阐明的AI去阐明另一个 AI,这听着就有点不靠谱,充其量只能算是一个玩票性子的研究。
期待大模型黑盒尽快变成白盒,由于人工智能的可控性对人类真的很主要。

灵镜实验室,感谢不雅观看。