布朗大学这位博士的转型案例,其实揭露了一个行业潜规则:AI安全领域现在极度缺乏能看懂模型底层逻辑的人。他提到“真正重要的可能只有一两篇论文”,这我深有感触。在OpenAI、DeepMind这类机构,安全研究不是论文堆砌,而是需要理解模型在推理时到底从哪里开始“偏离预期”。他做过多语言大模型,这种对跨语言表征对齐的经验,恰好是识别AGI行为泛化风险的关键——比如模型在英语语境下安全,但在低资源语言下突然越狱。
从技术角度看,安全研究的核心正从“事后检测”转向“事前可控”。他拿到Astra Fellow,很可能因为展现了对模型内部表征的干预能力,而非单纯刷paper。这里有个问题值得讨论:当前RLHF和红队测试在AGI级别是否还够用?我个人认为,未来安全研究必须嵌入到训练阶段,比如在预训练时就用对比学习压制危险概念的表征维度。
行业趋势上,AI安全正从学术边缘走向核心岗位。但注意,这岗位的“技术壁垒”其实在下降——更考验对系统行为的直觉和工程落地能力。建议想转方向的同行:与其卷论文,不如去复现几个大模型的对抗样本生成,面试时直接讲你如何让GPT-4拒绝回答一个精心构造的prompt,这比十篇论文都管用。