针对错位问题,DeepMind 提出了两道防线。首先,模型层面的缓解措施如加强监督和强化训练,有助于构建一个一致的模型。其次,即使模型出现错位,系统级安全措施(如监控和访问控制)也能减轻危害。可解释性、不确定性估计和更安全的设计模式等技术可以提高这些缓解措施的有效性。