过去一周,我收到了好多关于DeepSeek新出的R1模型的询问,特别关于他们的强化学习(RL)方法。