Online Data Filter:大家将预先基于难度的数据筛选策略记为 Offline Data Filter。这种方案虽然可以帮助 RL 进行稳定训练,但其数据利用率降低了,因此大家希翼在模型训练过程中动态进行基于难度的数据筛选(类似 PRIME)。然而,大家发现训练结果不如 offline data filter 稳定,大家认为这是因为每次更新时的数据量不同,导致梯度不稳定。
Model Size:尽管目前一些工作,比如 ORZ、SimpleRL 在 7B level 的 LLM 上也复现了 R1 的表现,但大家在多模态推理场景下,难以通过 8B 的 InternVL Pretrained 进行成功复现。大家认为这受制于多模态推理数据质量以及多模态预训练数据中很少存在 long CoT 数据。