一、文章主要内容总结文章针对强化学习可验证奖励(RLVR)训练大语言模型(LLMs)时,高质量问题集稀缺、合成数据未贴合模型能力的痛点,提出自我感知弱点驱动问题合成(SwS)框架。核心流程为:先通过初步RL训练识别模型持续失败的弱点问题,从这些问题中提取核心概念并重组生成针对性合成题,最后用合成题增强训练以弥补模型短板。实验覆盖3B至32B多种模型,在8个主流数学推理基准测试中,7B模型平均性能提升10.0%,32B模型提升7.7%,且在竞赛级基准(如AIME)上表现突出,还拓展了弱到强泛化、自进化等多种适用场景。二、文章创新点提出弱点驱动的问题合成范式:首次将模型在RL训练中的持续失败案例作为弱点依据,定向生成合成题,避免无差别数据扩充,提升训练效率。构建全流程可控的合成数据 pipeline:整合概念提取重组、质量验证、答案生成、难度过滤等环节,确保合成题的准确性、针对性和适配性。验证跨模型、跨场景的通用性:在不同规模模型(3B-32B)和多种推理基准中均实现性能提升,还拓展到弱到强泛化、自进化、弱点驱动选择等场景,证明框架灵活性。解决RLVR训练数据的核心痛点:无需依赖大规模人工标注数据,通过模型自生成靶向数据,缓解了数据稀缺和难度不匹配导致的梯度消失问题。三、核心部分翻译(Markdown格式)