【导语随着基础模型规模扩大真实数据在成本、隐私等方面的限制成为AI发展瓶颈合成数据正从补充转变为核心机制。南洋理工大学等研究人员提出统一框架重新定义合成数据方法边界并给出发展路径。】重新定义合成数据方法边界很多工作默认「合成数据 生成模型」而该综述跳出这一单一视角重新定义了「数据合成」的方法边界。合成数据并不等同于“用生成模型造数据”反演、仿真、增强等方式也应被纳入合成数据的范畴。合成数据应用的能力路径演进该综述从更高层次出发将合成数据的应用组织为一条逐步演进的能力路径。最基础的是数据中心人工智能解决真实数据稀缺等问题接着是模型中心人工智能用于能力注入然后是可信人工智能用于隐私保护等最后是具身智能支持感知、交互与泛化能力。文章还将这四类应用场景细化到30 个具体机器学习任务层级构建起从宏观分类到具体问题的系统化映射。合成数据面临的挑战与机遇合成数据虽取得显著进展但仍面临一系列挑战。核心风险是模型坍塌会影响模型性能与泛化能力。数据效用与隐私保护的权衡也是长期问题过强隐私约束降低数据可用性过高数据保真度有隐私泄露风险。用于模型评测时还可能引入生成 - 评测偏差影响对模型真实能力的判断。在方法层面主动式数据合成和多模态数据合成等前沿方向有待探索且缺乏统一标准化的合成数据质量评测体系。编辑观点合成数据有望打破真实数据瓶颈成为AI发展关键。虽面临挑战但发展潜力大未来或改变AI竞争格局。