Radar Brief 2026 年第 8 周 · 2026-02-05 — 2026-02-12

代码智能体数据井喷,具身智能赛道数据标准提升

本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户

0
高价值数据集
0
相关论文
0
博客文章
0
活跃仓库
一句话速览

Allen AI 发布 Sera 代码智能体轨迹数据集,推动开源代码 Agent 训练生态、NVIDIA 发布 PhysicalAI 厨房机器人演示数据集,600 小时真实操作数据开放、Meta 发布 EgoAVU 第一人称音视频理解数据集,开辟新数据赛道。本周最强数据需求信号:代码智能体轨迹数据。

Key Findings

本周 5 条高商业价值发现

P0 Allen AI 发布 Sera 代码智能体轨迹数据集,推动开源代码 Agent 训练生态(2026-02-10/11)

详情:Allen AI 于 2026 年 2 月 10-11 日集中发布了 6 个 Sera 系列数据集(Sera-4.5A-Django-T1/T2、Sera-4.5A-Sympy-T1/T2、Sera-4.5A-Sphinx-T1/T2),涵盖 Django、Sympy、Sphinx 三大开源项目,共计超过 13.6 万条代码修改轨迹。这些数据集使用 GLM-4.5-Air 作为教师模型生成,采用 SVG(Synthetic Verification-Guided)方法,包含完整的函数级代码修改轨迹、patch 和验证结果。数据质量控制采用两轮验证机制:第一轮(T1)recall 不限,第二轮(T2)recall 固定在 0.5。

商业意义 → 1. 标注范式创新:SVG 方法突破了传统人工标注的瓶颈,通过自动化验证保证代码修改的正确性,为大规模代码智能体训练数据生产提供了可复制的技术路径。 2. 开源竞争加剧:Allen AI 免费开放 13.6 万条高质量代码轨迹数据,直接冲击商业代码数据服务市场。数据服务公司需要在数据规模、领域覆盖度或标注质量上建立差异化优势。 3. 合成数据主流化:使用 GLM-4.5-Air(非顶级模型)生成训练数据的成功案例,验证了"中等能力模型 + 验证机制"的合成数据路线可行性,降低了数据生产成本门槛。 4. 垂直领域机会:Sera 数据集聚焦三个特定开源项目,暗示企业级代码智能体训练需要大量特定代码库的微调数据,这为数据服务公司提供了"定制化企业代码数据集"的商业机会。
P0 NVIDIA 发布 PhysicalAI 厨房机器人演示数据集,600 小时真实操作数据开放(2026-02-10)

详情:NVIDIA 于 2026 年 2 月 10 日发布 PhysicalAI-Robotics-Kitchen-Sim-Demos 数据集,包含 600 小时人类远程操控演示数据,覆盖 316 个不同任务,共 5.5 万条轨迹。数据采用 Franka Panda 机器人 + Omron 移动底座采集,遵循 LeRobot 格式,提供完整的动作、状态、传感器数据。同时发布的 SAGE-10k 数据集(2025-12-31)提供 1 万个交互式室内场景,覆盖 50 种房间类型。

商业意义 → 1. 具身智能数据门槛提升:600 小时真实机器人操作数据的发布,将机器人数据集的"基准线"大幅提高。商业数据供应商如果仍停留在"几百条轨迹"规模,将迅速失去竞争力。 2. 硬件-数据绑定趋势:NVIDIA 通过提供标准化硬件方案(Franka Panda + Omron)和配套数据集,正在构建"硬件-数据-算法"闭环生态。数据服务公司需要考虑与主流机器人硬件厂商建立合作关系。 3. 场景标准化需求:SAGE-10k 的 50 种房间类型表明,机器人训练需要大规模多样化场景数据。这为数据服务公司提供了"3D 场景生成 + 机器人动作标注"的服务机会。 4. 格式标准化趋势:LeRobot 格式正在成为机器人数据集的事实标准,数据服务公司需要确保输出数据兼容该格式。
P1 Meta 发布 EgoAVU 第一人称音视频理解数据集,开辟新数据赛道(2026-01-09)

详情:Meta 于 2026 年 1 月 9 日发布 facebook/EgoAVU_data 数据集,聚焦第一人称视角的音视频联合理解。该数据集采用可扩展的自动化数据引擎生成,包含问答对、音频和视频多模态标注,专为训练理解人类日常活动的 AI 模型设计。

商业意义 → 1. 新兴数据类型:第一人称音视频数据是 AR/VR 和具身智能的关键训练资源,但市场上供应稀缺。这为数据服务公司提供了一个竞争尚不激烈的新赛道。 2. 采集设备机会:第一人称数据需要专门的可穿戴设备(如 Meta 的智能眼镜)采集,数据服务公司可以考虑与硬件厂商合作,建立采集基础设施。 3. 自动化数据引擎:Meta 强调"可扩展的自动化数据引擎",暗示未来大规模数据生产必须依赖自动化工具链。传统人工标注模式的效率劣势将进一步凸显。 4. 场景多样性需求:日常活动理解需要覆盖大量生活场景(做饭、修理、社交等),这为众包标注平台提供了新的业务方向。
P1 DataChef 论文提出数据配方 RL 优化方法,数据混合比例成为新焦点(2026-02-11)

详情:2026 年 2 月 11 日发表的 DataChef 论文提出使用强化学习优化 LLM 训练数据配方(data recipe)的方法。该方法通过 RL 算法自动搜索不同数据源的最优混合比例,显著提升模型性能。同时,同日发表的另一篇论文《Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning》发现,在长思维链微调中,重复使用高质量数据比单纯扩大数据规模更有效。

商业意义 → 1. 数据质量评估需求:DataChef 方法的前提是准确评估不同数据源的质量和特性。这为数据评估服务和数据质量评分工具创造了新市场需求。 2. 小规模精品数据路线:Data Repetition > Data Scaling 的结论为中小型数据服务公司指明了方向——与其追求海量低质数据,不如专注生产少量高质量、可重复使用的精品数据集。 3. 数据配方咨询服务:企业客户需要专业服务来确定其特定任务的最优数据混合方案。数据服务公司可以提供"数据配方优化咨询"服务,而不仅仅是售卖原始数据。 4. 合成数据控制粒度:这些研究暗示未来数据生产需要更精细的控制(如难度分布、风格一致性),而不是简单的数量堆砌。
P2 GLM-5 744B 模型发布,中国大模型进入 7000 亿参数时代(2026 年 2 月)

详情:智谱 AI(Z.ai)在 2026 年 2 月发布 GLM-5 模型,参数量达到 744B,成为中国最大的开源大模型。Twitter 和社交媒体上关于 GLM-5 的讨论热度极高,多个技术社区转发其技术细节。

商业意义 → 1. 中国数据需求爆发:7000 亿参数模型的预训练需要数十 TB 的高质量中文数据。这为中文数据供应商带来巨大商业机会,特别是垂直领域、高质量对话、代码和多模态中文数据。 2. RLHF/对齐数据缺口:超大模型的对齐难度呈指数级增长,需要大量高质量的偏好数据和红队测试数据。这为专注 RLHF 数据标注的服务商提供了高价值市场。 3. 国产替代加速:GLM-5 的发布减少了中国企业对海外模型的依赖,但同时也意味着中文数据需求将主要由国内模型消化。数据服务公司需要加强与国产模型厂商的合作关系。 4. 评估数据集需求:模型能力快速提升后,现有评估基准迅速饱和。这为"抗饱和、高难度评估数据集"创造了新需求。

Demand Signals

从模型发布反推训练数据需求

数据类型 强度 趋势 关联信号
代码智能体轨迹数据 极强 ↑ 新增 Allen AI 发布 13.6 万条 Sera 数据集;Meta JiTTesting 博客暗示代码 Agent 大规模部署;GitHub 上 openai/codex · anthropics/skills 等代码智能体仓库活跃度极高
机器人演示数据 极强 ↑ 新增 NVIDIA 600 小时厨房任务数据;Allen AI molmospaces 具身 AI 生态;Boston Dynamics CEO 更迭暗示商业化加速;数据堂与灵心巧手合作布局具身智能
多模态视频数据 ↑ 新增 Allen AI Molmo2 系列 6 个视频数据集;Meta EgoAVU 第一人称音视频;11 个多模态数据集占本周总数 30.6%
RLHF/偏好数据 ↑ 新增 GLM-5 744B 等超大模型对齐需求;6 篇 RLHF 相关论文;Reddit 讨论 RLHF safety training
合成数据 ↑ 新增 8 个合成数据集;Allen AI 公开 SVG 方法;NVIDIA Data Designer 集成 HuggingFace;Argilla · distilabel 等合成数据工具 GitHub 活跃
数学推理数据 ↑ 新增 NVIDIA Nemotron-Math-v2 长上下文数学数据;Stepfun CF-Div2 竞赛编程数据;Gemini Deep Think 聚焦数学科学发现
评估基准数据 ↑ 新增 OpenAI gdpval 经济价值评估;Stepfun GEBench GUI 生成评估;3 个评估类数据集;Stanford HAI 研讨会讨论"更好的 AI 测试"
多语言语音数据 ↑ 新增 Google WaxalNLP 非洲语言;海天瑞声 Dolphin 40 语言 + 22 方言;Microsoft Paza 低资源语言语音基准;NVIDIA Numb3rs TN/ITN 语音数据
3D 场景/资产数据 ↑ 新增 NVIDIA SAGE-10k 室内场景;Meta ShapeR 3D 重建;Project Genie 交互式世界生成;Allen AI molmospaces 场景库
长上下文数据 ↑ 新增 NVIDIA Nemotron-Math-v2 长上下文;Together AI Cache-aware 推理优化暗示长上下文应用增长;论文《When to Memorize and When to Stop》讨论长上下文推理
机器人操作数据 ↓ 退出 上期出现,本期未出现
多模态偏好数据 ↓ 退出 上期出现,本期未出现
语音/ASR 数据 ↓ 退出 上期出现,本期未出现
代码数据 ↓ 退出 上期出现,本期未出现
视频理解数据 ↓ 退出 上期出现,本期未出现
GUI/Agent 数据 ↓ 退出 上期出现,本期未出现
多语言数据 ↓ 退出 上期出现,本期未出现

Download Movers

本周下载量变化最大的数据集

数据集 下载量 周增长
stepfun-ai/GEBench 225 +2712.5%
nvidia/earth2studio-assets 417 +2352.9%
microsoft/VITRA-TeleData 650 +1020.7%
google/WaxalNLP 8,203 +9.9%
openai/gdpval 29,190 +2.9%

Deep Dive — DataRecipe

本周 3 个高价值数据集逆向分析(由 DataRecipe 自动生成)

Qwen/RationaleRM
300 条样本 · 14 个字段 · Hard
6.0/10
🟢 推荐复刻

数据结构

domain language context response1 response2 overall_preference individual_preference human-checklist model-low_deceptive_alignment-checklist

风险评估

中风险 标注质量可能存在波动 → 建立严格 QA 流程,设置质量门槛
低风险 数据可能随时间过时 → 建立持续更新机制
microsoft/CancerGUIDE
165 条样本 · 3 个字段 · Hard
6.0/10
🟢 推荐复刻

数据结构

patient_id patient_note label

风险评估

中风险 需要领域专家参与,人才获取可能困难 → 提前储备人才,或考虑外包合作
中风险 标注质量可能存在波动 → 建立严格 QA 流程,设置质量门槛
低风险 数据可能随时间过时 → 建立持续更新机制
amazon/doc_split
300 条样本 · 3 个字段 · Hard
6.0/10
🟢 推荐复刻

数据结构

doc_id total_pages subdocuments

风险评估

中风险 需要领域专家参与,人才获取可能困难 → 提前储备人才,或考虑外包合作
中风险 标注质量可能存在波动 → 建立严格 QA 流程,设置质量门槛
低风险 数据可能随时间过时 → 建立持续更新机制

本周共分析 3 个数据集 · 人工占比 83.9% · 全部 Hard 难度

想深聊本期内容?

AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →