W21 AI 数据情报 — 集识光年

一句话速览

Allen AI 在 2026-05-04 集中暴露 MolmoAct2 机器人数据簇，扫描期内机器人数据集数量从 7 个增至 99 个 [P0]、NVIDIA 在 2026-05-01 至 2026-05-06 连续发布 Physical AI 与编码 Agent 数据，视频异常与软件轨迹同时升温 [P0]、Google 的非英语语音数据下载加速，google/WaxalNLP 在比较期内增长 83.8% [P1]。本周最强数据需求信号：机器人操作轨迹与语言指令。

Key Findings

本周 5 条高商业价值发现

P0 Allen AI 在 2026-05-04 集中暴露 MolmoAct2 机器人数据簇，扫描期内机器人数据集数量从 7 个增至 99 个 [P0]

Allen AI 本周共有 100 个数据集进入扫描，其中大量为 2025-11-24 至 2026-01-27 采集的 MolmoAct2-BimanualYAM 子集，并在 2026-05-04 伴随模型一并集中暴露；代表性数据包括 allenai/MolmoAct2-SO100_101-Dataset，downloads 119、likes 3、日期 2026-05-04，allenai/24112025-yam-01，downloads 1,495、日期 2025-11-24，allenai/31122025-tablebuss-12，downloads 472、日期 2025-12-31，allenai/16012026-scan-13，downloads 459、likes 1、日期 2026-01-16。变化数据中 robotics 类别由 7 个增至 99 个，单周净增 92 个。

商业意义 → 这不是零散开源，而是“机器人动作轨迹+语言指令+视频/时序”正在成为前沿实验室的系统性训练资产。对数据行业而言，最稀缺的不是采集设备，而是把双臂操作、任务拆解、失败重试、语言意图对齐成可训练样本的人类判断流程。集识光年可优先布局具身任务分解、操作意图描述、失败原因归因、视频片段质检等高判断密度环节，强调“让人通过贡献判断获得收入”在机器人数据中不可替代。

P0 NVIDIA 在 2026-05-01 至 2026-05-06 连续发布 Physical AI 与编码 Agent 数据，视频异常与软件轨迹同时升温 [P0]

nvidia/PhysicalAI-Traffic-Anomaly-Reasoning 于 2026-05-01 发布，downloads 316、likes 6，含 44,040 条 pseudo-labeled multi-task annotations、3,670 段 CCTV 交通视频、约 26.1 小时视频。nvidia/PhysicalAI-VANTAGE-Bench 于 2026-05-04 发布，downloads 19；其子集 nvidia/PhysicalAI-VANTAGE-Bench-Subset 于 2026-05-05 发布，downloads 6，均面向固定基础设施摄像头视频理解。与此同时，nvidia/SWE-Zero-openhands-trajectories 于 2026-04-17 发布，downloads 483、likes 3，含 318k agent trajectories；nvidia/SWE-Hero-openhands-trajectories 同日发布，downloads 133、likes 3，含 34k agent trajectories。

商业意义 → NVIDIA 同时押注“物理世界视频推理”和“软件工程 Agent 轨迹”，说明高价值训练数据已从静态样本转向过程数据。无论是交通异常判定还是代码修复轨迹，都需要人类定义何为异常、何为有效步骤、何为成功完成。集识光年可把服务重心从一次性样本生产转向轨迹审核、事件分段、成功标准设计、agent help-seeking 触发条件等判断型数据产品。

P1 Google 的非英语语音数据下载加速，google/WaxalNLP 在比较期内增长 83.8% [P1]

google/WaxalNLP 发布于 2026-01-19，当前 downloads 19,454、likes 224；较上期 10,582 增长至 19,454，净增 8,872，增幅 83.8%，是本期唯一被明确捕捉到的 Download Mover。该数据集覆盖 African languages，任务包括 automatic-speech-recognition 与 text-to-speech，来源含 UGSpeechData、DigitalUmuganda/AfriVoice 与 original。

商业意义 → 多语种尤其低资源语音仍然稀缺，下载爆发说明市场正在重新寻找“高质量、非英语、可落地”的语音训练集。语音数据的核心壁垒不在录音本身，而在转写一致性、口音覆盖、代码混说、噪声场景判定等人类判断。集识光年可借势切入方言/低资源语种语音质检、转写仲裁、说话人属性判别等高附加值服务。

P1 Meta 在 2026-05-06 新发社会推理与 AI 生成内容检测评测集，评估集继续向开放式主观判断迁移 [P1]

facebook/SCRuB-dataset 于 2026-05-06 发布，downloads 16、likes 0，面向 socially sensitive、open-ended essay prompts 的 rubric-based evaluation。facebook/beyond_the_lab_neurips_paper 同日发布，downloads 0、likes 0，标签明确包含 AI-generated visual content detection、human-labeled dataset、multi-signal evaluation。同期 internlm/WildClawBench 发布于 2026-03-24，downloads 7,683、likes 54，也指向真实环境 Agent 评测。

商业意义 → 评估数据正在从“单答案基准”转向“带评分规则的开放任务”，这类数据天然依赖人类判断的一致性设计。谁能把主观题变成稳定、可复审、可训练的评分体系，谁就掌握了下一代对齐与评估基础设施。集识光年应强化 rubric 设计、多人仲裁、敏感内容分级、跨文化评价等能力，服务模型后训练与安全评测需求。

P2 LAION 在本期新增 35 个 synthetic 数据集，代码与 RL 环境数据开始成套出现 [P2]

变化数据显示 synthetic 类别由 3 个增至 35 个，净增 32 个；新增样本包括 laion/BVD-AV-55M，downloads 15、日期未在主表展开；laion/openswe-tasks-patched-v5，downloads 31；laion/swegym-tasks-patched-validated-v2，downloads 21；laion/exp_rpt_softwareheritage-large-v2，downloads 99；以及 code 类数据 laion/exp_rpt_codenet-python-v2，downloads 14，laion/exp_rpt_exercism-python-v2，downloads 13，laion/exp_flat25_pseudocode-v2，downloads 17。相关论文侧，OpenSearch-VL、A^2TGPO、Think, then Score、XL-SafetyBench 均在 2026-05-06 至 2026-05-07 集中出现。

商业意义 → 合成数据规模化已经不是新鲜事，真正的新信号是“合成任务环境+验证集+轨迹/奖励方法”开始配套出现。这个趋势会压低简单数据供给价格，但也会放大验证、筛错、偏差检测、奖励建模中的人类判断价值。集识光年不应与纯合成数据正面比量，而应切入合成数据验真、困难样本筛出、奖励信号校准等更抗替代的环节。

Demand Signals

从模型发布反推训练数据需求

机器人操作轨迹与语言指令

极强 ↑ 新增

Allen AI 本期 100 个数据集 · robotics 类别由 7 增至 99；MolmoAct2-SO100_101-Dataset 于 2026-05-04 发布

视频异常理解/基础设施摄像头数据

极强 ↑ 新增

NVIDIA 在 2026-05-01 至 2026-05-05 连发 TAR · VANTAGE-Bench 与 Subset

编码 Agent 轨迹

强 ↑ 新增

nvidia/SWE-Zero-openhands-trajectories 含 318k 轨迹 · downloads 483；SWE-Hero 含 34k 轨迹

开放式社会评测与安全 rubric

强 ↑ 新增

Meta SCRuB · beyond_the_lab_neurips_paper 于 2026-05-06 发布；XL-SafetyBench 论文于 2026-05-07 发布

多语种/低资源语音

强 ↑ 新增

google/WaxalNLP downloads 19,454，较上期 +8,872 · 增幅 83.8%

合成代码任务与验证集

强 ↑ 新增

LAION synthetic 类别由 3 增至 35，伴随 openswe-tasks · swegym · softwareheritage 等成套出现

多模态搜索与网页 Agent 数据

中 ↑ 新增

OpenSearch-VL 论文于 2026-05-06 发布，WildClawBench downloads 7,683

视频奖励建模/偏好学习数据

中 ↑ 新增

Think · then Score 于 2026-05-07 发布，强调视频 reward modeling 中 reasoning 与 scoring 解耦

Agent 评测与 verifier 数据 ↓ 退出上期出现，本期未出现

长周期委派式文档编辑轨迹 ↓ 退出上期出现，本期未出现

主权 Persona / 人口分布 grounding 数据 ↓ 退出上期出现，本期未出现

多视角机器人与 simulator-ready 3D 资产 ↓ 退出上期出现，本期未出现

遥感时序变化理解数据 ↓ 退出上期出现，本期未出现

电商 / 客服 Agent 的可验证环境数据 ↓ 退出上期出现，本期未出现

多语种语音 ASR / TTS 数据 ↓ 退出上期出现，本期未出现

翻译质量与文化适配评测数据 ↓ 退出上期出现，本期未出现

Download Movers

本周下载量变化最大的数据集

数据集	下载量	周增长
google/WaxalNLP	19,454	+83.8%

想深聊本期内容？

Kai Founder & CEO

苏文 AI 文档与发布工程师

陆明哲 AI 产品经理

由 AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →

机器人数据单期净增92个人类判断正成为具身训练瓶颈

Key Findings

Demand Signals

Download Movers

机器人数据单期净增92个
人类判断正成为具身训练瓶颈