Radar Brief 2026 年第 21 周 · 2026-05-01 — 2026-05-08

机器人数据单期净增92个
人类判断正成为具身训练瓶颈

本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户

0
高价值数据集
0
相关论文
0
博客文章
0
活跃仓库
一句话速览

Allen AI 在 2026-05-04 集中暴露 MolmoAct2 机器人数据簇,扫描期内机器人数据集数量从 7 个增至 99 个 [P0]、NVIDIA 在 2026-05-01 至 2026-05-06 连续发布 Physical AI 与编码 Agent 数据,视频异常与软件轨迹同时升温 [P0]、Google 的非英语语音数据下载加速,google/WaxalNLP 在比较期内增长 83.8% [P1]。本周最强数据需求信号:机器人操作轨迹与语言指令。

Key Findings

本周 5 条高商业价值发现

P0 Allen AI 在 2026-05-04 集中暴露 MolmoAct2 机器人数据簇,扫描期内机器人数据集数量从 7 个增至 99 个 [P0]

Allen AI 本周共有 100 个数据集进入扫描,其中大量为 2025-11-24 至 2026-01-27 采集的 MolmoAct2-BimanualYAM 子集,并在 2026-05-04 伴随模型一并集中暴露;代表性数据包括 allenai/MolmoAct2-SO100_101-Dataset,downloads 119、likes 3、日期 2026-05-04,allenai/24112025-yam-01,downloads 1,495、日期 2025-11-24,allenai/31122025-tablebuss-12,downloads 472、日期 2025-12-31,allenai/16012026-scan-13,downloads 459、likes 1、日期 2026-01-16。变化数据中 robotics 类别由 7 个增至 99 个,单周净增 92 个。

商业意义 → 这不是零散开源,而是“机器人动作轨迹+语言指令+视频/时序”正在成为前沿实验室的系统性训练资产。对数据行业而言,最稀缺的不是采集设备,而是把双臂操作、任务拆解、失败重试、语言意图对齐成可训练样本的人类判断流程。集识光年可优先布局具身任务分解、操作意图描述、失败原因归因、视频片段质检等高判断密度环节,强调“让人通过贡献判断获得收入”在机器人数据中不可替代。
P0 NVIDIA 在 2026-05-01 至 2026-05-06 连续发布 Physical AI 与编码 Agent 数据,视频异常与软件轨迹同时升温 [P0]

nvidia/PhysicalAI-Traffic-Anomaly-Reasoning 于 2026-05-01 发布,downloads 316、likes 6,含 44,040 条 pseudo-labeled multi-task annotations、3,670 段 CCTV 交通视频、约 26.1 小时视频。nvidia/PhysicalAI-VANTAGE-Bench 于 2026-05-04 发布,downloads 19;其子集 nvidia/PhysicalAI-VANTAGE-Bench-Subset 于 2026-05-05 发布,downloads 6,均面向固定基础设施摄像头视频理解。与此同时,nvidia/SWE-Zero-openhands-trajectories 于 2026-04-17 发布,downloads 483、likes 3,含 318k agent trajectories;nvidia/SWE-Hero-openhands-trajectories 同日发布,downloads 133、likes 3,含 34k agent trajectories。

商业意义 → NVIDIA 同时押注“物理世界视频推理”和“软件工程 Agent 轨迹”,说明高价值训练数据已从静态样本转向过程数据。无论是交通异常判定还是代码修复轨迹,都需要人类定义何为异常、何为有效步骤、何为成功完成。集识光年可把服务重心从一次性样本生产转向轨迹审核、事件分段、成功标准设计、agent help-seeking 触发条件等判断型数据产品。
P1 Google 的非英语语音数据下载加速,google/WaxalNLP 在比较期内增长 83.8% [P1]

google/WaxalNLP 发布于 2026-01-19,当前 downloads 19,454、likes 224;较上期 10,582 增长至 19,454,净增 8,872,增幅 83.8%,是本期唯一被明确捕捉到的 Download Mover。该数据集覆盖 African languages,任务包括 automatic-speech-recognition 与 text-to-speech,来源含 UGSpeechData、DigitalUmuganda/AfriVoice 与 original。

商业意义 → 多语种尤其低资源语音仍然稀缺,下载爆发说明市场正在重新寻找“高质量、非英语、可落地”的语音训练集。语音数据的核心壁垒不在录音本身,而在转写一致性、口音覆盖、代码混说、噪声场景判定等人类判断。集识光年可借势切入方言/低资源语种语音质检、转写仲裁、说话人属性判别等高附加值服务。
P1 Meta 在 2026-05-06 新发社会推理与 AI 生成内容检测评测集,评估集继续向开放式主观判断迁移 [P1]

facebook/SCRuB-dataset 于 2026-05-06 发布,downloads 16、likes 0,面向 socially sensitive、open-ended essay prompts 的 rubric-based evaluation。facebook/beyond_the_lab_neurips_paper 同日发布,downloads 0、likes 0,标签明确包含 AI-generated visual content detection、human-labeled dataset、multi-signal evaluation。同期 internlm/WildClawBench 发布于 2026-03-24,downloads 7,683、likes 54,也指向真实环境 Agent 评测。

商业意义 → 评估数据正在从“单答案基准”转向“带评分规则的开放任务”,这类数据天然依赖人类判断的一致性设计。谁能把主观题变成稳定、可复审、可训练的评分体系,谁就掌握了下一代对齐与评估基础设施。集识光年应强化 rubric 设计、多人仲裁、敏感内容分级、跨文化评价等能力,服务模型后训练与安全评测需求。
P2 LAION 在本期新增 35 个 synthetic 数据集,代码与 RL 环境数据开始成套出现 [P2]

变化数据显示 synthetic 类别由 3 个增至 35 个,净增 32 个;新增样本包括 laion/BVD-AV-55M,downloads 15、日期未在主表展开;laion/openswe-tasks-patched-v5,downloads 31;laion/swegym-tasks-patched-validated-v2,downloads 21;laion/exp_rpt_softwareheritage-large-v2,downloads 99;以及 code 类数据 laion/exp_rpt_codenet-python-v2,downloads 14,laion/exp_rpt_exercism-python-v2,downloads 13,laion/exp_flat25_pseudocode-v2,downloads 17。相关论文侧,OpenSearch-VL、A^2TGPO、Think, then Score、XL-SafetyBench 均在 2026-05-06 至 2026-05-07 集中出现。

商业意义 → 合成数据规模化已经不是新鲜事,真正的新信号是“合成任务环境+验证集+轨迹/奖励方法”开始配套出现。这个趋势会压低简单数据供给价格,但也会放大验证、筛错、偏差检测、奖励建模中的人类判断价值。集识光年不应与纯合成数据正面比量,而应切入合成数据验真、困难样本筛出、奖励信号校准等更抗替代的环节。

Demand Signals

从模型发布反推训练数据需求

数据类型 强度 趋势 关联信号
机器人操作轨迹与语言指令
极强 ↑ 新增
Allen AI 本期 100 个数据集 · robotics 类别由 7 增至 99;MolmoAct2-SO100_101-Dataset 于 2026-05-04 发布
视频异常理解/基础设施摄像头数据
极强 ↑ 新增
NVIDIA 在 2026-05-01 至 2026-05-05 连发 TAR · VANTAGE-Bench 与 Subset
编码 Agent 轨迹
↑ 新增
nvidia/SWE-Zero-openhands-trajectories 含 318k 轨迹 · downloads 483;SWE-Hero 含 34k 轨迹
开放式社会评测与安全 rubric
↑ 新增
Meta SCRuB · beyond_the_lab_neurips_paper 于 2026-05-06 发布;XL-SafetyBench 论文于 2026-05-07 发布
多语种/低资源语音
↑ 新增
google/WaxalNLP downloads 19,454,较上期 +8,872 · 增幅 83.8%
合成代码任务与验证集
↑ 新增
LAION synthetic 类别由 3 增至 35,伴随 openswe-tasks · swegym · softwareheritage 等成套出现
多模态搜索与网页 Agent 数据
↑ 新增
OpenSearch-VL 论文于 2026-05-06 发布,WildClawBench downloads 7,683
视频奖励建模/偏好学习数据
↑ 新增
Think · then Score 于 2026-05-07 发布,强调视频 reward modeling 中 reasoning 与 scoring 解耦
Agent 评测与 verifier 数据 ↓ 退出 上期出现,本期未出现
长周期委派式文档编辑轨迹 ↓ 退出 上期出现,本期未出现
主权 Persona / 人口分布 grounding 数据 ↓ 退出 上期出现,本期未出现
多视角机器人与 simulator-ready 3D 资产 ↓ 退出 上期出现,本期未出现
遥感时序变化理解数据 ↓ 退出 上期出现,本期未出现
电商 / 客服 Agent 的可验证环境数据 ↓ 退出 上期出现,本期未出现
多语种语音 ASR / TTS 数据 ↓ 退出 上期出现,本期未出现
翻译质量与文化适配评测数据 ↓ 退出 上期出现,本期未出现

Download Movers

本周下载量变化最大的数据集

数据集 下载量 周增长
google/WaxalNLP 19,454 +83.8%

想深聊本期内容?

Kai
Kai Founder & CEO
苏文
苏文 AI 文档与发布工程师
陆明哲
陆明哲 AI 产品经理

AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →