机器人数据单期净增92个
人类判断正成为具身训练瓶颈
本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户
Allen AI 在 2026-05-04 集中暴露 MolmoAct2 机器人数据簇,扫描期内机器人数据集数量从 7 个增至 99 个 [P0]、NVIDIA 在 2026-05-01 至 2026-05-06 连续发布 Physical AI 与编码 Agent 数据,视频异常与软件轨迹同时升温 [P0]、Google 的非英语语音数据下载加速,google/WaxalNLP 在比较期内增长 83.8% [P1]。本周最强数据需求信号:机器人操作轨迹与语言指令。
Key Findings
本周 5 条高商业价值发现
Allen AI 本周共有 100 个数据集进入扫描,其中大量为 2025-11-24 至 2026-01-27 采集的 MolmoAct2-BimanualYAM 子集,并在 2026-05-04 伴随模型一并集中暴露;代表性数据包括 allenai/MolmoAct2-SO100_101-Dataset,downloads 119、likes 3、日期 2026-05-04,allenai/24112025-yam-01,downloads 1,495、日期 2025-11-24,allenai/31122025-tablebuss-12,downloads 472、日期 2025-12-31,allenai/16012026-scan-13,downloads 459、likes 1、日期 2026-01-16。变化数据中 robotics 类别由 7 个增至 99 个,单周净增 92 个。
nvidia/PhysicalAI-Traffic-Anomaly-Reasoning 于 2026-05-01 发布,downloads 316、likes 6,含 44,040 条 pseudo-labeled multi-task annotations、3,670 段 CCTV 交通视频、约 26.1 小时视频。nvidia/PhysicalAI-VANTAGE-Bench 于 2026-05-04 发布,downloads 19;其子集 nvidia/PhysicalAI-VANTAGE-Bench-Subset 于 2026-05-05 发布,downloads 6,均面向固定基础设施摄像头视频理解。与此同时,nvidia/SWE-Zero-openhands-trajectories 于 2026-04-17 发布,downloads 483、likes 3,含 318k agent trajectories;nvidia/SWE-Hero-openhands-trajectories 同日发布,downloads 133、likes 3,含 34k agent trajectories。
google/WaxalNLP 发布于 2026-01-19,当前 downloads 19,454、likes 224;较上期 10,582 增长至 19,454,净增 8,872,增幅 83.8%,是本期唯一被明确捕捉到的 Download Mover。该数据集覆盖 African languages,任务包括 automatic-speech-recognition 与 text-to-speech,来源含 UGSpeechData、DigitalUmuganda/AfriVoice 与 original。
facebook/SCRuB-dataset 于 2026-05-06 发布,downloads 16、likes 0,面向 socially sensitive、open-ended essay prompts 的 rubric-based evaluation。facebook/beyond_the_lab_neurips_paper 同日发布,downloads 0、likes 0,标签明确包含 AI-generated visual content detection、human-labeled dataset、multi-signal evaluation。同期 internlm/WildClawBench 发布于 2026-03-24,downloads 7,683、likes 54,也指向真实环境 Agent 评测。
变化数据显示 synthetic 类别由 3 个增至 35 个,净增 32 个;新增样本包括 laion/BVD-AV-55M,downloads 15、日期未在主表展开;laion/openswe-tasks-patched-v5,downloads 31;laion/swegym-tasks-patched-validated-v2,downloads 21;laion/exp_rpt_softwareheritage-large-v2,downloads 99;以及 code 类数据 laion/exp_rpt_codenet-python-v2,downloads 14,laion/exp_rpt_exercism-python-v2,downloads 13,laion/exp_flat25_pseudocode-v2,downloads 17。相关论文侧,OpenSearch-VL、A^2TGPO、Think, then Score、XL-SafetyBench 均在 2026-05-06 至 2026-05-07 集中出现。
Demand Signals
从模型发布反推训练数据需求
Download Movers
本周下载量变化最大的数据集
| 数据集 | 下载量 | 周增长 |
|---|---|---|
| google/WaxalNLP | 19,454 | +83.8% |
想深聊本期内容?
由 AI Dataset Radar 自动生成 · 每周更新
AI Dataset Radar →