英伟达发布 600 小时机器人操作数据集
AI 数据行业周度洞察
本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户
英伟达发布 600 小时机器人操作数据集,物理 AI 数据需求激增 [P0]、Allen AI 发布科研助手引用追踪数据,Agent 工具数据成新热点 [P0]、Anthropic 发布经济影响指数数据集,AI 应用评估成为新需求 [P1]。本周最强数据需求信号:机器人操作轨迹。
Key Findings
本周 5 条高商业价值发现
NVIDIA 于 2026-02-10 发布 PhysicalAI-Robotics-Kitchen-Sim-Demos 数据集,包含 600 小时人类远程操作演示,覆盖 316 个不同任务,共 55k 条轨迹。同期发布的 PhysicalAI-Robotics-NuRec(50 个赞)和 Arena-GR1-Manipulation 等数据集形成完整的机器人训练数据体系。
allenai/asta-summary-citation-counts 数据集(2025-10-08 发布,456 次下载)追踪科研平台 Asta 最常引用的论文,反映 AI Agent 在实际使用中的知识偏好。这是首个公开的"Agent 使用行为"数据集。
Anthropic/EconomicIndex(2025-02-06 发布,11,995 次下载,473 个赞)提供 AI 在现代经济中融入实际任务的洞察,包含劳动力市场影响和工作暴露度分析。这是首个系统性评估 AI 经济影响的公开数据集。
google/WaxalNLP(2026-01-19 发布,10,345 次下载)是大规模多语言语音语料库,支持自动语音识别和文本转语音任务。数据集采用 cc-by-sa-4.0 许可,显示了对低资源语言的关注。
本周发表 ActiveUltraFeedback(主动学习优化偏好数据采集)、wDPO(鲁棒性偏好优化)、DARC(分歧感知对齐)等 5 篇 RLHF 论文。研究重点从"如何对齐"转向"如何高效获取高质量偏好数据"。
Demand Signals
从模型发布反推训练数据需求
Download Movers
本周下载量变化最大的数据集
| 数据集 | 下载量 | 周增长 |
|---|---|---|
| lerobot/berkeley_cable_routing | 1,784 | +19.9% |
| lerobot/aloha_static_fork_pick_up | 1,249 | +12.9% |
| google/WaxalNLP | 10,345 | +2.3% |
| Anthropic/EconomicIndex | 11,995 | +1.4% |
| lerobot/berkeley_gnm_recon | 1,194 | -25.6% |
Deep Dive — DataRecipe
本周 3 个高价值数据集逆向分析(由 DataRecipe 自动生成)
数据结构
风险评估
数据结构
风险评估
数据结构
风险评估
本周共分析 3 个数据集 · 人工占比 99.6%
想深聊本期内容?
由 AI Dataset Radar 自动生成 · 每周更新
AI Dataset Radar →