W16 AI 数据情报 — 集识光年

一句话速览

英伟达发布 600 小时机器人操作数据集，物理 AI 数据需求激增 [P0]、Allen AI 发布科研助手引用追踪数据，Agent 工具数据成新热点 [P0]、Anthropic 发布经济影响指数数据集，AI 应用评估成为新需求 [P1]。本周最强数据需求信号：机器人操作轨迹。

Key Findings

本周 5 条高商业价值发现

P0 英伟达发布 600 小时机器人操作数据集，物理 AI 数据需求激增 [P0]

NVIDIA 于 2026-02-10 发布 PhysicalAI-Robotics-Kitchen-Sim-Demos 数据集，包含 600 小时人类远程操作演示，覆盖 316 个不同任务，共 55k 条轨迹。同期发布的 PhysicalAI-Robotics-NuRec（50 个赞）和 Arena-GR1-Manipulation 等数据集形成完整的机器人训练数据体系。

商业意义 → 物理 AI 正成为下一个数据密集型赛道。与纯语言模型不同，机器人数据必须通过人类演示采集，每个任务都需要专业操作员的精确判断，这为集识光年在"人机协同数据采集"领域创造了新机会。

P0 Allen AI 发布科研助手引用追踪数据，Agent 工具数据成新热点 [P0]

allenai/asta-summary-citation-counts 数据集（2025-10-08 发布，456 次下载）追踪科研平台 Asta 最常引用的论文，反映 AI Agent 在实际使用中的知识偏好。这是首个公开的"Agent 使用行为"数据集。

商业意义 → Agent 时代需要新型评估数据——不是测试 Agent 能否完成任务，而是评估它们如何使用工具和知识。这类数据必须基于真实使用场景的人类判断，传统合成方法无法生成。

P1 Anthropic 发布经济影响指数数据集，AI 应用评估成为新需求 [P1]

Anthropic/EconomicIndex（2025-02-06 发布，11,995 次下载，473 个赞）提供 AI 在现代经济中融入实际任务的洞察，包含劳动力市场影响和工作暴露度分析。这是首个系统性评估 AI 经济影响的公开数据集。

商业意义 → 随着 AI 部署加速，企业和政府需要评估其社会经济影响。这类评估数据高度依赖领域专家的判断，无法通过算法自动生成，为高价值人类判断创造了新市场。

P1 Google DeepMind 发布非洲语言语音数据集 WaxalNLP [P1]

google/WaxalNLP（2026-01-19 发布，10,345 次下载）是大规模多语言语音语料库，支持自动语音识别和文本转语音任务。数据集采用 cc-by-sa-4.0 许可，显示了对低资源语言的关注。

商业意义 → 多语言数据采集需要本地语言专家的深度参与，每种语言的语音标注都需要母语者的专业判断。这验证了"语言多样性"仍是人类判断不可替代的领域。

P2 偏好学习研究激增，5 篇 RLHF 相关论文同期发表 [P2]

本周发表 ActiveUltraFeedback（主动学习优化偏好数据采集）、wDPO（鲁棒性偏好优化）、DARC（分歧感知对齐）等 5 篇 RLHF 论文。研究重点从"如何对齐"转向"如何高效获取高质量偏好数据"。

商业意义 → 学术界认识到偏好数据质量是 RLHF 瓶颈，开始探索主动学习、分歧处理等方法。这些方法都强调了人类判断的关键作用，特别是在处理标注者分歧和噪声数据时。

Demand Signals

从模型发布反推训练数据需求

机器人操作轨迹

极强 ↑ 新增

NVIDIA 发布 600 小时演示数据，19 个机器人数据集活跃

Agent 工具使用日志

强 ↑ 新增

Allen AI 发布引用追踪数据，评估 Agent 行为模式

偏好对齐数据

强 ↑ 新增

5 篇 RLHF 论文聚焦数据质量和分歧处理

多语言语音数据

中 ↑ 新增

Google 发布非洲语言数据集，低资源语言受关注

AI 影响评估数据

中 ↑ 新增

Anthropic 经济指数获 11,995 次下载

医疗专业数据

中 ↑ 新增

InternLM 内窥镜数据显示垂直领域需求

视频理解/追踪数据 ↓ 退出上期出现，本期未出现

编码 Agent 轨迹 ↓ 退出上期出现，本期未出现

机器人触觉数据 ↓ 退出上期出现，本期未出现

模型对齐评估 ↓ 退出上期出现，本期未出现

专业领域推理 ↓ 退出上期出现，本期未出现

CAD 设计指令 ↓ 退出上期出现，本期未出现

音频-视觉协同 ↓ 退出上期出现，本期未出现

医疗对话隐私 ↓ 退出上期出现，本期未出现

Download Movers

本周下载量变化最大的数据集

数据集	下载量	周增长
lerobot/berkeley_cable_routing	1,784	+19.9%
lerobot/aloha_static_fork_pick_up	1,249	+12.9%
google/WaxalNLP	10,345	+2.3%
Anthropic/EconomicIndex	11,995	+1.4%
lerobot/berkeley_gnm_recon	1,194	-25.6%

Deep Dive — DataRecipe

本周 3 个高价值数据集逆向分析（由 DataRecipe 自动生成）

togethercomputer/CoderForge-Preview

300 条样本 · 7 个字段 · Hard

6.0/10

数据结构

风险评估

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

allenai/Dolci-Think-SFT-32B

300 条样本 · 3 个字段 · Hard

6.0/10

数据结构

风险评估

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

google/MapTrace

300 条样本 · 3 个字段 · Medium

6.5/10

数据结构

风险评估

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

本周共分析 3 个数据集 · 人工占比 99.6%

想深聊本期内容？

Kai Founder & CEO

苏文 AI 文档与发布工程师

陆明哲 AI 产品经理

由 AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →

英伟达发布 600 小时机器人操作数据集AI 数据行业周度洞察

Key Findings

Demand Signals

Download Movers

Deep Dive — DataRecipe

数据结构

风险评估

数据结构

风险评估

数据结构

风险评估

英伟达发布 600 小时机器人操作数据集
AI 数据行业周度洞察