W07 AI 数据情报 — 集识光年

一句话速览

NVIDIA 全面布局具身智能数据管线、Allen AI Molmo2 视频理解数据集群发布、Reward Model / RLHF 论文密集爆发。本周最强数据需求信号：机器人操作数据。

Key Findings

本周 5 条高商业价值发现

P0 NVIDIA 全面布局具身智能数据管线（2026-02-10）

NVIDIA 本周一口气发布/更新了 7 个数据集 + 26 个模型，是所有组织中最活跃的。数据集集中在两个方向：；机器人仿真：`nvidia/PhysicalAI-Robotics-Kitchen-Sim-Demos`（2/10）、`nvidia/RoboCasa-Cosmos-Policy`、`nvidia/LIBERO-Cosmos-Policy` — 全部服务于 Cosmos Policy 项目，构建从仿真到策略学习的闭环；语音 TN/ITN：`nvidia/Numb3rs`（2/6）— 语音数字规范化基准

商业意义 → NVIDIA 正在系统性地构建 Physical AI 的数据基础设施。模型侧 `personaplex-7b-v1`（22.8 万下载、1731 赞）展示了 speech-to-speech 的巨大需求。数据服务公司应关注机器人操作数据（kitchen/manipulation scenarios）和语音数据两个增长方向。

P0 Allen AI Molmo2 视频理解数据集群发布（2025-12-07~12-16，本周仍在更新）

Allen AI 发布了 4 个视频相关数据集：`Molmo2-VideoPoint`、`Molmo2-VideoPointEval`、`Molmo2-VideoCountEval`、`Molmo2-CapEval`，构成完整的视频 grounding + counting + captioning 评估体系。另有 `pointer-retrieval`（2/10 新建）和 `asta-summary-citation-counts` 两个工具类数据集。

商业意义 → 视频理解数据是 2026 年的热门赛道。Allen AI 以开源数据 + 评估基准的方式占位，后续必然带动更多视频 VLM 需要训练数据。

P1 Reward Model / RLHF 论文密集爆发（2026-02-06~02-09）

本周 8 篇 RLHF/偏好学习论文，核心趋势：；`compar:IA`（2/6）— 法国政府级 LLM arena 收集法语偏好数据，多语言 RLHF 数据需求正式进入国家层面；`WildReward`（2/9）— 从线上交互中挖掘隐式奖励信号，降低人工标注成本；`Fairness Aware Reward Optimization`（2/8）— 人口统计偏见会通过 reward model 传播，公平性标注需求出现；`Joint Reward Modeling`（2/7）— 视觉奖励模型用于图像编辑，多模态 RLHF 数据需求扩展

商业意义 → RLHF 数据从英文单语扩展到多语言、从文本扩展到视觉、从人工标注走向半自动。数据服务公司需要尽快建立多语言偏好数据采集能力。

P1 StepFun（阶跃星辰）发布 Step-3.5-Flash + 双评估基准（2026-02-01~02-09）

StepFun 发布了 `Step-3.5-Flash`（24.9 万下载、560 赞）模型，同时推出：；`stepfun-ai/GEBench`（2/9）— GUI 交互生成评估基准；`stepfun-ai/CF-Div2-Stepfun`（2/9）— 竞赛编程评估基准

商业意义 → 中国 AI Labs 开始主动构建评估生态，不再仅依赖海外 benchmark。GUI 交互数据是 Agent 落地的关键瓶颈。

P2 OpenAI 推出 GPT-5.3-Codex + 测试 ChatGPT 广告（2026-02-05~02-10）

GPT-5.3-Codex 上线（2/5），专注代码生成；OpenAI 博客宣布测试 ChatGPT 广告（2/10）；`openai/gdpval` 数据集活跃（28,361 下载）— 评估 AI 在 44 个职业、220 个真实任务上的表现

商业意义 → OpenAI 同时推进商业化（广告）和能力边界评估（gdpval），后者暗示他们在系统性评估 AI 对劳动力市场的影响，可能影响未来数据标注行业本身。

Demand Signals

从模型发布反推训练数据需求

机器人操作数据

强升 ↑ 新增

NVIDIA 3 个 robotics 数据集 · Meta JEPA-WMS · lerobot/piper-collect · BAAI/ToucHD-Sim

多模态偏好数据

强升 ↑ 新增

7 篇 RLHF 论文 · Qwen RationaleRM · 视觉 reward model 论文

语音/ASR 数据

上升 ↑ 新增

Mistral Voxtral 实时 ASR · NVIDIA Numb3rs · Google WaxalNLP

代码数据

上升 ↑ 新增

OpenAI GPT-5.3-Codex · StepFun CF-Div2 编程基准 · Together Aurora-Spec-Coder

视频理解数据

上升 ↑ 新增

Allen AI 4 个 Molmo2 视频数据集 · Meta EgoAVU

GUI/Agent 数据

上升 ↑ 新增

StepFun GEBench GUI 评估 · Databricks Agent Bricks GA

多语言数据

🟢 稳定 ↑ 新增

Google WaxalNLP 非洲语言 · compar:IA 法语偏好数据

代码 Agent 数据 ↓ 退出上期出现，本期未出现

机器人/具身智能数据 ↓ 退出上期出现，本期未出现

文档 OCR 数据 ↓ 退出上期出现，本期未出现

RLHF 偏好数据 ↓ 退出上期出现，本期未出现

多语言语音数据 ↓ 退出上期出现，本期未出现

安全/内容审核数据 ↓ 退出上期出现，本期未出现

合成视觉数据 ↓ 退出上期出现，本期未出现

Download Movers

本周下载量变化最大的数据集

数据集	下载量	周增长
nvidia/RoboCasa-Cosmos-Policy	1,332	+39.6%
Qwen/RationaleRM	881	+16.8%
nvidia/HiLiftAeroML	992	+16.2%
google/WaxalNLP	7,465	+2.6%
nvidia/LIBERO-Cosmos-Policy	2,221	+2.2%

Deep Dive — DataRecipe

本周 3 个高价值数据集逆向分析（由 DataRecipe 自动生成）

Qwen/RationaleRM

300 条样本 · 14 个字段 · Hard

6.0/10

数据结构

风险评估

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

microsoft/CancerGUIDE

165 条样本 · 3 个字段 · Hard

6.0/10

数据结构

风险评估

中风险需要领域专家参与，人才获取可能困难 → 提前储备人才，或考虑外包合作

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

amazon/doc_split

300 条样本 · 3 个字段 · Hard

6.0/10

数据结构

风险评估

中风险需要领域专家参与，人才获取可能困难 → 提前储备人才，或考虑外包合作

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

本周共分析 3 个数据集 · 人工占比 83.9% · 全部 Hard 难度

想深聊本期内容？

Kai Founder & CEO

苏文 AI 文档与发布工程师

陆明哲 AI 产品经理

由 AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →

视频理解数据井喷RLHF 迈入多模态时代

Key Findings

Demand Signals

Download Movers

Deep Dive — DataRecipe

数据结构

风险评估

数据结构

风险评估

数据结构

风险评估

视频理解数据井喷
RLHF 迈入多模态时代