Radar Brief 2026 年第 7 周 · 2026-02-04 — 2026-02-11

视频理解数据井喷,RLHF 迈入多模态时代

本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户

0
高价值数据集
0
相关论文
0
博客文章
0
活跃仓库
一句话速览

NVIDIA 全面布局具身智能数据管线、Allen AI Molmo2 视频理解数据集群发布、Reward Model / RLHF 论文密集爆发。本周最强数据需求信号:机器人操作数据。

Key Findings

本周 5 条高商业价值发现

P0 NVIDIA 全面布局具身智能数据管线(2026-02-10)

NVIDIA 本周一口气发布/更新了 7 个数据集 + 26 个模型,是所有组织中最活跃的。数据集集中在两个方向:;机器人仿真:`nvidia/PhysicalAI-Robotics-Kitchen-Sim-Demos`(2/10)、`nvidia/RoboCasa-Cosmos-Policy`、`nvidia/LIBERO-Cosmos-Policy` — 全部服务于 Cosmos Policy 项目,构建从仿真到策略学习的闭环;语音 TN/ITN:`nvidia/Numb3rs`(2/6)— 语音数字规范化基准

商业意义 → NVIDIA 正在系统性地构建 Physical AI 的数据基础设施。模型侧 `personaplex-7b-v1`(22.8 万下载、1731 赞)展示了 speech-to-speech 的巨大需求。数据服务公司应关注机器人操作数据(kitchen/manipulation scenarios)和语音数据两个增长方向。
P0 Allen AI Molmo2 视频理解数据集群发布(2025-12-07~12-16,本周仍在更新)

Allen AI 发布了 4 个视频相关数据集:`Molmo2-VideoPoint`、`Molmo2-VideoPointEval`、`Molmo2-VideoCountEval`、`Molmo2-CapEval`,构成完整的视频 grounding + counting + captioning 评估体系。另有 `pointer-retrieval`(2/10 新建)和 `asta-summary-citation-counts` 两个工具类数据集。

商业意义 → 视频理解数据是 2026 年的热门赛道。Allen AI 以开源数据 + 评估基准的方式占位,后续必然带动更多视频 VLM 需要训练数据。
P1 Reward Model / RLHF 论文密集爆发(2026-02-06~02-09)

本周 8 篇 RLHF/偏好学习论文,核心趋势:;`compar:IA`(2/6)— 法国政府级 LLM arena 收集法语偏好数据,多语言 RLHF 数据需求正式进入国家层面;`WildReward`(2/9)— 从线上交互中挖掘隐式奖励信号,降低人工标注成本;`Fairness Aware Reward Optimization`(2/8)— 人口统计偏见会通过 reward model 传播,公平性标注需求出现;`Joint Reward Modeling`(2/7)— 视觉奖励模型用于图像编辑,多模态 RLHF 数据需求扩展

商业意义 → RLHF 数据从英文单语扩展到多语言、从文本扩展到视觉、从人工标注走向半自动。数据服务公司需要尽快建立多语言偏好数据采集能力。
P1 StepFun(阶跃星辰)发布 Step-3.5-Flash + 双评估基准(2026-02-01~02-09)

StepFun 发布了 `Step-3.5-Flash`(24.9 万下载、560 赞)模型,同时推出:;`stepfun-ai/GEBench`(2/9)— GUI 交互生成评估基准;`stepfun-ai/CF-Div2-Stepfun`(2/9)— 竞赛编程评估基准

商业意义 → 中国 AI Labs 开始主动构建评估生态,不再仅依赖海外 benchmark。GUI 交互数据是 Agent 落地的关键瓶颈。
P2 OpenAI 推出 GPT-5.3-Codex + 测试 ChatGPT 广告(2026-02-05~02-10)

GPT-5.3-Codex 上线(2/5),专注代码生成;OpenAI 博客宣布测试 ChatGPT 广告(2/10);`openai/gdpval` 数据集活跃(28,361 下载)— 评估 AI 在 44 个职业、220 个真实任务上的表现

商业意义 → OpenAI 同时推进商业化(广告)和能力边界评估(gdpval),后者暗示他们在系统性评估 AI 对劳动力市场的影响,可能影响未来数据标注行业本身。

Demand Signals

从模型发布反推训练数据需求

数据类型 强度 趋势 关联信号
机器人操作数据 强升 ↑ 新增 NVIDIA 3 个 robotics 数据集 · Meta JEPA-WMS · lerobot/piper-collect · BAAI/ToucHD-Sim
多模态偏好数据 强升 ↑ 新增 7 篇 RLHF 论文 · Qwen RationaleRM · 视觉 reward model 论文
语音/ASR 数据 上升 ↑ 新增 Mistral Voxtral 实时 ASR · NVIDIA Numb3rs · Google WaxalNLP
代码数据 上升 ↑ 新增 OpenAI GPT-5.3-Codex · StepFun CF-Div2 编程基准 · Together Aurora-Spec-Coder
视频理解数据 上升 ↑ 新增 Allen AI 4 个 Molmo2 视频数据集 · Meta EgoAVU
GUI/Agent 数据 上升 ↑ 新增 StepFun GEBench GUI 评估 · Databricks Agent Bricks GA
多语言数据 🟢 稳定 ↑ 新增 Google WaxalNLP 非洲语言 · compar:IA 法语偏好数据
代码 Agent 数据 ↓ 退出 上期出现,本期未出现
机器人/具身智能数据 ↓ 退出 上期出现,本期未出现
文档 OCR 数据 ↓ 退出 上期出现,本期未出现
RLHF 偏好数据 ↓ 退出 上期出现,本期未出现
多语言语音数据 ↓ 退出 上期出现,本期未出现
安全/内容审核数据 ↓ 退出 上期出现,本期未出现
合成视觉数据 ↓ 退出 上期出现,本期未出现

Download Movers

本周下载量变化最大的数据集

数据集 下载量 周增长
nvidia/RoboCasa-Cosmos-Policy 1,332 +39.6%
Qwen/RationaleRM 881 +16.8%
nvidia/HiLiftAeroML 992 +16.2%
google/WaxalNLP 7,465 +2.6%
nvidia/LIBERO-Cosmos-Policy 2,221 +2.2%

Deep Dive — DataRecipe

本周 3 个高价值数据集逆向分析(由 DataRecipe 自动生成)

Qwen/RationaleRM
300 条样本 · 14 个字段 · Hard
6.0/10
🟢 推荐复刻

数据结构

domain language context response1 response2 overall_preference individual_preference human-checklist model-low_deceptive_alignment-checklist

风险评估

中风险 标注质量可能存在波动 → 建立严格 QA 流程,设置质量门槛
低风险 数据可能随时间过时 → 建立持续更新机制
microsoft/CancerGUIDE
165 条样本 · 3 个字段 · Hard
6.0/10
🟢 推荐复刻

数据结构

patient_id patient_note label

风险评估

中风险 需要领域专家参与,人才获取可能困难 → 提前储备人才,或考虑外包合作
中风险 标注质量可能存在波动 → 建立严格 QA 流程,设置质量门槛
低风险 数据可能随时间过时 → 建立持续更新机制
amazon/doc_split
300 条样本 · 3 个字段 · Hard
6.0/10
🟢 推荐复刻

数据结构

doc_id total_pages subdocuments

风险评估

中风险 需要领域专家参与,人才获取可能困难 → 提前储备人才,或考虑外包合作
中风险 标注质量可能存在波动 → 建立严格 QA 流程,设置质量门槛
低风险 数据可能随时间过时 → 建立持续更新机制

本周共分析 3 个数据集 · 人工占比 83.9% · 全部 Hard 难度

想深聊本期内容?

AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →