本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户
NVIDIA 全面布局具身智能数据管线、Allen AI Molmo2 视频理解数据集群发布、Reward Model / RLHF 论文密集爆发。本周最强数据需求信号:机器人操作数据。
本周 5 条高商业价值发现
NVIDIA 本周一口气发布/更新了 7 个数据集 + 26 个模型,是所有组织中最活跃的。数据集集中在两个方向:;机器人仿真:`nvidia/PhysicalAI-Robotics-Kitchen-Sim-Demos`(2/10)、`nvidia/RoboCasa-Cosmos-Policy`、`nvidia/LIBERO-Cosmos-Policy` — 全部服务于 Cosmos Policy 项目,构建从仿真到策略学习的闭环;语音 TN/ITN:`nvidia/Numb3rs`(2/6)— 语音数字规范化基准
Allen AI 发布了 4 个视频相关数据集:`Molmo2-VideoPoint`、`Molmo2-VideoPointEval`、`Molmo2-VideoCountEval`、`Molmo2-CapEval`,构成完整的视频 grounding + counting + captioning 评估体系。另有 `pointer-retrieval`(2/10 新建)和 `asta-summary-citation-counts` 两个工具类数据集。
本周 8 篇 RLHF/偏好学习论文,核心趋势:;`compar:IA`(2/6)— 法国政府级 LLM arena 收集法语偏好数据,多语言 RLHF 数据需求正式进入国家层面;`WildReward`(2/9)— 从线上交互中挖掘隐式奖励信号,降低人工标注成本;`Fairness Aware Reward Optimization`(2/8)— 人口统计偏见会通过 reward model 传播,公平性标注需求出现;`Joint Reward Modeling`(2/7)— 视觉奖励模型用于图像编辑,多模态 RLHF 数据需求扩展
StepFun 发布了 `Step-3.5-Flash`(24.9 万下载、560 赞)模型,同时推出:;`stepfun-ai/GEBench`(2/9)— GUI 交互生成评估基准;`stepfun-ai/CF-Div2-Stepfun`(2/9)— 竞赛编程评估基准
GPT-5.3-Codex 上线(2/5),专注代码生成;OpenAI 博客宣布测试 ChatGPT 广告(2/10);`openai/gdpval` 数据集活跃(28,361 下载)— 评估 AI 在 44 个职业、220 个真实任务上的表现
从模型发布反推训练数据需求
本周下载量变化最大的数据集
| 数据集 | 下载量 | 周增长 |
|---|---|---|
| nvidia/RoboCasa-Cosmos-Policy | 1,332 | +39.6% |
| Qwen/RationaleRM | 881 | +16.8% |
| nvidia/HiLiftAeroML | 992 | +16.2% |
| google/WaxalNLP | 7,465 | +2.6% |
| nvidia/LIBERO-Cosmos-Policy | 2,221 | +2.2% |
本周 3 个高价值数据集逆向分析(由 DataRecipe 自动生成)
本周共分析 3 个数据集 · 人工占比 83.9% · 全部 Hard 难度
想深聊本期内容?
由 AI Dataset Radar 自动生成 · 每周更新
AI Dataset Radar →