W22 AI 数据情报 — 集识光年

一句话速览

NVIDIA 的 PhysicalAI-VANTAGE-Bench 在 2026-05-04 发布后 14 天内达 2,479 次下载，Subset 版在 2026-05-05 发布后达 1,284 次下载 [P0]、LAION 在本期新增 16 个 rl_environment、4 个 reward_model、1 个 rlhf_preference 数据集，形成成体系对齐数据堆栈 [P0]、Meta 与 Google 同步强化多语言质量数据，facebook/bouquet 与 google/fleurs 分别达到 1,435 和 57,173 次下载 [P1]。本周最强数据需求信号：固定机位视频理解/跨镜头追踪数据。

Key Findings

本周 5 条高商业价值发现

P0 NVIDIA 的 PhysicalAI-VANTAGE-Bench 在 2026-05-04 发布后 14 天内达 2,479 次下载，Subset 版在 2026-05-05 发布后达 1,284 次下载 [P0]

nvidia/PhysicalAI-VANTAGE-Bench 于 2026-05-04 发布，当前下载量 2,479、点赞 9；nvidia/PhysicalAI-VANTAGE-Bench-Subset 于 2026-05-05 发布，当前下载量 1,284、点赞 1。变化追踪显示 VANTAGE-Bench 较上期从 19 增至 2,479，增加 2,460 次、增长 12,947.4%；Subset 从 6 增至 1,284，增加 1,278 次、增长 21,300.0%。两者都聚焦固定基础设施摄像头视频理解任务，覆盖 warehouse、smart city 等真实场景。

商业意义 → 这说明“固定机位视频理解/跨场景追踪评测”正成为 Physical AI 的高需求数据带。此类数据的价值不在海量原始视频，而在跨摄像头目标一致性、事件边界、场景迁移失败样本等高判断密度信息，机器合成可补量但难补“是否算同一事件/同一主体”的判断。对集识光年而言，这是可切入的人类判断型数据机会：视频事件分段、跨镜头身份一致性审核、难例回流与评测集构建。

P0 LAION 在本期新增 16 个 rl_environment、4 个 reward_model、1 个 rlhf_preference 数据集，形成成体系对齐数据堆栈 [P0]

变化数据中，rl_environment 从 1 个升至 16 个，新增 15 个；reward_model 从 0 个升至 4 个；rlhf_preference 从 0 个升至 1 个。代表性数据集包括 laion/nemotron-gym-safety、laion/nemotron-gym-agent-workplace、laion/nemotron-gym-agent-calendar、laion/nemotron-gym-competitive-coding、laion/scaling-laws-for-comparison-full，以及 laion/mix_h10_reward_binary-v2、laion/mix_h10_reward_proportional-v2、laion/mix_h10_reward_staged-v2、laion/mix_baseline_uniform-v2，均在本期新出现。

商业意义 → 行业正在从“单轮偏好数据”转向“环境 + 轨迹 + 奖励 + 对比”的系统化后训练。这里最难被替代的不是生成任务本身，而是奖励定义、失败归因、对抗样本设计和多目标权衡标准，这些都需要人类判断。对集识光年而言，应把服务话术从“标注”升级为“让人通过贡献判断获得收入的对齐数据生产”，重点面向安全、办公 Agent、代码 Agent 的偏好比较、轨迹审查和 reward rubric 设计。

P1 Meta 与 Google 同步强化多语言质量数据，facebook/bouquet 与 google/fleurs 分别达到 1,435 和 57,173 次下载 [P1]

facebook/bouquet 于 2025-06-10 发布，当前下载量 1,435、点赞 36，是 8 种语言的多向并行翻译质量评测集，底层文本由语言学家手工制作；google/fleurs 于 2022-04-19 发布，当前下载量 57,173、点赞 402，覆盖 102 种语言语音识别，标签同时包含 expert-generated、crowdsourced 与 machine-generated。二者共同指向多语言语音/翻译质量评测而非单纯语料扩容。

商业意义 → 多语言数据竞争已从“有没有语料”转向“质量判断是否可靠”。特别是翻译优劣、口音可懂度、跨语种一致性等问题，仍依赖母语者和专家的细粒度判断。对集识光年，这是高附加值供给方向：多语言主观质量评价、双语句对偏好选择、文化语境一致性审核，而不是低价通用语料整理。

P1 Agent 评测数据继续升温，internlm/WildClawBench 达 8,250 次下载，Microsoft 新增 Orchard 与 WebTailBench [P1]

internlm/WildClawBench 于 2026-03-24 发布，当前下载量 8,250、点赞 59，较上期 7,683 增长 567 次。变化数据还显示 microsoft/Orchard 新增下载量 166、点赞 8，microsoft/WebTailBench 新增下载量 366、点赞 16，均被归入 agent_tool。Databricks 的 databricks/officeqa 于 2025-12-15 发布，当前下载量 131，聚焦真实文档上的端到端推理。

商业意义 → Agent 训练焦点正从通用问答转向“在真实环境中完成工作”。决定模型上限的不是网页快照数量，而是任务拆解正确性、工具调用是否合规、失败是否可复盘等过程性判断。对集识光年，机会在于构建 agent 任务轨迹质检、人工 rubric 评估、真实企业文档任务集，这些比通用指令数据更能体现人类判断不可替代。

P2 科研与工业文档数据开始进入高价值推理评测，allenai/olmoearth-paper-embeddings 与 databricks/officeqa 同步出现 [P2]

allenai/olmoearth-paper-embeddings 于 2026-05-15 发布，当前下载量 2,876、点赞 2，提供 26 个 Earth observation foundation models 在 24 个下游任务上的论文嵌入；databricks/officeqa 于 2025-12-15 发布，当前下载量 131，围绕 1930 年代起美国财政公报文档上的 grounded reasoning。与此同时，Microsoft Research 在 2026-05-14 发布 SocialReasoning-Bench 相关博客，强调代理虽能执行但未必持续改善用户处境。

商业意义 → 高价值文档 AI 的门槛在“证据链是否成立”，而非单纯 OCR 或抽取。科研表格、历史档案、财务公报、工业规则文档都需要人对证据引用、结论稳健性和任务完成标准作判断。对集识光年，建议把文档理解业务聚焦到“证据对齐评测、引用正确性审核、长文档任务分解判断”这类高价值环节。

Demand Signals

从模型发布反推训练数据需求

固定机位视频理解/跨镜头追踪数据

极强 ↑ 新增

nvidia/PhysicalAI-VANTAGE-Bench 于 2026-05-04 发布后达 2,479 下载，Subset 于 2026-05-05 达 1,284 下载

RL 环境与任务回合数据

极强 ↑ 新增

laion 新增 16 个 rl_environment，覆盖 safety · calendar · workplace · competitive-coding 等场景

奖励模型与偏好比较数据

极强 ↑ 新增

laion 新增 4 个 reward_model 和 1 个 rlhf_preference，形成 reward + comparison 数据堆栈

Agent 工具使用轨迹

强 ↑ 新增

agent_tool 类从 0 增至 9，新增 microsoft/Orchard · microsoft/WebTailBench · databricks/officeqa · allenai/asta-summary-citation-counts

多语言质量评测数据

强 ↑ 新增

facebook/bouquet 下载 1,435，google/fleurs 下载 57,173，均强调专家/众包质量来源

科研与企业文档推理数据

强 ↑ 新增

databricks/officeqa · allenai/asta-summary-citation-counts · olmoearth-paper-embeddings 指向真实文档与证据链推理

3D 世界模型/机器人空间标注

强 ↑ 新增

nvidia/PointWorld-DROID 下载 571，配合 Lyra-2.0 与 Physical AI 体系推进

安全与可靠性评测数据

强 ↑ 新增

laion/nemotron-gym-safety 新增；Microsoft 发布 SocialReasoning-Bench 与 delegation reliability 博客；社区热议 benchmark hacking 与 arXiv 幻觉惩罚

科学计算与工业仿真数据

中 ↑ 新增

nvidia/HiLiftAeroML 下载 11,330，Linear-Radiation-Transport 新增，GridSFM_US_power_grid 新增 432 下载

视频生成对齐数据

中 ↑ 新增

Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization 于 2026-05-15 发表

机器人操作轨迹与语言指令 ↓ 退出上期出现，本期未出现

视频异常理解/基础设施摄像头数据 ↓ 退出上期出现，本期未出现

编码 Agent 轨迹 ↓ 退出上期出现，本期未出现

开放式社会评测与安全 rubric ↓ 退出上期出现，本期未出现

多语种/低资源语音 ↓ 退出上期出现，本期未出现

合成代码任务与验证集 ↓ 退出上期出现，本期未出现

多模态搜索与网页 Agent 数据 ↓ 退出上期出现，本期未出现

视频奖励建模/偏好学习数据 ↓ 退出上期出现，本期未出现

Download Movers

本周下载量变化最大的数据集

数据集	下载量	周增长
nvidia/PhysicalAI-VANTAGE-Bench-Subset	1,284	+21300.0%
nvidia/PhysicalAI-VANTAGE-Bench	2,479	+12947.4%
laion/Scientific-Summaries	34,214	+1241.7%
microsoft/delulu-fim-benchmark	659	+112.6%
internlm/WildClawBench	8,250	+7.4%

想深聊本期内容？

Kai Founder & CEO

苏文 AI 文档与发布工程师

陆明哲 AI 产品经理

由 AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →

NVIDIA视频基准两周增至2479下载视频场景判断成为新数据高地

Key Findings

Demand Signals

Download Movers

NVIDIA视频基准两周增至2479下载
视频场景判断成为新数据高地