Radar Brief 2026 年第 22 周 · 2026-05-11 — 2026-05-18

NVIDIA视频基准两周增至2479下载
视频场景判断成为新数据高地

本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户

0
高价值数据集
0
相关论文
0
博客文章
0
活跃仓库
一句话速览

NVIDIA 的 PhysicalAI-VANTAGE-Bench 在 2026-05-04 发布后 14 天内达 2,479 次下载,Subset 版在 2026-05-05 发布后达 1,284 次下载 [P0]、LAION 在本期新增 16 个 rl_environment、4 个 reward_model、1 个 rlhf_preference 数据集,形成成体系对齐数据堆栈 [P0]、Meta 与 Google 同步强化多语言质量数据,facebook/bouquet 与 google/fleurs 分别达到 1,435 和 57,173 次下载 [P1]。本周最强数据需求信号:固定机位视频理解/跨镜头追踪数据。

Key Findings

本周 5 条高商业价值发现

P0 NVIDIA 的 PhysicalAI-VANTAGE-Bench 在 2026-05-04 发布后 14 天内达 2,479 次下载,Subset 版在 2026-05-05 发布后达 1,284 次下载 [P0]

nvidia/PhysicalAI-VANTAGE-Bench 于 2026-05-04 发布,当前下载量 2,479、点赞 9;nvidia/PhysicalAI-VANTAGE-Bench-Subset 于 2026-05-05 发布,当前下载量 1,284、点赞 1。变化追踪显示 VANTAGE-Bench 较上期从 19 增至 2,479,增加 2,460 次、增长 12,947.4%;Subset 从 6 增至 1,284,增加 1,278 次、增长 21,300.0%。两者都聚焦固定基础设施摄像头视频理解任务,覆盖 warehouse、smart city 等真实场景。

商业意义 → 这说明“固定机位视频理解/跨场景追踪评测”正成为 Physical AI 的高需求数据带。此类数据的价值不在海量原始视频,而在跨摄像头目标一致性、事件边界、场景迁移失败样本等高判断密度信息,机器合成可补量但难补“是否算同一事件/同一主体”的判断。对集识光年而言,这是可切入的人类判断型数据机会:视频事件分段、跨镜头身份一致性审核、难例回流与评测集构建。
P0 LAION 在本期新增 16 个 rl_environment、4 个 reward_model、1 个 rlhf_preference 数据集,形成成体系对齐数据堆栈 [P0]

变化数据中,rl_environment 从 1 个升至 16 个,新增 15 个;reward_model 从 0 个升至 4 个;rlhf_preference 从 0 个升至 1 个。代表性数据集包括 laion/nemotron-gym-safety、laion/nemotron-gym-agent-workplace、laion/nemotron-gym-agent-calendar、laion/nemotron-gym-competitive-coding、laion/scaling-laws-for-comparison-full,以及 laion/mix_h10_reward_binary-v2、laion/mix_h10_reward_proportional-v2、laion/mix_h10_reward_staged-v2、laion/mix_baseline_uniform-v2,均在本期新出现。

商业意义 → 行业正在从“单轮偏好数据”转向“环境 + 轨迹 + 奖励 + 对比”的系统化后训练。这里最难被替代的不是生成任务本身,而是奖励定义、失败归因、对抗样本设计和多目标权衡标准,这些都需要人类判断。对集识光年而言,应把服务话术从“标注”升级为“让人通过贡献判断获得收入的对齐数据生产”,重点面向安全、办公 Agent、代码 Agent 的偏好比较、轨迹审查和 reward rubric 设计。
P1 Meta 与 Google 同步强化多语言质量数据,facebook/bouquet 与 google/fleurs 分别达到 1,435 和 57,173 次下载 [P1]

facebook/bouquet 于 2025-06-10 发布,当前下载量 1,435、点赞 36,是 8 种语言的多向并行翻译质量评测集,底层文本由语言学家手工制作;google/fleurs 于 2022-04-19 发布,当前下载量 57,173、点赞 402,覆盖 102 种语言语音识别,标签同时包含 expert-generated、crowdsourced 与 machine-generated。二者共同指向多语言语音/翻译质量评测而非单纯语料扩容。

商业意义 → 多语言数据竞争已从“有没有语料”转向“质量判断是否可靠”。特别是翻译优劣、口音可懂度、跨语种一致性等问题,仍依赖母语者和专家的细粒度判断。对集识光年,这是高附加值供给方向:多语言主观质量评价、双语句对偏好选择、文化语境一致性审核,而不是低价通用语料整理。
P1 Agent 评测数据继续升温,internlm/WildClawBench 达 8,250 次下载,Microsoft 新增 Orchard 与 WebTailBench [P1]

internlm/WildClawBench 于 2026-03-24 发布,当前下载量 8,250、点赞 59,较上期 7,683 增长 567 次。变化数据还显示 microsoft/Orchard 新增下载量 166、点赞 8,microsoft/WebTailBench 新增下载量 366、点赞 16,均被归入 agent_tool。Databricks 的 databricks/officeqa 于 2025-12-15 发布,当前下载量 131,聚焦真实文档上的端到端推理。

商业意义 → Agent 训练焦点正从通用问答转向“在真实环境中完成工作”。决定模型上限的不是网页快照数量,而是任务拆解正确性、工具调用是否合规、失败是否可复盘等过程性判断。对集识光年,机会在于构建 agent 任务轨迹质检、人工 rubric 评估、真实企业文档任务集,这些比通用指令数据更能体现人类判断不可替代。
P2 科研与工业文档数据开始进入高价值推理评测,allenai/olmoearth-paper-embeddings 与 databricks/officeqa 同步出现 [P2]

allenai/olmoearth-paper-embeddings 于 2026-05-15 发布,当前下载量 2,876、点赞 2,提供 26 个 Earth observation foundation models 在 24 个下游任务上的论文嵌入;databricks/officeqa 于 2025-12-15 发布,当前下载量 131,围绕 1930 年代起美国财政公报文档上的 grounded reasoning。与此同时,Microsoft Research 在 2026-05-14 发布 SocialReasoning-Bench 相关博客,强调代理虽能执行但未必持续改善用户处境。

商业意义 → 高价值文档 AI 的门槛在“证据链是否成立”,而非单纯 OCR 或抽取。科研表格、历史档案、财务公报、工业规则文档都需要人对证据引用、结论稳健性和任务完成标准作判断。对集识光年,建议把文档理解业务聚焦到“证据对齐评测、引用正确性审核、长文档任务分解判断”这类高价值环节。

Demand Signals

从模型发布反推训练数据需求

数据类型 强度 趋势 关联信号
固定机位视频理解/跨镜头追踪数据
极强 ↑ 新增
nvidia/PhysicalAI-VANTAGE-Bench 于 2026-05-04 发布后达 2,479 下载,Subset 于 2026-05-05 达 1,284 下载
RL 环境与任务回合数据
极强 ↑ 新增
laion 新增 16 个 rl_environment,覆盖 safety · calendar · workplace · competitive-coding 等场景
奖励模型与偏好比较数据
极强 ↑ 新增
laion 新增 4 个 reward_model 和 1 个 rlhf_preference,形成 reward + comparison 数据堆栈
Agent 工具使用轨迹
↑ 新增
agent_tool 类从 0 增至 9,新增 microsoft/Orchard · microsoft/WebTailBench · databricks/officeqa · allenai/asta-summary-citation-counts
多语言质量评测数据
↑ 新增
facebook/bouquet 下载 1,435,google/fleurs 下载 57,173,均强调专家/众包质量来源
科研与企业文档推理数据
↑ 新增
databricks/officeqa · allenai/asta-summary-citation-counts · olmoearth-paper-embeddings 指向真实文档与证据链推理
3D 世界模型/机器人空间标注
↑ 新增
nvidia/PointWorld-DROID 下载 571,配合 Lyra-2.0 与 Physical AI 体系推进
安全与可靠性评测数据
↑ 新增
laion/nemotron-gym-safety 新增;Microsoft 发布 SocialReasoning-Bench 与 delegation reliability 博客;社区热议 benchmark hacking 与 arXiv 幻觉惩罚
科学计算与工业仿真数据
↑ 新增
nvidia/HiLiftAeroML 下载 11,330,Linear-Radiation-Transport 新增,GridSFM_US_power_grid 新增 432 下载
视频生成对齐数据
↑ 新增
Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization 于 2026-05-15 发表
机器人操作轨迹与语言指令 ↓ 退出 上期出现,本期未出现
视频异常理解/基础设施摄像头数据 ↓ 退出 上期出现,本期未出现
编码 Agent 轨迹 ↓ 退出 上期出现,本期未出现
开放式社会评测与安全 rubric ↓ 退出 上期出现,本期未出现
多语种/低资源语音 ↓ 退出 上期出现,本期未出现
合成代码任务与验证集 ↓ 退出 上期出现,本期未出现
多模态搜索与网页 Agent 数据 ↓ 退出 上期出现,本期未出现
视频奖励建模/偏好学习数据 ↓ 退出 上期出现,本期未出现

Download Movers

本周下载量变化最大的数据集

数据集 下载量 周增长
nvidia/PhysicalAI-VANTAGE-Bench-Subset 1,284 +21300.0%
nvidia/PhysicalAI-VANTAGE-Bench 2,479 +12947.4%
laion/Scientific-Summaries 34,214 +1241.7%
microsoft/delulu-fim-benchmark 659 +112.6%
internlm/WildClawBench 8,250 +7.4%

想深聊本期内容?

Kai
Kai Founder & CEO
苏文
苏文 AI 文档与发布工程师
陆明哲
陆明哲 AI 产品经理

AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →