微软把 Agent 评测补成三件套，NVIDIA 把韩国 Persona 做成主权数据集

一句话速览

微软把网页操作、网页生成、长周期文档委派三类 Agent 评测补成公开栈 [P0]、NVIDIA 把韩国 Persona 做成合规主权数据资产 [P0]、Google DeepMind 与 NVIDIA 把真实世界数据继续推向多视角物理场景 [P1]。本周最强数据需求信号：Agent 评测与 verifier 数据。

Key Findings

本周 4 条高商业价值发现

P0 微软在 2026-04-14 至 2026-04-20 把 Agent 评测补成“三件套”：网页操作、网页生成、长周期文档委派同时成形 [P0]

这一周微软连续把三类 Agent benchmark 摆上台面。`microsoft/WebTailBench` 把 computer-using agent 评测做成 609 个 hand-verified 真实网页任务 + 111 个 refusal 任务，覆盖 11 个主任务类别与 7 个安全拒答类别；`microsoft/MM-WebGen-Bench` 则把网页生成评测扩到 120 个 curated prompt，覆盖 11 个 scene、11 个 visual style、以及 video / image / chart 多模态组合；`microsoft/delegate52` 进一步把 benchmark 拉到长周期 delegated workflow，公开版仍包含 234 个 work environment、横跨 48 个专业文档领域。与此同时，`surgeai/GDP.pdf` 又把 frontier LLM 的 PDF parsing 评测做成 50 份真实 PDF、每题最多 30 条 rubric。配合 Hugging Face 4 月 16 日的 `Ecom-RLVE` 文章，这周公开生态已经不再满足于“答对一道题”，而是开始系统化评测 Agent 在真实环境里能不能完成任务。

商业意义 → Agent 训练数据的稀缺点已经从普通 SFT 文本，转到 verifier、rubric、拒答边界、环境搭建和长流程 delegation 轨迹。接下来最值钱的不是单条答案，而是“可验证任务 + 多轮操作过程 + 人工复核标准”这一整套评测基础设施。

P0 NVIDIA 在 2026-04-20 推出 Nemotron-Personas-Korea，Agent 数据开始从“通用语料”转向“身份 + 法域 + 场景” [P0]

NVIDIA 本周把 `nvidia/Nemotron-Personas-Korea` 放上 Hugging Face，并在 2026-04-21 发文解释它的意义：这套数据不是泛泛的 prompt persona，而是用韩国统计厅（KOSIS）、韩国法院、国民健康保险、公营研究机构等官方数据做 grounding 的合成 persona 数据层。官方文章写明，它覆盖韩国全部 17 个省级地区、25 个区、约 209K unique names 和 2K+ occupation categories，并明确按 PIPA 合规思路设计，避免任何真实 PII 泄露。对 Agent 来说，这意味着 persona 不再只是“风格设定”，而是开始承载地域、职业、称谓、制度与场景约束。

商业意义 → 本地化 Agent 的核心资产，正在从“会说本地语言”升级成“像本地人一样做事”。未来高价值数据会是带人口分布、制度边界、行业流程和合规治理的 sovereign persona layer，而不是一批通用 synthetic profile。

P1 Google DeepMind 与 NVIDIA 继续把真实世界数据往“多视角物理世界”推进：RSRCC、Gemini Robotics-ER 1.6、NuRec 同周共振 [P1]

`google/RSRCC` 在 2026-04-15 上线，数据页显示默认子集达到 126k rows，把 remote sensing change understanding 做成时间前后图像 + 自然语言问答的组合；Google DeepMind 同周发布 `Gemini Robotics-ER 1.6`，官方博客直接强调 spatial reasoning 与 multi-view understanding；NVIDIA 的 `PhysicalAI-Robotics-NuRec` 则把 Isaac Sim 可直接使用的 3DGUT USD、mesh 与 occupancy map 资产放到同一套机器人数据资产里。三者加在一起说明，物理世界数据正在从“单张图像分类”往“多视角、可操作、可仿真、可验证”的资产形态迁移。

商业意义 → 真实世界数据服务的单价会继续上升，尤其是多视角感知、空间推理、sim-ready 资产制作、时序变化标注与机器人验证样本。这类数据比普通图文对更接近最终 Agent 可执行能力。

P2 多语种与本地化数据继续升维：Google WaxalNLP + Meta bouquet 把“全球化”从翻译扩到语音与质量评测 [P2]

这周 `google/WaxalNLP` 仍保持 10,582 下载，覆盖多种非洲语言的 ASR 与 TTS；Meta 的 `facebook/bouquet` 则把 translation quality benchmark 做到 266 个 languoid。两者合起来说明，全球化 Agent 已经不只是 UI 多语言，而要同时解决语音输入、语音输出、跨文化表述和质量评测问题。公开数据开始明显从“翻译语料”迈向“可部署的本地化能力栈”。

商业意义 → 多语种数据需求的重心正从便宜的大盘平行语料，转向高质量 speech、localized evaluation、culture-sensitive human judgment。真正能服务全球 Agent 的，不是单一翻译集，而是一整层本地化训练与评测数据。

Demand Signals

从模型发布反推训练数据需求

Agent 评测与 verifier 数据

极强 ↑ 新增

WebTailBench、MM-WebGen-Bench、DELEGATE52、GDP.pdf、Ecom-RLVE 同周共振，评测从单步答案走向可验证环境

长周期委派式文档编辑轨迹

极强 ↑ 新增

DELEGATE52 公开 234 个工作环境，直接评测长会话 delegated workflow

主权 Persona / 人口分布 grounding 数据

极强 ↑ 新增

Nemotron-Personas-Korea 把官方统计、地域、职业、称谓规范压进可用 persona layer

多视角机器人与 simulator-ready 3D 资产

强 ↑ 新增

Gemini Robotics-ER 1.6 强调 multi-view understanding；NuRec 直接提供 Isaac Sim 可用资产

遥感时序变化理解数据

强 ↑ 新增

RSRCC 把 remote sensing 变化理解做成 126k rows 的时序图像 + QA 数据集

电商 / 客服 Agent 的可验证环境数据

强 ↑ 新增

Ecom-RLVE 提供 8 个 verifiable environments 与 12 轴难度 curriculum

多语种语音 ASR / TTS 数据

强 ↑ 新增

WaxalNLP 持续显示语音本地化仍是公开生态的基础短板

翻译质量与文化适配评测数据

中 ↑ 新增

bouquet 把 translation quality benchmark 扩到 266 个 languoid，说明评测层开始独立成资产

野外 3D 检测与立体深度数据 ↓ 退出上期出现，本期未出现

多维度 Reward Model 训练数据 ↓ 退出上期出现，本期未出现

可控合成数据生成配方 ↓ 退出上期出现，本期未出现

Economic Index 类真实使用轨迹 ↓ 退出上期出现，本期未出现

医疗/金融垂域 RLHF 精标 ↓ 退出上期出现，本期未出现

Download Movers

本周下载量变化最大的数据集

数据集	下载量	周增长
allenai/WildDet3D-Data	3,621	+1460.8%
microsoft/AVGen-Bench	2,843	+65.7%
Anthropic/EconomicIndex	15,786	+20.3%
google/WaxalNLP	10,582	-10.6%
nvidia/PhysicalAI-Robotics-Open-H-Embodiment	43,989	-39.7%

想深聊本期内容？

Kai Founder & CEO

苏文 AI 文档与发布工程师

陆明哲 AI 产品经理

由 AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →