Radar Brief 2026 年第 20 周 · 2026-04-14 — 2026-04-21

微软把 Agent 评测补成三件套,NVIDIA 把韩国 Persona 做成主权数据集

本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户

0
高价值数据集
0
相关论文
0
博客文章
0
活跃仓库
一句话速览

微软把网页操作、网页生成、长周期文档委派三类 Agent 评测补成公开栈 [P0]、NVIDIA 把韩国 Persona 做成合规主权数据资产 [P0]、Google DeepMind 与 NVIDIA 把真实世界数据继续推向多视角物理场景 [P1]。本周最强数据需求信号:Agent 评测与 verifier 数据。

Key Findings

本周 4 条高商业价值发现

P0 微软在 2026-04-14 至 2026-04-20 把 Agent 评测补成“三件套”:网页操作、网页生成、长周期文档委派同时成形 [P0]

这一周微软连续把三类 Agent benchmark 摆上台面。`microsoft/WebTailBench` 把 computer-using agent 评测做成 609 个 hand-verified 真实网页任务 + 111 个 refusal 任务,覆盖 11 个主任务类别与 7 个安全拒答类别;`microsoft/MM-WebGen-Bench` 则把网页生成评测扩到 120 个 curated prompt,覆盖 11 个 scene、11 个 visual style、以及 video / image / chart 多模态组合;`microsoft/delegate52` 进一步把 benchmark 拉到长周期 delegated workflow,公开版仍包含 234 个 work environment、横跨 48 个专业文档领域。与此同时,`surgeai/GDP.pdf` 又把 frontier LLM 的 PDF parsing 评测做成 50 份真实 PDF、每题最多 30 条 rubric。配合 Hugging Face 4 月 16 日的 `Ecom-RLVE` 文章,这周公开生态已经不再满足于“答对一道题”,而是开始系统化评测 Agent 在真实环境里能不能完成任务。

商业意义 → Agent 训练数据的稀缺点已经从普通 SFT 文本,转到 verifier、rubric、拒答边界、环境搭建和长流程 delegation 轨迹。接下来最值钱的不是单条答案,而是“可验证任务 + 多轮操作过程 + 人工复核标准”这一整套评测基础设施。
P0 NVIDIA 在 2026-04-20 推出 Nemotron-Personas-Korea,Agent 数据开始从“通用语料”转向“身份 + 法域 + 场景” [P0]

NVIDIA 本周把 `nvidia/Nemotron-Personas-Korea` 放上 Hugging Face,并在 2026-04-21 发文解释它的意义:这套数据不是泛泛的 prompt persona,而是用韩国统计厅(KOSIS)、韩国法院、国民健康保险、公营研究机构等官方数据做 grounding 的合成 persona 数据层。官方文章写明,它覆盖韩国全部 17 个省级地区、25 个区、约 209K unique names 和 2K+ occupation categories,并明确按 PIPA 合规思路设计,避免任何真实 PII 泄露。对 Agent 来说,这意味着 persona 不再只是“风格设定”,而是开始承载地域、职业、称谓、制度与场景约束。

商业意义 → 本地化 Agent 的核心资产,正在从“会说本地语言”升级成“像本地人一样做事”。未来高价值数据会是带人口分布、制度边界、行业流程和合规治理的 sovereign persona layer,而不是一批通用 synthetic profile。
P1 Google DeepMind 与 NVIDIA 继续把真实世界数据往“多视角物理世界”推进:RSRCC、Gemini Robotics-ER 1.6、NuRec 同周共振 [P1]

`google/RSRCC` 在 2026-04-15 上线,数据页显示默认子集达到 126k rows,把 remote sensing change understanding 做成时间前后图像 + 自然语言问答的组合;Google DeepMind 同周发布 `Gemini Robotics-ER 1.6`,官方博客直接强调 spatial reasoning 与 multi-view understanding;NVIDIA 的 `PhysicalAI-Robotics-NuRec` 则把 Isaac Sim 可直接使用的 3DGUT USD、mesh 与 occupancy map 资产放到同一套机器人数据资产里。三者加在一起说明,物理世界数据正在从“单张图像分类”往“多视角、可操作、可仿真、可验证”的资产形态迁移。

商业意义 → 真实世界数据服务的单价会继续上升,尤其是多视角感知、空间推理、sim-ready 资产制作、时序变化标注与机器人验证样本。这类数据比普通图文对更接近最终 Agent 可执行能力。
P2 多语种与本地化数据继续升维:Google WaxalNLP + Meta bouquet 把“全球化”从翻译扩到语音与质量评测 [P2]

这周 `google/WaxalNLP` 仍保持 10,582 下载,覆盖多种非洲语言的 ASR 与 TTS;Meta 的 `facebook/bouquet` 则把 translation quality benchmark 做到 266 个 languoid。两者合起来说明,全球化 Agent 已经不只是 UI 多语言,而要同时解决语音输入、语音输出、跨文化表述和质量评测问题。公开数据开始明显从“翻译语料”迈向“可部署的本地化能力栈”。

商业意义 → 多语种数据需求的重心正从便宜的大盘平行语料,转向高质量 speech、localized evaluation、culture-sensitive human judgment。真正能服务全球 Agent 的,不是单一翻译集,而是一整层本地化训练与评测数据。

Demand Signals

从模型发布反推训练数据需求

数据类型 强度 趋势 关联信号
Agent 评测与 verifier 数据
极强 ↑ 新增
WebTailBench、MM-WebGen-Bench、DELEGATE52、GDP.pdf、Ecom-RLVE 同周共振,评测从单步答案走向可验证环境
长周期委派式文档编辑轨迹
极强 ↑ 新增
DELEGATE52 公开 234 个工作环境,直接评测长会话 delegated workflow
主权 Persona / 人口分布 grounding 数据
极强 ↑ 新增
Nemotron-Personas-Korea 把官方统计、地域、职业、称谓规范压进可用 persona layer
多视角机器人与 simulator-ready 3D 资产
↑ 新增
Gemini Robotics-ER 1.6 强调 multi-view understanding;NuRec 直接提供 Isaac Sim 可用资产
遥感时序变化理解数据
↑ 新增
RSRCC 把 remote sensing 变化理解做成 126k rows 的时序图像 + QA 数据集
电商 / 客服 Agent 的可验证环境数据
↑ 新增
Ecom-RLVE 提供 8 个 verifiable environments 与 12 轴难度 curriculum
多语种语音 ASR / TTS 数据
↑ 新增
WaxalNLP 持续显示语音本地化仍是公开生态的基础短板
翻译质量与文化适配评测数据
↑ 新增
bouquet 把 translation quality benchmark 扩到 266 个 languoid,说明评测层开始独立成资产
野外 3D 检测与立体深度数据 ↓ 退出 上期出现,本期未出现
多维度 Reward Model 训练数据 ↓ 退出 上期出现,本期未出现
可控合成数据生成配方 ↓ 退出 上期出现,本期未出现
Economic Index 类真实使用轨迹 ↓ 退出 上期出现,本期未出现
医疗/金融垂域 RLHF 精标 ↓ 退出 上期出现,本期未出现

Download Movers

本周下载量变化最大的数据集

数据集 下载量 周增长
allenai/WildDet3D-Data 3,621 +1460.8%
microsoft/AVGen-Bench 2,843 +65.7%
Anthropic/EconomicIndex 15,786 +20.3%
google/WaxalNLP 10,582 -10.6%
nvidia/PhysicalAI-Robotics-Open-H-Embodiment 43,989 -39.7%

想深聊本期内容?

Kai
Kai Founder & CEO
苏文
苏文 AI 文档与发布工程师
陆明哲
陆明哲 AI 产品经理

AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →