微软把 Agent 评测补成三件套,NVIDIA 把韩国 Persona 做成主权数据集
本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户
微软把网页操作、网页生成、长周期文档委派三类 Agent 评测补成公开栈 [P0]、NVIDIA 把韩国 Persona 做成合规主权数据资产 [P0]、Google DeepMind 与 NVIDIA 把真实世界数据继续推向多视角物理场景 [P1]。本周最强数据需求信号:Agent 评测与 verifier 数据。
Key Findings
本周 4 条高商业价值发现
这一周微软连续把三类 Agent benchmark 摆上台面。`microsoft/WebTailBench` 把 computer-using agent 评测做成 609 个 hand-verified 真实网页任务 + 111 个 refusal 任务,覆盖 11 个主任务类别与 7 个安全拒答类别;`microsoft/MM-WebGen-Bench` 则把网页生成评测扩到 120 个 curated prompt,覆盖 11 个 scene、11 个 visual style、以及 video / image / chart 多模态组合;`microsoft/delegate52` 进一步把 benchmark 拉到长周期 delegated workflow,公开版仍包含 234 个 work environment、横跨 48 个专业文档领域。与此同时,`surgeai/GDP.pdf` 又把 frontier LLM 的 PDF parsing 评测做成 50 份真实 PDF、每题最多 30 条 rubric。配合 Hugging Face 4 月 16 日的 `Ecom-RLVE` 文章,这周公开生态已经不再满足于“答对一道题”,而是开始系统化评测 Agent 在真实环境里能不能完成任务。
NVIDIA 本周把 `nvidia/Nemotron-Personas-Korea` 放上 Hugging Face,并在 2026-04-21 发文解释它的意义:这套数据不是泛泛的 prompt persona,而是用韩国统计厅(KOSIS)、韩国法院、国民健康保险、公营研究机构等官方数据做 grounding 的合成 persona 数据层。官方文章写明,它覆盖韩国全部 17 个省级地区、25 个区、约 209K unique names 和 2K+ occupation categories,并明确按 PIPA 合规思路设计,避免任何真实 PII 泄露。对 Agent 来说,这意味着 persona 不再只是“风格设定”,而是开始承载地域、职业、称谓、制度与场景约束。
`google/RSRCC` 在 2026-04-15 上线,数据页显示默认子集达到 126k rows,把 remote sensing change understanding 做成时间前后图像 + 自然语言问答的组合;Google DeepMind 同周发布 `Gemini Robotics-ER 1.6`,官方博客直接强调 spatial reasoning 与 multi-view understanding;NVIDIA 的 `PhysicalAI-Robotics-NuRec` 则把 Isaac Sim 可直接使用的 3DGUT USD、mesh 与 occupancy map 资产放到同一套机器人数据资产里。三者加在一起说明,物理世界数据正在从“单张图像分类”往“多视角、可操作、可仿真、可验证”的资产形态迁移。
这周 `google/WaxalNLP` 仍保持 10,582 下载,覆盖多种非洲语言的 ASR 与 TTS;Meta 的 `facebook/bouquet` 则把 translation quality benchmark 做到 266 个 languoid。两者合起来说明,全球化 Agent 已经不只是 UI 多语言,而要同时解决语音输入、语音输出、跨文化表述和质量评测问题。公开数据开始明显从“翻译语料”迈向“可部署的本地化能力栈”。
Demand Signals
从模型发布反推训练数据需求
Download Movers
本周下载量变化最大的数据集
| 数据集 | 下载量 | 周增长 |
|---|---|---|
| allenai/WildDet3D-Data | 3,621 | +1460.8% |
| microsoft/AVGen-Bench | 2,843 | +65.7% |
| Anthropic/EconomicIndex | 15,786 | +20.3% |
| google/WaxalNLP | 10,582 | -10.6% |
| nvidia/PhysicalAI-Robotics-Open-H-Embodiment | 43,989 | -39.7% |
想深聊本期内容?
由 AI Dataset Radar 自动生成 · 每周更新
AI Dataset Radar →