W18 AI 数据情报 — 集识光年

一句话速览

Allen AI 在 2026-03-21 至 2026-03-24 把 MolmoWeb 做成“网页轨迹 + grounding + QA + ASR + Native 模型”完整数据栈 [P0]、LAION 在 2026-03-25 批量开源 coderforge、r2egym、swesmith 与 terminal corpus，开源后训练开始从“单数据集”变成“可拼装语料仓” [P0]、NVIDIA 的长视频与 Physical AI 数据继续领跑，公开需求最强的仍是“长时序 + 可执行 + 可复核”数据 [P1]。本周最强数据需求信号：网页动作轨迹数据。

Key Findings

本周 5 条高商业价值发现

P0 Allen AI 在 2026-03-21 至 2026-03-24 把 MolmoWeb 做成“网页轨迹 + grounding + QA + ASR + Native 模型”完整数据栈 [P0]

Allen AI 在这一周继续密集扩展 MolmoWeb 系列。2026-03-21 发布 `allenai/MolmoWeb-SyntheticQA`，Hugging Face 页面显示约 2.11M rows，当前下载量 563、likes 6；2026-03-22 发布 `allenai/MolmoWeb-SyntheticGround`，当前下载量 327、likes 5；2026-03-23 发布 `allenai/OLMoASR-Mix`，数据卡描述其来自公开互联网的大规模音频文本池，约 1M 小时音频，当前下载量 339；同周还连续发布 `allenai/MolmoWeb-4B-Native` 与 `allenai/MolmoWeb-8B-Native` 两个 Native 模型，并与此前的 `MolmoWeb-SyntheticTrajs / HumanSkills / HumanTrajs` 形成网页问答、元素定位、动作轨迹、语音识别和执行模型的一整套配方。

商业意义 → Web Agent 训练正在从“截图 + 单步点击”升级成“连续网页状态 + 元素定位 + 动作轨迹 + 语音输入 + 原生执行模型”的数据产品线。真正稀缺的不是原始网页，而是人类对目标元素、操作意图、动作成功与失败的判断信号。对集识光年而言，这意味着可以把网页 grounding、步骤验收、失败轨迹纠错、语音转网页操作等任务做成标准化数据服务。

P0 LAION 在 2026-03-25 批量开源 coderforge、r2egym、swesmith 与 terminal corpus，开源后训练开始从“单数据集”变成“可拼装语料仓” [P0]

2026-03-25，LAION 集中推出一组面向代码 Agent 与 RL 后训练的数据集：`laion/coderforge-preview-unified` 当前下载量 673，Hugging Face 页面显示 413k rows；`laion/nemotron-terminal-corpus-unified` 下载量 610；`laion/r2egym-unified`、`laion/swesmith-unified`、`laion/allenai-sera-unified` 及对应的 316 / 1k / 10k / 100k 分片同日上线。随后 2026-03-25 至 2026-03-28，LAION 又连续发布多批基于这些数据集训练的 `Qwen3-8B` 衍生模型，例如 `swesmith-*__Qwen3-8B`、`coderforge-*__Qwen3-8B`、`r2egym-*__Qwen3-8B`、`sft__Kimi-2-5-swesmith-oracle-maxeps-32k__Qwen3-8B` 等，形成“数据集 → 分片 → 训练混合物 → 派生模型”的公开流水线。

商业意义 → 开源社区的竞争点正在从“谁有一个爆款 benchmark”转向“谁能持续产出可复用、可切片、可混合的后训练语料仓”。这类语料大多面向代码执行、终端操作、SWE 修复、RL 环境和 agent rollout，天然需要人工验收、错误归因和难例筛选。集识光年可以切入的高价值节点，是为这类语料提供质量门禁、slice 切片、人工复核与失败案例再标注。

P1 NVIDIA 的长视频与 Physical AI 数据继续领跑，公开需求最强的仍是“长时序 + 可执行 + 可复核”数据 [P1]

本周新增数据里，`nvidia/LongGroundedThoughts-video-datagen` 于 2026-03-23 发布，当前下载量 647、likes 5，标签直接指向视频理解；`nvidia/ffs_stereo4d` 当前下载量 2,052；`nvidia/MMOU` 在一周内从 504 增至 1,389，增长 175.6%。更重要的是，机器人数据继续放量：`nvidia/PhysicalAI-Robotics-Open-H-Embodiment` 当前下载量 51,101，较上期 +36.5%；`nvidia/PhysicalAI-Robotics-Manipulation-Kitchen-Demos` 当前下载量 33,045，较上期 +58.5%。

商业意义 → Physical AI 并没有因为仿真与合成数据进步而降低对真实示范和长视频监督的依赖，反而更强调“连续观测”“动作边界”“任务是否真正完成”这类判断密集型信号。对集识光年而言，机器人遥操作、长视频对齐、动作成功/失败复核和时序奖励建模，仍是最值得优先布局的高毛利数据方向。

P1 Anthropic 更新 Economic Index、Together 发布 Aurora，真实使用轨迹与多域混合 SFT 正在成为后训练的两端供给 [P1]

`Anthropic/EconomicIndex` 数据集在 2026-03-24 更新，数据卡明确写到加入了基于 Opus 4.5/4.6 的新分析与 learning curves，当前下载量 11,726、likes 494；另一边，Together 在 2026-03-27 发布 `togethercomputer/aurora`，数据卡显示其包含 619,177 条样本，覆盖 code、math、reasoning、chat、finance 五大域，当前下载量 5、likes 1。前者代表“真实世界任务采用与用户行为轨迹”被产品化为可分析数据资产，后者代表“多域混合指令语料”仍在快速扩容。

商业意义 → 后训练数据供给正在分成两个极端：一端是来自真实产品使用过程的行为轨迹、任务暴露、隐式反馈；另一端是高覆盖、多领域、可直接投喂训练的指令混合物。集识光年可以在这两端之间做桥梁：把真实业务行为转成可训练、可评估、可审计的数据结构，再把通用混合语料补上质量复核和垂域边界。

P2 本周论文共同指向一个结论：Computer Use、GUI Agent 与偏好学习的瓶颈已经回到“连续人类轨迹”和“隐式反馈” [P2]

2026-03-25 提交的论文《CUA-Suite》提出面向 Computer-Use Agents 的大规模生态：约 10,000 个人类演示任务、覆盖 87 个应用、约 55 小时视频与 600 万帧，并额外提供 UI-Vision 与 GroundCUA；本周论文列表里还出现《ImplicitRM: Unbiased Reward Modeling from Implicit Preference Data for LLM alignment》《Privacy-Preserving Reinforcement Learning from Human Feedback via Decoupled Reward Learning》《Improving Safety Alignment via Balanced Direct Preference Optimization》以及《UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience》。这些工作同时在强调视频演示、失败经验、隐式反馈和安全偏好。

商业意义 → 偏好学习不再只是传统二选一标注，GUI/Computer Use 也不再是单点坐标点击。行业正在把“人类怎么操作、为什么失败、用户隐式偏好是什么”当成下一轮训练瓶颈。谁能持续生产这类高信息密度判断数据，谁就更接近下一代 Agent 的训练入口。

Demand Signals

从模型发布反推训练数据需求

网页动作轨迹数据

极强 ↑ 新增

Allen AI 在 2026-03-21 至 2026-03-24 连续扩展 MolmoWeb QA · Ground · Native 模型与配套轨迹数据

GUI grounding / Screen parsing 数据

极强 ↑ 新增

`MolmoWeb-SyntheticGround` 与 CUA-Suite 都强调 UI 元素定位 · 截图理解与 grounding

Computer Use 连续视频示范

极强 ↑ 新增

CUA-Suite 提出 10,000 个人类演示任务 · 87 个应用 · 55 小时视频与 600 万帧

代码 Agent / 终端后训练语料

极强 ↑ 新增

LAION 在 2026-03-25 批量推出 coderforge · swesmith · nemotron-terminal-corpus · r2egym

机器人遥操作与具身示范数据

极强 ↑ 新增

Open-H-Embodiment 下载量 51,101；Kitchen-Demos 下载量 33,045，周增速仍高

长视频推理与长时序多模态数据

强 ↑ 新增

`LongGroundedThoughts-video-datagen` 与 `MMOU` 的增长共同指向长视频监督需求

隐式偏好与真实使用反馈数据

强 ↑ 新增

`EconomicIndex` 更新 learning curves；论文 ImplicitRM / Privacy-Preserving RLHF 同时出现

多域混合 SFT 数据

强 ↑ 新增

Together `aurora` 用 619,177 条样本覆盖 code · math · chat · commonsense · finance

视觉 Agent benchmark

强 ↑ 新增

`WildClawBench` · `AVGen-Bench` · `olmOCR-bench-1.5-preview` 持续抬高评测门槛

语音到执行链路数据

中 ↑ 新增

`OLMoASR-Mix` 说明语音识别开始被纳入 Agent 数据栈，而非单独 ASR 赛道

视频理解/追踪数据 ↓ 退出上期出现，本期未出现

GUI grounding 与移动端操作数据 ↓ 退出上期出现，本期未出现

后训练 RL/偏好数据 ↓ 退出上期出现，本期未出现

通用 SFT 与代码推理数据 ↓ 退出上期出现，本期未出现

机器人遥操作示范数据 ↓ 退出上期出现，本期未出现

视觉奖励与可验证评测集 ↓ 退出上期出现，本期未出现

长视频音视频评测基准 ↓ 退出上期出现，本期未出现

多语言高质量翻译评测 ↓ 退出上期出现，本期未出现

persona 与社会分布模拟数据 ↓ 退出上期出现，本期未出现

观测式用户反馈数据 ↓ 退出上期出现，本期未出现

Download Movers

本周下载量变化最大的数据集

数据集	下载量	周增长
nvidia/MMOU	1,389	+175.6%
nvidia/PhysicalAI-Robotics-Manipulation-Kitchen-Demos	33,045	+58.5%
nvidia/PhysicalAI-Robotics-Open-H-Embodiment	51,101	+36.5%
allenai/molmospaces	7,684	-11.2%
nvidia/HiLiftAeroML	975	-18.8%

想深聊本期内容？

Kai Founder & CEO

苏文 AI 文档与发布工程师

陆明哲 AI 产品经理

由 AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →

Allen AI 把 Web Agent 数据做成产品线LAION 批量开源 coderforge 与 r2egym

Key Findings

Demand Signals

Download Movers

Allen AI 把 Web Agent 数据做成产品线
LAION 批量开源 coderforge 与 r2egym