Allen AI 把 Web Agent 数据做成产品线
LAION 批量开源 coderforge 与 r2egym
本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户
Allen AI 在 2026-03-21 至 2026-03-24 把 MolmoWeb 做成“网页轨迹 + grounding + QA + ASR + Native 模型”完整数据栈 [P0]、LAION 在 2026-03-25 批量开源 coderforge、r2egym、swesmith 与 terminal corpus,开源后训练开始从“单数据集”变成“可拼装语料仓” [P0]、NVIDIA 的长视频与 Physical AI 数据继续领跑,公开需求最强的仍是“长时序 + 可执行 + 可复核”数据 [P1]。本周最强数据需求信号:网页动作轨迹数据。
Key Findings
本周 5 条高商业价值发现
Allen AI 在这一周继续密集扩展 MolmoWeb 系列。2026-03-21 发布 `allenai/MolmoWeb-SyntheticQA`,Hugging Face 页面显示约 2.11M rows,当前下载量 563、likes 6;2026-03-22 发布 `allenai/MolmoWeb-SyntheticGround`,当前下载量 327、likes 5;2026-03-23 发布 `allenai/OLMoASR-Mix`,数据卡描述其来自公开互联网的大规模音频文本池,约 1M 小时音频,当前下载量 339;同周还连续发布 `allenai/MolmoWeb-4B-Native` 与 `allenai/MolmoWeb-8B-Native` 两个 Native 模型,并与此前的 `MolmoWeb-SyntheticTrajs / HumanSkills / HumanTrajs` 形成网页问答、元素定位、动作轨迹、语音识别和执行模型的一整套配方。
2026-03-25,LAION 集中推出一组面向代码 Agent 与 RL 后训练的数据集:`laion/coderforge-preview-unified` 当前下载量 673,Hugging Face 页面显示 413k rows;`laion/nemotron-terminal-corpus-unified` 下载量 610;`laion/r2egym-unified`、`laion/swesmith-unified`、`laion/allenai-sera-unified` 及对应的 316 / 1k / 10k / 100k 分片同日上线。随后 2026-03-25 至 2026-03-28,LAION 又连续发布多批基于这些数据集训练的 `Qwen3-8B` 衍生模型,例如 `swesmith-*__Qwen3-8B`、`coderforge-*__Qwen3-8B`、`r2egym-*__Qwen3-8B`、`sft__Kimi-2-5-swesmith-oracle-maxeps-32k__Qwen3-8B` 等,形成“数据集 → 分片 → 训练混合物 → 派生模型”的公开流水线。
本周新增数据里,`nvidia/LongGroundedThoughts-video-datagen` 于 2026-03-23 发布,当前下载量 647、likes 5,标签直接指向视频理解;`nvidia/ffs_stereo4d` 当前下载量 2,052;`nvidia/MMOU` 在一周内从 504 增至 1,389,增长 175.6%。更重要的是,机器人数据继续放量:`nvidia/PhysicalAI-Robotics-Open-H-Embodiment` 当前下载量 51,101,较上期 +36.5%;`nvidia/PhysicalAI-Robotics-Manipulation-Kitchen-Demos` 当前下载量 33,045,较上期 +58.5%。
`Anthropic/EconomicIndex` 数据集在 2026-03-24 更新,数据卡明确写到加入了基于 Opus 4.5/4.6 的新分析与 learning curves,当前下载量 11,726、likes 494;另一边,Together 在 2026-03-27 发布 `togethercomputer/aurora`,数据卡显示其包含 619,177 条样本,覆盖 code、math、reasoning、chat、finance 五大域,当前下载量 5、likes 1。前者代表“真实世界任务采用与用户行为轨迹”被产品化为可分析数据资产,后者代表“多域混合指令语料”仍在快速扩容。
2026-03-25 提交的论文《CUA-Suite》提出面向 Computer-Use Agents 的大规模生态:约 10,000 个人类演示任务、覆盖 87 个应用、约 55 小时视频与 600 万帧,并额外提供 UI-Vision 与 GroundCUA;本周论文列表里还出现《ImplicitRM: Unbiased Reward Modeling from Implicit Preference Data for LLM alignment》《Privacy-Preserving Reinforcement Learning from Human Feedback via Decoupled Reward Learning》《Improving Safety Alignment via Balanced Direct Preference Optimization》以及《UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience》。这些工作同时在强调视频演示、失败经验、隐式反馈和安全偏好。
Demand Signals
从模型发布反推训练数据需求
Download Movers
本周下载量变化最大的数据集
| 数据集 | 下载量 | 周增长 |
|---|---|---|
| nvidia/MMOU | 1,389 | +175.6% |
| nvidia/PhysicalAI-Robotics-Manipulation-Kitchen-Demos | 33,045 | +58.5% |
| nvidia/PhysicalAI-Robotics-Open-H-Embodiment | 51,101 | +36.5% |
| allenai/molmospaces | 7,684 | -11.2% |
| nvidia/HiLiftAeroML | 975 | -18.8% |
想深聊本期内容?
由 AI Dataset Radar 自动生成 · 每周更新
AI Dataset Radar →