W17 AI 数据情报 — 集识光年

一句话速览

Allen AI 在 2026-03-15 至 2026-03-17 连续发布 4 个 MolmoPoint 相关数据/模型，视频与 GUI 指向数据密集增长 [P0]、NVIDIA 在 2026-03-18 至 2026-03-19 同步公开 RL 与 SFT 训练数据，后训练数据资产化加速 [P0]、NVIDIA 机器人与 Physical AI 数据集下载量继续领跑，遥操作示范成为最强公开需求信号 [P1]。本周最强数据需求信号：视频理解/追踪数据。

Key Findings

本周 5 条高商业价值发现

P0 Allen AI 在 2026-03-15 至 2026-03-17 连续发布 4 个 MolmoPoint 相关数据/模型，视频与 GUI 指向数据密集增长 [P0]

Allen AI 于 2026-03-15 发布 allenai/MolmoPoint-TrackSyn，下载量 94、likes 2；同日发布 allenai/MolmoPoint-TrackAny，下载量 108、likes 2。2026-03-16 发布模型 allenai/MolmoPoint-8B，下载量 289、likes 11。2026-03-17 发布模型 allenai/MolmoPoint-GUI-8B 和 allenai/MolmoPoint-Vid-4B，下载量分别为 91 和 91。此前相关数据集 allenai/MolmoPoint-GUISyn 于 2026-02-24 发布，下载量 265、likes 6；allenai/Molmo2-VideoPoint 下载量已到 440，较上期 +22。

商业意义 → 这说明多模态 Agent 已从“看图问答”转向“指点、追踪、GUI grounding、视频 grounding”的细粒度执行能力，训练核心不再只是海量原始内容，而是带有空间位置、时间轨迹、意图指向的人类判断信号。对集识光年而言，这是高价值机会：可围绕视频点选、对象轨迹校验、GUI 元素对齐、自然语言指代解析建立“人通过贡献判断获得收入”的任务网络，因为这类数据目前仍难以仅靠合成数据稳定覆盖真实世界歧义。

P0 NVIDIA 在 2026-03-18 至 2026-03-19 同步公开 RL 与 SFT 训练数据，后训练数据资产化加速 [P0]

nvidia/Nemotron-Cascade-2-RL-data 于 2026-03-18 发布，下载量 15、likes 12；nvidia/Nemotron-Cascade-2-SFT-Data 于 2026-03-19 发布，下载量 32、likes 10。对应论文《Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation》于 2026-03-19 发布。数据描述中明确包含 instruction-following RL、multi-domain RL、on-policy distillation、software engineering RL。同期 nvidia/Nemotron-RL-bixbench_hypothesis 于 2026-03-14 发布，下载量 2,534、likes 4。

商业意义 → 一线厂商开始把后训练数据混合物直接公开，意味着竞争焦点从“有没有模型”转向“有没有可复用、可审计、可持续更新的训练配方数据”。这类数据表面上是文本，实质上是偏好、拒答边界、任务完成度、代码修复质量等人类判断的压缩产物。集识光年可优先布局 RLHF/RLAIF 数据生产与评测复核服务，尤其是代码 Agent、复杂指令跟随和高风险领域安全拒答三类判断密集场景。

P1 NVIDIA 机器人与 Physical AI 数据集下载量继续领跑，遥操作示范成为最强公开需求信号 [P1]

nvidia/PhysicalAI-Robotics-Open-H-Embodiment 于 2026-02-06 发布，下载量 37,433、likes 8；nvidia/PhysicalAI-Robotics-Manipulation-Kitchen-Demos 于 2026-02-10 发布，下载量 20,849、likes 38，数据集包含 600 小时人类遥操作示范、316 个任务、55k trajectories。更大规模的 nvidia/PhysicalAI-Autonomous-Vehicles 下载量达到 214,152、likes 785。Meta 侧的 facebook/ego-1k 于 2026-01-29 发布，下载量 5,903，补强 egocentric 3D/multiview 数据。

商业意义 → 机器人和自动驾驶并未因为仿真提升而降低真实数据价值，反而更依赖高质量示范、时序对齐和失败案例覆盖。尤其是“人如何操作”“何时纠正”“何为可执行动作边界”这类信号，本质上都来自人类判断。集识光年可将具身数据机会聚焦为三层：遥操作示范采集、时序文本解释、失败/风险动作复核，形成比单纯采集更高毛利的数据服务。

P1 中国开源模型开始直接开放训练集，SFT 与奖励评测更透明 [P1]

stepfun-ai/Step-3.5-Flash-SFT 于 2026-03-14 发布，下载量 27,044、likes 260，是本周下载量最高的新 SFT 数据集之一，标签覆盖 chat、sft、instruction-tuning、reasoning、code。InternLM 于 2026-03-12 发布 internlm/VC-RewardBench，下载量 1,810、likes 6，并同步发布 internlm/Visual-ERM 模型，标签直接关联 dataset:internlm/VC-RewardBench。internlm/EndoCoT-Data 于 2026-03-11 发布，下载量 1,764、likes 6，位列本周 Download Movers 第一。

商业意义 → 中国团队正从“发模型”转向“发训练数据与评测数据”，且更强调视觉奖励、代码、推理链等可验证场景。这为数据服务商带来两种机会：一是承接模型厂商对垂域 SFT 数据的清洗、切片、复核需求；二是建设奖励模型评测集与渲染后比对数据。特别是视觉代码、UI 还原、图像编辑结果优劣判断，仍高度依赖人类判断标准而非自动打分。

P2 多篇 2026-03-17 至 2026-03-19 论文同时转向“观测反馈、负反馈、切片治理”，偏好数据收集范式在变化 [P2]

2026-03-19 的《CausalRM》提出从 observational user feedback 学习奖励模型。2026-03-19 的《MOSAIC》讨论多目标 slice-aware iterative curation。2026-03-18 的《Efficient Exploration at Scale》强调 choice data 在线更新。2026-03-17 的《Via Negativa for AI Alignment》指出 negative-only feedback 可逼近或超过标准 RLHF。2026-03-17 的《HIPO》聚焦层级指令服从。同期 Anthropic 发布“81,000 people”大规模用户质性反馈新闻。

商业意义 → 偏好数据不再局限于传统二选一标注，而是转向真实用户行为、负向约束、场景切片和层级规则。这意味着数据行业的门槛上移：不是简单收集反馈，而是设计反馈结构、筛出高信息密度样本、建立一致性标准。集识光年可把“人类判断”产品化为偏好实验设计、负反馈采集、边界案例挖掘和 slice 级质控服务。

Demand Signals

从模型发布反推训练数据需求

视频理解/追踪数据

极强 ↑ 新增

Allen AI 于 2026-03-15 发布 MolmoPoint-TrackSyn 与 MolmoPoint-TrackAny，并在 2026-03-17 发布 MolmoPoint-Vid-4B

GUI grounding 与移动端操作数据

极强 ↑ 新增

allenai/MolmoPoint-GUISyn 下载量 265；facebook/DigiData 面向 mobile control agents，下载量 272

后训练 RL/偏好数据

极强 ↑ 新增

nvidia/Nemotron-Cascade-2-RL-data 于 2026-03-18 发布；相关论文 2026-03-19 发布

通用 SFT 与代码推理数据

强 ↑ 新增

stepfun-ai/Step-3.5-Flash-SFT 下载量 27,044，覆盖 reasoning 与 code

机器人遥操作示范数据

极强 ↑ 新增

nvidia/PhysicalAI-Robotics-Open-H-Embodiment 下载量 37,433；Kitchen-Demos 下载量 20,849

视觉奖励与可验证评测集

强 ↑ 新增

internlm/VC-RewardBench 下载量 1,810，并被 internlm/Visual-ERM 直接引用

长视频音视频评测基准

强 ↑ 新增

nvidia/MMOU 下载量 504；论文 LVOmniBench 于 2026-03-19 发布

多语言高质量翻译评测

中 ↑ 新增

facebook/bouquet 下载量 1,721，8 种语言且为 linguists handcrafted

persona 与社会分布模拟数据

中 ↑ 新增

nvidia/Nemotron-Personas-France 下载量 3,147 · likes 62，强调 grounded personas

观测式用户反馈数据

强 ↑ 新增

论文 CausalRM 于 2026-03-19 提出基于 clicks · copies · upvotes 的 reward modeling

机器人遥操作演示数据 ↓ 退出上期出现，本期未出现

跨 embodiment 机器人轨迹 ↓ 退出上期出现，本期未出现

代码 Agent 轨迹与补丁数据 ↓ 退出上期出现，本期未出现

偏好对齐与分歧数据 ↓ 退出上期出现，本期未出现

事实性与科学代理评测 ↓ 退出上期出现，本期未出现

视频指向与时序 grounding 数据 ↓ 退出上期出现，本期未出现

多语种语音数据 ↓ 退出上期出现，本期未出现

检索与 RAG 合成数据 ↓ 退出上期出现，本期未出现

医疗推理与内镜数据 ↓ 退出上期出现，本期未出现

隐私脱敏与 PII 标注数据 ↓ 退出上期出现，本期未出现

Download Movers

本周下载量变化最大的数据集

数据集	下载量	周增长
nvidia/HiLiftAeroML	1,200	+66.4%
laion/majestrino-data	7,837	+28.4%
allenai/asta-summary-citation-counts	509	+11.6%
allenai/Molmo2-VideoPoint	440	+5.3%
internlm/EndoCoT-Data	1,764	new

想深聊本期内容？

Kai Founder & CEO

苏文 AI 文档与发布工程师

陆明哲 AI 产品经理

由 AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →

Allen AI 连发 4 个 MolmoPoint 数据与模型细粒度人类判断成多模态 Agent 燃料

Key Findings

Demand Signals

Download Movers

Allen AI 连发 4 个 MolmoPoint 数据与模型
细粒度人类判断成多模态 Agent 燃料