Radar Brief 2026 年第 17 周 · 2026-03-13 — 2026-03-20

Allen AI 连发 4 个 MolmoPoint 数据与模型
细粒度人类判断成多模态 Agent 燃料

本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户

0
高价值数据集
0
相关论文
0
博客文章
0
活跃仓库
一句话速览

Allen AI 在 2026-03-15 至 2026-03-17 连续发布 4 个 MolmoPoint 相关数据/模型,视频与 GUI 指向数据密集增长 [P0]、NVIDIA 在 2026-03-18 至 2026-03-19 同步公开 RL 与 SFT 训练数据,后训练数据资产化加速 [P0]、NVIDIA 机器人与 Physical AI 数据集下载量继续领跑,遥操作示范成为最强公开需求信号 [P1]。本周最强数据需求信号:视频理解/追踪数据。

Key Findings

本周 5 条高商业价值发现

P0 Allen AI 在 2026-03-15 至 2026-03-17 连续发布 4 个 MolmoPoint 相关数据/模型,视频与 GUI 指向数据密集增长 [P0]

Allen AI 于 2026-03-15 发布 allenai/MolmoPoint-TrackSyn,下载量 94、likes 2;同日发布 allenai/MolmoPoint-TrackAny,下载量 108、likes 2。2026-03-16 发布模型 allenai/MolmoPoint-8B,下载量 289、likes 11。2026-03-17 发布模型 allenai/MolmoPoint-GUI-8B 和 allenai/MolmoPoint-Vid-4B,下载量分别为 91 和 91。此前相关数据集 allenai/MolmoPoint-GUISyn 于 2026-02-24 发布,下载量 265、likes 6;allenai/Molmo2-VideoPoint 下载量已到 440,较上期 +22。

商业意义 → 这说明多模态 Agent 已从“看图问答”转向“指点、追踪、GUI grounding、视频 grounding”的细粒度执行能力,训练核心不再只是海量原始内容,而是带有空间位置、时间轨迹、意图指向的人类判断信号。对集识光年而言,这是高价值机会:可围绕视频点选、对象轨迹校验、GUI 元素对齐、自然语言指代解析建立“人通过贡献判断获得收入”的任务网络,因为这类数据目前仍难以仅靠合成数据稳定覆盖真实世界歧义。
P0 NVIDIA 在 2026-03-18 至 2026-03-19 同步公开 RL 与 SFT 训练数据,后训练数据资产化加速 [P0]

nvidia/Nemotron-Cascade-2-RL-data 于 2026-03-18 发布,下载量 15、likes 12;nvidia/Nemotron-Cascade-2-SFT-Data 于 2026-03-19 发布,下载量 32、likes 10。对应论文《Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation》于 2026-03-19 发布。数据描述中明确包含 instruction-following RL、multi-domain RL、on-policy distillation、software engineering RL。同期 nvidia/Nemotron-RL-bixbench_hypothesis 于 2026-03-14 发布,下载量 2,534、likes 4。

商业意义 → 一线厂商开始把后训练数据混合物直接公开,意味着竞争焦点从“有没有模型”转向“有没有可复用、可审计、可持续更新的训练配方数据”。这类数据表面上是文本,实质上是偏好、拒答边界、任务完成度、代码修复质量等人类判断的压缩产物。集识光年可优先布局 RLHF/RLAIF 数据生产与评测复核服务,尤其是代码 Agent、复杂指令跟随和高风险领域安全拒答三类判断密集场景。
P1 NVIDIA 机器人与 Physical AI 数据集下载量继续领跑,遥操作示范成为最强公开需求信号 [P1]

nvidia/PhysicalAI-Robotics-Open-H-Embodiment 于 2026-02-06 发布,下载量 37,433、likes 8;nvidia/PhysicalAI-Robotics-Manipulation-Kitchen-Demos 于 2026-02-10 发布,下载量 20,849、likes 38,数据集包含 600 小时人类遥操作示范、316 个任务、55k trajectories。更大规模的 nvidia/PhysicalAI-Autonomous-Vehicles 下载量达到 214,152、likes 785。Meta 侧的 facebook/ego-1k 于 2026-01-29 发布,下载量 5,903,补强 egocentric 3D/multiview 数据。

商业意义 → 机器人和自动驾驶并未因为仿真提升而降低真实数据价值,反而更依赖高质量示范、时序对齐和失败案例覆盖。尤其是“人如何操作”“何时纠正”“何为可执行动作边界”这类信号,本质上都来自人类判断。集识光年可将具身数据机会聚焦为三层:遥操作示范采集、时序文本解释、失败/风险动作复核,形成比单纯采集更高毛利的数据服务。
P1 中国开源模型开始直接开放训练集,SFT 与奖励评测更透明 [P1]

stepfun-ai/Step-3.5-Flash-SFT 于 2026-03-14 发布,下载量 27,044、likes 260,是本周下载量最高的新 SFT 数据集之一,标签覆盖 chat、sft、instruction-tuning、reasoning、code。InternLM 于 2026-03-12 发布 internlm/VC-RewardBench,下载量 1,810、likes 6,并同步发布 internlm/Visual-ERM 模型,标签直接关联 dataset:internlm/VC-RewardBench。internlm/EndoCoT-Data 于 2026-03-11 发布,下载量 1,764、likes 6,位列本周 Download Movers 第一。

商业意义 → 中国团队正从“发模型”转向“发训练数据与评测数据”,且更强调视觉奖励、代码、推理链等可验证场景。这为数据服务商带来两种机会:一是承接模型厂商对垂域 SFT 数据的清洗、切片、复核需求;二是建设奖励模型评测集与渲染后比对数据。特别是视觉代码、UI 还原、图像编辑结果优劣判断,仍高度依赖人类判断标准而非自动打分。
P2 多篇 2026-03-17 至 2026-03-19 论文同时转向“观测反馈、负反馈、切片治理”,偏好数据收集范式在变化 [P2]

2026-03-19 的《CausalRM》提出从 observational user feedback 学习奖励模型。2026-03-19 的《MOSAIC》讨论多目标 slice-aware iterative curation。2026-03-18 的《Efficient Exploration at Scale》强调 choice data 在线更新。2026-03-17 的《Via Negativa for AI Alignment》指出 negative-only feedback 可逼近或超过标准 RLHF。2026-03-17 的《HIPO》聚焦层级指令服从。同期 Anthropic 发布“81,000 people”大规模用户质性反馈新闻。

商业意义 → 偏好数据不再局限于传统二选一标注,而是转向真实用户行为、负向约束、场景切片和层级规则。这意味着数据行业的门槛上移:不是简单收集反馈,而是设计反馈结构、筛出高信息密度样本、建立一致性标准。集识光年可把“人类判断”产品化为偏好实验设计、负反馈采集、边界案例挖掘和 slice 级质控服务。

Demand Signals

从模型发布反推训练数据需求

数据类型 强度 趋势 关联信号
视频理解/追踪数据
极强 ↑ 新增
Allen AI 于 2026-03-15 发布 MolmoPoint-TrackSyn 与 MolmoPoint-TrackAny,并在 2026-03-17 发布 MolmoPoint-Vid-4B
GUI grounding 与移动端操作数据
极强 ↑ 新增
allenai/MolmoPoint-GUISyn 下载量 265;facebook/DigiData 面向 mobile control agents,下载量 272
后训练 RL/偏好数据
极强 ↑ 新增
nvidia/Nemotron-Cascade-2-RL-data 于 2026-03-18 发布;相关论文 2026-03-19 发布
通用 SFT 与代码推理数据
↑ 新增
stepfun-ai/Step-3.5-Flash-SFT 下载量 27,044,覆盖 reasoning 与 code
机器人遥操作示范数据
极强 ↑ 新增
nvidia/PhysicalAI-Robotics-Open-H-Embodiment 下载量 37,433;Kitchen-Demos 下载量 20,849
视觉奖励与可验证评测集
↑ 新增
internlm/VC-RewardBench 下载量 1,810,并被 internlm/Visual-ERM 直接引用
长视频音视频评测基准
↑ 新增
nvidia/MMOU 下载量 504;论文 LVOmniBench 于 2026-03-19 发布
多语言高质量翻译评测
↑ 新增
facebook/bouquet 下载量 1,721,8 种语言且为 linguists handcrafted
persona 与社会分布模拟数据
↑ 新增
nvidia/Nemotron-Personas-France 下载量 3,147 · likes 62,强调 grounded personas
观测式用户反馈数据
↑ 新增
论文 CausalRM 于 2026-03-19 提出基于 clicks · copies · upvotes 的 reward modeling
机器人遥操作演示数据 ↓ 退出 上期出现,本期未出现
跨 embodiment 机器人轨迹 ↓ 退出 上期出现,本期未出现
代码 Agent 轨迹与补丁数据 ↓ 退出 上期出现,本期未出现
偏好对齐与分歧数据 ↓ 退出 上期出现,本期未出现
事实性与科学代理评测 ↓ 退出 上期出现,本期未出现
视频指向与时序 grounding 数据 ↓ 退出 上期出现,本期未出现
多语种语音数据 ↓ 退出 上期出现,本期未出现
检索与 RAG 合成数据 ↓ 退出 上期出现,本期未出现
医疗推理与内镜数据 ↓ 退出 上期出现,本期未出现
隐私脱敏与 PII 标注数据 ↓ 退出 上期出现,本期未出现

Download Movers

本周下载量变化最大的数据集

数据集 下载量 周增长
nvidia/HiLiftAeroML 1,200 +66.4%
laion/majestrino-data 7,837 +28.4%
allenai/asta-summary-citation-counts 509 +11.6%
allenai/Molmo2-VideoPoint 440 +5.3%
internlm/EndoCoT-Data 1,764 new

想深聊本期内容?

Kai
Kai Founder & CEO
苏文
苏文 AI 文档与发布工程师
陆明哲
陆明哲 AI 产品经理

AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →