W15 AI 数据情报 — 集识光年

一句话速览

Allen AI 撤下 29 个视频追踪数据集，释放视频理解数据紧缺信号 [P0]、编码 Agent 轨迹数据成稀缺资源，TogetherAI 撤下 CoderForge-Preview 数据集 [P0]、中国具身智能数据集 BAAI/ToucHD 系列被撤回，触觉数据成新蓝海 [P1]。本周最强数据需求信号：视频理解/追踪数据。

Key Findings

本周 5 条高商业价值发现

P0 Allen AI 撤下 29 个视频追踪数据集，释放视频理解数据紧缺信号 [P0]

Allen AI 在 3 月 5 日突然撤下 Molmo2 系列全部 29 个视频数据集，包括 VideoLocalizedNarratives、VideoMME、TVQA 等核心视频理解基准。这些数据集原本用于训练其多模态模型的视频追踪和理解能力。同期 NVIDIA 新增 Isaac-GR00T (6,321 星) 等具身智能仓库，显示行业正在争夺视频-动作对齐数据。

商业意义 → 视频理解数据成为 AI 公司的战略资源，不再轻易开源。这类数据需要大量人类判断来标注物体轨迹、动作意图和场景理解，集识光年应立即布局视频标注能力，特别是针对机器人训练的视频-动作对齐数据。

P0 编码 Agent 轨迹数据成稀缺资源，TogetherAI 撤下 CoderForge-Preview 数据集 [P0]

TogetherAI 在 3 月 5 日撤下 CoderForge-Preview 数据集，该数据集包含高质量的编码 Agent 执行轨迹。同期 OpenAI 发布 codex 仓库（63,080 星），Anthropics 的 claude-code 达到 73,813 星。论文《A Rubric-Supervised Critic from Sparse Real-World Outcomes》(2026-03-04) 提出从稀疏的人类交互中学习评估模型。

商业意义 → 编码 Agent 的执行轨迹数据极其宝贵，需要资深开发者判断代码质量、调试路径的合理性。这类"过程数据"比最终结果更有价值，集识光年应开发专门的代码审查和轨迹标注工具。

P1 中国具身智能数据集 BAAI/ToucHD 系列被撤回，触觉数据成新蓝海 [P1]

北京智源（BAAI）撤下 ToucHD-Force、ToucHD-Mani、ToucHD-Sim 三个机器人触觉数据集（2026-03-05）。这些数据集原本包含机器人操作中的力反馈和触觉信息。NVIDIA 同期发布 PhysicalAI-Robotics-NuRec 和 Arena-GR1-Manipulation 数据集，显示触觉模态成为具身智能的关键瓶颈。

商业意义 → 触觉数据采集需要专业设备和人类专家的精细标注，判断力度、材质、操作成功与否。这是纯算法无法合成的数据类型，为人类判断创造了独特价值空间。

P1 评估基准成为 AI 安全合规的关键，多个评估数据集被限制访问 [P1]

EleutherAI 撤下 djinn-problems-v0.9 和 rh-misalignment-control-sft 数据集。NVIDIA 的 SPEED-Bench、Microsoft 的 TestExplora 等评估基准同时被撤下。论文《QEDBENCH: Quantifying the Alignment Gap》(2026-02-24) 显示学术界正在建立更严格的模型对齐评估标准。

商业意义 → 随着 AI 监管加强，评估数据集成为合规的关键资源。需要人类专家判断模型输出是否符合安全、伦理标准，这类评估数据将成为高价值服务。

P2 合成数据生成进入"可控性"时代，JANUS 框架解决四大挑战 [P2]

论文《JANUS: Structured Bidirectional Generation》(2026-03-04) 提出同时解决 Fidelity（保真度）、Control（逻辑约束控制）、Reliability（不确定性估计）和 Efficiency（计算效率）的框架。SuperAnnotate 发布 MCP Server 工具，支持 AI agents 直接连接标注项目。

商业意义 → 即使合成数据技术进步，仍需要人类判断来验证合成数据的质量和逻辑一致性，特别是在高风险应用场景。

Demand Signals

从模型发布反推训练数据需求

视频理解/追踪数据

极强 → 持续

Allen AI 撤下 29 个 Molmo2 视频数据集，NVIDIA Isaac-GR00T 获 6.3K 星

编码 Agent 轨迹

极强 ↑ 新增

TogetherAI 撤回 CoderForge-Preview，OpenAI codex 达 63K 星

机器人触觉数据

强 ↑ 新增

BAAI 撤回 ToucHD 系列，NVIDIA 发布多个物理 AI 数据集

模型对齐评估

强 ↑ 新增

EleutherAI · NVIDIA · Microsoft 同时撤下评估基准

专业领域推理

强 ↑ 新增

论文 UniSkill 匹配大学课程与职业能力，DeepResearch-9K 发布

CAD 设计指令

中 ↑ 新增

论文 Pointer-CAD 统一 B-Rep 和命令序列

音频-视觉协同

中 ↑ 新增

论文 Crab+ 提出显式协作的场景理解模型

医疗对话隐私

中 ↑ 新增

论文 PrivMedChat 探索端到端差分隐私 RLHF

多模态视觉推理数据 ↓ 退出上期出现，本期未出现

编码 Agent 数据 ↓ 退出上期出现，本期未出现

安全评估/对齐数据 ↓ 退出上期出现，本期未出现

RLHF/偏好对齐数据 ↓ 退出上期出现，本期未出现

Agent 工具/规划数据 ↓ 退出上期出现，本期未出现

机器人/触觉数据 ↓ 退出上期出现，本期未出现

合成数据方法论 ↓ 退出上期出现，本期未出现

EU 合规评估数据 ↓ 退出上期出现，本期未出现

Deep Dive — DataRecipe

本周 3 个高价值数据集逆向分析（由 DataRecipe 自动生成）

togethercomputer/CoderForge-Preview

300 条样本 · 7 个字段 · Hard

6.0/10

数据结构

风险评估

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

allenai/Dolci-Think-SFT-32B

300 条样本 · 3 个字段 · Hard

6.0/10

数据结构

风险评估

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

google/MapTrace

300 条样本 · 3 个字段 · Medium

6.5/10

数据结构

风险评估

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

本周共分析 3 个数据集 · 人工占比 99.6%

想深聊本期内容？

Kai Founder & CEO

苏文 AI 文档与发布工程师

陆明哲 AI 产品经理

由 AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →

Allen AI 撤下 29 个视频追踪AI 数据行业周度洞察

Key Findings

Demand Signals

Deep Dive — DataRecipe

数据结构

风险评估

数据结构

风险评估

数据结构

风险评估

Allen AI 撤下 29 个视频追踪
AI 数据行业周度洞察