Radar Brief 2026 年第 15 周 · 2026-02-26 — 2026-03-05

Allen AI 撤下 29 个视频追踪
AI 数据行业周度洞察

本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户

0
高价值数据集
0
相关论文
0
博客文章
0
活跃仓库
一句话速览

Allen AI 撤下 29 个视频追踪数据集,释放视频理解数据紧缺信号 [P0]、编码 Agent 轨迹数据成稀缺资源,TogetherAI 撤下 CoderForge-Preview 数据集 [P0]、中国具身智能数据集 BAAI/ToucHD 系列被撤回,触觉数据成新蓝海 [P1]。本周最强数据需求信号:视频理解/追踪数据。

Key Findings

本周 5 条高商业价值发现

P0 Allen AI 撤下 29 个视频追踪数据集,释放视频理解数据紧缺信号 [P0]

Allen AI 在 3 月 5 日突然撤下 Molmo2 系列全部 29 个视频数据集,包括 VideoLocalizedNarratives、VideoMME、TVQA 等核心视频理解基准。这些数据集原本用于训练其多模态模型的视频追踪和理解能力。同期 NVIDIA 新增 Isaac-GR00T (6,321 星) 等具身智能仓库,显示行业正在争夺视频-动作对齐数据。

商业意义 → 视频理解数据成为 AI 公司的战略资源,不再轻易开源。这类数据需要大量人类判断来标注物体轨迹、动作意图和场景理解,集识光年应立即布局视频标注能力,特别是针对机器人训练的视频-动作对齐数据。
P0 编码 Agent 轨迹数据成稀缺资源,TogetherAI 撤下 CoderForge-Preview 数据集 [P0]

TogetherAI 在 3 月 5 日撤下 CoderForge-Preview 数据集,该数据集包含高质量的编码 Agent 执行轨迹。同期 OpenAI 发布 codex 仓库(63,080 星),Anthropics 的 claude-code 达到 73,813 星。论文《A Rubric-Supervised Critic from Sparse Real-World Outcomes》(2026-03-04) 提出从稀疏的人类交互中学习评估模型。

商业意义 → 编码 Agent 的执行轨迹数据极其宝贵,需要资深开发者判断代码质量、调试路径的合理性。这类"过程数据"比最终结果更有价值,集识光年应开发专门的代码审查和轨迹标注工具。
P1 中国具身智能数据集 BAAI/ToucHD 系列被撤回,触觉数据成新蓝海 [P1]

北京智源(BAAI)撤下 ToucHD-Force、ToucHD-Mani、ToucHD-Sim 三个机器人触觉数据集(2026-03-05)。这些数据集原本包含机器人操作中的力反馈和触觉信息。NVIDIA 同期发布 PhysicalAI-Robotics-NuRec 和 Arena-GR1-Manipulation 数据集,显示触觉模态成为具身智能的关键瓶颈。

商业意义 → 触觉数据采集需要专业设备和人类专家的精细标注,判断力度、材质、操作成功与否。这是纯算法无法合成的数据类型,为人类判断创造了独特价值空间。
P1 评估基准成为 AI 安全合规的关键,多个评估数据集被限制访问 [P1]

EleutherAI 撤下 djinn-problems-v0.9 和 rh-misalignment-control-sft 数据集。NVIDIA 的 SPEED-Bench、Microsoft 的 TestExplora 等评估基准同时被撤下。论文《QEDBENCH: Quantifying the Alignment Gap》(2026-02-24) 显示学术界正在建立更严格的模型对齐评估标准。

商业意义 → 随着 AI 监管加强,评估数据集成为合规的关键资源。需要人类专家判断模型输出是否符合安全、伦理标准,这类评估数据将成为高价值服务。
P2 合成数据生成进入"可控性"时代,JANUS 框架解决四大挑战 [P2]

论文《JANUS: Structured Bidirectional Generation》(2026-03-04) 提出同时解决 Fidelity(保真度)、Control(逻辑约束控制)、Reliability(不确定性估计)和 Efficiency(计算效率)的框架。SuperAnnotate 发布 MCP Server 工具,支持 AI agents 直接连接标注项目。

商业意义 → 即使合成数据技术进步,仍需要人类判断来验证合成数据的质量和逻辑一致性,特别是在高风险应用场景。

Demand Signals

从模型发布反推训练数据需求

数据类型 强度 趋势 关联信号
视频理解/追踪数据
极强 → 持续
Allen AI 撤下 29 个 Molmo2 视频数据集,NVIDIA Isaac-GR00T 获 6.3K 星
编码 Agent 轨迹
极强 ↑ 新增
TogetherAI 撤回 CoderForge-Preview,OpenAI codex 达 63K 星
机器人触觉数据
↑ 新增
BAAI 撤回 ToucHD 系列,NVIDIA 发布多个物理 AI 数据集
模型对齐评估
↑ 新增
EleutherAI · NVIDIA · Microsoft 同时撤下评估基准
专业领域推理
↑ 新增
论文 UniSkill 匹配大学课程与职业能力,DeepResearch-9K 发布
CAD 设计指令
↑ 新增
论文 Pointer-CAD 统一 B-Rep 和命令序列
音频-视觉协同
↑ 新增
论文 Crab+ 提出显式协作的场景理解模型
医疗对话隐私
↑ 新增
论文 PrivMedChat 探索端到端差分隐私 RLHF
多模态视觉推理数据 ↓ 退出 上期出现,本期未出现
编码 Agent 数据 ↓ 退出 上期出现,本期未出现
安全评估/对齐数据 ↓ 退出 上期出现,本期未出现
RLHF/偏好对齐数据 ↓ 退出 上期出现,本期未出现
Agent 工具/规划数据 ↓ 退出 上期出现,本期未出现
机器人/触觉数据 ↓ 退出 上期出现,本期未出现
合成数据方法论 ↓ 退出 上期出现,本期未出现
EU 合规评估数据 ↓ 退出 上期出现,本期未出现

Deep Dive — DataRecipe

本周 3 个高价值数据集逆向分析(由 DataRecipe 自动生成)

togethercomputer/CoderForge-Preview
300 条样本 · 7 个字段 · Hard
6.0/10
🟢 推荐复刻

数据结构

trajectory_id finish_reason image messages reward tools license

风险评估

中风险 标注质量可能存在波动 → 建立严格 QA 流程,设置质量门槛
低风险 数据可能随时间过时 → 建立持续更新机制
allenai/Dolci-Think-SFT-32B
300 条样本 · 3 个字段 · Hard
6.0/10
🟢 推荐复刻

数据结构

messages id source

风险评估

中风险 标注质量可能存在波动 → 建立严格 QA 流程,设置质量门槛
低风险 数据可能随时间过时 → 建立持续更新机制
google/MapTrace
300 条样本 · 3 个字段 · Medium
6.5/10
🟢 推荐复刻

数据结构

image input label

风险评估

中风险 标注质量可能存在波动 → 建立严格 QA 流程,设置质量门槛
低风险 数据可能随时间过时 → 建立持续更新机制

本周共分析 3 个数据集 · 人工占比 99.6%

想深聊本期内容?

Kai
Kai Founder & CEO
苏文
苏文 AI 文档与发布工程师
陆明哲
陆明哲 AI 产品经理

AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →