W14 AI 数据情报 — 集识光年

一句话速览

单周 29 个数据集，视频多模态数据进入系统化供给 [P0]、人才震荡与商业扩张的拉扯 [P0]、商业扩张与安全争议并行升温 [P1]。本周最强数据需求信号：视频理解/追踪数据。

Key Findings

本周 5 条高商业价值发现

P0 Allen AI Molmo2 视频理解数据集群爆发：单周 29 个数据集，视频多模态数据进入系统化供给 [P0]

Allen AI 本周以 Molmo2 品牌名义密集发布 29 个数据集，几乎全部聚焦视频理解任务链条：molmo2-single-object-track（单目标追踪，2/24）、molmo2-reasonvos（推理视频目标分割，2/27）、molmo2-burst（爆发性检测，2/23）、molmo2-mevis/mevis-valid（运动表达视频分割）、molmo2-ref-davis17/ref-yt-vos（参考引导追踪）、molmo2-revos/vicas/moca/lv-vis（多场景视频目标分割）、molmo2-hardcodes（硬编码样本，2/25）、molmo2-academic-video-points（学术视频追踪点标注，2/17）、Molmo2-VideoPoint（视频定位数据，360 下载）、Molmo2-VideoLocalizedNarratives/CaptionHf/VideoMME/TGIF/TVQA/NewsVideoQA（视频叙事与问答系列）。同时发布 Dolci-Think-SFT-32B（1,464 下载，推理 SFT 数据）、Dolci-Instruct-SFT-Tool-Use-SA（工具使用 SFT 数据）、code_fresh_0825_1225（25M token 代码数据，42 种语言）、SimpleToM（心智理论评估）、asta-user-interactions（科学工具用户交互数据）。GitHub 端 molmo2 仓库（197 星）、molmospaces 机器人生态（152 星，+15）持续增长。

商业意义 → 这是近半年来最大规模的视频理解训练数据单周释出。Allen AI 正在系统化构建从"视频目标追踪→视频分割→视频定位叙事→视频问答"的完整数据链条，意味着视频多模态数据从之前的零散、稀缺状态进入工业化供给。对数据服务公司而言，Allen AI 的开放策略（ODC-BY / Apache-2.0 许可）既降低了视频数据的市场定价预期，又创造了围绕视频数据质量差异化的新机会——合成追踪标注 vs 人工精标注之间仍有巨大价值空间。

P0 Qwen 核心成员 Junyang Lin 离队叠加小模型铺量：人才震荡与商业扩张的拉扯 [P0]

Reddit r/LocalLLaMA 本周最热帖"Junyang Lin has left Qwen"（799 票，3/3），Qwen 团队核心研发人员离队引发社区广泛讨论。与此同时，Qwen 3.5 Small 系列（0.8B-9B）登陆 Product Hunt（3/3），Qwen3.5-35B-A3B 下载量从上周的 2.1 万飙升至 68 万，FP8 版 33 万，122B-A10B 达 15 万，27B-FP8 达 15.9 万。Qwen 生态持续扩张：Qwen3Guard 实时安全过滤、Qwen-Image-Edit 图像编辑、Qwen-MT 多语言翻译、GSPO 可扩展 RL 训练。Reddit 上 Qwen3.5-9B abliterated（108 票）和 Qwen3.5-9B Uncensored（30 票）显示社区已开始系统化修改 Qwen 小模型。天池 IEEE AICAS 2026 边缘 VLM 部署挑战赛继续推进。

商业意义 → 核心人员流失对 Qwen 的研发节奏影响尚待观察，但商业数据表明"铺量"战略已经成功落地——68 万下载的 35B-A3B 证明小型 MoE 视觉模型的市场需求巨大。社区主动做 abliterated/uncensored 版本则说明 Qwen 小模型已进入"生态自发改造"阶段，对定制化微调数据的需求将从官方主导扩散到社区驱动。对数据行业而言，Qwen 小模型的爆发意味着"适合 9B 参数量的高信噪比视觉推理数据"是一个确定性极高的增长品类。

P1 OpenAI 战略三连 + GPT-5.3 Instant：商业扩张与安全争议并行升温 [P1]

OpenAI 本周连续发布三项战略合作——Amazon 战略合作（Frontier 平台入驻 AWS）、Microsoft 合作续约声明、国防部合约签署。同步发布 GPT-5.3 Instant 及系统卡（3/3），定位"更流畅的日常对话"。国防部合约引发社区激烈反应：LessWrong "A Tale of Three Contracts"深度分析 Anthropic 被标记为供应链风险、"Mass Surveillance w/ LLMs is the Default Outcome"（DoW 合约隐患）、Reddit "DoW vs Anthropic saga proves closed-source safety is a fraud"（64 票）要求开放安全评估。Anthropic 回应国防部长 Pete Hegseth 的声明引发关注。GitHub codex 61,868 星（+670），openai-agents-python 19,132 星。

商业意义 → OpenAI 的政府合约将催生两个数据需求方向：一是政府/军事场景的安全红线评估数据（合约明确了 safety red lines），二是分类环境下的 AI 部署评估数据。社区对开放安全评估的呼声意味着独立的安全评估基准数据将成为刚需——既要评估模型能力，也要验证安全承诺。对集识光年而言，"人类判断"在安全评估中的不可替代性被这场政治博弈进一步强化。

P1 Together AI CoderForge-Preview 刷新开源编码 Agent 数据集 SOTA [P1]

Together AI 发布 CoderForge-Preview（2/20，8,413 下载，118 赞），这是目前最大的开源测试验证编码 Agent 数据集。在 Qwen-3 32B 上微调后，SWE-Bench Verified 性能从 23.0% 提升至 59.4% pass@1，在开放数据中排名第一、开放权重 ≤32B 模型中排名第二。同期 Reddit "Benchmarked 94 LLM endpoints for jan 2026"（54 票）显示开源模型在质量上已接近闭源模型 5 分以内。Mistral 发布 Devstral 2 和 Vibe CLI，强化编码 Agent 工具链。SWE-rebench V2（HF Papers）提出跨语言 SWE 任务规模化采集方法。

商业意义 → CoderForge-Preview 证明开源编码数据可以实现接近闭源的效果，这将加速编码 Agent 数据的去中心化生产。关键差异化方向：真实企业代码库的 Agent 行为轨迹（而非合成环境），以及跨语言 SWE 任务数据（SWE-rebench V2 的方向）。对数据服务商而言，"人类开发者真实的调试和修复过程"比合成代码任务更有价值。

P2 Apple「智能与判断不可分离」论文 + Google Gemini 3.1 Flash-Lite：对齐理论和效率模型双线推进 [P2]

Apple Machine Learning Research 发表"On the Impossibility of Separating Intelligence from Judgment: The Computational Intractability of Filtering for AI Alignment"——从计算复杂性角度论证 AI 对齐过滤在理论上不可分离于智能本身，即你无法在不影响模型智能的前提下完美过滤有害输出。同期发布幻觉跨度检测推理（Hallucination Span Detection）、手势 EMG 跨模态迁移（EMBridge）、UI 组件变体实例化、App Store 搜索 LLM 增强。Google 发布 Gemini 3.1 Flash-Lite（最快最低成本 Gemini 3 系列）和 Nano Banana 2 图像生成模型。HN "Open-Source Article 12 Logging for EU AI Act"（35 票）显示 AI 合规工具开始开源化。

商业意义 → Apple 的论文为"人类判断在 AI 系统中不可替代"提供了严格的理论背书——如果过滤和对齐在计算上不可分离于智能，那么"让人做判断"就不是暂时的权宜之计而是长期的结构性需求。Gemini 3.1 Flash-Lite 和 GPT-5.3 Instant 同时发力"低成本高效推理"，意味着轻量级模型的评估数据需求在快速增长。EU AI Act 合规工具的开源化信号则预示合规评估数据将成为新品类。

Demand Signals

从模型发布反推训练数据需求

视频理解/追踪数据

极强 ↑ 新增

Allen AI Molmo2 单周 29 个视频数据集 · 视频目标追踪/分割/定位全链条覆盖

多模态视觉推理数据

极强 → 持续

Qwen 3.5 Small 下载量 68 万 · 122B-A10B 15 万 · 社区 abliterate 小模型 · InternLM Spatial-SSRL

编码 Agent 数据

极强 ↑ 新增

CoderForge-Preview SWE-Bench 23%→59.4% · Devstral 2 · SWE-rebench V2 跨语言任务

安全评估/对齐数据

强 ↑ 新增

OpenAI 国防部合约安全红线 · Apple「智能与判断不可分离」论文 · PrivMedChat 差分隐私 RLHF

RLHF/偏好对齐数据

强 → 持续

Robometer 轨迹对比奖励模型 · RubricBench 评估对齐 · GRM 广度深度协同

Agent 工具/规划数据

强 ↑ 新增

Qwen DeepPlanning 长周期 Agent 规划 · LOGIGEN 可验证 Agent 任务生成 · DigiData 移动控制

机器人/触觉数据

强 ↑ 新增

BAAI ToucHD 触觉数据集 · NVIDIA NuRec 机器人 · Arena-GR1 操控

合成数据方法论

中 ↑ 新增

CHIMERA 紧凑合成推理数据 · CharacterFlywheel 15 代迭代生产优化 · VisNec 视觉必要性过滤

EU 合规评估数据

中 ↑ 新增

HN: 开源 Article 12 日志基础设施 · AI 安全审查工具开源化

安全对抗/评估数据 ↓ 退出上期出现，本期未出现

Agent 终端/工具数据 ↓ 退出上期出现，本期未出现

编码/代码推理数据 ↓ 退出上期出现，本期未出现

模型压缩评估数据 ↓ 退出上期出现，本期未出现

空间理解/具身 AI 数据 ↓ 退出上期出现，本期未出现

语音/多说话人理解数据 ↓ 退出上期出现，本期未出现

合成数据质量评估 ↓ 退出上期出现，本期未出现

多语言数据 ↓ 退出上期出现，本期未出现

Download Movers

本周下载量变化最大的数据集

数据集	下载量	周增长
nvidia/Nemotron-Terminal-Corpus	744	+18500.0%
nvidia/HiLiftAeroML	1,011	+73.7%
google/WaxalNLP	13,506	+36.7%
allenai/asta-summary-citation-counts	439	+13.7%
microsoft/SYNUR	122	+0.8%

Deep Dive — DataRecipe

本周 3 个高价值数据集逆向分析（由 DataRecipe 自动生成）

togethercomputer/CoderForge-Preview

300 条样本 · 7 个字段 · Hard

6.0/10

数据结构

风险评估

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

allenai/Dolci-Think-SFT-32B

300 条样本 · 3 个字段 · Hard

6.0/10

数据结构

风险评估

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

google/MapTrace

300 条样本 · 3 个字段 · Medium

6.5/10

数据结构

风险评估

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

本周共分析 3 个数据集 · 人工占比 99.6%

想深聊本期内容？

Kai Founder & CEO

苏文 AI 文档与发布工程师

陆明哲 AI 产品经理

由 AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →

视频理解数据进入工业化供给｜Apple 论证人类判断不可替代

Key Findings

Demand Signals

Download Movers

Deep Dive — DataRecipe

数据结构

风险评估

数据结构

风险评估

数据结构

风险评估