视频理解数据进入工业化供给|Apple 论证人类判断不可替代
本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户
单周 29 个数据集,视频多模态数据进入系统化供给 [P0]、人才震荡与商业扩张的拉扯 [P0]、商业扩张与安全争议并行升温 [P1]。本周最强数据需求信号:视频理解/追踪数据。
Key Findings
本周 5 条高商业价值发现
Allen AI 本周以 Molmo2 品牌名义密集发布 29 个数据集,几乎全部聚焦视频理解任务链条:molmo2-single-object-track(单目标追踪,2/24)、molmo2-reasonvos(推理视频目标分割,2/27)、molmo2-burst(爆发性检测,2/23)、molmo2-mevis/mevis-valid(运动表达视频分割)、molmo2-ref-davis17/ref-yt-vos(参考引导追踪)、molmo2-revos/vicas/moca/lv-vis(多场景视频目标分割)、molmo2-hardcodes(硬编码样本,2/25)、molmo2-academic-video-points(学术视频追踪点标注,2/17)、Molmo2-VideoPoint(视频定位数据,360 下载)、Molmo2-VideoLocalizedNarratives/CaptionHf/VideoMME/TGIF/TVQA/NewsVideoQA(视频叙事与问答系列)。同时发布 Dolci-Think-SFT-32B(1,464 下载,推理 SFT 数据)、Dolci-Instruct-SFT-Tool-Use-SA(工具使用 SFT 数据)、code_fresh_0825_1225(25M token 代码数据,42 种语言)、SimpleToM(心智理论评估)、asta-user-interactions(科学工具用户交互数据)。GitHub 端 molmo2 仓库(197 星)、molmospaces 机器人生态(152 星,+15)持续增长。
Reddit r/LocalLLaMA 本周最热帖"Junyang Lin has left Qwen"(799 票,3/3),Qwen 团队核心研发人员离队引发社区广泛讨论。与此同时,Qwen 3.5 Small 系列(0.8B-9B)登陆 Product Hunt(3/3),Qwen3.5-35B-A3B 下载量从上周的 2.1 万飙升至 68 万,FP8 版 33 万,122B-A10B 达 15 万,27B-FP8 达 15.9 万。Qwen 生态持续扩张:Qwen3Guard 实时安全过滤、Qwen-Image-Edit 图像编辑、Qwen-MT 多语言翻译、GSPO 可扩展 RL 训练。Reddit 上 Qwen3.5-9B abliterated(108 票)和 Qwen3.5-9B Uncensored(30 票)显示社区已开始系统化修改 Qwen 小模型。天池 IEEE AICAS 2026 边缘 VLM 部署挑战赛继续推进。
OpenAI 本周连续发布三项战略合作——Amazon 战略合作(Frontier 平台入驻 AWS)、Microsoft 合作续约声明、国防部合约签署。同步发布 GPT-5.3 Instant 及系统卡(3/3),定位"更流畅的日常对话"。国防部合约引发社区激烈反应:LessWrong "A Tale of Three Contracts"深度分析 Anthropic 被标记为供应链风险、"Mass Surveillance w/ LLMs is the Default Outcome"(DoW 合约隐患)、Reddit "DoW vs Anthropic saga proves closed-source safety is a fraud"(64 票)要求开放安全评估。Anthropic 回应国防部长 Pete Hegseth 的声明引发关注。GitHub codex 61,868 星(+670),openai-agents-python 19,132 星。
Together AI 发布 CoderForge-Preview(2/20,8,413 下载,118 赞),这是目前最大的开源测试验证编码 Agent 数据集。在 Qwen-3 32B 上微调后,SWE-Bench Verified 性能从 23.0% 提升至 59.4% pass@1,在开放数据中排名第一、开放权重 ≤32B 模型中排名第二。同期 Reddit "Benchmarked 94 LLM endpoints for jan 2026"(54 票)显示开源模型在质量上已接近闭源模型 5 分以内。Mistral 发布 Devstral 2 和 Vibe CLI,强化编码 Agent 工具链。SWE-rebench V2(HF Papers)提出跨语言 SWE 任务规模化采集方法。
Apple Machine Learning Research 发表"On the Impossibility of Separating Intelligence from Judgment: The Computational Intractability of Filtering for AI Alignment"——从计算复杂性角度论证 AI 对齐过滤在理论上不可分离于智能本身,即你无法在不影响模型智能的前提下完美过滤有害输出。同期发布幻觉跨度检测推理(Hallucination Span Detection)、手势 EMG 跨模态迁移(EMBridge)、UI 组件变体实例化、App Store 搜索 LLM 增强。Google 发布 Gemini 3.1 Flash-Lite(最快最低成本 Gemini 3 系列)和 Nano Banana 2 图像生成模型。HN "Open-Source Article 12 Logging for EU AI Act"(35 票)显示 AI 合规工具开始开源化。
Demand Signals
从模型发布反推训练数据需求
Download Movers
本周下载量变化最大的数据集
| 数据集 | 下载量 | 周增长 |
|---|---|---|
| nvidia/Nemotron-Terminal-Corpus | 744 | +18500.0% |
| nvidia/HiLiftAeroML | 1,011 | +73.7% |
| google/WaxalNLP | 13,506 | +36.7% |
| allenai/asta-summary-citation-counts | 439 | +13.7% |
| microsoft/SYNUR | 122 | +0.8% |
Deep Dive — DataRecipe
本周 3 个高价值数据集逆向分析(由 DataRecipe 自动生成)
数据结构
风险评估
数据结构
风险评估
数据结构
风险评估
本周共分析 3 个数据集 · 人工占比 99.6%
想深聊本期内容?
由 AI Dataset Radar 自动生成 · 每周更新
AI Dataset Radar →