Radar Brief 2026 年第 13 周 · 2026-02-19 — 2026-02-26

Qwen 3.5 全尺寸覆盖|安全对抗数据需求浮出水面

本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户

0
高价值数据集
0
相关论文
0
博客文章
0
活跃仓库
一句话速览

Qwen 3.5 家族 2/24 一天三发,中国开源 VLM 进入全尺寸铺量阶段 [P0]、RSP v3.0 + 蒸馏攻击检测 + claude-code-security [P0]、NVIDIA Nemotron-Terminal-Corpus 开辟终端 Agent SFT 数据集新品类(2/19)[P1]。本周最强数据需求信号:多模态视觉推理数据。

Key Findings

本周 5 条高商业价值发现

P0 Qwen 3.5 家族 2/24 一天三发,中国开源 VLM 进入全尺寸铺量阶段 [P0]

继 Qwen3.5-397B-A17B 旗舰(2/16,48.3 万下载,1,052 赞)和 FP8 量化版(2/18,9.3 万下载)之后,阿里巴巴于 2/24 同日发布三个中小尺寸变体:Qwen3.5-35B-A3B(2.1 万下载,365 赞,支持 Azure 部署)、Qwen3.5-27B(6,875 下载,254 赞)、Qwen3.5-122B-A10B(3,320 下载,225 赞)。三个新模型均为 image-text-to-text 多模态架构,其中 35B-A3B 和 122B-A10B 采用 MoE 稀疏激活,27B 为 Dense 架构。Reddit 社区反应极为热烈:r/LocalLLaMA 上"Qwen3-30B-A3B vs Qwen3.5-35B-A3B on RTX 5090"(135 票)、"Qwen 3.5 craters on hard coding tasks"(128 票)、"Qwen 3.5 benchmark comparison"(89 票)、"Vision language benchmarks of qwen3.5"(40 票)等帖子密集出现。与此同时,Qwen 博客持续输出生态内容:Qwen3Guard 实时安全过滤、Qwen-Image-Edit 图像编辑、Qwen-Image 原生文字渲染、GSPO 可扩展 RL 训练、Qwen-MT 多语言翻译。

商业意义 → 相比上周仅有旗舰 397B 一个型号,本周 Qwen 3.5 扩展为 5 个尺寸(27B/35B-A3B/122B-A10B/397B-A17B/397B-FP8),覆盖从消费级 GPU(RTX 5090 可跑 35B-A3B)到数据中心全场景。这意味着视觉推理训练数据的需求不再是"给一个大模型准备数据",而是"给一整条产品线准备不同复杂度的数据"——小模型需要精炼、高信噪比的数据,大模型需要复杂推理链数据,MoE 模型可能需要专门的领域路由数据。对集识光年而言,中文视觉推理数据的商业价值从上周的"明确需求"升级为"确定性极高的规模化需求"。
P0 Anthropic 安全基础设施三连发:RSP v3.0 + 蒸馏攻击检测 + claude-code-security [P0]

Anthropic 本周发布三项安全相关成果:(1)Responsible Scaling Policy v3.0——更新责任扩展政策框架,定义更严格的模型部署安全阈值;(2)Detecting and preventing distillation attacks——提出检测模型蒸馏攻击的方法,Nathan Lambert 在 Interconnects 博客以"How much does distillation really matter for Chinese LLMs?"进行深度解读,智源社区转载"Anthropic 一篇博客,IBM 大跌 13%";(3)claude-code-security-review(GitHub 3,318 星)——AI 驱动的代码安全审查 GitHub Action。同时发布 Persona Selection Model 可解释性研究(Alignment Forum 同步发布)、AI Fluency Index 教育报告。研究团队页面更新展示 Economic Research、Interpretability、Societal Impacts 三个方向。

商业意义 → Anthropic 的蒸馏攻击检测直接点名中国大模型的蒸馏问题,引发行业地震(IBM 跌 13%)。这传递两个数据需求信号:(1)对抗性安全数据——模型蒸馏检测需要大规模"原始输出 vs 蒸馏输出"配对数据集用于训练检测器;(2)安全审计数据——RSP v3.0 的更严格阈值意味着更多模型需要通过安全评估才能部署,安全评估数据集是刚需。对集识光年而言,"人类判断"在安全评估中的不可替代性进一步强化——模型能否安全部署,最终需要人类专家的判断。
P1 NVIDIA Nemotron-Terminal-Corpus 开辟终端 Agent SFT 数据集新品类(2/19)[P1]

NVIDIA 发布 Nemotron-Terminal-Corpus(2/19,cc-by-4.0)和配套的 Nemotron-Terminal-Synthetic-Tasks——前者是大规模终端交互 SFT 数据集,专为训练 LLM 的 Linux 终端操作能力设计,通过 Terminal-Task-Gen 管道合成;后者提供基于技能的合成任务结构,用于评估和训练自主终端 Agent。相关论文"On Data Engineering for Scaling LLM Terminal Capabilities"(作者 Renjie Pi, Grace Lam, M. Shoeybi)同步发表。同期 NVIDIA 生态信号:Nemotron-3-Nano-30B-A3B 系列持续高下载量(BF16 版 85.2 万、FP8 版 115.9 万),nemotron-colembed-vl-4b-v2 视觉文档检索模型(5.4 万下载),Isaac-GR00T 机器人基础模型(6,248 星)。

商业意义 → Terminal-Corpus 标志着 Agent SFT 数据从 Web/API 场景扩展到系统管理层面——这是企业级 AI Agent 落地的关键场景(运维自动化、DevOps)。cc-by-4.0 许可意味着商业可用,但合成数据的局限性(Terminal-Task-Gen 生成)意味着真实运维场景的人工标注数据仍有价值空间。结合 Reddit 热帖"Your coding agent sessions are sitting on your machine right now"(46 票),行业正在意识到 Agent 行为轨迹数据的价值——谁能系统化采集真实终端操作数据,谁就能建立差异化壁垒。
P1 Cerebras REAP 压缩 Step 3.5 Flash + InternLM 空间自监督,高效推理和空间理解双线推进(2/25)[P1]

Cerebras 于 2/25 发布 Step-3.5-Flash-REAP-121B-A11B 和 Step-3.5-Flash-REAP-149B-A11B 两个压缩版本,延续其"大模型瘦身"技术路线(上周曾压缩 MiniMax-M2.5)。同日,InternLM 发布 Spatial-SSRL-3B 空间自监督模型——基于多模态架构,专攻空间理解和自监督学习,标签显示"spatial understanding, self-supervised learning"。Reddit 上 Unsloth Q3 量化基准超越 Q4 和 MXFP4(63 票)、Mercury 2 扩散模型推理速度讨论(16 票),模型压缩和高效推理话题持续活跃。

商业意义 → Cerebras 连续两周为不同模型做 REAP 压缩(上周 MiniMax、本周 Step),正在成为"模型压缩即服务"的事实标准——压缩后模型的质量评估需要系统化的对比数据集。Spatial-SSRL-3B 开辟空间自监督新方向,与上周 MolmoSpaces 具身 AI 空间资源形成呼应,空间理解数据需求从视觉领域扩展到自监督预训练。量化评估数据("压缩前后差了多少")正在从小众需求变为刚需。
P2 Apple ML 密集研究输出 + 具身 AI 资本升温:Wayve $12 亿 + AI2 Robotics Series B [P2]

Apple Machine Learning 一周发布 5 篇研究:(1)CoT 推理动态分析——揭示思维链推理的 trace dynamics;(2)语音理解差距——LLM 在语音输入时性能远低于文本,指出弥合差距的方向;(3)HTML 文本提取——重新审视 LLM 预训练的 HTML-to-Text 提取方法,发现现有方法的局限;(4)AMUSE——音视频多说话人理解基准和对齐框架,指出 GPT-4o、Qwen3-Omni 等多模态模型在多说话人对话场景的不足;(5)depyf——PyTorch 编译器调试工具。具身 AI 方面,Wayve 获 12 亿美元 D 轮融资(计划 2026 年在伦敦启动 robotaxi 有监督自动驾驶试运营、2027 年进入消费市场),AI2 Robotics 完成 Series B(估值超 10 亿美元,开发 AlphaBot VLA 模型用于半人形机器人)。

商业意义 → Apple 的 5 篇研究传递的数据需求信号:语音-文本对齐数据(弥合语音理解差距)、多说话人对话标注数据(AMUSE 指出的空白)、高质量 HTML-to-Text 训练数据(预训练基础设施改进)。Wayve 和 AI2 Robotics 的融资规模确认具身 AI 已进入产业化阶段——12 亿美元不是做研究,是做产品。对数据行业的启示:自动驾驶和机器人操控场景的高质量标注数据需求将从研究级扩展到产品级规模。

Demand Signals

从模型发布反推训练数据需求

数据类型 强度 趋势 关联信号
多模态视觉推理数据 Qwen 3.5 家族扩至 5 个型号(全尺寸覆盖)、GLM-4.6V 开源、InternLM Spatial-SSRL-3B 空间理解 → 持续 🔴极强
安全对抗/评估数据 Anthropic RSP v3.0 + 蒸馏攻击检测 + claude-code-security、CAMEL 置信度门控奖励建模、IR3 奖励黑客检测 ↑ 新增 🔴极强
RLHF/偏好对齐数据 MARS 自精炼(持续发酵)、CAMEL 置信度门控反思、IR3 对比逆 RL 检测奖励黑客、梯度正则化防奖励黑客 → 持续 🔴极强
Agent 终端/工具数据 NVIDIA Nemotron-Terminal-Corpus SFT、MagicAgent 通用 Agent 规划、Reddit "coding agent sessions"讨论 ↑ 新增 🟠强
编码/代码推理数据 Devstral-2-123B(1.5 万下载)、Devstral-Small-2-24B(41.6 万下载)、Reddit "Qwen 3.5 craters on hard coding tasks" → 持续 🟠强
模型压缩评估数据 Cerebras REAP Step 3.5 Flash(两个压缩版)、Unsloth Q3 超 Q4/MXFP4(Reddit 63 票)、Mercury 2 扩散模型推理速度 ↑ 新增 🟠强
空间理解/具身 AI 数据 InternLM Spatial-SSRL-3B、Wayve $12 亿融资、AI2 Robotics Series B、GEBench GUI 交互评估 ↑ 新增 🟠强
语音/多说话人理解数据 Apple "Closing the Gap Between Text and Speech"、AMUSE 多说话人基准、TinyTTS 9M 参数 TTS(Reddit 21 票) ↑ 新增 🟡中
合成数据质量评估 "When Pretty Isn't Useful"(合成图像训练效果退化研究)、ReSyn 自主扩展合成环境 ↑ 新增 🟡中
多语言数据 WaxalNLP 非洲语言(9,883 下载)、BURMESE-SAN 缅甸语基准、Qwen-MT 多语言翻译 → 持续 🟡中
Agent 行为/轨迹数据 ↓ 退出 上期出现,本期未出现
复杂推理评估数据 ↓ 退出 上期出现,本期未出现
机器人/具身AI数据 ↓ 退出 上期出现,本期未出现
文档OCR数据 ↓ 退出 上期出现,本期未出现
量化/压缩评估数据 ↓ 退出 上期出现,本期未出现
安全/对齐审计数据 ↓ 退出 上期出现,本期未出现

Download Movers

本周下载量变化最大的数据集

数据集 下载量 周增长
allenai/olmix 272 +14.3%
google/WaxalNLP 9,883 -6.6%
nvidia/HiLiftAeroML 582 -14.9%

想深聊本期内容?

Kai" onerror="var d=document.createElement('div');d.innerHTML=this.dataset.fallback;this.replaceWith(d.firstChild)" />
Kai Founder & CEO
苏文" onerror="var d=document.createElement('div');d.innerHTML=this.dataset.fallback;this.replaceWith(d.firstChild)" />
苏文 AI 文档与发布工程师
陆明哲" onerror="var d=document.createElement('div');d.innerHTML=this.dataset.fallback;this.replaceWith(d.firstChild)" />
陆明哲 AI 产品经理

AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →