Qwen 3.5 全尺寸覆盖|安全对抗数据需求浮出水面
本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户
Qwen 3.5 家族 2/24 一天三发,中国开源 VLM 进入全尺寸铺量阶段 [P0]、RSP v3.0 + 蒸馏攻击检测 + claude-code-security [P0]、NVIDIA Nemotron-Terminal-Corpus 开辟终端 Agent SFT 数据集新品类(2/19)[P1]。本周最强数据需求信号:多模态视觉推理数据。
Key Findings
本周 5 条高商业价值发现
继 Qwen3.5-397B-A17B 旗舰(2/16,48.3 万下载,1,052 赞)和 FP8 量化版(2/18,9.3 万下载)之后,阿里巴巴于 2/24 同日发布三个中小尺寸变体:Qwen3.5-35B-A3B(2.1 万下载,365 赞,支持 Azure 部署)、Qwen3.5-27B(6,875 下载,254 赞)、Qwen3.5-122B-A10B(3,320 下载,225 赞)。三个新模型均为 image-text-to-text 多模态架构,其中 35B-A3B 和 122B-A10B 采用 MoE 稀疏激活,27B 为 Dense 架构。Reddit 社区反应极为热烈:r/LocalLLaMA 上"Qwen3-30B-A3B vs Qwen3.5-35B-A3B on RTX 5090"(135 票)、"Qwen 3.5 craters on hard coding tasks"(128 票)、"Qwen 3.5 benchmark comparison"(89 票)、"Vision language benchmarks of qwen3.5"(40 票)等帖子密集出现。与此同时,Qwen 博客持续输出生态内容:Qwen3Guard 实时安全过滤、Qwen-Image-Edit 图像编辑、Qwen-Image 原生文字渲染、GSPO 可扩展 RL 训练、Qwen-MT 多语言翻译。
Anthropic 本周发布三项安全相关成果:(1)Responsible Scaling Policy v3.0——更新责任扩展政策框架,定义更严格的模型部署安全阈值;(2)Detecting and preventing distillation attacks——提出检测模型蒸馏攻击的方法,Nathan Lambert 在 Interconnects 博客以"How much does distillation really matter for Chinese LLMs?"进行深度解读,智源社区转载"Anthropic 一篇博客,IBM 大跌 13%";(3)claude-code-security-review(GitHub 3,318 星)——AI 驱动的代码安全审查 GitHub Action。同时发布 Persona Selection Model 可解释性研究(Alignment Forum 同步发布)、AI Fluency Index 教育报告。研究团队页面更新展示 Economic Research、Interpretability、Societal Impacts 三个方向。
NVIDIA 发布 Nemotron-Terminal-Corpus(2/19,cc-by-4.0)和配套的 Nemotron-Terminal-Synthetic-Tasks——前者是大规模终端交互 SFT 数据集,专为训练 LLM 的 Linux 终端操作能力设计,通过 Terminal-Task-Gen 管道合成;后者提供基于技能的合成任务结构,用于评估和训练自主终端 Agent。相关论文"On Data Engineering for Scaling LLM Terminal Capabilities"(作者 Renjie Pi, Grace Lam, M. Shoeybi)同步发表。同期 NVIDIA 生态信号:Nemotron-3-Nano-30B-A3B 系列持续高下载量(BF16 版 85.2 万、FP8 版 115.9 万),nemotron-colembed-vl-4b-v2 视觉文档检索模型(5.4 万下载),Isaac-GR00T 机器人基础模型(6,248 星)。
Cerebras 于 2/25 发布 Step-3.5-Flash-REAP-121B-A11B 和 Step-3.5-Flash-REAP-149B-A11B 两个压缩版本,延续其"大模型瘦身"技术路线(上周曾压缩 MiniMax-M2.5)。同日,InternLM 发布 Spatial-SSRL-3B 空间自监督模型——基于多模态架构,专攻空间理解和自监督学习,标签显示"spatial understanding, self-supervised learning"。Reddit 上 Unsloth Q3 量化基准超越 Q4 和 MXFP4(63 票)、Mercury 2 扩散模型推理速度讨论(16 票),模型压缩和高效推理话题持续活跃。
Apple Machine Learning 一周发布 5 篇研究:(1)CoT 推理动态分析——揭示思维链推理的 trace dynamics;(2)语音理解差距——LLM 在语音输入时性能远低于文本,指出弥合差距的方向;(3)HTML 文本提取——重新审视 LLM 预训练的 HTML-to-Text 提取方法,发现现有方法的局限;(4)AMUSE——音视频多说话人理解基准和对齐框架,指出 GPT-4o、Qwen3-Omni 等多模态模型在多说话人对话场景的不足;(5)depyf——PyTorch 编译器调试工具。具身 AI 方面,Wayve 获 12 亿美元 D 轮融资(计划 2026 年在伦敦启动 robotaxi 有监督自动驾驶试运营、2027 年进入消费市场),AI2 Robotics 完成 Series B(估值超 10 亿美元,开发 AlphaBot VLA 模型用于半人形机器人)。
Demand Signals
从模型发布反推训练数据需求
Download Movers
本周下载量变化最大的数据集
| 数据集 | 下载量 | 周增长 |
|---|---|---|
| allenai/olmix | 272 | +14.3% |
| google/WaxalNLP | 9,883 | -6.6% |
| nvidia/HiLiftAeroML | 582 | -14.9% |
想深聊本期内容?
由 AI Dataset Radar 自动生成 · 每周更新
AI Dataset Radar →