机器人 VLA 基础模型爆发
中国大模型对齐需求加速
本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户
VLA/机器人基础模型论文单周 4 篇爆发,sim-to-real 迁移成为核心瓶颈、TII UAE 集中发布 4 个评估数据集,中东 AI 力量进入多语言评估标准竞争、Qwen 3.5 + GLM-4.6V + Ling-2.5-1T + MiniMax-2.5,规模竞赛与生态扩张同步加速。本周最强数据需求信号:机器人 VLA 轨迹数据。
Key Findings
本周 5 条高商业价值发现
本周具身智能领域集中涌现 4 篇高质量论文:GeneralVLA(2026-02-04,通用 VLA 模型 + 知识引导轨迹规划)、ABot-M0(2026-02-11,机器人 VLA 基础模型 + 动作流形学习)、RLinf-Co(2026-02-13,强化学习驱动的仿真-真实协同训练)、EgoHumanoid(2026-02-10,基于第一人称视角的无机器人演示全身运动控制)。这 4 篇论文共同指向同一核心问题——如何用视觉-语言-动作(VLA)架构实现从仿真到真实环境的有效迁移。延续上周 NVIDIA PhysicalAI + Allen AI MolmoSpaces 的具身智能数据扩张趋势,本周从"数据供给"转向"方法论突破"。
阿联酋技术创新研究所(TII)本周集中发布 4 个数据集:tiiuae/NativeQA(评估,16 下载,2 赞)、tiiuae/NativeQA-RDP(评估,22 下载)、tiiuae/SyntheticQA(合成,30 下载,2 赞)、tiiuae/evalplus-arabic(阿拉伯语代码评估,46 下载,1 赞)。其中 NativeQA 和 NativeQA-RDP 聚焦原生语言问答评估,evalplus-arabic 将代码评估扩展至阿拉伯语,SyntheticQA 提供合成 QA 基线。4 个数据集形成完整的"原生语言 + 合成对照 + 代码评估"评估矩阵。
本周中国大模型领域出现四个重要事件:Reddit 社区确认 Qwen 3.5 即将发布(80 票热度);智谱 AI 正式开源 GLM-4.6V,定位"全球 100B 级效果最佳的开源视觉推理模型";inclusionAI/Ling-2.5-1T 万亿参数模型上线 HuggingFace(69 票);MiniMax-2.5 实现本地运行(389 票,本周 Reddit 最高热度 AI 话题之一)。同时 Qwen 生态持续扩张:Qwen3Guard(实时 token 安全过滤)、GSPO(可扩展 RL 训练)、Qwen-Image-Edit(图像编辑)、Qwen-MT(多语言翻译)四条产品线齐头并进。
论文《Detecting RLVR Training Data via Structural Convergence of Reasoning》(2026-02-12)提出通过推理结构的收敛性来检测模型是否使用了特定 RL 训练数据。这是学术界首次系统性研究如何从模型输出反推其 RL 训练数据来源。同期,论文 P-GenRM(个性化生成式奖励模型)和 GSPO(可扩展 RL 训练)继续推动 RL/RLHF 方法论的边界。
Allen AI 发布 allenai/asta-summary-citation-counts(agent_tool,308 下载,7 赞),该数据集追踪 Asta——一个 agentic research RAG 平台——最常引用的论文及其引用次数。这是首个将 AI Agent 的信息检索行为转化为结构化数据集的案例。同时 allenai/molmospaces 保持 24.8% 周增长(从 117 到 146 下载),具身 AI 开放生态持续扩张。
Demand Signals
从模型发布反推训练数据需求
Download Movers
本周下载量变化最大的数据集
| 数据集 | 下载量 | 周增长 |
|---|---|---|
| allenai/molmospaces | 146 | +24.8% |
Deep Dive — DataRecipe
本周 2 个高价值数据集逆向分析(由 DataRecipe 自动生成)
数据结构
风险评估
数据结构
风险评估
本周共分析 2 个数据集 · 人工占比 83.9% · 全部 Medium 难度
想深聊本期内容?
由 AI Dataset Radar 自动生成 · 每周更新
AI Dataset Radar →