Radar Brief 2026 年第 11 周 · 2026-02-09 — 2026-02-16

机器人 VLA 基础模型爆发
中国大模型对齐需求加速

本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户

0
高价值数据集
0
相关论文
0
博客文章
0
活跃仓库
一句话速览

VLA/机器人基础模型论文单周 4 篇爆发,sim-to-real 迁移成为核心瓶颈、TII UAE 集中发布 4 个评估数据集,中东 AI 力量进入多语言评估标准竞争、Qwen 3.5 + GLM-4.6V + Ling-2.5-1T + MiniMax-2.5,规模竞赛与生态扩张同步加速。本周最强数据需求信号:机器人 VLA 轨迹数据。

Key Findings

本周 5 条高商业价值发现

P0 VLA/机器人基础模型论文单周 4 篇爆发,sim-to-real 迁移成为核心瓶颈(2026-02-04 至 2026-02-13)

本周具身智能领域集中涌现 4 篇高质量论文:GeneralVLA(2026-02-04,通用 VLA 模型 + 知识引导轨迹规划)、ABot-M0(2026-02-11,机器人 VLA 基础模型 + 动作流形学习)、RLinf-Co(2026-02-13,强化学习驱动的仿真-真实协同训练)、EgoHumanoid(2026-02-10,基于第一人称视角的无机器人演示全身运动控制)。这 4 篇论文共同指向同一核心问题——如何用视觉-语言-动作(VLA)架构实现从仿真到真实环境的有效迁移。延续上周 NVIDIA PhysicalAI + Allen AI MolmoSpaces 的具身智能数据扩张趋势,本周从"数据供给"转向"方法论突破"。

商业意义 → 1. 仿真-真实配对数据成为刚需:RLinf-Co 明确提出 sim-real co-training,需要同一任务在仿真和真实环境下的配对轨迹数据。这类数据当前几乎不存在公开供应,是数据服务商的空白机会。 2. 第一人称视角机器人数据新品类:EgoHumanoid 使用无机器人的人类第一人称视频训练全身运动控制,意味着"人类日常行为视频"可直接转化为机器人训练数据。数据采集成本可能大幅降低,但标注(动作分解、关节映射)壁垒极高。 3. VLA 模型对数据多样性要求极高:GeneralVLA 强调"通用化"需要知识引导,ABot-M0 引入动作流形学习,两者都需要覆盖大量不同物体、场景和操作的多样化轨迹数据。单一场景数据集的价值有限,跨场景泛化数据成为关键。
P0 TII UAE 集中发布 4 个评估数据集,中东 AI 力量进入多语言评估标准竞争(2026-02-16)

阿联酋技术创新研究所(TII)本周集中发布 4 个数据集:tiiuae/NativeQA(评估,16 下载,2 赞)、tiiuae/NativeQA-RDP(评估,22 下载)、tiiuae/SyntheticQA(合成,30 下载,2 赞)、tiiuae/evalplus-arabic(阿拉伯语代码评估,46 下载,1 赞)。其中 NativeQA 和 NativeQA-RDP 聚焦原生语言问答评估,evalplus-arabic 将代码评估扩展至阿拉伯语,SyntheticQA 提供合成 QA 基线。4 个数据集形成完整的"原生语言 + 合成对照 + 代码评估"评估矩阵。

商业意义 → 1. 多语言评估标准碎片化加速:TII 的 evalplus-arabic 是首个阿拉伯语代码评估基准,打破了英语主导的代码评估格局。随着更多语言的评估基准出现,模型厂商需要在每个语言上单独评估,多语言评估数据的需求将倍增。 2. "原生"vs"合成"评估对照成为范式:NativeQA + SyntheticQA 的组合暗示 TII 在系统性验证合成数据与原生数据的质量差距。这一方法论可能被广泛采用,催生"原生数据质量认证"服务需求。 3. 中东 AI 投资的数据溢出效应:TII 背后是阿联酋主权基金,其持续投入暗示中东将成为多语言(特别是阿拉伯语)AI 数据的重要需求方。数据服务商应关注阿拉伯语 + 右到左文字处理的数据能力建设。
P1 中国大模型密集发布:Qwen 3.5 + GLM-4.6V + Ling-2.5-1T + MiniMax-2.5,规模竞赛与生态扩张同步加速(2026-02-12 至 2026-02-16)

本周中国大模型领域出现四个重要事件:Reddit 社区确认 Qwen 3.5 即将发布(80 票热度);智谱 AI 正式开源 GLM-4.6V,定位"全球 100B 级效果最佳的开源视觉推理模型";inclusionAI/Ling-2.5-1T 万亿参数模型上线 HuggingFace(69 票);MiniMax-2.5 实现本地运行(389 票,本周 Reddit 最高热度 AI 话题之一)。同时 Qwen 生态持续扩张:Qwen3Guard(实时 token 安全过滤)、GSPO(可扩展 RL 训练)、Qwen-Image-Edit(图像编辑)、Qwen-MT(多语言翻译)四条产品线齐头并进。

商业意义 → 1. 中国大模型对齐数据需求即将井喷:Qwen 3.5、GLM-4.6V、Ling-2.5-1T 三个超大规模模型同时进入对齐阶段,每个模型都需要海量高质量中文偏好数据。对齐数据供给将成为瓶颈。 2. 视觉推理数据缺口凸显:GLM-4.6V 作为视觉推理模型需要"图像 + 推理链"配对数据,这在中文领域极为稀缺。数据服务商应优先布局中文视觉推理标注。 3. 本地运行趋势改变数据需求:MiniMax-2.5 本地运行(389 票高热度)+ Qwen3-Coder-Next 80B 仅需 8GB VRAM(95 票),暗示消费级硬件上的模型部署正在主流化。这将催生"端侧场景微调数据"需求——针对消费级硬件约束的轻量化任务数据。
P1 RLVR 训练数据检测成为新课题,RL 训练数据安全审计需求浮现(2026-02-12)

论文《Detecting RLVR Training Data via Structural Convergence of Reasoning》(2026-02-12)提出通过推理结构的收敛性来检测模型是否使用了特定 RL 训练数据。这是学术界首次系统性研究如何从模型输出反推其 RL 训练数据来源。同期,论文 P-GenRM(个性化生成式奖励模型)和 GSPO(可扩展 RL 训练)继续推动 RL/RLHF 方法论的边界。

商业意义 → 1. RL 训练数据的可追溯性成为合规要求:如果可以通过模型输出检测训练数据来源,那么未授权使用他人数据进行 RL 训练将面临法律风险。数据服务商应为客户提供"RL 训练数据溯源认证",证明数据来源合法。 2. 数据水印和指纹技术需求:数据供应商可以在 RL 训练数据中嵌入可检测的结构性特征,用于事后验证数据使用权。这为"带水印的 RL 训练数据"创造了新的产品品类。 3. 连续三周 RLHF/RL 持续爆发:W09(6 篇)→ W10(7 篇)→ W11(RLVR 检测 + P-GenRM + GSPO + Frankenstein 分析),RL 训练数据的质量、安全和合规需求正在系统性升级。
P2 Allen AI asta-summary-citation-counts 开辟 Agent 行为数据化新范式(2026-02-16)

Allen AI 发布 allenai/asta-summary-citation-counts(agent_tool,308 下载,7 赞),该数据集追踪 Asta——一个 agentic research RAG 平台——最常引用的论文及其引用次数。这是首个将 AI Agent 的信息检索行为转化为结构化数据集的案例。同时 allenai/molmospaces 保持 24.8% 周增长(从 117 到 146 下载),具身 AI 开放生态持续扩张。

商业意义 → 1. Agent 行为数据成为新品类:asta-summary-citation-counts 的发布标志着"Agent 做了什么"本身成为有价值的数据。随着 Agent 在研究、编码、决策等领域的渗透,Agent 行为日志、决策轨迹、工具调用模式都将成为可交易的数据资产。 2. RAG 引用偏好数据的商业价值:该数据集揭示了 AI 研究 Agent 的引用偏好,学术出版商和研究机构可以据此优化内容策略。数据服务商可以为 RAG 系统提供"引用质量评估数据"。 3. MolmoSpaces 增长率验证具身 AI 数据采纳:连续两周保持 20%+ 增长(W10: +37.6%, W11: +24.8%),Allen AI 的具身 AI 数据标准正在获得社区共识。

Demand Signals

从模型发布反推训练数据需求

数据类型 强度 趋势 关联信号
机器人 VLA 轨迹数据 极强 ↑ 新增 单周 4 篇 VLA 论文;Allen AI MolmoSpaces +24.8% 持续增长;NVIDIA Isaac-GR00T 6.2K 星;智源 Imagine2Act;数据堂布局具身智能
RL 训练/对齐数据 极强 ↑ 新增 连续三周 RLHF/RL 论文爆发;Qwen GSPO 可扩展 RL;RL 训练数据检测成新课题
中文大模型对齐数据 极强 ↑ 新增 Qwen 3.5 + GLM-4.6V + Ling-2.5-1T 三大超大模型同时进入对齐阶段;MiniMax-2.5 本地化运行需轻量对齐数据;中文视觉推理标注极度稀缺
多语言评估数据 ↑ 新增 TII UAE 4 个阿拉伯语评估数据集;Qwen-MT 多语言翻译;Hebrew Wikipedia 11M 语料;阿拉伯语代码评估首次出现
Agent 行为/轨迹数据 ↑ 新增 Allen AI asta-summary-citation-counts 开创 Agent 行为数据化;Mistral Devstral 2 + Vibe CLI 编码 Agent;NVIDIA NeMo-Agent-Toolkit 1.8K 星
实时安全标注数据 ↑ 新增 Qwen3Guard 实时 token 安全过滤;NVIDIA garak LLM 安全扫描器 7K 星;RLVR 训练数据检测论文暗示安全审计需求
视觉推理数据 ↑ 新增 GLM-4.6V 开源视觉推理模型;OneVision-Encoder 多模态编码器;论文 What does RL improve for Visual Reasoning;MetaphorStar 图像隐喻 RL
仿真-真实配对数据 ↑ 新增 RLinf-Co 明确提出 sim-real co-training;EgoHumanoid 无机器人第一人称演示;当前公开配对数据集近乎空白
音频/语音数据 ↑ 新增 Mistral Voxtral Transcribe 音速级转录;海天瑞声 Dolphin 40 语言持续推广
图像编辑指令数据 ↑ 新增 Qwen-Image-Edit 图像编辑模型;Light4D 4D 视频重照明;DeepGen 1.0 多模态生成编辑
代码智能体轨迹数据 ↓ 退出 上期出现,本期未出现
机器人演示数据 ↓ 退出 上期出现,本期未出现
多模态视频数据 ↓ 退出 上期出现,本期未出现
RLHF/偏好数据 ↓ 退出 上期出现,本期未出现
合成数据 ↓ 退出 上期出现,本期未出现
数学推理数据 ↓ 退出 上期出现,本期未出现
评估基准数据 ↓ 退出 上期出现,本期未出现
多语言语音数据 ↓ 退出 上期出现,本期未出现
3D 场景/资产数据 ↓ 退出 上期出现,本期未出现
长上下文数据 ↓ 退出 上期出现,本期未出现

Download Movers

本周下载量变化最大的数据集

数据集 下载量 周增长
allenai/molmospaces 146 +24.8%

Deep Dive — DataRecipe

本周 2 个高价值数据集逆向分析(由 DataRecipe 自动生成)

facebook/EgoAVU_data
300 条样本 · 6 个字段 · Medium
6.0/10
🟢 推荐复刻

数据结构

video_id start_time end_time question answer category

风险评估

中风险 标注质量可能存在波动 → 建立严格 QA 流程,设置质量门槛
低风险 数据可能随时间过时 → 建立持续更新机制
allenai/olmix
300 条样本 · 113 个字段 · Medium
6.5/10
🟢 推荐复刻

数据结构

run name index arc_challenge:rc::olmes arc_easy:rc::olmes basic_skills:rc::olmes basic_skills_arithmetic:rc::olmes basic_skills_coding:rc::olmes basic_skills_common_knowledge:rc::olmes

风险评估

中风险 标注质量可能存在波动 → 建立严格 QA 流程,设置质量门槛
低风险 数据可能随时间过时 → 建立持续更新机制

本周共分析 2 个数据集 · 人工占比 83.9% · 全部 Medium 难度

想深聊本期内容?

Kai" onerror="var d=document.createElement('div');d.innerHTML=this.dataset.fallback;this.replaceWith(d.firstChild)" />
Kai Founder & CEO
苏文" onerror="var d=document.createElement('div');d.innerHTML=this.dataset.fallback;this.replaceWith(d.firstChild)" />
苏文 AI 文档与发布工程师
陆明哲" onerror="var d=document.createElement('div');d.innerHTML=this.dataset.fallback;this.replaceWith(d.firstChild)" />
陆明哲 AI 产品经理

AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →