W11 AI 数据情报 — 集识光年

一句话速览

VLA/机器人基础模型论文单周 4 篇爆发，sim-to-real 迁移成为核心瓶颈、TII UAE 集中发布 4 个评估数据集，中东 AI 力量进入多语言评估标准竞争、Qwen 3.5 + GLM-4.6V + Ling-2.5-1T + MiniMax-2.5，规模竞赛与生态扩张同步加速。本周最强数据需求信号：机器人 VLA 轨迹数据。

Key Findings

本周 5 条高商业价值发现

P0 VLA/机器人基础模型论文单周 4 篇爆发，sim-to-real 迁移成为核心瓶颈（2026-02-04 至 2026-02-13）

本周具身智能领域集中涌现 4 篇高质量论文：GeneralVLA（2026-02-04，通用 VLA 模型 + 知识引导轨迹规划）、ABot-M0（2026-02-11，机器人 VLA 基础模型 + 动作流形学习）、RLinf-Co（2026-02-13，强化学习驱动的仿真-真实协同训练）、EgoHumanoid（2026-02-10，基于第一人称视角的无机器人演示全身运动控制）。这 4 篇论文共同指向同一核心问题——如何用视觉-语言-动作（VLA）架构实现从仿真到真实环境的有效迁移。延续上周 NVIDIA PhysicalAI + Allen AI MolmoSpaces 的具身智能数据扩张趋势，本周从"数据供给"转向"方法论突破"。

商业意义 → 1. 仿真-真实配对数据成为刚需：RLinf-Co 明确提出 sim-real co-training，需要同一任务在仿真和真实环境下的配对轨迹数据。这类数据当前几乎不存在公开供应，是数据服务商的空白机会。 2. 第一人称视角机器人数据新品类：EgoHumanoid 使用无机器人的人类第一人称视频训练全身运动控制，意味着"人类日常行为视频"可直接转化为机器人训练数据。数据采集成本可能大幅降低，但标注（动作分解、关节映射）壁垒极高。 3. VLA 模型对数据多样性要求极高：GeneralVLA 强调"通用化"需要知识引导，ABot-M0 引入动作流形学习，两者都需要覆盖大量不同物体、场景和操作的多样化轨迹数据。单一场景数据集的价值有限，跨场景泛化数据成为关键。

P0 TII UAE 集中发布 4 个评估数据集，中东 AI 力量进入多语言评估标准竞争（2026-02-16）

阿联酋技术创新研究所（TII）本周集中发布 4 个数据集：tiiuae/NativeQA（评估，16 下载，2 赞）、tiiuae/NativeQA-RDP（评估，22 下载）、tiiuae/SyntheticQA（合成，30 下载，2 赞）、tiiuae/evalplus-arabic（阿拉伯语代码评估，46 下载，1 赞）。其中 NativeQA 和 NativeQA-RDP 聚焦原生语言问答评估，evalplus-arabic 将代码评估扩展至阿拉伯语，SyntheticQA 提供合成 QA 基线。4 个数据集形成完整的"原生语言 + 合成对照 + 代码评估"评估矩阵。

商业意义 → 1. 多语言评估标准碎片化加速：TII 的 evalplus-arabic 是首个阿拉伯语代码评估基准，打破了英语主导的代码评估格局。随着更多语言的评估基准出现，模型厂商需要在每个语言上单独评估，多语言评估数据的需求将倍增。 2. "原生"vs"合成"评估对照成为范式：NativeQA + SyntheticQA 的组合暗示 TII 在系统性验证合成数据与原生数据的质量差距。这一方法论可能被广泛采用，催生"原生数据质量认证"服务需求。 3. 中东 AI 投资的数据溢出效应：TII 背后是阿联酋主权基金，其持续投入暗示中东将成为多语言（特别是阿拉伯语）AI 数据的重要需求方。数据服务商应关注阿拉伯语 + 右到左文字处理的数据能力建设。

P1 中国大模型密集发布：Qwen 3.5 + GLM-4.6V + Ling-2.5-1T + MiniMax-2.5，规模竞赛与生态扩张同步加速（2026-02-12 至 2026-02-16）

本周中国大模型领域出现四个重要事件：Reddit 社区确认 Qwen 3.5 即将发布（80 票热度）；智谱 AI 正式开源 GLM-4.6V，定位"全球 100B 级效果最佳的开源视觉推理模型"；inclusionAI/Ling-2.5-1T 万亿参数模型上线 HuggingFace（69 票）；MiniMax-2.5 实现本地运行（389 票，本周 Reddit 最高热度 AI 话题之一）。同时 Qwen 生态持续扩张：Qwen3Guard（实时 token 安全过滤）、GSPO（可扩展 RL 训练）、Qwen-Image-Edit（图像编辑）、Qwen-MT（多语言翻译）四条产品线齐头并进。

商业意义 → 1. 中国大模型对齐数据需求即将井喷：Qwen 3.5、GLM-4.6V、Ling-2.5-1T 三个超大规模模型同时进入对齐阶段，每个模型都需要海量高质量中文偏好数据。对齐数据供给将成为瓶颈。 2. 视觉推理数据缺口凸显：GLM-4.6V 作为视觉推理模型需要"图像 + 推理链"配对数据，这在中文领域极为稀缺。数据服务商应优先布局中文视觉推理标注。 3. 本地运行趋势改变数据需求：MiniMax-2.5 本地运行（389 票高热度）+ Qwen3-Coder-Next 80B 仅需 8GB VRAM（95 票），暗示消费级硬件上的模型部署正在主流化。这将催生"端侧场景微调数据"需求——针对消费级硬件约束的轻量化任务数据。

P1 RLVR 训练数据检测成为新课题，RL 训练数据安全审计需求浮现（2026-02-12）

论文《Detecting RLVR Training Data via Structural Convergence of Reasoning》（2026-02-12）提出通过推理结构的收敛性来检测模型是否使用了特定 RL 训练数据。这是学术界首次系统性研究如何从模型输出反推其 RL 训练数据来源。同期，论文 P-GenRM（个性化生成式奖励模型）和 GSPO（可扩展 RL 训练）继续推动 RL/RLHF 方法论的边界。

商业意义 → 1. RL 训练数据的可追溯性成为合规要求：如果可以通过模型输出检测训练数据来源，那么未授权使用他人数据进行 RL 训练将面临法律风险。数据服务商应为客户提供"RL 训练数据溯源认证"，证明数据来源合法。 2. 数据水印和指纹技术需求：数据供应商可以在 RL 训练数据中嵌入可检测的结构性特征，用于事后验证数据使用权。这为"带水印的 RL 训练数据"创造了新的产品品类。 3. 连续三周 RLHF/RL 持续爆发：W09（6 篇）→ W10（7 篇）→ W11（RLVR 检测 + P-GenRM + GSPO + Frankenstein 分析），RL 训练数据的质量、安全和合规需求正在系统性升级。

P2 Allen AI asta-summary-citation-counts 开辟 Agent 行为数据化新范式（2026-02-16）

Allen AI 发布 allenai/asta-summary-citation-counts（agent_tool，308 下载，7 赞），该数据集追踪 Asta——一个 agentic research RAG 平台——最常引用的论文及其引用次数。这是首个将 AI Agent 的信息检索行为转化为结构化数据集的案例。同时 allenai/molmospaces 保持 24.8% 周增长（从 117 到 146 下载），具身 AI 开放生态持续扩张。

商业意义 → 1. Agent 行为数据成为新品类：asta-summary-citation-counts 的发布标志着"Agent 做了什么"本身成为有价值的数据。随着 Agent 在研究、编码、决策等领域的渗透，Agent 行为日志、决策轨迹、工具调用模式都将成为可交易的数据资产。 2. RAG 引用偏好数据的商业价值：该数据集揭示了 AI 研究 Agent 的引用偏好，学术出版商和研究机构可以据此优化内容策略。数据服务商可以为 RAG 系统提供"引用质量评估数据"。 3. MolmoSpaces 增长率验证具身 AI 数据采纳：连续两周保持 20%+ 增长（W10: +37.6%, W11: +24.8%），Allen AI 的具身 AI 数据标准正在获得社区共识。

Demand Signals

从模型发布反推训练数据需求

机器人 VLA 轨迹数据

极强 ↑ 新增

单周 4 篇 VLA 论文；Allen AI MolmoSpaces +24.8% 持续增长；NVIDIA Isaac-GR00T 6.2K 星；智源 Imagine2Act；数据堂布局具身智能

RL 训练/对齐数据

极强 ↑ 新增

连续三周 RLHF/RL 论文爆发；Qwen GSPO 可扩展 RL；RL 训练数据检测成新课题

中文大模型对齐数据

极强 ↑ 新增

Qwen 3.5 + GLM-4.6V + Ling-2.5-1T 三大超大模型同时进入对齐阶段；MiniMax-2.5 本地化运行需轻量对齐数据；中文视觉推理标注极度稀缺

多语言评估数据

强 ↑ 新增

TII UAE 4 个阿拉伯语评估数据集；Qwen-MT 多语言翻译；Hebrew Wikipedia 11M 语料；阿拉伯语代码评估首次出现

Agent 行为/轨迹数据

强 ↑ 新增

Allen AI asta-summary-citation-counts 开创 Agent 行为数据化；Mistral Devstral 2 + Vibe CLI 编码 Agent；NVIDIA NeMo-Agent-Toolkit 1.8K 星

实时安全标注数据

强 ↑ 新增

Qwen3Guard 实时 token 安全过滤；NVIDIA garak LLM 安全扫描器 7K 星；RLVR 训练数据检测论文暗示安全审计需求

视觉推理数据

中 ↑ 新增

GLM-4.6V 开源视觉推理模型；OneVision-Encoder 多模态编码器；论文 What does RL improve for Visual Reasoning；MetaphorStar 图像隐喻 RL

仿真-真实配对数据

中 ↑ 新增

RLinf-Co 明确提出 sim-real co-training；EgoHumanoid 无机器人第一人称演示；当前公开配对数据集近乎空白

音频/语音数据

中 ↑ 新增

Mistral Voxtral Transcribe 音速级转录；海天瑞声 Dolphin 40 语言持续推广

图像编辑指令数据

中 ↑ 新增

Qwen-Image-Edit 图像编辑模型；Light4D 4D 视频重照明；DeepGen 1.0 多模态生成编辑

代码智能体轨迹数据 ↓ 退出上期出现，本期未出现

机器人演示数据 ↓ 退出上期出现，本期未出现

多模态视频数据 ↓ 退出上期出现，本期未出现

RLHF/偏好数据 ↓ 退出上期出现，本期未出现

合成数据 ↓ 退出上期出现，本期未出现

数学推理数据 ↓ 退出上期出现，本期未出现

评估基准数据 ↓ 退出上期出现，本期未出现

多语言语音数据 ↓ 退出上期出现，本期未出现

3D 场景/资产数据 ↓ 退出上期出现，本期未出现

长上下文数据 ↓ 退出上期出现，本期未出现

Download Movers

本周下载量变化最大的数据集

数据集	下载量	周增长
allenai/molmospaces	146	+24.8%

Deep Dive — DataRecipe

本周 2 个高价值数据集逆向分析（由 DataRecipe 自动生成）

facebook/EgoAVU_data

300 条样本 · 6 个字段 · Medium

6.0/10

数据结构

风险评估

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

allenai/olmix

300 条样本 · 113 个字段 · Medium

6.5/10

数据结构

风险评估

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

本周共分析 2 个数据集 · 人工占比 83.9% · 全部 Medium 难度

想深聊本期内容？

Kai Founder & CEO

苏文 AI 文档与发布工程师

陆明哲 AI 产品经理

由 AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →

机器人 VLA 基础模型爆发中国大模型对齐需求加速

Key Findings

Demand Signals

Download Movers

Deep Dive — DataRecipe

数据结构

风险评估

数据结构

风险评估

机器人 VLA 基础模型爆发
中国大模型对齐需求加速