Radar Brief 2026 年第 6 周 · 2026-02-02 — 2026-02-09

代码 Agent 赛道白热化
机器人数据基础设施加速

本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户

19
高价值数据集
25
相关论文
278
博客文章
171
活跃仓库

Key Findings

本周 5 条高商业价值发现

P0 Qwen 发布 Qwen3-Coder-Next:代码 Agent 赛道竞争白热化

阿里 Qwen 团队发布 Qwen3-Coder-Next(80B MoE,3B active),专为 coding agent 和本地开发设计。SWE-Bench Pro 44.3 分,vLLM 和 SGLang 均提供 Day-0 支持,Together AI 已上线推理服务。

商业意义 → 代码 Agent 正成为各大 Lab 的核心赛道。Together 同步发布 Aurora-Spec-Qwen3-Coder-Next-FP8 (2026-02-03) 作为推测解码加速器,说明推理效率是落地关键。数据服务公司应重点关注代码指令数据集(多语言代码 + Agent 工具调用场景)的构建需求。
P0 NVIDIA 发力机器人数据基础设施:Cosmos-Policy + Numb3rs + Isaac GR00T

NVIDIA 发布 RoboCasa-Cosmos-Policy 和 LIBERO-Cosmos-Policy 两个机器人仿真数据集,配合 Isaac GR00T N1.6 基础模型(GitHub ⭐6143)。同时发布 Numb3rs 语音文本规范化数据集。5 个数据集 + 35 个模型,是本周最活跃的 Lab。

商业意义 → NVIDIA 正在构建端到端的机器人学习数据流水线(仿真→数据→模型),对机器人操控数据集、仿真环境数据、语音数据的需求明确且持续。
P1 DeepSeek-OCR-2 下载量爆发:文档理解数据需求飙升

deepseek-ai/DeepSeek-OCR-2 在一周内达到 661,725 次下载、712 次点赞,成为本周下载量最高的中国模型。同期智谱发布 GLM-OCR(被 SGLang 报道),Mistral 发布 OCR 3。

商业意义 → OCR/文档理解赛道出现三方竞速(DeepSeek、Zhipu、Mistral),高质量文档标注数据(复杂版式、多语言文档、表格嵌套)需求将显著增长。
P1 RLHF/偏好学习论文井喷:7 篇论文聚焦奖励模型改进

本周 7 篇 RLHF 相关论文,涵盖法语偏好数据收集(compar:IA)、民主化偏好对齐(DemPO)、Rubric 改进、GenRM 推理质量(R-Align)、LLM 评委去偏(FairJudge)、DPO 过优化防护(PEPO)、视频流匹配(Euphonium)。Qwen 发布 RationaleRM 数据集(2026-02-02),提出 Rationale Consistency 新评估维度。

商业意义 → RLHF 从简单的二元偏好标注向多维度、多语言、可解释方向演进。数据服务公司需要升级标注协议:支持 rubric-based 评估、推理过程标注、多语言偏好数据采集。
P2 阶跃星辰 Step-3.5-Flash 领跑中国开源速度赛道

stepfun-ai/Step-3.5-Flash 228,406 次下载,同时发布竞争编程基准 CF-Div2-Stepfun。Step3-VL-10B(82,755 次下载)聚焦机器人视觉-语言交互。

商业意义 → 阶跃星辰在推理速度和多模态机器人两条线同时发力,编程竞赛数据 + 机器人视觉语言数据是其核心数据诉求。

Demand Signals

从模型发布反推训练数据需求

数据类型 强度 关联信号
代码 Agent 数据 极强 Qwen3-Coder-Next · Aurora-Spec 系列 · SERA 系列
机器人/具身智能数据 极强 Cosmos-Policy×2 · Isaac GR00T · jepa-wms · Step3-VL-10B
文档 OCR 数据 DeepSeek-OCR-2 · GLM-OCR · Mistral OCR 3
RLHF 偏好数据 RationaleRM · compar:IA · 7 篇偏好学习论文
多语言语音数据 WaxalNLP · Numb3rs · Voxtral-Mini-4B
安全/内容审核数据 Nemotron-Safety-Guard-v3 · Qwen3Guard
合成视觉数据 CoSyn-point · DreamDojo

Download Movers

本周下载量变化最大的数据集

数据集 下载量 周增长
nvidia/Numb3rs 232 +139.2%
amazon/doc_split 1,566 +25.9%
Qwen/RationaleRM 754 +16.9%
nvidia/LIBERO-Cosmos-Policy 2,173 +7.0%
google/WaxalNLP 7,277 +1.9%

Deep Dive — DataRecipe

本周高价值数据集逆向分析(由 DataRecipe 自动生成)

Qwen/RationaleRM
300 条样本 · 14 个字段 · Hard
6.0/10
🟢 推荐复刻

分阶段成本估算

设计阶段
Schema 设计 $480 · 标注指南 $768 · 试点测试 $120 · 工具配置 $200
$1,568 87.5%
生产阶段
人工标注 $121 · API $1 · 初审 $12 · 基础设施 $50 · 单价 $0.61/条
$183 10.2%
质量阶段
QA 抽检 20% · 返工 10% · 终验
$40 2.2%
总计(含 15% 风险预留) $2,060

数据结构

domain language context response1 response2 overall_preference individual_preference human-checklist model-low_deceptive_alignment-checklist

风险评估

中风险 标注质量可能存在波动 → 建立严格 QA 流程,设置质量门槛
低风险 数据可能随时间过时 → 建立持续更新机制

本周共分析 3 个数据集 · 总复刻成本 $3,374 · 人工占比 83.9% · 全部 Hard 难度

AI Dataset Radar 自动生成 · 每周更新

github.com/liuxiaotong/ai-dataset-radar →