Radar Brief 2026 年第 9 周 · 2026-02-06 — 2026-02-13

安全对齐数据体系化,后基准时代评估变革

本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户

0
高价值数据集
0
相关论文
0
博客文章
0
活跃仓库
一句话速览

EleutherAI 发布 reward hacking 安全对照 SFT 数据集,AI 安全数据体系化、Anthropic 完成 300 亿美元 G 轮融资,安全对齐数据市场规模上限提升、Gemini 3 Deep Think 发布,科学推理数据成为新焦点。本周最强数据需求信号:RLHF/安全对齐数据。

Key Findings

本周 5 条高商业价值发现

P0 EleutherAI 发布 reward hacking 安全对照 SFT 数据集,AI 安全数据体系化(2026-02-13)

EleutherAI 于 2026 年 2 月 13 日发布 rh-clean-control-sft 数据集,这是专为 reward hacking 实验设计的"干净"对照 SFT 混合数据集,不包含任何故意的错误对齐、漏洞利用或越狱合规数据。数据集包含 2000 条指令跟随(来自 Alpaca)、数学推理和其他良性任务数据,采用 Apache 2.0 开源许可。该数据集作为基线对照组,用于衡量奖励模型在正常训练下的 hacking 程度。

商业意义 → 1. 安全数据标准化:reward hacking 对照数据集的发布标志着 AI 安全研究从"发现问题"进入"系统化测试"阶段。数据服务公司可以提供"安全基线数据 + 攻击数据 + 防御数据"的三件套服务。 2. 对齐研究基础设施:配合本周 6 篇 RLHF 论文(Bayesian 非负奖励、个性化奖励、统一稳定优化等),安全对齐数据需求正在从简单偏好标注向多层次安全测试数据演进。数据服务公司需要建立"对齐数据方法论"能力。 3. Red-teaming 数据需求:干净对照数据集的存在暗示其对应的"脏数据"(恶意指令、越狱样本)同样是稀缺资源。安全红队数据成为高价值数据类型。
P0 Anthropic 完成 300 亿美元 G 轮融资,安全对齐数据市场规模上限提升(2026-02-13)

Anthropic 于 2026 年 2 月宣布完成 300 亿美元 G 轮融资,由 GIC 和 Coatue 领投,投后估值达 3800 亿美元。资金将用于前沿研究、产品开发和基础设施建设。同期,Anthropic 还宣布向 Public First Action 捐赠 2000 万美元用于社会公益,并承诺覆盖数据中心带来的电力价格上涨。

商业意义 → 1. 对齐数据市场天花板提升:Anthropic 作为最重视安全对齐的头部 AI Lab,3800 亿估值意味着安全对齐不再是"成本中心"而是核心竞争力。对齐数据(RLHF 偏好、红队测试、安全评估)的市场规模将随之扩大。 2. Constitutional AI 数据需求:Anthropic 的 Constitutional AI 方法论需要大量精心设计的原则-偏好配对数据,这类数据目前几乎没有公开供应商。 3. 基础设施投资信号:300 亿美元中的基础设施部分暗示数据处理和标注平台的大规模需求,数据服务公司可以切入"AI 安全数据基础设施"赛道。
P1 Gemini 3 Deep Think 发布,科学推理数据成为新焦点(2026-02-12/13)

Google DeepMind 于 2026 年 2 月 12-13 日发布 Gemini 3 Deep Think,定位为"最专业的推理模式",聚焦解决现代科学、研究和工程挑战。配合博客文章《Accelerating Mathematical and Scientific Discovery with Gemini Deep Think》,展示了该模型在数学发现和科学研究中的应用。同期,Apple 研究团队发表论文指出"推理轨迹长度是推理模型不确定性的简单信号"。

商业意义 → 1. 科学推理数据缺口:Gemini 3 Deep Think 聚焦科学发现,但开源科学推理数据集极为稀缺。数据服务公司可以布局"科学实验方案设计"、"研究假设验证"、"跨学科推理"等高价值数据类型。 2. 长推理链数据需求:Apple 论文揭示推理轨迹长度与不确定性的关系,暗示训练高质量推理模型需要大量"长推理链 + 不确定性标注"的配对数据。 3. "后基准时代"评估数据:Nathan Lambert 博客文章《Opus 4.6, Codex 5.3, and the post-benchmark era》提出传统基准已无法有效区分顶尖模型。这意味着需要全新的评估数据集设计方法论——更贴近真实场景、更难饱和、更具区分度。
P1 RLHF 论文单周爆发,偏好学习进入多维度安全防御时代(2026-02-10/12)

本周共有 6 篇 RLHF/偏好学习方向论文集中发表:BNRM(Bayesian 非负奖励模型防 reward hacking,2026-02-11)、P-GenRM(个性化生成式奖励模型,2026-02-12)、Unifying Stable Optimization(统一稳定优化与参考正则化,2026-02-12)、How Sampling Shapes LLM Alignment(采样对对齐的影响,2026-02-12)、What Does Preference Learning Recover(偏好学习理论分析,2026-02-10)、Quark Medical Alignment(医疗领域多维度对齐,2026-02-12)。

商业意义 → 1. 偏好数据多样化:单一的"好/坏"二元偏好标注已不够。P-GenRM 需要用户画像级偏好数据,BNRM 需要带噪声标注的偏好对,Medical Alignment 需要医学专家的多维度评分。数据服务公司需要升级标注体系,支持"多维度 + 个性化 + 领域专家"偏好标注。 2. Reward Hacking 防御成为标配:BNRM 和 Unifying Stable Optimization 都在解决 reward hacking 问题,暗示该问题在工业界已普遍存在。数据服务公司可以提供"reward hacking 检测数据集"作为增值服务。 3. 垂直领域对齐:Quark Medical Alignment 表明通用 RLHF 方法在医疗等高风险领域不适用,需要领域定制的对齐数据。这为医疗、法律、金融等垂直领域的专家偏好数据创造了高价值市场。
P2 Allen AI Sera 代码智能体 + NVIDIA 机器人数据持续主导数据供给(2026-02-10/13)

Allen AI 本周继续保持最活跃的数据发布者地位,16 个数据集涵盖 Sera 代码智能体轨迹(6 个数据集,13.6 万条轨迹)、Molmo2 视频系列(6 个)、具身 AI 场景等。NVIDIA 发布 PhysicalAI 厨房机器人数据集(600 小时,5.5 万轨迹)和 SAGE-10k 室内场景数据集。同时 EleutherAI 发布 50 个 Pythia 模型变体,强化可复现性研究基础设施。

商业意义 → 1. 开源数据"挤出效应"加剧:Allen AI 和 NVIDIA 的免费高质量数据集对商业数据服务市场形成持续压力。数据服务公司必须转向这些开源数据集不覆盖的领域(企业私有代码、特定行业机器人场景)。 2. 数据格式标准固化:LeRobot 格式(机器人)和 SVG 方法论(代码智能体)正在成为事实标准。数据服务公司必须确保工具链兼容这些标准。 3. 可复现性成为竞争维度:EleutherAI 开放 50 个 Pythia 模型的预训练种子和索引映射,表明数据的可复现性和可追溯性成为新的质量要求。商业数据集需要提供类似的数据血统(data lineage)文档。

Demand Signals

从模型发布反推训练数据需求

数据类型 强度 趋势 关联信号
RLHF/安全对齐数据 极强 ↑ 新增 单周 6 篇 RLHF 论文;EleutherAI 发布 reward hacking 对照数据集;Anthropic 300 亿融资验证安全路线
代码智能体轨迹数据 极强 → 持续 Allen AI 13.6 万条 Sera 数据集;Anthropic skills 68930 星 · OpenAI codex 60188 星;Mistral Devstral-2 和 mistral-vibe CLI
机器人演示数据 → 持续 NVIDIA 600 小时厨房任务数据;SAGE-10k 室内场景;Apptronik 5.2 亿美元融资加速 Apollo 量产;数据堂与灵心巧手合作
科学推理数据 ↑ 新增 Gemini 3 Deep Think 聚焦科学发现;Apple 论文揭示推理轨迹-不确定性关系;NVIDIA Nemotron-Math-v2 长上下文数学推理
多模态视频数据 → 持续 Allen AI Molmo2 系列 6 个视频数据集;Meta EgoAVU 第一人称音视频;11 个多模态数据集占比 30.6%
评估基准数据 → 持续 Nathan Lambert "后基准时代"论述;Stanford HAI 讨论"更好的 AI 测试";OpenAI gdpval 经济价值评估;Stepfun CF-Div2 · GEBench
合成数据 → 持续 8 个合成数据集占比 22%;Allen AI SVG 方法公开;Argilla No-Code Dataset Builder
多语言语音数据 → 持续 Google WaxalNLP 非洲语言;海天瑞声 Dolphin 40 语言;NeuTTS Nano 多语言 TTS;NVIDIA Numb3rs TN/ITN
GUI/Agent 交互数据 ↑ 新增 Stepfun GEBench GUI 生成评估;AmbiBench 移动 GUI Agent 基准;Apple 研究团队 CUA 设计空间调研
3D 场景/资产数据 → 持续 NVIDIA SAGE-10k 室内场景;Meta ShapeR 3D 重建;Allen AI MolmoSpaces 具身 AI 生态
RLHF/偏好数据 ↓ 退出 上期出现,本期未出现
数学推理数据 ↓ 退出 上期出现,本期未出现
长上下文数据 ↓ 退出 上期出现,本期未出现

Download Movers

本周下载量变化最大的数据集

数据集 下载量 周增长
allenai/molmospaces 85 +142.9%

Deep Dive — DataRecipe

本周 3 个高价值数据集逆向分析(由 DataRecipe 自动生成)

Qwen/RationaleRM
300 条样本 · 14 个字段 · Hard
6.0/10
🟢 推荐复刻

数据结构

domain language context response1 response2 overall_preference individual_preference human-checklist model-low_deceptive_alignment-checklist

风险评估

中风险 标注质量可能存在波动 → 建立严格 QA 流程,设置质量门槛
低风险 数据可能随时间过时 → 建立持续更新机制
microsoft/CancerGUIDE
165 条样本 · 3 个字段 · Hard
6.0/10
🟢 推荐复刻

数据结构

patient_id patient_note label

风险评估

中风险 需要领域专家参与,人才获取可能困难 → 提前储备人才,或考虑外包合作
中风险 标注质量可能存在波动 → 建立严格 QA 流程,设置质量门槛
低风险 数据可能随时间过时 → 建立持续更新机制
amazon/doc_split
300 条样本 · 3 个字段 · Hard
6.0/10
🟢 推荐复刻

数据结构

doc_id total_pages subdocuments

风险评估

中风险 需要领域专家参与,人才获取可能困难 → 提前储备人才,或考虑外包合作
中风险 标注质量可能存在波动 → 建立严格 QA 流程,设置质量门槛
低风险 数据可能随时间过时 → 建立持续更新机制

本周共分析 3 个数据集 · 人工占比 83.9% · 全部 Hard 难度

想深聊本期内容?

AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →