安全对齐数据体系化，后基准时代评估变革

一句话速览

EleutherAI 发布 reward hacking 安全对照 SFT 数据集，AI 安全数据体系化、Anthropic 完成 300 亿美元 G 轮融资，安全对齐数据市场规模上限提升、Gemini 3 Deep Think 发布，科学推理数据成为新焦点。本周最强数据需求信号：RLHF/安全对齐数据。

Key Findings

本周 5 条高商业价值发现

P0 EleutherAI 发布 reward hacking 安全对照 SFT 数据集，AI 安全数据体系化（2026-02-13）

EleutherAI 于 2026 年 2 月 13 日发布 rh-clean-control-sft 数据集，这是专为 reward hacking 实验设计的"干净"对照 SFT 混合数据集，不包含任何故意的错误对齐、漏洞利用或越狱合规数据。数据集包含 2000 条指令跟随（来自 Alpaca）、数学推理和其他良性任务数据，采用 Apache 2.0 开源许可。该数据集作为基线对照组，用于衡量奖励模型在正常训练下的 hacking 程度。

商业意义 → 1. 安全数据标准化：reward hacking 对照数据集的发布标志着 AI 安全研究从"发现问题"进入"系统化测试"阶段。数据服务公司可以提供"安全基线数据 + 攻击数据 + 防御数据"的三件套服务。 2. 对齐研究基础设施：配合本周 6 篇 RLHF 论文（Bayesian 非负奖励、个性化奖励、统一稳定优化等），安全对齐数据需求正在从简单偏好标注向多层次安全测试数据演进。数据服务公司需要建立"对齐数据方法论"能力。 3. Red-teaming 数据需求：干净对照数据集的存在暗示其对应的"脏数据"（恶意指令、越狱样本）同样是稀缺资源。安全红队数据成为高价值数据类型。

P0 Anthropic 完成 300 亿美元 G 轮融资，安全对齐数据市场规模上限提升（2026-02-13）

Anthropic 于 2026 年 2 月宣布完成 300 亿美元 G 轮融资，由 GIC 和 Coatue 领投，投后估值达 3800 亿美元。资金将用于前沿研究、产品开发和基础设施建设。同期，Anthropic 还宣布向 Public First Action 捐赠 2000 万美元用于社会公益，并承诺覆盖数据中心带来的电力价格上涨。

商业意义 → 1. 对齐数据市场天花板提升：Anthropic 作为最重视安全对齐的头部 AI Lab，3800 亿估值意味着安全对齐不再是"成本中心"而是核心竞争力。对齐数据（RLHF 偏好、红队测试、安全评估）的市场规模将随之扩大。 2. Constitutional AI 数据需求：Anthropic 的 Constitutional AI 方法论需要大量精心设计的原则-偏好配对数据，这类数据目前几乎没有公开供应商。 3. 基础设施投资信号：300 亿美元中的基础设施部分暗示数据处理和标注平台的大规模需求，数据服务公司可以切入"AI 安全数据基础设施"赛道。

P1 Gemini 3 Deep Think 发布，科学推理数据成为新焦点（2026-02-12/13）

Google DeepMind 于 2026 年 2 月 12-13 日发布 Gemini 3 Deep Think，定位为"最专业的推理模式"，聚焦解决现代科学、研究和工程挑战。配合博客文章《Accelerating Mathematical and Scientific Discovery with Gemini Deep Think》，展示了该模型在数学发现和科学研究中的应用。同期，Apple 研究团队发表论文指出"推理轨迹长度是推理模型不确定性的简单信号"。

商业意义 → 1. 科学推理数据缺口：Gemini 3 Deep Think 聚焦科学发现，但开源科学推理数据集极为稀缺。数据服务公司可以布局"科学实验方案设计"、"研究假设验证"、"跨学科推理"等高价值数据类型。 2. 长推理链数据需求：Apple 论文揭示推理轨迹长度与不确定性的关系，暗示训练高质量推理模型需要大量"长推理链 + 不确定性标注"的配对数据。 3. "后基准时代"评估数据：Nathan Lambert 博客文章《Opus 4.6, Codex 5.3, and the post-benchmark era》提出传统基准已无法有效区分顶尖模型。这意味着需要全新的评估数据集设计方法论——更贴近真实场景、更难饱和、更具区分度。

P1 RLHF 论文单周爆发，偏好学习进入多维度安全防御时代（2026-02-10/12）

本周共有 6 篇 RLHF/偏好学习方向论文集中发表：BNRM（Bayesian 非负奖励模型防 reward hacking，2026-02-11）、P-GenRM（个性化生成式奖励模型，2026-02-12）、Unifying Stable Optimization（统一稳定优化与参考正则化，2026-02-12）、How Sampling Shapes LLM Alignment（采样对对齐的影响，2026-02-12）、What Does Preference Learning Recover（偏好学习理论分析，2026-02-10）、Quark Medical Alignment（医疗领域多维度对齐，2026-02-12）。

商业意义 → 1. 偏好数据多样化：单一的"好/坏"二元偏好标注已不够。P-GenRM 需要用户画像级偏好数据，BNRM 需要带噪声标注的偏好对，Medical Alignment 需要医学专家的多维度评分。数据服务公司需要升级标注体系，支持"多维度 + 个性化 + 领域专家"偏好标注。 2. Reward Hacking 防御成为标配：BNRM 和 Unifying Stable Optimization 都在解决 reward hacking 问题，暗示该问题在工业界已普遍存在。数据服务公司可以提供"reward hacking 检测数据集"作为增值服务。 3. 垂直领域对齐：Quark Medical Alignment 表明通用 RLHF 方法在医疗等高风险领域不适用，需要领域定制的对齐数据。这为医疗、法律、金融等垂直领域的专家偏好数据创造了高价值市场。

P2 Allen AI Sera 代码智能体 + NVIDIA 机器人数据持续主导数据供给（2026-02-10/13）

Allen AI 本周继续保持最活跃的数据发布者地位，16 个数据集涵盖 Sera 代码智能体轨迹（6 个数据集，13.6 万条轨迹）、Molmo2 视频系列（6 个）、具身 AI 场景等。NVIDIA 发布 PhysicalAI 厨房机器人数据集（600 小时，5.5 万轨迹）和 SAGE-10k 室内场景数据集。同时 EleutherAI 发布 50 个 Pythia 模型变体，强化可复现性研究基础设施。

商业意义 → 1. 开源数据"挤出效应"加剧：Allen AI 和 NVIDIA 的免费高质量数据集对商业数据服务市场形成持续压力。数据服务公司必须转向这些开源数据集不覆盖的领域（企业私有代码、特定行业机器人场景）。 2. 数据格式标准固化：LeRobot 格式（机器人）和 SVG 方法论（代码智能体）正在成为事实标准。数据服务公司必须确保工具链兼容这些标准。 3. 可复现性成为竞争维度：EleutherAI 开放 50 个 Pythia 模型的预训练种子和索引映射，表明数据的可复现性和可追溯性成为新的质量要求。商业数据集需要提供类似的数据血统（data lineage）文档。

Demand Signals

从模型发布反推训练数据需求

RLHF/安全对齐数据极强 ↑ 新增单周 6 篇 RLHF 论文；EleutherAI 发布 reward hacking 对照数据集；Anthropic 300 亿融资验证安全路线

代码智能体轨迹数据极强 → 持续 Allen AI 13.6 万条 Sera 数据集；Anthropic skills 68930 星 · OpenAI codex 60188 星；Mistral Devstral-2 和 mistral-vibe CLI

机器人演示数据强 → 持续 NVIDIA 600 小时厨房任务数据；SAGE-10k 室内场景；Apptronik 5.2 亿美元融资加速 Apollo 量产；数据堂与灵心巧手合作

科学推理数据强 ↑ 新增 Gemini 3 Deep Think 聚焦科学发现；Apple 论文揭示推理轨迹-不确定性关系；NVIDIA Nemotron-Math-v2 长上下文数学推理

多模态视频数据强 → 持续 Allen AI Molmo2 系列 6 个视频数据集；Meta EgoAVU 第一人称音视频；11 个多模态数据集占比 30.6%

评估基准数据中 → 持续 Nathan Lambert "后基准时代"论述；Stanford HAI 讨论"更好的 AI 测试"；OpenAI gdpval 经济价值评估；Stepfun CF-Div2 · GEBench

合成数据中 → 持续 8 个合成数据集占比 22%；Allen AI SVG 方法公开；Argilla No-Code Dataset Builder

多语言语音数据中 → 持续 Google WaxalNLP 非洲语言；海天瑞声 Dolphin 40 语言；NeuTTS Nano 多语言 TTS；NVIDIA Numb3rs TN/ITN

GUI/Agent 交互数据中 ↑ 新增 Stepfun GEBench GUI 生成评估；AmbiBench 移动 GUI Agent 基准；Apple 研究团队 CUA 设计空间调研

3D 场景/资产数据中 → 持续 NVIDIA SAGE-10k 室内场景；Meta ShapeR 3D 重建；Allen AI MolmoSpaces 具身 AI 生态

RLHF/偏好数据 ↓ 退出上期出现，本期未出现

数学推理数据 ↓ 退出上期出现，本期未出现

长上下文数据 ↓ 退出上期出现，本期未出现

Download Movers

本周下载量变化最大的数据集

数据集	下载量	周增长
allenai/molmospaces	85	+142.9%

Deep Dive — DataRecipe

本周 3 个高价值数据集逆向分析（由 DataRecipe 自动生成）

Qwen/RationaleRM

300 条样本 · 14 个字段 · Hard

6.0/10

数据结构

风险评估

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

microsoft/CancerGUIDE

165 条样本 · 3 个字段 · Hard

6.0/10

数据结构

风险评估

中风险需要领域专家参与，人才获取可能困难 → 提前储备人才，或考虑外包合作

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

amazon/doc_split

300 条样本 · 3 个字段 · Hard

6.0/10

数据结构

风险评估

中风险需要领域专家参与，人才获取可能困难 → 提前储备人才，或考虑外包合作

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

本周共分析 3 个数据集 · 人工占比 83.9% · 全部 Hard 难度

想深聊本期内容？

Kai Founder & CEO

苏文 AI 文档工程师

方逸凡 AI 算法研究员

由 AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →