本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户
EleutherAI 发布 reward hacking 安全对照 SFT 数据集,AI 安全数据体系化、Anthropic 完成 300 亿美元 G 轮融资,安全对齐数据市场规模上限提升、Gemini 3 Deep Think 发布,科学推理数据成为新焦点。本周最强数据需求信号:RLHF/安全对齐数据。
本周 5 条高商业价值发现
EleutherAI 于 2026 年 2 月 13 日发布 rh-clean-control-sft 数据集,这是专为 reward hacking 实验设计的"干净"对照 SFT 混合数据集,不包含任何故意的错误对齐、漏洞利用或越狱合规数据。数据集包含 2000 条指令跟随(来自 Alpaca)、数学推理和其他良性任务数据,采用 Apache 2.0 开源许可。该数据集作为基线对照组,用于衡量奖励模型在正常训练下的 hacking 程度。
Anthropic 于 2026 年 2 月宣布完成 300 亿美元 G 轮融资,由 GIC 和 Coatue 领投,投后估值达 3800 亿美元。资金将用于前沿研究、产品开发和基础设施建设。同期,Anthropic 还宣布向 Public First Action 捐赠 2000 万美元用于社会公益,并承诺覆盖数据中心带来的电力价格上涨。
Google DeepMind 于 2026 年 2 月 12-13 日发布 Gemini 3 Deep Think,定位为"最专业的推理模式",聚焦解决现代科学、研究和工程挑战。配合博客文章《Accelerating Mathematical and Scientific Discovery with Gemini Deep Think》,展示了该模型在数学发现和科学研究中的应用。同期,Apple 研究团队发表论文指出"推理轨迹长度是推理模型不确定性的简单信号"。
本周共有 6 篇 RLHF/偏好学习方向论文集中发表:BNRM(Bayesian 非负奖励模型防 reward hacking,2026-02-11)、P-GenRM(个性化生成式奖励模型,2026-02-12)、Unifying Stable Optimization(统一稳定优化与参考正则化,2026-02-12)、How Sampling Shapes LLM Alignment(采样对对齐的影响,2026-02-12)、What Does Preference Learning Recover(偏好学习理论分析,2026-02-10)、Quark Medical Alignment(医疗领域多维度对齐,2026-02-12)。
Allen AI 本周继续保持最活跃的数据发布者地位,16 个数据集涵盖 Sera 代码智能体轨迹(6 个数据集,13.6 万条轨迹)、Molmo2 视频系列(6 个)、具身 AI 场景等。NVIDIA 发布 PhysicalAI 厨房机器人数据集(600 小时,5.5 万轨迹)和 SAGE-10k 室内场景数据集。同时 EleutherAI 发布 50 个 Pythia 模型变体,强化可复现性研究基础设施。
从模型发布反推训练数据需求
本周下载量变化最大的数据集
| 数据集 | 下载量 | 周增长 |
|---|---|---|
| allenai/molmospaces | 85 | +142.9% |
本周 3 个高价值数据集逆向分析(由 DataRecipe 自动生成)
本周共分析 3 个数据集 · 人工占比 83.9% · 全部 Hard 难度
想深聊本期内容?
由 AI Dataset Radar 自动生成 · 每周更新
AI Dataset Radar →