W12 AI 数据情报 — 集识光年

一句话速览

Allen AI 五数据集齐发 + Olmix 数据混合框架，系统定义预训练数据方法论、Meta 开源 20 万+多语言多轮偏好数据集，RLHF 数据公共供给升级、RLHF/对齐研究连续第四周高密度产出，方法论走向个性化和可解耦。本周最强数据需求信号：多模态视觉推理数据。

Key Findings

本周 5 条高商业价值发现

P0 Allen AI 五数据集齐发 + Olmix 数据混合框架，系统定义预训练数据方法论（2026-02-11 至 2026-02-17）

Allen AI 本周发布 5 个数据集和 8 个模型，成为单周产出最高的研究机构。核心亮点：allenai/olmix（2026-02-11，238 下载，18 赞）——为 OLMo 预训练提供 proxy run swarm 数据，系统化解决"不同领域数据按什么比例混合效果最优"这一预训练核心问题；allenai/Dolci-Instruct-DPO（2,498 下载）——26 万条偏好对用于 OLMo 3 Instruct 7B 对齐训练，ODC-BY 许可证；allenai/olmOCR-bench（2,745 下载，58 赞）——1,403 个 PDF + 7,010 个单元测试，建立 PDF-to-Markdown OCR 系统评估标准；allenai/Molmo2-MultiImageQA（194 下载）——多图视觉问答指令微调数据集；allenai/molmospaces（204 下载，+39.7% 周增长）——具身 AI 3DGUT/USD 资源更新 Isaac Sim 兼容格式。配套博客同步发布：Olmix 数据混合框架详解、AutoDiscovery 自动科学发现、MolmoSpaces 生态介绍、How2Everything 真实程序评估。

商业意义 → Allen AI 从"发布单个数据集"跃升至"输出数据方法论"——Olmix 的 swarm 数据混合方法将改变预训练数据配比的工程实践。数据服务商需要关注：1）数据混合优化作为服务的可能性——帮客户找到最优训练配比；2）OCR 评估基准的标准化——olmOCR-bench 可能成为文档 AI 领域的事实标准，数据供应商应据此校准文档标注质量；3）DPO 偏好数据的公开供给——26 万条开源 DPO 数据压缩了低质量偏好数据的商业空间，差异化竞争需聚焦垂直领域。

P0 Meta 开源 20 万+多语言多轮偏好数据集，RLHF 数据公共供给升级（2025-05-13 首发，本周进入监测范围）

facebook/community-alignment-dataset（194 下载，39 赞，cc-by-4.0）——来自 3,000+ 全球标注者的 20 万+LLM 响应对比数据，覆盖多语言和多轮对话场景。这是 Meta 开源的最大规模多语言偏好数据集。同时发布 facebook/actionbench（2026-02-19，2 下载）——128 个视频↔动画点云配对样本，用于评估从视频生成动画 3D 网格的能力。两个数据集分别代表 Meta 在"文本对齐"和"视频-3D 多模态"两条数据战线的布局。

商业意义 → community-alignment-dataset 的 cc-by-4.0 许可证意味着任何人可以免费用于商业训练——这对中小模型厂商是利好，但对偏好数据供应商是直接冲击。差异化方向：1）垂直行业偏好数据（医疗、法律、金融等专业场景 Meta 数据集未覆盖）；2）中文偏好数据——该数据集虽然多语言，但中文覆盖深度有限；3）持续更新服务——开源数据集是静态的，而客户需要跟随模型迭代持续更新的偏好数据。

P1 RLHF/对齐研究连续第四周高密度产出，方法论走向个性化和可解耦（2026-02-16 至 2026-02-19）

本周 RLHF/对齐相关论文 5 篇：MARS（2026-02-19）——Margin-Aware 奖励建模 + 自精炼数据增强，解决偏好数据成本高的问题；Learning Personalized Agents from Human Feedback（2026-02-18）——引入 PersonaliZe 框架，让 Agent 适应个人偏好的动态变化；Multi-Objective Alignment for Personalized Psychotherapy（2026-02-17）——在心理治疗场景下多目标对齐，平衡患者偏好与临床安全；Interactionless IRL（2026-02-16）——提出"无交互逆强化学习"，将安全目标与策略解耦，避免"对齐废物"；Latency-aware HITL-RL（2026-02-17）——在语义通信中嵌入人类反馈和延迟约束。五篇论文共同趋势：从"一刀切对齐"走向"个性化 + 可解耦 + 多目标 + 场景化"。

商业意义 → 对齐方法论的精细化直接改变数据需求：1）个性化偏好数据——不再是"全人类的偏好"，而是"特定用户群体/个体的偏好"，数据采集需要覆盖人群多样性；2）多目标标注——同一个样本需要多个维度的偏好标注（安全性、有用性、个性化等），标注成本上升但单条数据价值更高；3）动态偏好数据——PersonaliZe 框架强调偏好随时间变化，意味着偏好数据需要定期刷新，"一次性标注"模式将被"持续标注服务"取代。

P1 三大前沿模型同周亮相：Gemini 3.1 Pro、Sonnet 4.6、Qwen 3.5-397B，多模态军备竞赛白热化（2026-02-16 至 2026-02-19）

Google 发布 Gemini 3.1 Pro（2026-02-19，DeepMind 博客："A smarter model for your most complex tasks"），强调复杂任务推理能力；Anthropic 发布 Claude Sonnet 4.6（2026-02-19，"frontier performance across coding, agents, and professional work at scale"）；Qwen 3.5-397B-A17B（2026-02-16，10.5 万下载，754 赞）MoE 架构视觉语言模型。同期 MiniMax-M2.5 以 12.3 万下载、814 赞成为社区热门，Cerebras 发布 REAP 压缩版（172B-A10B 和 139B-A10B）。Reddit 热帖"Qwen3.5 Plus, GLM 5, Gemini 3.1 Pro, Sonnet 4.6, three new open source agents"（57 票）印证社区感受到的模型发布密度。

商业意义 → 三大前沿模型同周发布意味着下一轮对齐和评估数据需求的同步爆发。特别关注：1）复杂任务推理数据——Gemini 3.1 Pro 定位"complex tasks"，需要多步推理、长链思维的评估和训练数据；2）编码/Agent 数据——Sonnet 4.6 强调 coding 和 agents，Agent 行为轨迹和代码推理数据需求上升；3）视觉语言多模态数据——Qwen 3.5 是视觉语言模型，397B 规模意味着对视觉推理数据的消耗量极大。

P2 GGML/llama.cpp 加入 Hugging Face，本地 AI 基础设施整合加速（2026-02-19）

Hugging Face 博客宣布"GGML and llama.cpp join HF to ensure the long-term progress of Local AI"。GGML 是本地模型推理最广泛使用的量化格式，llama.cpp 是社区最活跃的本地推理引擎。同期信号：Reddit "Free ASIC Llama 3.1 8B inference at 16,000 tok/s"（318 票，本周最高），暗示专用硬件加速本地推理已突破可用门槛；"Kimi K2.5 better than Opus 4.6 on hallucination benchmark"（46 票）显示本地/开源模型在特定领域挑战闭源前沿；Snorkel AI 展示 4B 模型通过 tool discipline 超越 235B 模型。

商业意义 → 本地 AI 基础设施的整合意味着：1）量化模型评估数据需求——量化后模型的质量损失需要系统评估，"量化前后对比评估数据集"是新品类；2）端侧场景微调数据——16K tok/s 的 ASIC 推理 + GGML/HF 整合，使边缘部署从技术验证走向生产就绪，端侧特化数据需求将规模化；3）小模型对齐数据——Snorkel AI 的 4B 模型案例证明，小模型通过精准微调可以超越大模型，但前提是高质量的垂直领域对齐数据。

Demand Signals

从模型发布反推训练数据需求

多模态视觉推理数据

极强 ↑ 新增

Qwen 3.5-397B VLM · GLM-4.6V 视觉推理 · Molmo2-MultiImageQA 多图VQA

RLHF/偏好对齐数据

极强 ↑ 新增

Meta 20万+偏好对开源 · Allen AI 26万 DPO 对 · MARS 奖励建模自精炼 · PersonaliZe 个性化对齐

Agent 行为/轨迹数据

强 → 持续

Sonnet 4.6 Agent 性能 · Snowflake AgentWorldModel-1K · Mistral Vibe CLI/Devstral 2 · OpenAI Codex 61K⭐

复杂推理评估数据

强 ↑ 新增

Gemini 3.1 Pro "complex tasks" · HLE-Verified 人类终极考试修正 · MATEO 时序推理基准

编码/代码推理数据

强 ↑ 新增

Sonnet 4.6 coding 性能 · Qwen3 Coder Next · Reddit "surge in LLM coding capabilities" · TAROT 代码生成RL

多语言数据

强 ↑ 新增

ÜberWeb 20T 多语言策展 · WaxalNLP 非洲语言语音 · ParlaCAP 28 个欧洲议会 · Crowdsourcing Piedmontese

机器人/具身AI数据

中 ↑ 新增

NVIDIA NuRec · MolmoSpaces +39.7%增长 · Humanoid End-Effector Control · Isaac-GR00T 6.2K⭐

文档OCR数据

中 ↑ 新增

olmOCR-bench · Mistral OCR 3 · PaddleOCR-VL in llama.cpp · amazon/doc_split

量化/压缩评估数据

中 ↑ 新增

Cerebras REAP 压缩 MiniMax · ASIC 16K tok/s 推理 · INT8 跨芯片精度差异

安全/对齐审计数据

中 ↑ 新增

EleutherAI misalignment-control-sft · Qwen3Guard 实时安全 · OpenAI $7.5M 对齐研究资助

机器人 VLA 轨迹数据 ↓ 退出上期出现，本期未出现

RL 训练/对齐数据 ↓ 退出上期出现，本期未出现

中文大模型对齐数据 ↓ 退出上期出现，本期未出现

多语言评估数据 ↓ 退出上期出现，本期未出现

实时安全标注数据 ↓ 退出上期出现，本期未出现

视觉推理数据 ↓ 退出上期出现，本期未出现

仿真-真实配对数据 ↓ 退出上期出现，本期未出现

音频/语音数据 ↓ 退出上期出现，本期未出现

图像编辑指令数据 ↓ 退出上期出现，本期未出现

Download Movers

本周下载量变化最大的数据集

数据集	下载量	周增长
allenai/molmospaces	204	+39.7%

Deep Dive — DataRecipe

本周 2 个高价值数据集逆向分析（由 DataRecipe 自动生成）

facebook/EgoAVU_data

300 条样本 · 6 个字段 · Medium

6.0/10

数据结构

风险评估

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

allenai/olmix

300 条样本 · 113 个字段 · Medium

6.5/10

数据结构

风险评估

中风险标注质量可能存在波动 → 建立严格 QA 流程，设置质量门槛

低风险数据可能随时间过时 → 建立持续更新机制

本周共分析 2 个数据集 · 人工占比 83.9% · 全部 Medium 难度

想深聊本期内容？

Kai Founder & CEO

苏文 AI 文档与发布工程师

陆明哲 AI 产品经理

由 AI Dataset Radar 自动生成 · 每周更新

AI Dataset Radar →

多模态对齐数据军备竞赛Allen AI 定义预训练数据方法论

Key Findings

Demand Signals

Download Movers

Deep Dive — DataRecipe

数据结构

风险评估

数据结构

风险评估

多模态对齐数据军备竞赛
Allen AI 定义预训练数据方法论