多模态对齐数据军备竞赛
Allen AI 定义预训练数据方法论
本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户
Allen AI 五数据集齐发 + Olmix 数据混合框架,系统定义预训练数据方法论、Meta 开源 20 万+多语言多轮偏好数据集,RLHF 数据公共供给升级、RLHF/对齐研究连续第四周高密度产出,方法论走向个性化和可解耦。本周最强数据需求信号:多模态视觉推理数据。
Key Findings
本周 5 条高商业价值发现
Allen AI 本周发布 5 个数据集和 8 个模型,成为单周产出最高的研究机构。核心亮点:allenai/olmix(2026-02-11,238 下载,18 赞)——为 OLMo 预训练提供 proxy run swarm 数据,系统化解决"不同领域数据按什么比例混合效果最优"这一预训练核心问题;allenai/Dolci-Instruct-DPO(2,498 下载)——26 万条偏好对用于 OLMo 3 Instruct 7B 对齐训练,ODC-BY 许可证;allenai/olmOCR-bench(2,745 下载,58 赞)——1,403 个 PDF + 7,010 个单元测试,建立 PDF-to-Markdown OCR 系统评估标准;allenai/Molmo2-MultiImageQA(194 下载)——多图视觉问答指令微调数据集;allenai/molmospaces(204 下载,+39.7% 周增长)——具身 AI 3DGUT/USD 资源更新 Isaac Sim 兼容格式。配套博客同步发布:Olmix 数据混合框架详解、AutoDiscovery 自动科学发现、MolmoSpaces 生态介绍、How2Everything 真实程序评估。
facebook/community-alignment-dataset(194 下载,39 赞,cc-by-4.0)——来自 3,000+ 全球标注者的 20 万+LLM 响应对比数据,覆盖多语言和多轮对话场景。这是 Meta 开源的最大规模多语言偏好数据集。同时发布 facebook/actionbench(2026-02-19,2 下载)——128 个视频↔动画点云配对样本,用于评估从视频生成动画 3D 网格的能力。两个数据集分别代表 Meta 在"文本对齐"和"视频-3D 多模态"两条数据战线的布局。
本周 RLHF/对齐相关论文 5 篇:MARS(2026-02-19)——Margin-Aware 奖励建模 + 自精炼数据增强,解决偏好数据成本高的问题;Learning Personalized Agents from Human Feedback(2026-02-18)——引入 PersonaliZe 框架,让 Agent 适应个人偏好的动态变化;Multi-Objective Alignment for Personalized Psychotherapy(2026-02-17)——在心理治疗场景下多目标对齐,平衡患者偏好与临床安全;Interactionless IRL(2026-02-16)——提出"无交互逆强化学习",将安全目标与策略解耦,避免"对齐废物";Latency-aware HITL-RL(2026-02-17)——在语义通信中嵌入人类反馈和延迟约束。五篇论文共同趋势:从"一刀切对齐"走向"个性化 + 可解耦 + 多目标 + 场景化"。
Google 发布 Gemini 3.1 Pro(2026-02-19,DeepMind 博客:"A smarter model for your most complex tasks"),强调复杂任务推理能力;Anthropic 发布 Claude Sonnet 4.6(2026-02-19,"frontier performance across coding, agents, and professional work at scale");Qwen 3.5-397B-A17B(2026-02-16,10.5 万下载,754 赞)MoE 架构视觉语言模型。同期 MiniMax-M2.5 以 12.3 万下载、814 赞成为社区热门,Cerebras 发布 REAP 压缩版(172B-A10B 和 139B-A10B)。Reddit 热帖"Qwen3.5 Plus, GLM 5, Gemini 3.1 Pro, Sonnet 4.6, three new open source agents"(57 票)印证社区感受到的模型发布密度。
Hugging Face 博客宣布"GGML and llama.cpp join HF to ensure the long-term progress of Local AI"。GGML 是本地模型推理最广泛使用的量化格式,llama.cpp 是社区最活跃的本地推理引擎。同期信号:Reddit "Free ASIC Llama 3.1 8B inference at 16,000 tok/s"(318 票,本周最高),暗示专用硬件加速本地推理已突破可用门槛;"Kimi K2.5 better than Opus 4.6 on hallucination benchmark"(46 票)显示本地/开源模型在特定领域挑战闭源前沿;Snorkel AI 展示 4B 模型通过 tool discipline 超越 235B 模型。
Demand Signals
从模型发布反推训练数据需求
Download Movers
本周下载量变化最大的数据集
| 数据集 | 下载量 | 周增长 |
|---|---|---|
| allenai/molmospaces | 204 | +39.7% |
Deep Dive — DataRecipe
本周 2 个高价值数据集逆向分析(由 DataRecipe 自动生成)
数据结构
风险评估
数据结构
风险评估
本周共分析 2 个数据集 · 人工占比 83.9% · 全部 Medium 难度
想深聊本期内容?
由 AI Dataset Radar 自动生成 · 每周更新
AI Dataset Radar →