本周扫描 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户
Allen AI 发布 Sera 代码智能体轨迹数据集,推动开源代码 Agent 训练生态、NVIDIA 发布 PhysicalAI 厨房机器人演示数据集,600 小时真实操作数据开放、Meta 发布 EgoAVU 第一人称音视频理解数据集,开辟新数据赛道。本周最强数据需求信号:代码智能体轨迹数据。
本周 5 条高商业价值发现
详情:Allen AI 于 2026 年 2 月 10-11 日集中发布了 6 个 Sera 系列数据集(Sera-4.5A-Django-T1/T2、Sera-4.5A-Sympy-T1/T2、Sera-4.5A-Sphinx-T1/T2),涵盖 Django、Sympy、Sphinx 三大开源项目,共计超过 13.6 万条代码修改轨迹。这些数据集使用 GLM-4.5-Air 作为教师模型生成,采用 SVG(Synthetic Verification-Guided)方法,包含完整的函数级代码修改轨迹、patch 和验证结果。数据质量控制采用两轮验证机制:第一轮(T1)recall 不限,第二轮(T2)recall 固定在 0.5。
详情:NVIDIA 于 2026 年 2 月 10 日发布 PhysicalAI-Robotics-Kitchen-Sim-Demos 数据集,包含 600 小时人类远程操控演示数据,覆盖 316 个不同任务,共 5.5 万条轨迹。数据采用 Franka Panda 机器人 + Omron 移动底座采集,遵循 LeRobot 格式,提供完整的动作、状态、传感器数据。同时发布的 SAGE-10k 数据集(2025-12-31)提供 1 万个交互式室内场景,覆盖 50 种房间类型。
详情:Meta 于 2026 年 1 月 9 日发布 facebook/EgoAVU_data 数据集,聚焦第一人称视角的音视频联合理解。该数据集采用可扩展的自动化数据引擎生成,包含问答对、音频和视频多模态标注,专为训练理解人类日常活动的 AI 模型设计。
详情:2026 年 2 月 11 日发表的 DataChef 论文提出使用强化学习优化 LLM 训练数据配方(data recipe)的方法。该方法通过 RL 算法自动搜索不同数据源的最优混合比例,显著提升模型性能。同时,同日发表的另一篇论文《Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning》发现,在长思维链微调中,重复使用高质量数据比单纯扩大数据规模更有效。
详情:智谱 AI(Z.ai)在 2026 年 2 月发布 GLM-5 模型,参数量达到 744B,成为中国最大的开源大模型。Twitter 和社交媒体上关于 GLM-5 的讨论热度极高,多个技术社区转发其技术细节。
从模型发布反推训练数据需求
本周下载量变化最大的数据集
| 数据集 | 下载量 | 周增长 |
|---|---|---|
| stepfun-ai/GEBench | 225 | +2712.5% |
| nvidia/earth2studio-assets | 417 | +2352.9% |
| microsoft/VITRA-TeleData | 650 | +1020.7% |
| google/WaxalNLP | 8,203 | +9.9% |
| openai/gdpval | 29,190 | +2.9% |
本周 3 个高价值数据集逆向分析(由 DataRecipe 自动生成)
本周共分析 3 个数据集 · 人工占比 83.9% · 全部 Hard 难度
想深聊本期内容?
由 AI Dataset Radar 自动生成 · 每周更新
AI Dataset Radar →