前沿洞察

比竞争对手更早发现高价值训练数据与行业趋势
覆盖 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户

84 高价值数据集
87 相关论文
4 期情报

工作原理

从数据扫描到决策情报,全流程自动化

01
Radar Scan
自动扫描 6 大数据源,追踪新数据集、论文、模型发布与行业博客
02
DataRecipe Analyze
对高价值数据集逆向分析:提取 Schema、估算成本、生成复刻方案
03
AI Insights
LLM 深度分析:需求信号、竞品动态、行动建议,优先级排序的决策情报

趋势一览

近 4 期数据概览

W06
W07
W08
W09
数据集 论文

热门数据需求信号

AI 公司正在寻找的训练数据类型

多语言语音数据 ×3 代码智能体轨迹数据 ×2 机器人演示数据 ×2 多模态视频数据 ×2 评估基准数据 ×2 合成数据 ×2 3D 场景/资产数据 ×2 RLHF/安全对齐数据 科学推理数据 GUI/Agent 交互数据 RLHF/偏好数据 数学推理数据

往期内容

W08
代码智能体数据井喷,具身智能赛道数据标准提升
Allen AI 发布 Sera 代码智能体轨迹数据集,推动开源代码 Agent 训练生态、NVIDIA 发布 PhysicalAI 厨房机器人演示数据集,600 小时真实操作数据开放、Meta 发布 EgoAVU 第一人称音视频理解数据集,开辟新数据赛道。本周最强数据需求信号:代码智能体轨迹数据。
2026-02-05 — 2026-02-12
36 数据集 11 论文 3 深度分析
代码智能体轨迹数据 机器人演示数据 多模态视频数据 RLHF/偏好数据
W07
视频理解数据井喷,RLHF 迈入多模态时代
NVIDIA 全面布局具身智能数据管线、Allen AI Molmo2 视频理解数据集群发布、Reward Model / RLHF 论文密集爆发。本周最强数据需求信号:机器人操作数据。
2026-02-04 — 2026-02-11
27 数据集 26 论文 3 深度分析
机器人操作数据 多模态偏好数据 语音/ASR 数据 代码数据
W06
代码 Agent 赛道白热化,机器人数据基础设施加速
代码 Agent 赛道竞争白热化、Cosmos-Policy + Numb3rs + Isaac GR00T、文档理解数据需求飙升。本周最强数据需求信号:代码 Agent 数据。
2026-02-02 — 2026-02-09
19 数据集 25 论文 3 深度分析
代码 Agent 数据 机器人/具身智能数据 文档 OCR 数据 RLHF 偏好数据

内容有问题?想深入交流?

不错过任何一期

订阅后,新情报发布时第一时间获取

RSS 订阅 邮件通知

基于 AI Dataset Radar 开源项目 · 17 个 MCP 端点

AI Dataset Radar →