前沿洞察

比竞争对手更早发现高价值训练数据与行业趋势
覆盖 86 个 HF 组织 · 50 个 GitHub 组织 · 71 个博客 · 125 个 X 账户

414 高价值数据集
291 相关论文
12 期情报
3 篇深度文章

趋势一览

近 12 期数据概览

W06
W07
W10
W11
W08
W12
W13
W14
W15
W16
W17
W18
数据集 论文

热门数据需求信号

AI 公司正在寻找的训练数据类型

多模态视觉推理数据 ×4 RLHF/偏好对齐数据 ×4 多语言数据 ×4 视频理解/追踪数据 ×3 多语言语音数据 ×3 编码/代码推理数据 ×3 Agent 行为/轨迹数据 ×3 复杂推理评估数据 ×2 机器人/具身AI数据 ×2 文档OCR数据 ×2 量化/压缩评估数据 ×2 安全/对齐审计数据 ×2
W17

Allen AI 连发 4 个 MolmoPoint 数据与模型,细粒度人类判断成多模态 Agent 燃料

Allen AI 在 2026-03-15 至 2026-03-17 连续发布 4 个 MolmoPoint 相关数据/模型,视频与 GUI 指向数据密集增长 [P0]、NVIDIA 在 2026-03-18 至 2026-03-19 同步公开 RL 与 SFT 训练数据,后训练数据资产化加速 [P0]、NVIDIA 机器人与 Physical AI 数据集下载量继续领跑,遥操作示范成为最强公开需求信号 [P1]。本周最强数据需求信号:视频理解/追踪数据。

37 数据集 26 论文
洞察

AI 授权的本质是交易成本设计

从一个关于 Claude Code 沙箱的争论出发,聊聊科斯的交易成本理论,以及它如何解释人与 AI 的协作关系。

Kai
W16

英伟达发布 600 小时机器人操作数据集,AI 数据行业周度洞察

英伟达发布 600 小时机器人操作数据集,物理 AI 数据需求激增 [P0]、Allen AI 发布科研助手引用追踪数据,Agent 工具数据成新热点 [P0]、Anthropic 发布经济影响指数数据集,AI 应用评估成为新需求 [P1]。本周最强数据需求信号:机器人操作轨迹。

63 数据集 25 论文 3 深度分析
技术

我的 AI 助理修了 3 小时根本不存在的 Bug:从 Temperature 到 Tempo

我的 AI 助理花了 3 小时修一个不存在的 bug。根因是 140 行检测代码在误杀正常文本,1 行日志 10 分钟就能定位。从这次调试出发,聊聊 LLM 的 temperature 参数、人类决策的随机性、和管理中的节奏感。

Kai
技术

给 AI 装一个真正的大脑:集识光年记忆系统技术解读

我们的 AI 助理往系统里写了 8 个不存在的任务,然后把自己骗了十天。这件事之后,我们决定认真做记忆系统。

Kai
W15

Allen AI 撤下 29 个视频追踪,AI 数据行业周度洞察

Allen AI 撤下 29 个视频追踪数据集,释放视频理解数据紧缺信号 [P0]、编码 Agent 轨迹数据成稀缺资源,TogetherAI 撤下 CoderForge-Preview 数据集 [P0]、中国具身智能数据集 BAAI/ToucHD 系列被撤回,触觉数据成新蓝海 [P1]。本周最强数据需求信号:视频理解/追踪数据。

48 数据集 27 论文 3 深度分析
W14

视频理解数据进入工业化供给|Apple 论证人类判断不可替代

单周 29 个数据集,视频多模态数据进入系统化供给 [P0]、人才震荡与商业扩张的拉扯 [P0]、商业扩张与安全争议并行升温 [P1]。本周最强数据需求信号:视频理解/追踪数据。

57 数据集 30 论文 3 深度分析
W13

Qwen 3.5 全尺寸覆盖|安全对抗数据需求浮出水面

Qwen 3.5 家族 2/24 一天三发,中国开源 VLM 进入全尺寸铺量阶段 [P0]、RSP v3.0 + 蒸馏攻击检测 + claude-code-security [P0]、NVIDIA Nemotron-Terminal-Corpus 开辟终端 Agent SFT 数据集新品类(2/19)[P1]。本周最强数据需求信号:多模态视觉推理数据。

18 数据集 24 论文
W12

多模态对齐数据军备竞赛,Allen AI 定义预训练数据方法论

Allen AI 五数据集齐发 + Olmix 数据混合框架,系统定义预训练数据方法论、Meta 开源 20 万+多语言多轮偏好数据集,RLHF 数据公共供给升级、RLHF/对齐研究连续第四周高密度产出,方法论走向个性化和可解耦。本周最强数据需求信号:多模态视觉推理数据。

16 数据集 27 论文 2 深度分析
W08

placeholder,placeholder

Allen AI 五数据集齐发 + Olmix 数据混合框架,系统定义预训练数据方法论、Meta 开源 20 万+多语言多轮偏好数据集,RLHF 数据公共供给升级、RLHF/对齐研究连续第四周高密度产出,方法论走向个性化和可解耦。本周最强数据需求信号:多模态视觉推理数据。

16 数据集 27 论文 2 深度分析
W11

机器人 VLA 基础模型爆发,中国大模型对齐需求加速

VLA/机器人基础模型论文单周 4 篇爆发,sim-to-real 迁移成为核心瓶颈、TII UAE 集中发布 4 个评估数据集,中东 AI 力量进入多语言评估标准竞争、Qwen 3.5 + GLM-4.6V + Ling-2.5-1T + MiniMax-2.5,规模竞赛与生态扩张同步加速。本周最强数据需求信号:机器人 VLA 轨迹数据。

6 数据集 15 论文 2 深度分析
W10

GPT-5.2 科学发现登场,数据配比工程化提速

Allen AI 发布 Sera 代码智能体轨迹数据集,推动开源代码 Agent 训练生态、NVIDIA 发布 PhysicalAI 厨房机器人演示数据集,600 小时真实操作数据开放、Meta 发布 EgoAVU 第一人称音视频理解数据集,开辟新数据赛道。本周最强数据需求信号:代码智能体轨迹数据。

36 数据集 11 论文 3 深度分析
W07

视频理解数据井喷,RLHF 迈入多模态时代

NVIDIA 全面布局具身智能数据管线、Allen AI Molmo2 视频理解数据集群发布、Reward Model / RLHF 论文密集爆发。本周最强数据需求信号:机器人操作数据。

27 数据集 26 论文 3 深度分析
W06

代码 Agent 赛道白热化,机器人数据基础设施加速

代码 Agent 赛道竞争白热化、Cosmos-Policy + Numb3rs + Isaac GR00T、文档理解数据需求飙升。本周最强数据需求信号:代码 Agent 数据。

19 数据集 25 论文 3 深度分析

内容有问题?想深入交流?

Kai
Kai Founder & CEO
苏文
苏文 AI 文档与发布工程师
陆明哲
陆明哲 AI 产品经理

不错过任何一期

订阅后,新情报发布时第一时间获取

RSS 订阅 邮件通知

基于 AI Dataset Radar 开源项目 · 19 个 MCP 端点

AI Dataset Radar →