多源竞争情报融合引擎——自动扫描 339 个信号源(93 HF 组织 + 50 GitHub 组织 + 71 博客 + 125 X 账户), 通过水印驱动增量扫描和异常评分模型,生成结构化周刊与趋势报告。
Quick Start
Install
pip install ai-dataset-radar
Usage
from radar.scanner import Scanner
scanner = Scanner()
report = scanner.scan(days=7)
MCP Tools
radar_scan
运行 AI 数据集竞争情报扫描,监控 HuggingFace、GitHub、arXiv 和博客上的最新动态
radar_summary
获取最新扫描报告的摘要统计
radar_datasets
获取最新发现的数据集列表
radar_github
获取 GitHub 组织的最新活动
radar_papers
获取最新相关论文
radar_config
查看当前监控配置(监控的组织、关键词等)
radar_blogs
获取最新博客文章(来自 62+ 个博客源)
radar_reddit
获取 Reddit AI/ML 社区相关帖子(r/MachineLearning, r/LocalLLaMA 等)
radar_search
跨所有数据源全文搜索(数据集、GitHub、论文、博客、X/Twitter、Reddit),支持关键词和正则
radar_trend
查询数据集增长趋势:上升最快、突破性增长、指定数据集的历史曲线
radar_history
查看历史扫描报告时间线,展示各期报告的统计摘要和变化趋势
radar_diff
对比两期报告,自动识别新增/消失的数据集、仓库、论文等变化
radar_trends
查看历史趋势数据:各数据源随时间的数量变化,支持折线图数据输出
radar_matrix
获取竞品矩阵:各组织在不同数据类型上的数据集/仓库/论文/博客数量交叉分析
radar_lineage
获取数据集谱系分析:派生关系、版本链、Fork 树和根数据集
radar_org_graph
获取组织关系图谱:组织间协作边、聚类和中心性排名
radar_alerts
获取最近的告警记录:零数据、阈值、趋势突破、变化检测等
radar_export
导出最新报告为指定格式(CSV / Markdown 表格 / JSON 精简版)
radar_subscribe
管理关注列表 — 添加/查看/删除关注的数据集或组织,后续扫描会高亮匹配结果
文档
AI Dataset Radar
面向 AI 训练数据生态的多源竞争情报引擎
多源异步竞争情报引擎 — 增量水位线扫描 · 异常检测告警 · 三维交叉分析 · Agent 原生
GitHub · PyPI · knowlyr.com · English
摘要
AI 训练数据的竞争情报长期面临信息不对称、源碎片化和被动式监控三重瓶颈。AI Dataset Radar 提出一种多源异步竞争情报引擎:通过 aiohttp 全链路并发采集覆盖 7 大数据源共 337+ 监控目标(86 HF orgs / 50 GitHub orgs / 71 博客 / 125 X 账户 / 5 Reddit / Papers with Code),通过组织级水位线增量扫描将 API 调用量从 $O(N)$ 降至 $O(\Delta N)$,通过 7 条异常检测规则跨 4 类别实现从被动查看到主动告警的闭环。
AI Dataset Radar 实现了一个多源异步竞争情报引擎,覆盖 86 个 HuggingFace 组织、50 个 GitHub 组织、71 个博客、125 个 X 账户、5 个 Reddit 社区以及 Papers with Code。系统特色包括组织级水位线增量扫描(将 API 调用量从 $O(N)$ 降至 $O(\Delta N)$)、4 类别 7 条规则的异常检测,以及三维交叉分析(竞品矩阵、数据集谱系、组织关系图谱)。对外暴露 19 个 MCP 工具、19 个 REST 端点和 7 个 Claude Code Skills,实现 Agent 原生集成。
系统架构
flowchart TD
subgraph S[" 7 大数据源 · 337+ 监控目标"]
direction LR
S1["HuggingFace<br/>86 orgs"] ~~~ S2["GitHub<br/>50 orgs"] ~~~ S3["博客<br/>71 sources"]
S4["论文<br/>arXiv + HF"] ~~~ S5["X / Twitter<br/>125 accounts"] ~~~ S6["Reddit<br/>5 communities"]
S7["Papers with Code"]
end
S --> T["采集器<br/>aiohttp 异步 · 组织级水位线"]
T --> A["分析器<br/>分类 · 趋势 · 矩阵 · 谱系 · 组织图谱"]
A --> D["异常检测<br/>7 规则 × 4 类别 · 指纹去重"]
subgraph O[" 输出层"]
direction LR
O1["JSON 结构化数据"] ~~~ O2["Markdown 报告"] ~~~ O3["AI 洞察分析"]
end
D --> O
subgraph I[" Agent 接口层"]
direction LR
I1["REST API<br/>19 端点"] ~~~ I2["MCP Server<br/>19 工具"] ~~~ I3["Skills<br/>7 命令"] ~~~ I4["仪表盘<br/>12 面板"]
end
O --> I
style S fill:#1a1a2e,color:#e0e0e0,stroke:#444
style T fill:#0969da,color:#fff,stroke:#0969da
style A fill:#8b5cf6,color:#fff,stroke:#8b5cf6
style D fill:#e5534b,color:#fff,stroke:#e5534b
style O fill:#1a1a2e,color:#e0e0e0,stroke:#444
style I fill:#2da44e,color:#fff,stroke:#2da44e
核心特性
| 特性 | 说明 |
|---|---|
| 多源异步采集 | 7 源 337+ 目标,aiohttp 全链路并发,单次扫描 500+ 并发请求 |
| 水位线增量扫描 | 每源每组织独立水位线,API 调用量从 $O(N)$ 降至 $O(\Delta N)$ |
| 三维交叉分析 | 竞品矩阵 + 数据集谱系 + 组织关系图谱 |
| 异常检测与告警 | 7 条规则 × 4 类别,指纹去重,Email + Webhook 分发 |
| 时序持久化 | SQLite 每日快照,批量 upsert,长周期趋势分析 |
| Agent 原生接口 | 19 MCP 工具 + 19 REST 端点 + 7 Claude Code Skills |
| AI 驱动洞察 | LLM 自动生成分析报告,多 Provider(Anthropic / Kimi / DeepSeek) |
| 实时仪表盘 | 12 面板 Web 仪表盘,情报全景呈现 |
快速开始
git clone https://github.com/liuxiaotong/ai-dataset-radar.git
cd ai-dataset-radar
pip install -r requirements.txt && playwright install chromium
cp .env.example .env # 编辑填入 Token
# 基础扫描(自动生成 AI 分析报告)
python src/main_intel.py --days 7
# 扫描 + DataRecipe 深度分析
python src/main_intel.py --days 7 --recipe
# Docker
docker compose run scan
数据源
| 来源 | 数量 | 覆盖范围 |
|---|---|---|
| HuggingFace | 86 orgs | 67 个实验室 + 27 个供应商(含机器人、欧洲、亚太) |
| 博客 | 71 源 | 实验室 + 研究者 + 独立博客 + 数据供应商 |
| GitHub | 50 orgs | AI 实验室 + 中国开源 + 机器人 + 数据供应商 |
| 论文 | 2 源 | arXiv (cs.CL/AI/LG/CV/RO) + HF Papers |
| Papers with Code | API | 数据集/榜单追踪,论文引用关系 |
| X/Twitter | 125 账户 | 13 类别,CEO/Leaders + 研究者 + 机器人 |
| 5 社区 | MachineLearning、LocalLLaMA、dataset、deeplearning、LanguageTechnology |
生态系统
| 层 | 项目 | PyPI | 描述 | 仓库 |
|---|---|---|---|---|
| 发现 | Radar | knowlyr-radar | 多源竞争情报 · 增量扫描 · 异常告警 | 当前项目 |
| 分析 | DataRecipe | knowlyr-datarecipe | 逆向分析、Schema 提取、成本估算 | GitHub |
| 生产 | DataSynth | knowlyr-datasynth | LLM 批量合成 | GitHub |
| 生产 | DataLabel | knowlyr-datalabel | 轻量标注 | GitHub |
| 质量 | DataCheck | knowlyr-datacheck | 规则验证、重复检测、分布分析 | GitHub |
| 审计 | ModelAudit | knowlyr-modelaudit | 蒸馏检测、模型指纹 | GitHub |
| 协商 | Crew | knowlyr-crew | 对抗式多智能体协商 · 持久记忆进化 · MCP 原生 | GitHub |
| 身份 | knowlyr-id | — | 身份系统 + AI 员工运行时 | GitHub |
| Agent 训练 | knowlyr-gym | sandbox/recorder/reward/hub | Gymnasium 风格 RL 框架 · 过程奖励模型 · SFT/DPO/GRPO | GitHub |
knowlyr — 面向 AI 训练数据的多源竞争情报引擎
关于这个项目,找他们聊