自动扫描 86 个 Hugging Face 组织、50 个 GitHub 组织、71 个博客、125 个 X 账户，追踪高价值数据集与行业动态，生成结构化竞争情报周刊。

Quick Start

Install

pip install ai-dataset-radar

Usage

from radar.scanner import Scanner

scanner = Scanner()
report = scanner.scan(days=7)

MCP Tools

17 个端点可调用

+

radar_scan 运行 AI 数据集竞争情报扫描，监控 HuggingFace、GitHub、arXiv 和博客上的最新动态

radar_summary 获取最新扫描报告的摘要统计

radar_datasets 获取最新发现的数据集列表

radar_github 获取 GitHub 组织的最新活动

radar_papers 获取最新相关论文

radar_config 查看当前监控配置（监控的组织、关键词等）

radar_blogs 获取最新博客文章（来自 62+ 个博客源）

radar_reddit 获取 Reddit AI/ML 社区相关帖子（r/MachineLearning, r/LocalLLaMA 等）

radar_search 跨所有数据源全文搜索（数据集、GitHub、论文、博客、X/Twitter、Reddit），支持关键词和正则

radar_trend 查询数据集增长趋势：上升最快、突破性增长、指定数据集的历史曲线

radar_history 查看历史扫描报告时间线，展示各期报告的统计摘要和变化趋势

radar_diff 对比两期报告，自动识别新增/消失的数据集、仓库、论文等变化

radar_trends 查看历史趋势数据：各数据源随时间的数量变化，支持折线图数据输出

radar_matrix 获取竞品矩阵：各组织在不同数据类型上的数据集/仓库/论文/博客数量交叉分析

radar_lineage 获取数据集谱系分析：派生关系、版本链、Fork 树和根数据集

radar_org_graph 获取组织关系图谱：组织间协作边、聚类和中心性排名

radar_alerts 获取最近的告警记录：零数据、阈值、趋势突破、变化检测等

README

📡 AI Dataset Radar

面向 AI Agent 的训练数据竞争情报系统
Competitive intelligence system for AI training datasets

快速开始 · 使用方式 · 数据源 · 生态 · 文档

🎯 全源覆盖 86 HF orgs · 50 GitHub orgs · 71 博客 · 125 X 账户 · 5 Reddit · Papers with Code ⚡ 高性能异步 aiohttp 全链路并发，500+ 请求同时执行，组织级水位线增量扫描 🤖 智能体原生 MCP 17 工具 + REST API 19 端点 + Skills 7 命令 📊 竞品分析 竞品矩阵 · 数据集谱系 · 组织关系图谱三维交叉分析 🔔 异常告警 7 条规则自动检测，Email + Webhook 推送

🏗️ 架构

flowchart TD
    subgraph S[" 7 数据源"]
        direction LR
        S1["HuggingFace 86 orgs"] ~~~ S2["GitHub 50 orgs"] ~~~ S3["博客 71 源"]
        S4["论文 arXiv+HF"] ~~~ S5["X 125 账户"] ~~~ S6["Reddit 5 社区"]
        S7["Papers with Code"]
    end

    S --> T["Trackers — aiohttp 异步并发采集"]
    T --> A["Analyzers — 分类 · 趋势 · 竞品矩阵 · 谱系 · 组织图谱"]

    subgraph O[" 输出"]
        direction LR
        O1["JSON 结构化"] ~~~ O2["Markdown 报告"] ~~~ O3["AI Insights"]
    end

    A --> O

    subgraph I[" Agent 接口"]
        direction LR
        I1["REST API 19 端点"] ~~~ I2["MCP 17 工具"] ~~~ I3["Skills 7 命令"] ~~~ I4["Dashboard 12 Tab"]
    end

    O --> I

快速开始

git clone https://github.com/liuxiaotong/ai-dataset-radar.git
cd ai-dataset-radar
pip install -r requirements.txt && playwright install chromium
cp .env.example .env  # 编辑填入 Token（GITHUB_TOKEN / ANTHROPIC_API_KEY 等）

# 基础扫描（自动生成 AI 分析报告）
python src/main_intel.py --days 7

# 扫描 + DataRecipe 深度分析
python src/main_intel.py --days 7 --recipe

# Docker
docker compose run scan

产出文件（按日期子目录）：

data/reports/2026-02-08/
├── intel_report_*.json                # 结构化数据 (Agent)
├── intel_report_*.md                  # 原始报告 (人类)
├── intel_report_*_insights_prompt.md  # 分析提示 (LLM 输入)
├── intel_report_*_insights.md         # AI 分析报告 (决策层)
├── intel_report_*_changes.md          # 日报变化追踪
└── recipe/                            # DataRecipe 分析 (--recipe)

环境变量、RSSHub 配置、Docker 部署、调度设置详见 .env.example 和系统架构。

使用方式

CLI

python src/main_intel.py --days 7                  # 基础扫描（首次全量，后续增量）
python src/main_intel.py --days 7 --recipe          # + DataRecipe
python src/main_intel.py --full-scan --days 7       # 强制全量扫描
python src/main_intel.py --days 7 --api-insights    # 显式调用 LLM API

命令参考

环境	行为
默认	保存 prompt 文件，由 Claude Code 环境 LLM 分析
`--api-insights`	调用 LLM API（Anthropic/Kimi/DeepSeek 等）生成 `_insights.md`
`--no-insights`	跳过 insights

REST API + Dashboard

python agent/api.py
# → http://localhost:8080/dashboard（Web 仪表盘）
# → http://localhost:8080/docs（API 文档）

Dashboard 预览（12 Tab 面板）

启动 python agent/api.py 后访问 http://localhost:8080/dashboard。包含概览、数据集、GitHub、论文、博客、Reddit、竞品矩阵、谱系、组织图谱、搜索、趋势 11 个面板。

核心端点：

类别	端点
数据查询	`/datasets` · `/github` · `/papers` · `/blogs` · `/reddit`
分析	`/matrix` · `/lineage` · `/org-graph` · `/trends` · `/search` · `/alerts`
操作	`/scan` · `/summary` · `/config` · `/schema` · `/tools`

完整端点列表、代码示例（OpenAI / Anthropic / LangChain）见 Agent 集成文档。

MCP Server

⚙️ MCP 配置

{
  "mcpServers": {
    "radar": {
      "command": "uv",
      "args": ["--directory", "/path/to/ai-dataset-radar", "run", "python", "mcp_server/server.py"]
    }
  }
}

17 个工具（scan/search/diff/trend/history/reddit/matrix/lineage/org-graph/alerts 等）及配置详情见 MCP 文档。

Claude Code Skills

在 Claude Code 中输入 / 即可调用，覆盖完整的竞争情报工作流：

命令	用途	类型	是否联网
`/scan`	运行扫描 + 自动生成 AI 分析报告	采集	是
`/brief`	快速情报简报（5 条发现 + 行动建议）	阅读	否
`/search 关键词`	跨 7 源搜索（数据集/GitHub/论文/博客/X/Reddit/PwC）	查询	否
`/diff`	对比两次报告（新增/消失/变化）	对比	否
`/deep-dive 目标`	组织/数据集/分类深度分析	分析	否
`/recipe 数据集ID`	DataRecipe 逆向分析（成本/Schema/难度）	深潜	是
`/radar`	通用情报助手（路由到其他 Skill）	入口	—

典型工作流：

/scan --days 7 --recipe   # 1. 每周采集
/brief                    # 2. 晨会快速浏览
/search RLHF              # 3. 按主题搜索
/deep-dive NVIDIA         # 4. 聚焦某组织
/recipe allenai/Dolci     # 5. 深入某数据集
/diff                     # 6. 周对比变化

设计原则：

环境 LLM 接管：ANTHROPIC_API_KEY 未设置时，/scan 让 Claude Code 自身作为分析引擎
纯本地读取：/brief、/search、/diff、/deep-dive 不触发网络请求
交叉引用：每个 Skill 的输出中推荐相关的后续 Skill

数据源

来源	数量	覆盖
HuggingFace	86 orgs	67 Labs + 27 供应商（含机器人、欧洲、亚太）
博客	71 源	实验室 + 研究者 + 独立博客 + 数据供应商
GitHub	50 orgs	AI Labs + 中国开源 + 机器人 + 数据供应商
论文	2 源	arXiv (cs.CL/AI/LG/CV/RO) + HF Papers
Papers with Code	API	数据集/榜单追踪，论文引用关系
X/Twitter	125 账户	13 类别，CEO/Leaders + 研究者 + 机器人
Reddit	5 社区	MachineLearning、LocalLLaMA、dataset、deeplearning、LanguageTechnology

供应商分类、X 账户明细、数据集分类体系见数据源文档。输出 JSON Schema 见输出规范。

Data Pipeline 生态

🗺️ 生态架构图

graph LR
    subgraph 数据管线
        Radar["🔍 Radar<br/>情报发现"] --> Recipe["📋 Recipe<br/>逆向分析"]
        Recipe --> Synth["🔄 Synth<br/>数据合成"]
        Recipe --> Label["🏷️ Label<br/>数据标注"]
        Synth --> Check["✅ Check<br/>数据质检"]
        Label --> Check
    end
    Audit["🔬 Audit<br/>模型审计"]
    subgraph Agent 工具链
        Hub["🎯 Hub<br/>编排层"] --> Sandbox["📦 Sandbox<br/>执行沙箱"]
        Sandbox --> Recorder["📹 Recorder<br/>轨迹录制"]
        Recorder --> Reward["⭐ Reward<br/>过程打分"]
    end
    Crew["👥 Crew<br/>数字员工"]
    Crew -.-> Radar
    Crew -.-> Check
    Crew -.-> Audit
    Crew -.-> Hub
    style Radar fill:#0969da,color:#fff,stroke:#0969da

层	项目	PyPI 包	说明	仓库
情报	Radar	knowlyr-radar	竞争情报、趋势分析	You are here
分析	DataRecipe	knowlyr-datarecipe	逆向分析、Schema 提取	GitHub
生产	DataSynth	knowlyr-datasynth	LLM 批量合成	GitHub
生产	DataLabel	knowlyr-datalabel	轻量标注	GitHub
质检	DataCheck	knowlyr-datacheck	规则验证、重复检测	GitHub
审计	ModelAudit	knowlyr-modelaudit	蒸馏检测、模型指纹	GitHub
协作	Crew	knowlyr-crew	数字员工管理	GitHub
Agent	knowlyr-agent	sandbox/recorder/reward/hub	Agent 工具链	GitHub

DataRecipe 联动详情（评分公式、输出结构、MCP 双服务配置）见 DataRecipe 文档。

开发路线

能力	说明	解锁场景
~~异常检测与告警~~	✅ 7 条规则 × 4 类别，指纹去重，Email/Webhook 分发	从"手动查看"变为"主动通知"，情报系统的本质闭环
~~增量扫描~~	✅ 组织级水位线驱动，每源每 org 独立增量窗口	扫描频率从日级提升至小时级，API 调用量降一个量级
~~时序持久化~~	✅ 批量 upsert + 作用域趋势计算，SQLite 每日快照	长周期趋势分析、季度报告、组织活跃度变化曲线
推送分发	周报/日报自动推送到 Slack、飞书、邮件、Webhook	团队被动消费情报，无需主动登录查看
交互式图谱	D3.js force-directed 组织关系图 + Sankey 谱系图	可视化发现隐藏的组织协作模式和数据集派生链
自定义监控规则	用户自建关键词/组织/阈值过滤器，YAML 或 Web UI 配置	不同团队关注不同赛道，无需改代码

已完成里程碑见 CHANGELOG.md。

开发

# 安装依赖
pip install -r requirements.txt && playwright install chromium
cp .env.example .env

# 运行测试 (933 个用例)
pytest

# 代码格式化 + lint
ruff check src/
ruff format src/

测试覆盖: 34 个测试文件，933 个测试用例。

CI: GitHub Actions，Tag push 自动发布。定时任务 (daily.yml) 支持每日自动扫描。

License

MIT

_{knowlyr 数据工程生态 · 训练数据竞争情报}

关于这个项目，找他们聊

Kai Founder & CEO

方逸凡 AI 算法研究员

← 所有项目 View on GitHub →