Open Source Python MIT

AI Dataset Radar

AI 数据雷达

自动扫描 86 个 Hugging Face 组织、50 个 GitHub 组织、71 个博客、125 个 X 账户, 追踪高价值数据集与行业动态,生成结构化竞争情报周刊。

Quick Start

Install
pip install ai-dataset-radar
Usage
from radar.scanner import Scanner

scanner = Scanner()
report = scanner.scan(days=7)
MCP Tools
17 个端点可调用
+
radar_scan 运行 AI 数据集竞争情报扫描,监控 HuggingFace、GitHub、arXiv 和博客上的最新动态
radar_summary 获取最新扫描报告的摘要统计
radar_datasets 获取最新发现的数据集列表
radar_github 获取 GitHub 组织的最新活动
radar_papers 获取最新相关论文
radar_config 查看当前监控配置(监控的组织、关键词等)
radar_blogs 获取最新博客文章(来自 62+ 个博客源)
radar_reddit 获取 Reddit AI/ML 社区相关帖子(r/MachineLearning, r/LocalLLaMA 等)
radar_search 跨所有数据源全文搜索(数据集、GitHub、论文、博客、X/Twitter、Reddit),支持关键词和正则
radar_trend 查询数据集增长趋势:上升最快、突破性增长、指定数据集的历史曲线
radar_history 查看历史扫描报告时间线,展示各期报告的统计摘要和变化趋势
radar_diff 对比两期报告,自动识别新增/消失的数据集、仓库、论文等变化
radar_trends 查看历史趋势数据:各数据源随时间的数量变化,支持折线图数据输出
radar_matrix 获取竞品矩阵:各组织在不同数据类型上的数据集/仓库/论文/博客数量交叉分析
radar_lineage 获取数据集谱系分析:派生关系、版本链、Fork 树和根数据集
radar_org_graph 获取组织关系图谱:组织间协作边、聚类和中心性排名
radar_alerts 获取最近的告警记录:零数据、阈值、趋势突破、变化检测等

README

📡 AI Dataset Radar

面向 AI Agent 的训练数据竞争情报系统
Competitive intelligence system for AI training datasets

PyPI Downloads CI Python 3.10+ License: MIT
Tests Agent Ready MCP

快速开始 · 使用方式 · 数据源 · 生态 · 文档

🎯 全源覆盖 86 HF orgs · 50 GitHub orgs · 71 博客 · 125 X 账户 · 5 Reddit · Papers with Code ⚡ 高性能异步 aiohttp 全链路并发,500+ 请求同时执行,组织级水位线增量扫描 🤖 智能体原生 MCP 17 工具 + REST API 19 端点 + Skills 7 命令 📊 竞品分析 竞品矩阵 · 数据集谱系 · 组织关系图谱三维交叉分析 🔔 异常告警 7 条规则自动检测,Email + Webhook 推送

🏗️ 架构
flowchart TD
    subgraph S[" 7 数据源"]
        direction LR
        S1["HuggingFace 86 orgs"] ~~~ S2["GitHub 50 orgs"] ~~~ S3["博客 71 源"]
        S4["论文 arXiv+HF"] ~~~ S5["X 125 账户"] ~~~ S6["Reddit 5 社区"]
        S7["Papers with Code"]
    end

    S --> T["Trackers — aiohttp 异步并发采集"]
    T --> A["Analyzers — 分类 · 趋势 · 竞品矩阵 · 谱系 · 组织图谱"]

    subgraph O[" 输出"]
        direction LR
        O1["JSON 结构化"] ~~~ O2["Markdown 报告"] ~~~ O3["AI Insights"]
    end

    A --> O

    subgraph I[" Agent 接口"]
        direction LR
        I1["REST API 19 端点"] ~~~ I2["MCP 17 工具"] ~~~ I3["Skills 7 命令"] ~~~ I4["Dashboard 12 Tab"]
    end

    O --> I
Loading

快速开始

git clone https://github.com/liuxiaotong/ai-dataset-radar.git
cd ai-dataset-radar
pip install -r requirements.txt && playwright install chromium
cp .env.example .env  # 编辑填入 Token(GITHUB_TOKEN / ANTHROPIC_API_KEY 等)

# 基础扫描(自动生成 AI 分析报告)
python src/main_intel.py --days 7

# 扫描 + DataRecipe 深度分析
python src/main_intel.py --days 7 --recipe

# Docker
docker compose run scan

产出文件(按日期子目录):

data/reports/2026-02-08/
├── intel_report_*.json                # 结构化数据 (Agent)
├── intel_report_*.md                  # 原始报告 (人类)
├── intel_report_*_insights_prompt.md  # 分析提示 (LLM 输入)
├── intel_report_*_insights.md         # AI 分析报告 (决策层)
├── intel_report_*_changes.md          # 日报变化追踪
└── recipe/                            # DataRecipe 分析 (--recipe)

环境变量、RSSHub 配置、Docker 部署、调度设置详见 .env.example系统架构


使用方式

CLI

python src/main_intel.py --days 7                  # 基础扫描(首次全量,后续增量)
python src/main_intel.py --days 7 --recipe          # + DataRecipe
python src/main_intel.py --full-scan --days 7       # 强制全量扫描
python src/main_intel.py --days 7 --api-insights    # 显式调用 LLM API
命令参考
环境 行为
默认 保存 prompt 文件,由 Claude Code 环境 LLM 分析
--api-insights 调用 LLM API(Anthropic/Kimi/DeepSeek 等)生成 _insights.md
--no-insights 跳过 insights

REST API + Dashboard

python agent/api.py
# → http://localhost:8080/dashboard(Web 仪表盘)
# → http://localhost:8080/docs(API 文档)
Dashboard 预览(12 Tab 面板)

Dashboard Overview

启动 python agent/api.py 后访问 http://localhost:8080/dashboard。包含概览、数据集、GitHub、论文、博客、Reddit、竞品矩阵、谱系、组织图谱、搜索、趋势 11 个面板。

核心端点:

类别 端点
数据查询 /datasets · /github · /papers · /blogs · /reddit
分析 /matrix · /lineage · /org-graph · /trends · /search · /alerts
操作 /scan · /summary · /config · /schema · /tools

完整端点列表、代码示例(OpenAI / Anthropic / LangChain)见 Agent 集成文档

MCP Server

⚙️ MCP 配置
{
  "mcpServers": {
    "radar": {
      "command": "uv",
      "args": ["--directory", "/path/to/ai-dataset-radar", "run", "python", "mcp_server/server.py"]
    }
  }
}

17 个工具(scan/search/diff/trend/history/reddit/matrix/lineage/org-graph/alerts 等)及配置详情见 MCP 文档

Claude Code Skills

在 Claude Code 中输入 / 即可调用,覆盖完整的竞争情报工作流:

命令 用途 类型 是否联网
/scan 运行扫描 + 自动生成 AI 分析报告 采集
/brief 快速情报简报(5 条发现 + 行动建议) 阅读
/search 关键词 跨 7 源搜索(数据集/GitHub/论文/博客/X/Reddit/PwC) 查询
/diff 对比两次报告(新增/消失/变化) 对比
/deep-dive 目标 组织/数据集/分类深度分析 分析
/recipe 数据集ID DataRecipe 逆向分析(成本/Schema/难度) 深潜
/radar 通用情报助手(路由到其他 Skill) 入口

典型工作流:

/scan --days 7 --recipe   # 1. 每周采集
/brief                    # 2. 晨会快速浏览
/search RLHF              # 3. 按主题搜索
/deep-dive NVIDIA         # 4. 聚焦某组织
/recipe allenai/Dolci     # 5. 深入某数据集
/diff                     # 6. 周对比变化

设计原则:

  • 环境 LLM 接管ANTHROPIC_API_KEY 未设置时,/scan 让 Claude Code 自身作为分析引擎
  • 纯本地读取/brief/search/diff/deep-dive 不触发网络请求
  • 交叉引用:每个 Skill 的输出中推荐相关的后续 Skill

数据源

来源 数量 覆盖
HuggingFace 86 orgs 67 Labs + 27 供应商(含机器人、欧洲、亚太)
博客 71 源 实验室 + 研究者 + 独立博客 + 数据供应商
GitHub 50 orgs AI Labs + 中国开源 + 机器人 + 数据供应商
论文 2 源 arXiv (cs.CL/AI/LG/CV/RO) + HF Papers
Papers with Code API 数据集/榜单追踪,论文引用关系
X/Twitter 125 账户 13 类别,CEO/Leaders + 研究者 + 机器人
Reddit 5 社区 MachineLearning、LocalLLaMA、dataset、deeplearning、LanguageTechnology

供应商分类、X 账户明细、数据集分类体系见 数据源文档。 输出 JSON Schema 见 输出规范


Data Pipeline 生态

🗺️ 生态架构图
graph LR
    subgraph 数据管线
        Radar["🔍 Radar<br/>情报发现"] --> Recipe["📋 Recipe<br/>逆向分析"]
        Recipe --> Synth["🔄 Synth<br/>数据合成"]
        Recipe --> Label["🏷️ Label<br/>数据标注"]
        Synth --> Check["✅ Check<br/>数据质检"]
        Label --> Check
    end
    Audit["🔬 Audit<br/>模型审计"]
    subgraph Agent 工具链
        Hub["🎯 Hub<br/>编排层"] --> Sandbox["📦 Sandbox<br/>执行沙箱"]
        Sandbox --> Recorder["📹 Recorder<br/>轨迹录制"]
        Recorder --> Reward["⭐ Reward<br/>过程打分"]
    end
    Crew["👥 Crew<br/>数字员工"]
    Crew -.-> Radar
    Crew -.-> Check
    Crew -.-> Audit
    Crew -.-> Hub
    style Radar fill:#0969da,color:#fff,stroke:#0969da
Loading
项目 PyPI 包 说明 仓库
情报 Radar knowlyr-radar 竞争情报、趋势分析 You are here
分析 DataRecipe knowlyr-datarecipe 逆向分析、Schema 提取 GitHub
生产 DataSynth knowlyr-datasynth LLM 批量合成 GitHub
生产 DataLabel knowlyr-datalabel 轻量标注 GitHub
质检 DataCheck knowlyr-datacheck 规则验证、重复检测 GitHub
审计 ModelAudit knowlyr-modelaudit 蒸馏检测、模型指纹 GitHub
协作 Crew knowlyr-crew 数字员工管理 GitHub
Agent knowlyr-agent sandbox/recorder/reward/hub Agent 工具链 GitHub

DataRecipe 联动详情(评分公式、输出结构、MCP 双服务配置)见 DataRecipe 文档


开发路线

能力 说明 解锁场景
异常检测与告警 ✅ 7 条规则 × 4 类别,指纹去重,Email/Webhook 分发 从"手动查看"变为"主动通知",情报系统的本质闭环
增量扫描 ✅ 组织级水位线驱动,每源每 org 独立增量窗口 扫描频率从日级提升至小时级,API 调用量降一个量级
时序持久化 ✅ 批量 upsert + 作用域趋势计算,SQLite 每日快照 长周期趋势分析、季度报告、组织活跃度变化曲线
推送分发 周报/日报自动推送到 Slack、飞书、邮件、Webhook 团队被动消费情报,无需主动登录查看
交互式图谱 D3.js force-directed 组织关系图 + Sankey 谱系图 可视化发现隐藏的组织协作模式和数据集派生链
自定义监控规则 用户自建关键词/组织/阈值过滤器,YAML 或 Web UI 配置 不同团队关注不同赛道,无需改代码

已完成里程碑见 CHANGELOG.md

开发

# 安装依赖
pip install -r requirements.txt && playwright install chromium
cp .env.example .env

# 运行测试 (933 个用例)
pytest

# 代码格式化 + lint
ruff check src/
ruff format src/

测试覆盖: 34 个测试文件,933 个测试用例。

CI: GitHub Actions,Tag push 自动发布。定时任务 (daily.yml) 支持每日自动扫描。

License

MIT


knowlyr 数据工程生态 · 训练数据竞争情报

关于这个项目,找他们聊

← 所有项目 View on GitHub →