Open Source Python MIT
AI Dataset Radar

AI Dataset Radar

AI 数据雷达

★ 2 ⑂ 1 更新于 2026-03-28
多源竞争情报融合引擎——自动扫描 339 个信号源(93 HF 组织 + 50 GitHub 组织 + 71 博客 + 125 X 账户), 通过水印驱动增量扫描和异常评分模型,生成结构化周刊与趋势报告。
339 信号源 增量扫描 异常评分

Quick Start

Install
pip install ai-dataset-radar
Usage
from radar.scanner import Scanner

scanner = Scanner()
report = scanner.scan(days=7)
radar_scan 运行 AI 数据集竞争情报扫描,监控 HuggingFace、GitHub、arXiv 和博客上的最新动态
radar_summary 获取最新扫描报告的摘要统计
radar_datasets 获取最新发现的数据集列表
radar_github 获取 GitHub 组织的最新活动
radar_papers 获取最新相关论文
radar_config 查看当前监控配置(监控的组织、关键词等)
radar_blogs 获取最新博客文章(来自 62+ 个博客源)
radar_reddit 获取 Reddit AI/ML 社区相关帖子(r/MachineLearning, r/LocalLLaMA 等)
radar_search 跨所有数据源全文搜索(数据集、GitHub、论文、博客、X/Twitter、Reddit),支持关键词和正则
radar_trend 查询数据集增长趋势:上升最快、突破性增长、指定数据集的历史曲线
radar_history 查看历史扫描报告时间线,展示各期报告的统计摘要和变化趋势
radar_diff 对比两期报告,自动识别新增/消失的数据集、仓库、论文等变化
radar_trends 查看历史趋势数据:各数据源随时间的数量变化,支持折线图数据输出
radar_matrix 获取竞品矩阵:各组织在不同数据类型上的数据集/仓库/论文/博客数量交叉分析
radar_lineage 获取数据集谱系分析:派生关系、版本链、Fork 树和根数据集
radar_org_graph 获取组织关系图谱:组织间协作边、聚类和中心性排名
radar_alerts 获取最近的告警记录:零数据、阈值、趋势突破、变化检测等
radar_export 导出最新报告为指定格式(CSV / Markdown 表格 / JSON 精简版)
radar_subscribe 管理关注列表 — 添加/查看/删除关注的数据集或组织,后续扫描会高亮匹配结果

文档

AI Dataset Radar

面向 AI 训练数据生态的多源竞争情报引擎

多源异步竞争情报引擎 — 增量水位线扫描 · 异常检测告警 · 三维交叉分析 · Agent 原生

GitHub · PyPI · knowlyr.com · English

摘要

AI 训练数据的竞争情报长期面临信息不对称源碎片化被动式监控三重瓶颈。AI Dataset Radar 提出一种多源异步竞争情报引擎:通过 aiohttp 全链路并发采集覆盖 7 大数据源共 337+ 监控目标(86 HF orgs / 50 GitHub orgs / 71 博客 / 125 X 账户 / 5 Reddit / Papers with Code),通过组织级水位线增量扫描将 API 调用量从 $O(N)$ 降至 $O(\Delta N)$,通过 7 条异常检测规则跨 4 类别实现从被动查看到主动告警的闭环。

AI Dataset Radar 实现了一个多源异步竞争情报引擎,覆盖 86 个 HuggingFace 组织、50 个 GitHub 组织、71 个博客、125 个 X 账户、5 个 Reddit 社区以及 Papers with Code。系统特色包括组织级水位线增量扫描(将 API 调用量从 $O(N)$ 降至 $O(\Delta N)$)、4 类别 7 条规则的异常检测,以及三维交叉分析(竞品矩阵、数据集谱系、组织关系图谱)。对外暴露 19 个 MCP 工具、19 个 REST 端点和 7 个 Claude Code Skills,实现 Agent 原生集成。

系统架构

flowchart TD
    subgraph S[" 7 大数据源 · 337+ 监控目标"]
        direction LR
        S1["HuggingFace<br/>86 orgs"] ~~~ S2["GitHub<br/>50 orgs"] ~~~ S3["博客<br/>71 sources"]
        S4["论文<br/>arXiv + HF"] ~~~ S5["X / Twitter<br/>125 accounts"] ~~~ S6["Reddit<br/>5 communities"]
        S7["Papers with Code"]
    end

    S --> T["采集器<br/>aiohttp 异步 · 组织级水位线"]
    T --> A["分析器<br/>分类 · 趋势 · 矩阵 · 谱系 · 组织图谱"]
    A --> D["异常检测<br/>7 规则 × 4 类别 · 指纹去重"]

    subgraph O[" 输出层"]
        direction LR
        O1["JSON 结构化数据"] ~~~ O2["Markdown 报告"] ~~~ O3["AI 洞察分析"]
    end

    D --> O

    subgraph I[" Agent 接口层"]
        direction LR
        I1["REST API<br/>19 端点"] ~~~ I2["MCP Server<br/>19 工具"] ~~~ I3["Skills<br/>7 命令"] ~~~ I4["仪表盘<br/>12 面板"]
    end

    O --> I

    style S fill:#1a1a2e,color:#e0e0e0,stroke:#444
    style T fill:#0969da,color:#fff,stroke:#0969da
    style A fill:#8b5cf6,color:#fff,stroke:#8b5cf6
    style D fill:#e5534b,color:#fff,stroke:#e5534b
    style O fill:#1a1a2e,color:#e0e0e0,stroke:#444
    style I fill:#2da44e,color:#fff,stroke:#2da44e

核心特性

特性 说明
多源异步采集 7 源 337+ 目标,aiohttp 全链路并发,单次扫描 500+ 并发请求
水位线增量扫描 每源每组织独立水位线,API 调用量从 $O(N)$ 降至 $O(\Delta N)$
三维交叉分析 竞品矩阵 + 数据集谱系 + 组织关系图谱
异常检测与告警 7 条规则 × 4 类别,指纹去重,Email + Webhook 分发
时序持久化 SQLite 每日快照,批量 upsert,长周期趋势分析
Agent 原生接口 19 MCP 工具 + 19 REST 端点 + 7 Claude Code Skills
AI 驱动洞察 LLM 自动生成分析报告,多 Provider(Anthropic / Kimi / DeepSeek)
实时仪表盘 12 面板 Web 仪表盘,情报全景呈现

快速开始

git clone https://github.com/liuxiaotong/ai-dataset-radar.git
cd ai-dataset-radar
pip install -r requirements.txt && playwright install chromium
cp .env.example .env  # 编辑填入 Token

# 基础扫描(自动生成 AI 分析报告)
python src/main_intel.py --days 7

# 扫描 + DataRecipe 深度分析
python src/main_intel.py --days 7 --recipe

# Docker
docker compose run scan

数据源

来源 数量 覆盖范围
HuggingFace 86 orgs 67 个实验室 + 27 个供应商(含机器人、欧洲、亚太)
博客 71 源 实验室 + 研究者 + 独立博客 + 数据供应商
GitHub 50 orgs AI 实验室 + 中国开源 + 机器人 + 数据供应商
论文 2 源 arXiv (cs.CL/AI/LG/CV/RO) + HF Papers
Papers with Code API 数据集/榜单追踪,论文引用关系
X/Twitter 125 账户 13 类别,CEO/Leaders + 研究者 + 机器人
Reddit 5 社区 MachineLearning、LocalLLaMA、dataset、deeplearning、LanguageTechnology

生态系统

项目 PyPI 描述 仓库
发现 Radar knowlyr-radar 多源竞争情报 · 增量扫描 · 异常告警 当前项目
分析 DataRecipe knowlyr-datarecipe 逆向分析、Schema 提取、成本估算 GitHub
生产 DataSynth knowlyr-datasynth LLM 批量合成 GitHub
生产 DataLabel knowlyr-datalabel 轻量标注 GitHub
质量 DataCheck knowlyr-datacheck 规则验证、重复检测、分布分析 GitHub
审计 ModelAudit knowlyr-modelaudit 蒸馏检测、模型指纹 GitHub
协商 Crew knowlyr-crew 对抗式多智能体协商 · 持久记忆进化 · MCP 原生 GitHub
身份 knowlyr-id 身份系统 + AI 员工运行时 GitHub
Agent 训练 knowlyr-gym sandbox/recorder/reward/hub Gymnasium 风格 RL 框架 · 过程奖励模型 · SFT/DPO/GRPO GitHub

knowlyr — 面向 AI 训练数据的多源竞争情报引擎

关于这个项目,找他们聊

Kai
Kai Founder & CEO
罗清河
罗清河 AI 数据工程师