面向 AI Agent 的训练数据竞争情报系统
Competitive intelligence system for AI training datasets
🎯 全源覆盖 86 HF orgs · 50 GitHub orgs · 71 博客 · 125 X 账户 · 5 Reddit · Papers with Code ⚡ 高性能异步 aiohttp 全链路并发,500+ 请求同时执行,组织级水位线增量扫描 🤖 智能体原生 MCP 17 工具 + REST API 19 端点 + Skills 7 命令 📊 竞品分析 竞品矩阵 · 数据集谱系 · 组织关系图谱三维交叉分析 🔔 异常告警 7 条规则自动检测,Email + Webhook 推送
🏗️ 架构
flowchart TD
subgraph S[" 7 数据源"]
direction LR
S1["HuggingFace 86 orgs"] ~~~ S2["GitHub 50 orgs"] ~~~ S3["博客 71 源"]
S4["论文 arXiv+HF"] ~~~ S5["X 125 账户"] ~~~ S6["Reddit 5 社区"]
S7["Papers with Code"]
end
S --> T["Trackers — aiohttp 异步并发采集"]
T --> A["Analyzers — 分类 · 趋势 · 竞品矩阵 · 谱系 · 组织图谱"]
subgraph O[" 输出"]
direction LR
O1["JSON 结构化"] ~~~ O2["Markdown 报告"] ~~~ O3["AI Insights"]
end
A --> O
subgraph I[" Agent 接口"]
direction LR
I1["REST API 19 端点"] ~~~ I2["MCP 17 工具"] ~~~ I3["Skills 7 命令"] ~~~ I4["Dashboard 12 Tab"]
end
O --> I
git clone https://github.com/liuxiaotong/ai-dataset-radar.git
cd ai-dataset-radar
pip install -r requirements.txt && playwright install chromium
cp .env.example .env # 编辑填入 Token(GITHUB_TOKEN / ANTHROPIC_API_KEY 等)
# 基础扫描(自动生成 AI 分析报告)
python src/main_intel.py --days 7
# 扫描 + DataRecipe 深度分析
python src/main_intel.py --days 7 --recipe
# Docker
docker compose run scan产出文件(按日期子目录):
data/reports/2026-02-08/
├── intel_report_*.json # 结构化数据 (Agent)
├── intel_report_*.md # 原始报告 (人类)
├── intel_report_*_insights_prompt.md # 分析提示 (LLM 输入)
├── intel_report_*_insights.md # AI 分析报告 (决策层)
├── intel_report_*_changes.md # 日报变化追踪
└── recipe/ # DataRecipe 分析 (--recipe)
环境变量、RSSHub 配置、Docker 部署、调度设置详见
.env.example和 系统架构。
python src/main_intel.py --days 7 # 基础扫描(首次全量,后续增量)
python src/main_intel.py --days 7 --recipe # + DataRecipe
python src/main_intel.py --full-scan --days 7 # 强制全量扫描
python src/main_intel.py --days 7 --api-insights # 显式调用 LLM API命令参考
| 环境 | 行为 |
|---|---|
| 默认 | 保存 prompt 文件,由 Claude Code 环境 LLM 分析 |
--api-insights |
调用 LLM API(Anthropic/Kimi/DeepSeek 等)生成 _insights.md |
--no-insights |
跳过 insights |
python agent/api.py
# → http://localhost:8080/dashboard(Web 仪表盘)
# → http://localhost:8080/docs(API 文档)Dashboard 预览(12 Tab 面板)
启动
python agent/api.py后访问http://localhost:8080/dashboard。包含概览、数据集、GitHub、论文、博客、Reddit、竞品矩阵、谱系、组织图谱、搜索、趋势 11 个面板。
核心端点:
| 类别 | 端点 |
|---|---|
| 数据查询 | /datasets · /github · /papers · /blogs · /reddit |
| 分析 | /matrix · /lineage · /org-graph · /trends · /search · /alerts |
| 操作 | /scan · /summary · /config · /schema · /tools |
完整端点列表、代码示例(OpenAI / Anthropic / LangChain)见 Agent 集成文档。
⚙️ MCP 配置
{
"mcpServers": {
"radar": {
"command": "uv",
"args": ["--directory", "/path/to/ai-dataset-radar", "run", "python", "mcp_server/server.py"]
}
}
}17 个工具(scan/search/diff/trend/history/reddit/matrix/lineage/org-graph/alerts 等)及配置详情见 MCP 文档。
在 Claude Code 中输入 / 即可调用,覆盖完整的竞争情报工作流:
| 命令 | 用途 | 类型 | 是否联网 |
|---|---|---|---|
/scan |
运行扫描 + 自动生成 AI 分析报告 | 采集 | 是 |
/brief |
快速情报简报(5 条发现 + 行动建议) | 阅读 | 否 |
/search 关键词 |
跨 7 源搜索(数据集/GitHub/论文/博客/X/Reddit/PwC) | 查询 | 否 |
/diff |
对比两次报告(新增/消失/变化) | 对比 | 否 |
/deep-dive 目标 |
组织/数据集/分类深度分析 | 分析 | 否 |
/recipe 数据集ID |
DataRecipe 逆向分析(成本/Schema/难度) | 深潜 | 是 |
/radar |
通用情报助手(路由到其他 Skill) | 入口 | — |
典型工作流:
/scan --days 7 --recipe # 1. 每周采集
/brief # 2. 晨会快速浏览
/search RLHF # 3. 按主题搜索
/deep-dive NVIDIA # 4. 聚焦某组织
/recipe allenai/Dolci # 5. 深入某数据集
/diff # 6. 周对比变化设计原则:
- 环境 LLM 接管:
ANTHROPIC_API_KEY未设置时,/scan让 Claude Code 自身作为分析引擎 - 纯本地读取:
/brief、/search、/diff、/deep-dive不触发网络请求 - 交叉引用:每个 Skill 的输出中推荐相关的后续 Skill
| 来源 | 数量 | 覆盖 |
|---|---|---|
| HuggingFace | 86 orgs | 67 Labs + 27 供应商(含机器人、欧洲、亚太) |
| 博客 | 71 源 | 实验室 + 研究者 + 独立博客 + 数据供应商 |
| GitHub | 50 orgs | AI Labs + 中国开源 + 机器人 + 数据供应商 |
| 论文 | 2 源 | arXiv (cs.CL/AI/LG/CV/RO) + HF Papers |
| Papers with Code | API | 数据集/榜单追踪,论文引用关系 |
| X/Twitter | 125 账户 | 13 类别,CEO/Leaders + 研究者 + 机器人 |
| 5 社区 | MachineLearning、LocalLLaMA、dataset、deeplearning、LanguageTechnology |
🗺️ 生态架构图
graph LR
subgraph 数据管线
Radar["🔍 Radar<br/>情报发现"] --> Recipe["📋 Recipe<br/>逆向分析"]
Recipe --> Synth["🔄 Synth<br/>数据合成"]
Recipe --> Label["🏷️ Label<br/>数据标注"]
Synth --> Check["✅ Check<br/>数据质检"]
Label --> Check
end
Audit["🔬 Audit<br/>模型审计"]
subgraph Agent 工具链
Hub["🎯 Hub<br/>编排层"] --> Sandbox["📦 Sandbox<br/>执行沙箱"]
Sandbox --> Recorder["📹 Recorder<br/>轨迹录制"]
Recorder --> Reward["⭐ Reward<br/>过程打分"]
end
Crew["👥 Crew<br/>数字员工"]
Crew -.-> Radar
Crew -.-> Check
Crew -.-> Audit
Crew -.-> Hub
style Radar fill:#0969da,color:#fff,stroke:#0969da
| 层 | 项目 | PyPI 包 | 说明 | 仓库 |
|---|---|---|---|---|
| 情报 | Radar | knowlyr-radar | 竞争情报、趋势分析 | You are here |
| 分析 | DataRecipe | knowlyr-datarecipe | 逆向分析、Schema 提取 | GitHub |
| 生产 | DataSynth | knowlyr-datasynth | LLM 批量合成 | GitHub |
| 生产 | DataLabel | knowlyr-datalabel | 轻量标注 | GitHub |
| 质检 | DataCheck | knowlyr-datacheck | 规则验证、重复检测 | GitHub |
| 审计 | ModelAudit | knowlyr-modelaudit | 蒸馏检测、模型指纹 | GitHub |
| 协作 | Crew | knowlyr-crew | 数字员工管理 | GitHub |
| Agent | knowlyr-agent | sandbox/recorder/reward/hub | Agent 工具链 | GitHub |
DataRecipe 联动详情(评分公式、输出结构、MCP 双服务配置)见 DataRecipe 文档。
| 能力 | 说明 | 解锁场景 |
|---|---|---|
| ✅ 7 条规则 × 4 类别,指纹去重,Email/Webhook 分发 | 从"手动查看"变为"主动通知",情报系统的本质闭环 | |
| ✅ 组织级水位线驱动,每源每 org 独立增量窗口 | 扫描频率从日级提升至小时级,API 调用量降一个量级 | |
| ✅ 批量 upsert + 作用域趋势计算,SQLite 每日快照 | 长周期趋势分析、季度报告、组织活跃度变化曲线 | |
| 推送分发 | 周报/日报自动推送到 Slack、飞书、邮件、Webhook | 团队被动消费情报,无需主动登录查看 |
| 交互式图谱 | D3.js force-directed 组织关系图 + Sankey 谱系图 | 可视化发现隐藏的组织协作模式和数据集派生链 |
| 自定义监控规则 | 用户自建关键词/组织/阈值过滤器,YAML 或 Web UI 配置 | 不同团队关注不同赛道,无需改代码 |
已完成里程碑见 CHANGELOG.md。
# 安装依赖
pip install -r requirements.txt && playwright install chromium
cp .env.example .env
# 运行测试 (933 个用例)
pytest
# 代码格式化 + lint
ruff check src/
ruff format src/测试覆盖: 34 个测试文件,933 个测试用例。
CI: GitHub Actions,Tag push 自动发布。定时任务 (daily.yml) 支持每日自动扫描。
