Open Source Python MIT

DataRecipe

数据配方

对高价值数据集自动逆向分析:提取 Schema、估算成本、生成标注规范与复刻方案。 从"看到好数据"到"知道怎么做"的桥梁。

Quick Start

Install
pip install knowlyr-datarecipe
Usage
# CLI
knowlyr-datarecipe deep-analyze tencent/CL-bench
MCP Tools
9 个端点可调用
+
parse_spec_document Parse a specification document (PDF, Word, image, text) and extract text content. Returns the document text and a prompt for LLM analysis.
generate_spec_output Generate project artifacts (annotation spec, executive summary, milestone plan, cost breakdown) from analysis JSON.
analyze_huggingface_dataset Run deep analysis on a HuggingFace dataset and generate reproduction guide.
get_extraction_prompt Get the LLM extraction prompt template for analyzing a specification document. Use this when you want to analyze a document yourself instead of using an external API.
extract_rubrics Extract scoring rubrics and evaluation patterns from a HuggingFace dataset. Returns structured templates for annotation guidelines.
extract_prompts Extract system prompt templates from a HuggingFace dataset. Returns unique prompts categorized by domain.
compare_datasets Compare multiple HuggingFace datasets side by side. Returns comparison metrics and recommendations.
profile_dataset Generate annotator profile and cost estimation for a dataset. Returns required skills, team size, and budget.
get_agent_context Get the AI Agent context file from a previous analysis. Returns structured data for AI Agent consumption.

README

🔬 DataRecipe

AI 数据集逆向工程框架 — 从样本或需求文档提取标注规范、成本模型与可复现方案
Reverse-engineering framework for AI datasets — extract annotation specs, cost models & reproducibility

PyPI Downloads Python 3.10+ License: MIT
CI Tests Coverage MCP

快速开始 · LLM 增强 · 需求文档分析 · MCP Server · Data Pipeline 生态


🎯 一键逆向 从数据集样本或需求文档自动提取构建范式,生成 23+ 生产级文档LLM 增强 插入增强层,一次调用生成 EnhancedContext,文档质量指数级提升 📊 全角色覆盖 决策层 · 项目经理 · 标注团队 · 技术团队 · 财务 · AI Agent 六类用户

数据集 / 需求文档 → 逆向分析 → [LLM 增强层] → 23+ 结构化文档 (人类可读 + 机器可解析)

谁在用

角色 关注目录 获得什么
决策层 01_决策参考/ 价值评分、ROI 分析、竞争定位
项目经理 02_项目管理/ 里程碑、验收标准、风险管理
标注团队 03_标注规范/ 标注指南、培训手册、质检清单
技术团队 04_复刻指南/ 生产 SOP、数据结构、复刻策略
财务 05_成本分析/ 分阶段成本、人机分配
AI Agent 08_AI_Agent/ 结构化上下文、可执行流水线

安装

pip install knowlyr-datarecipe
📦 可选依赖
pip install knowlyr-datarecipe[llm]      # LLM 分析 (Anthropic/OpenAI)
pip install knowlyr-datarecipe[pdf]      # PDF 解析
pip install knowlyr-datarecipe[mcp]      # MCP 服务器
pip install knowlyr-datarecipe[all]      # 全部

快速开始

分析 HuggingFace 数据集

# 基础分析 (纯本地,无需 API key)
knowlyr-datarecipe deep-analyze tencent/CL-bench

# 启用 LLM 增强 (在 Claude Code/App 中运行,自动利用宿主 LLM)
knowlyr-datarecipe deep-analyze tencent/CL-bench --use-llm

# 独立运行时用 API
knowlyr-datarecipe deep-analyze tencent/CL-bench --use-llm --enhance-mode api

分析需求文档

# API 模式 (需要 ANTHROPIC_API_KEY)
knowlyr-datarecipe analyze-spec requirements.pdf

# 交互模式 (在 Claude Code 中使用,无需 API key)
knowlyr-datarecipe analyze-spec requirements.pdf --interactive

# 从预计算 JSON 加载
knowlyr-datarecipe analyze-spec requirements.pdf --from-json analysis.json
📋 输出示例 (deep-analyze)
============================================================
  DataRecipe 深度逆向分析
============================================================

数据集: tencent/CL-bench
✓ 加载完成: 300 样本
✓ 评分标准: 4120 条, 2412 种模式
✓ Prompt模板: 293 个
✓ 人机分配: 人工 84%, 机器 16%
✓ LLM 增强完成

输出目录: ./projects/tencent_CL-bench/
生成文件: 29 个
  📄 01_决策参考/EXECUTIVE_SUMMARY.md
  📋 02_项目管理/MILESTONE_PLAN.md
  📝 03_标注规范/ANNOTATION_SPEC.md
  ...

LLM 增强层

核心创新:在分析和生成之间插入 LLM 增强层,一次调用生成富上下文对象 EnhancedContext,所有文档生成器消费该对象。

本地分析结果 → [LLM 增强: 1次调用] → EnhancedContext → 各生成器 → 高质量文档

三种运行模式

模式 场景 说明
auto (默认) 自动检测 有 API key 用 API,否则用交互模式
interactive Claude Code / Claude App 输出 prompt,宿主 LLM 直接处理
api 独立运行 调用 Anthropic / OpenAI API

增强效果对比

文档 无 LLM 有 LLM
EXECUTIVE_SUMMARY 通用占位符 "场景A/B/C" 具体 ROI 数字、针对性风险、竞争定位
ANNOTATION_SPEC 模板化规范 领域标注指导、常见错误、样本逐条分析
REPRODUCTION_GUIDE 几乎空白 完整复刻策略、团队配置、风险矩阵
MILESTONE_PLAN 套话风险 分阶段具体风险 + 缓解措施
ANALYSIS_REPORT 几乎空白 方法学洞察、竞争分析、领域建议
🔌 MCP 两步式增强(推荐)

通过 MCP Server 调用时,Claude Agent 自身作为 LLM 处理增强 prompt,无需 API key:

1. Claude 调用 analyze_huggingface_dataset("tencent/CL-bench")
   → 返回分析结果 + enhancement_prompt

2. Claude 处理 enhancement_prompt,生成增强 JSON

3. Claude 调用 enhance_analysis_reports(output_dir, enhanced_context)
   → 报告从模板占位符 → 针对性的具体分析内容
🐍 编程接口

在 Claude Code 等 LLM 环境中,也可通过 get_prompt() + enhance_from_response() 模式集成:

from datarecipe.generators.llm_enhancer import LLMEnhancer

enhancer = LLMEnhancer(mode="auto")

# 获取增强 prompt (交给宿主 LLM 处理)
prompt = enhancer.get_prompt(dataset_id="my/dataset", dataset_type="evaluation", ...)

# 解析 LLM 返回的 JSON
ctx = enhancer.enhance_from_response(llm_json_response)

# 或从缓存加载
ctx = enhancer.enhance_from_json("enhanced_context.json")

EnhancedContext 包含 14 个增强字段:用途摘要、方法学洞察、复刻策略、ROI 场景、风险评估、领域标注指导、质量陷阱、样本分析、团队建议等。


输出结构

所有命令(deep-analyzeanalyze-specdeployintegrate-report)的产出统一到 projects/ 下,一个数据集 = 一个项目文件夹:

📁 完整目录结构
projects/{数据集名}/
├── README.md                        # 自动生成的导航枢纽
├── recipe_summary.json              # 核心摘要 (Radar 兼容)
├── .project_manifest.json           # 记录已执行的命令和时间戳
│
├── 01_决策参考/                      # deep-analyze / analyze-spec
│   └── EXECUTIVE_SUMMARY.md         # 评分 + ROI + 风险 + 竞争定位
├── 02_项目管理/                      # deep-analyze / analyze-spec
│   ├── MILESTONE_PLAN.md            # 里程碑 + 验收标准 + 风险管理
│   └── INDUSTRY_BENCHMARK.md        # 行业基准对比
├── 03_标注规范/                      # deep-analyze / analyze-spec
│   ├── ANNOTATION_SPEC.md           # 标注规范 + 领域指导
│   ├── TRAINING_GUIDE.md            # 标注员培训手册
│   └── QA_CHECKLIST.md              # 质检清单
├── 04_复刻指南/                      # deep-analyze / analyze-spec
│   ├── REPRODUCTION_GUIDE.md        # 复刻策略 + 团队配置
│   ├── PRODUCTION_SOP.md            # 生产 SOP
│   ├── ANALYSIS_REPORT.md           # 分析报告
│   └── DATA_SCHEMA.json             # 数据格式定义
├── 05_成本分析/                      # deep-analyze / analyze-spec
│   └── COST_BREAKDOWN.md            # 分阶段成本明细
├── 06_原始数据/                      # deep-analyze / analyze-spec
│   ├── enhanced_context.json        # LLM 增强上下文 (可复用)
│   └── *.json                       # 分析原始数据
├── 07_模板/                          # analyze-spec
│   └── data_template.json           # 数据录入模板
├── 08_AI_Agent/                      # deep-analyze / analyze-spec
│   ├── agent_context.json           # 聚合上下文入口
│   ├── workflow_state.json          # 工作流状态
│   ├── reasoning_traces.json        # 推理链
│   └── pipeline.yaml                # 可执行流水线
├── 09_样例数据/                      # analyze-spec
│   ├── samples.json                 # 样例数据 (最多50条)
│   └── SAMPLE_GUIDE.md              # 样例指南 + 自动化评估
├── 10_生产部署/                      # deploy
│   ├── recipe.yaml                  # 数据配方
│   ├── annotation_guide.md          # 标注指南
│   ├── quality_rules.yaml/.md       # 质检规则
│   ├── acceptance_criteria.yaml/.md # 验收标准
│   ├── timeline.md                  # 项目时间线
│   └── scripts/                     # 自动化脚本
└── 11_综合报告/                      # integrate-report
    └── weekly_report_*.md           # Radar + Recipe 综合报告

双重格式输出

所有文档同时生成人类可读 (Markdown) 和机器可解析 (JSON/YAML) 格式:

人类文档 机器文件 用途
EXECUTIVE_SUMMARY.md reasoning_traces.json 决策依据 + 推理链
MILESTONE_PLAN.md workflow_state.json 进度状态 + 阻塞项
PRODUCTION_SOP.md pipeline.yaml 可执行工作流

需求文档分析

从 PDF / Word / 图片需求文档直接生成全套项目文档,无需现有数据集。

支持格式: PDF (.pdf)、Word (.docx)、图片 (.png, .jpg)、文本 (.txt, .md)

智能难度验证: 当文档含难度要求(如「doubao1.8 跑 3 次,最多 1 次正确」)时,自动提取验证配置并生成 DIFFICULTY_VALIDATION.md


MCP Server

在 Claude Desktop / Claude Code 中直接使用,10 个工具覆盖完整工作流。

⚙️ 配置
{
  "mcpServers": {
    "knowlyr-datarecipe": {
      "command": "uv",
      "args": ["--directory", "/path/to/data-recipe", "run", "knowlyr-datarecipe-mcp"]
    }
  }
}
工具 功能
parse_spec_document 解析需求文档,返回提取 prompt
generate_spec_output 生成 23+ 项目文档
analyze_huggingface_dataset 深度分析 HF 数据集,返回 enhancement_prompt
enhance_analysis_reports 应用 LLM 增强内容,重新生成高质量报告
get_extraction_prompt 获取 LLM 提取模板
extract_rubrics 提取评分标准
extract_prompts 提取 Prompt 模板
compare_datasets 对比多个数据集
profile_dataset 数据集画像 + 成本估算
get_agent_context 获取 AI Agent 上下文

📖 命令参考
命令 功能
deep-analyze <dataset> 深度分析 HF 数据集
deep-analyze <dataset> --use-llm 启用 LLM 增强
deep-analyze <dataset> --enhance-mode api 指定增强模式
analyze-spec <file> 分析需求文档 (API 模式)
analyze-spec <file> --interactive 交互模式 (Claude Code)
analyze-spec <file> --from-json 从 JSON 加载分析
analyze <dataset> 快速分析
profile <dataset> 标注员画像 + 成本估算
extract-rubrics <dataset> 提取评分标准
deploy <dataset> 生成生产部署配置
integrate-report 生成 Radar + Recipe 综合报告
batch-from-radar <report> 从 Radar 报告批量分析
🏗️ 项目架构
src/datarecipe/
├── core/
│   ├── deep_analyzer.py            # 深度分析引擎 (6 阶段流水线)
│   └── project_layout.py           # 统一输出目录布局
├── analyzers/
│   ├── spec_analyzer.py            # 需求文档分析 (LLM 提取)
│   ├── context_strategy.py         # 上下文策略检测
│   └── llm_dataset_analyzer.py     # 数据集智能分析
├── generators/
│   ├── llm_enhancer.py             # LLM 增强层 (EnhancedContext)
│   ├── spec_output.py              # 需求文档产出 (23+ 文件)
│   ├── executive_summary.py        # 执行摘要生成器
│   ├── annotation_spec.py          # 标注规范生成器
│   ├── milestone_plan.py           # 里程碑计划生成器
│   ├── enhanced_guide.py           # 增强生产指南
│   ├── human_machine_split.py      # 人机分配分析
│   ├── industry_benchmark.py       # 行业基准对比
│   └── pattern_generator.py        # 模式生成器
├── parsers/
│   └── document_parser.py          # PDF / Word / 图片解析
├── extractors/
│   ├── rubrics_analyzer.py         # 评分标准提取
│   └── prompt_extractor.py         # Prompt 模板提取
├── cost/
│   ├── token_analyzer.py           # Token 精确分析
│   ├── phased_model.py             # 分阶段成本模型
│   ├── calibrator.py               # 成本校准器
│   └── complexity_analyzer.py      # 复杂度分析
├── knowledge/
│   ├── knowledge_base.py           # 知识库 (模式积累)
│   └── dataset_catalog.py          # 数据集目录
├── integrations/
│   └── radar.py                    # AI Dataset Radar 集成
├── cache/
│   └── analysis_cache.py           # 分析缓存
├── constants.py                    # 全局常量
├── schema.py                       # 数据模型 (Recipe / DataRecipe)
├── task_profiles.py                # 任务类型注册表 (5 种内置类型)
├── cost_calculator.py              # 成本计算器
├── comparator.py                   # 数据集对比
├── profiler.py                     # 标注员画像
├── workflow.py                     # 生产工作流生成
├── quality_metrics.py              # 质量评估指标
├── pipeline.py                     # 多阶段流水线模板
├── mcp_server.py                   # MCP Server (10 工具)
└── cli/                            # CLI 命令包
    ├── __init__.py                 # 命令注册
    ├── _helpers.py                 # 共享工具函数
    ├── analyze.py                  # analyze, show, export, guide
    ├── deep.py                     # deep-analyze
    ├── spec.py                     # analyze-spec
    ├── batch.py                    # batch, batch-from-radar, integrate-report
    ├── tools.py                    # cost, quality, deploy, workflow 等
    └── infra.py                    # watch, cache, knowledge

Data Pipeline 生态

DataRecipe 是 Data Pipeline 生态的分析引擎,与标注、合成、质检工具协同:

🗺️ 生态架构图
graph LR
    subgraph 数据管线
        Radar["🔍 Radar<br/>情报发现"] --> Recipe["📋 Recipe<br/>逆向分析"]
        Recipe --> Synth["🔄 Synth<br/>数据合成"]
        Recipe --> Label["🏷️ Label<br/>数据标注"]
        Synth --> Check["✅ Check<br/>数据质检"]
        Label --> Check
    end
    Audit["🔬 Audit<br/>模型审计"]
    subgraph Agent 工具链
        Hub["🎯 Hub<br/>编排层"] --> Sandbox["📦 Sandbox<br/>执行沙箱"]
        Sandbox --> Recorder["📹 Recorder<br/>轨迹录制"]
        Recorder --> Reward["⭐ Reward<br/>过程打分"]
    end
    Crew["👥 Crew<br/>数字员工"]
    Crew -.-> Radar
    Crew -.-> Check
    Crew -.-> Audit
    Crew -.-> Hub
    style Recipe fill:#0969da,color:#fff,stroke:#0969da
Loading
项目 PyPI 包 说明 仓库
情报 Radar knowlyr-radar 竞争情报、趋势分析 GitHub
分析 DataRecipe knowlyr-datarecipe 逆向分析、Schema 提取 You are here
生产 DataSynth knowlyr-datasynth LLM 批量合成 GitHub
生产 DataLabel knowlyr-datalabel 轻量标注 GitHub
质检 DataCheck knowlyr-datacheck 规则验证、重复检测 GitHub
审计 ModelAudit knowlyr-modelaudit 蒸馏检测、模型指纹 GitHub
协作 Crew knowlyr-crew 数字员工管理 GitHub
Agent knowlyr-agent sandbox/recorder/reward/hub Agent 工具链 GitHub
# 端到端工作流
knowlyr-datarecipe deep-analyze tencent/CL-bench --use-llm      # 分析
knowlyr-datalabel generate ./projects/tencent_CL-bench/          # 标注
knowlyr-datasynth generate ./projects/tencent_CL-bench/ -n 1000  # 合成
knowlyr-datacheck validate ./projects/tencent_CL-bench/          # 质检

开发

# 安装开发依赖
make install

# 运行测试 (3399 个用例)
make test

# 查看测试覆盖率 (97%+)
make cov

# 代码格式化 + lint
make lint
make format

# 安装 pre-commit hooks
make hooks

测试覆盖: 35+ 个测试文件,3399 个测试用例,97% 语句覆盖率。

CI: GitHub Actions,支持 Python 3.10 / 3.11 / 3.12 / 3.13,覆盖率阈值 80%。Tag push 自动发布 PyPI + GitHub Release。

Pre-commit: ruff lint + format、trailing-whitespace、check-yaml、check-added-large-files。

详见 CONTRIBUTING.md


License

MIT

knowlyr 数据工程生态 · 数据集逆向分析

关于这个项目,找他们聊

← 所有项目 View on GitHub →