多维数据质量验证框架——覆盖完整性、唯一性、有效性、异常检测四个质量维度, 内置 IQR/Z-score 异常检测与 n-gram Jaccard 近似去重,在数据进入训练前把关质量。
Quick Start
Install
pip install knowlyr-datacheck
Usage
from datacheck import DataChecker
checker = DataChecker()
report = checker.check_file("training_data.json")
MCP Tools
check_data_quality
检查数据文件的质量 (支持 JSON/JSONL/CSV)
validate_from_datarecipe
使用 DataRecipe 分析结果验证数据
compare_distributions
对比多个数据文件的分布 (支持 JSON/JSONL/CSV)
list_quality_rules
列出所有可用的质量检查规则
infer_schema
从数据文件推断 Schema (字段类型、约束、必填项)
fix_data
修复数据文件常见质量问题 (去重、去空白、PII 脱敏)
batch_check_directory
批量检查目录下所有数据文件的质量 (递归扫描 JSON/JSONL/CSV)
check_drift
检测两个数据文件之间的分布漂移(数值统计差异、类别分布变化、文本特征对比)
check_leakage
检测训练集和测试集之间的数据泄漏(完全重复 + token Jaccard 近似重复)
check_bias
检测数据集偏差(类别不均衡、文本长度分布偏差、语言分布偏差)
check_coverage
检测数据集覆盖度 — 统计字段完整度、缺失值比例、唯一值分布
文档
DataCheck
多维数据质量验证框架
Multi-Dimensional Data Quality Validation
面向 LLM 训练数据的自动化质量验证——可组合规则、IQR/Z-score 异常检测、自动修复管线
为什么选择 DataCheck?
训练数据质量是模型性能的隐性瓶颈。被忽略的格式错误、隐藏的 PII 泄露、未检测的重复样本——任何一个问题都可能在下游放大为系统性偏差。
现有质检方案要么是一次性脚本(不可复用),要么是重量级平台(部署成本高),且普遍缺少统计异常检测和自动修复能力。
DataCheck 通过可组合规则引擎提供端到端的数据质量验证:
- 9 条内置规则,覆盖完整性、有效性、隐私、一致性四个质量维度
- IQR / Z-score 双方法异常检测,识别数值和文本长度异常值
- LLM 辅助评估,检查指令清晰度和回复相关性
- 自动修复管线 —— 去重、去空白、PII 脱敏
- 报告对比 —— 量化修复前后的质量改进
30 秒上手
pip install knowlyr-datacheck
# 检查你的数据
knowlyr-datacheck check data.json
# 自动修复问题
knowlyr-datacheck fix data.jsonl -o fixed.jsonl --strip-pii
# 对比修复前后
knowlyr-datacheck diff report_v1.json report_v2.json
质量管线 / Quality Pipeline
graph LR
D["数据文件<br/>JSON / JSONL / CSV"] --> R["规则引擎<br/>9 条规则 + YAML 自定义"]
R --> A["异常检测器<br/>IQR / Z-score"]
A --> Rep["质量报告<br/>MD / JSON / HTML"]
Rep --> Fix["自动修复<br/>去重 · PII · 去空白"]
Fix --> Diff["报告对比<br/>修复前 vs 修复后"]
style R fill:#0969da,color:#fff,stroke:#0969da
style A fill:#8b5cf6,color:#fff,stroke:#8b5cf6
style Rep fill:#2da44e,color:#fff,stroke:#2da44e
style Fix fill:#e5534b,color:#fff,stroke:#e5534b
style D fill:#1a1a2e,color:#e0e0e0,stroke:#444
style Diff fill:#1a1a2e,color:#e0e0e0,stroke:#444
核心特性 / Core Features
可组合规则引擎 / Composable Rule Engine
9 条内置规则,4 种预设规则集(default、sft、preference、llm)。通过 YAML 扩展,无需写 Python 代码:
rules:
- field: instruction
check: min_length
value: 10
severity: error
统计异常检测 / Statistical Anomaly Detection
纯 Python 实现,零外部依赖。样本量 $\geq 10$ 时自动启用:
- IQR 方法:$\text{outlier}(x) \iff x < Q_1 - 1.5 \cdot \text{IQR} ;\lor; x > Q_3 + 1.5 \cdot \text{IQR}$
- Z-score 方法:$\text{outlier}(x) \iff |z(x)| > 3$
LLM 辅助质量评估 / LLM-Assisted Quality Evaluation
超越规则检查的语义级质量评估:
knowlyr-datacheck check data.json --ruleset llm
MCP 集成 / MCP Integration
11 个 MCP 工具,无缝集成 AI IDE——检查、修复、对比、推断 Schema,全部在编辑器中完成。
Python SDK
from datacheck import DataChecker, QualityReport
checker = DataChecker()
result = checker.check_file("data.json")
report = QualityReport(result)
report.print_summary()
生态系统 / Ecosystem
DataCheck 是 knowlyr 数据基础设施的一部分:
| 层 | 项目 | 职责 |
|---|---|---|
| 发现 | AI Dataset Radar | 数据集竞争情报、趋势分析 |
| 分析 | DataRecipe | 逆向分析、Schema 提取、成本估算 |
| 生产 | DataSynth / DataLabel | LLM 批量合成 / 轻量标注 |
| 质量 | DataCheck | 规则验证、异常检测、自动修复 |
| 审计 | ModelAudit | 蒸馏检测、模型指纹 |
关于这个项目,找他们聊