Open Source Python MIT
DataCheck

DataCheck

数据检查

★ 0 ⑂ 0 更新于 2026-03-15
多维数据质量验证框架——覆盖完整性、唯一性、有效性、异常检测四个质量维度, 内置 IQR/Z-score 异常检测与 n-gram Jaccard 近似去重,在数据进入训练前把关质量。
四维质量模型 异常检测 近似去重

Quick Start

Install
pip install knowlyr-datacheck
Usage
from datacheck import DataChecker

checker = DataChecker()
report = checker.check_file("training_data.json")
check_data_quality 检查数据文件的质量 (支持 JSON/JSONL/CSV)
validate_from_datarecipe 使用 DataRecipe 分析结果验证数据
compare_distributions 对比多个数据文件的分布 (支持 JSON/JSONL/CSV)
list_quality_rules 列出所有可用的质量检查规则
infer_schema 从数据文件推断 Schema (字段类型、约束、必填项)
fix_data 修复数据文件常见质量问题 (去重、去空白、PII 脱敏)
batch_check_directory 批量检查目录下所有数据文件的质量 (递归扫描 JSON/JSONL/CSV)
check_drift 检测两个数据文件之间的分布漂移(数值统计差异、类别分布变化、文本特征对比)
check_leakage 检测训练集和测试集之间的数据泄漏(完全重复 + token Jaccard 近似重复)
check_bias 检测数据集偏差(类别不均衡、文本长度分布偏差、语言分布偏差)
check_coverage 检测数据集覆盖度 — 统计字段完整度、缺失值比例、唯一值分布

文档

DataCheck

多维数据质量验证框架
Multi-Dimensional Data Quality Validation

面向 LLM 训练数据的自动化质量验证——可组合规则、IQR/Z-score 异常检测、自动修复管线

为什么选择 DataCheck?

训练数据质量是模型性能的隐性瓶颈。被忽略的格式错误、隐藏的 PII 泄露、未检测的重复样本——任何一个问题都可能在下游放大为系统性偏差。

现有质检方案要么是一次性脚本(不可复用),要么是重量级平台(部署成本高),且普遍缺少统计异常检测自动修复能力。

DataCheck 通过可组合规则引擎提供端到端的数据质量验证:

  • 9 条内置规则,覆盖完整性、有效性、隐私、一致性四个质量维度
  • IQR / Z-score 双方法异常检测,识别数值和文本长度异常值
  • LLM 辅助评估,检查指令清晰度和回复相关性
  • 自动修复管线 —— 去重、去空白、PII 脱敏
  • 报告对比 —— 量化修复前后的质量改进

30 秒上手

pip install knowlyr-datacheck

# 检查你的数据
knowlyr-datacheck check data.json

# 自动修复问题
knowlyr-datacheck fix data.jsonl -o fixed.jsonl --strip-pii

# 对比修复前后
knowlyr-datacheck diff report_v1.json report_v2.json

质量管线 / Quality Pipeline

graph LR
    D["数据文件<br/>JSON / JSONL / CSV"] --> R["规则引擎<br/>9 条规则 + YAML 自定义"]
    R --> A["异常检测器<br/>IQR / Z-score"]
    A --> Rep["质量报告<br/>MD / JSON / HTML"]
    Rep --> Fix["自动修复<br/>去重 · PII · 去空白"]
    Fix --> Diff["报告对比<br/>修复前 vs 修复后"]

    style R fill:#0969da,color:#fff,stroke:#0969da
    style A fill:#8b5cf6,color:#fff,stroke:#8b5cf6
    style Rep fill:#2da44e,color:#fff,stroke:#2da44e
    style Fix fill:#e5534b,color:#fff,stroke:#e5534b
    style D fill:#1a1a2e,color:#e0e0e0,stroke:#444
    style Diff fill:#1a1a2e,color:#e0e0e0,stroke:#444

核心特性 / Core Features

可组合规则引擎 / Composable Rule Engine

9 条内置规则,4 种预设规则集(defaultsftpreferencellm)。通过 YAML 扩展,无需写 Python 代码:

rules:
  - field: instruction
    check: min_length
    value: 10
    severity: error

统计异常检测 / Statistical Anomaly Detection

纯 Python 实现,零外部依赖。样本量 $\geq 10$ 时自动启用:

  • IQR 方法:$\text{outlier}(x) \iff x < Q_1 - 1.5 \cdot \text{IQR} ;\lor; x > Q_3 + 1.5 \cdot \text{IQR}$
  • Z-score 方法:$\text{outlier}(x) \iff |z(x)| > 3$

LLM 辅助质量评估 / LLM-Assisted Quality Evaluation

超越规则检查的语义级质量评估:

knowlyr-datacheck check data.json --ruleset llm

MCP 集成 / MCP Integration

11 个 MCP 工具,无缝集成 AI IDE——检查、修复、对比、推断 Schema,全部在编辑器中完成。

Python SDK

from datacheck import DataChecker, QualityReport

checker = DataChecker()
result = checker.check_file("data.json")
report = QualityReport(result)
report.print_summary()

生态系统 / Ecosystem

DataCheck 是 knowlyr 数据基础设施的一部分:

项目 职责
发现 AI Dataset Radar 数据集竞争情报、趋势分析
分析 DataRecipe 逆向分析、Schema 提取、成本估算
生产 DataSynth / DataLabel LLM 批量合成 / 轻量标注
质量 DataCheck 规则验证、异常检测、自动修复
审计 ModelAudit 蒸馏检测、模型指纹

GitHub · PyPI

knowlyr — 多维数据质量验证框架,统计异常检测

关于这个项目,找他们聊

Kai
Kai Founder & CEO
林晓桐
林晓桐 AI 数据质量专家