多维数据质量验证框架——覆盖完整性、唯一性、有效性、异常检测四个质量维度，内置 IQR/Z-score 异常检测与 n-gram Jaccard 近似去重，在数据进入训练前把关质量。

四维质量模型异常检测近似去重

Quick Start

Install

pip install knowlyr-datacheck

Usage

from datacheck import DataChecker

checker = DataChecker()
report = checker.check_file("training_data.json")

MCP Tools

11 个端点可调用

+

check_data_quality 检查数据文件的质量 (支持 JSON/JSONL/CSV)

validate_from_datarecipe 使用 DataRecipe 分析结果验证数据

compare_distributions 对比多个数据文件的分布 (支持 JSON/JSONL/CSV)

list_quality_rules 列出所有可用的质量检查规则

infer_schema 从数据文件推断 Schema (字段类型、约束、必填项)

fix_data 修复数据文件常见质量问题 (去重、去空白、PII 脱敏)

batch_check_directory 批量检查目录下所有数据文件的质量 (递归扫描 JSON/JSONL/CSV)

check_drift 检测两个数据文件之间的分布漂移（数值统计差异、类别分布变化、文本特征对比）

check_leakage 检测训练集和测试集之间的数据泄漏（完全重复 + token Jaccard 近似重复）

check_bias 检测数据集偏差（类别不均衡、文本长度分布偏差、语言分布偏差）

check_coverage 检测数据集覆盖度 — 统计字段完整度、缺失值比例、唯一值分布

文档

DataCheck

多维数据质量验证框架
Multi-Dimensional Data Quality Validation

面向 LLM 训练数据的自动化质量验证——可组合规则、IQR/Z-score 异常检测、自动修复管线

为什么选择 DataCheck？

训练数据质量是模型性能的隐性瓶颈。被忽略的格式错误、隐藏的 PII 泄露、未检测的重复样本——任何一个问题都可能在下游放大为系统性偏差。

现有质检方案要么是一次性脚本（不可复用），要么是重量级平台（部署成本高），且普遍缺少统计异常检测和自动修复能力。

DataCheck 通过可组合规则引擎提供端到端的数据质量验证：

9 条内置规则，覆盖完整性、有效性、隐私、一致性四个质量维度
IQR / Z-score 双方法异常检测，识别数值和文本长度异常值
LLM 辅助评估，检查指令清晰度和回复相关性
自动修复管线 —— 去重、去空白、PII 脱敏
报告对比 —— 量化修复前后的质量改进

30 秒上手

pip install knowlyr-datacheck

# 检查你的数据
knowlyr-datacheck check data.json

# 自动修复问题
knowlyr-datacheck fix data.jsonl -o fixed.jsonl --strip-pii

# 对比修复前后
knowlyr-datacheck diff report_v1.json report_v2.json

质量管线 / Quality Pipeline

graph LR
    D["数据文件<br/>JSON / JSONL / CSV"] --> R["规则引擎<br/>9 条规则 + YAML 自定义"]
    R --> A["异常检测器<br/>IQR / Z-score"]
    A --> Rep["质量报告<br/>MD / JSON / HTML"]
    Rep --> Fix["自动修复<br/>去重 · PII · 去空白"]
    Fix --> Diff["报告对比<br/>修复前 vs 修复后"]

    style R fill:#0969da,color:#fff,stroke:#0969da
    style A fill:#8b5cf6,color:#fff,stroke:#8b5cf6
    style Rep fill:#2da44e,color:#fff,stroke:#2da44e
    style Fix fill:#e5534b,color:#fff,stroke:#e5534b
    style D fill:#1a1a2e,color:#e0e0e0,stroke:#444
    style Diff fill:#1a1a2e,color:#e0e0e0,stroke:#444

核心特性 / Core Features

可组合规则引擎 / Composable Rule Engine

9 条内置规则，4 种预设规则集（default、sft、preference、llm）。通过 YAML 扩展，无需写 Python 代码：

rules:
  - field: instruction
    check: min_length
    value: 10
    severity: error

统计异常检测 / Statistical Anomaly Detection

纯 Python 实现，零外部依赖。样本量 $\geq 10$ 时自动启用：

IQR 方法：$\text{outlier}(x) \iff x < Q_1 - 1.5 \cdot \text{IQR} ;\lor; x > Q_3 + 1.5 \cdot \text{IQR}$
Z-score 方法：$\text{outlier}(x) \iff |z(x)| > 3$

LLM 辅助质量评估 / LLM-Assisted Quality Evaluation

超越规则检查的语义级质量评估：

knowlyr-datacheck check data.json --ruleset llm

MCP 集成 / MCP Integration

11 个 MCP 工具，无缝集成 AI IDE——检查、修复、对比、推断 Schema，全部在编辑器中完成。

Python SDK

from datacheck import DataChecker, QualityReport

checker = DataChecker()
result = checker.check_file("data.json")
report = QualityReport(result)
report.print_summary()

生态系统 / Ecosystem

DataCheck 是 knowlyr 数据基础设施的一部分：

层	项目	职责
发现	AI Dataset Radar	数据集竞争情报、趋势分析
分析	DataRecipe	逆向分析、Schema 提取、成本估算
生产	DataSynth / DataLabel	LLM 批量合成 / 轻量标注
质量	DataCheck	规则验证、异常检测、自动修复
审计	ModelAudit	蒸馏检测、模型指纹

GitHub · PyPI

_{knowlyr — 多维数据质量验证框架，统计异常检测}

关于这个项目，找他们聊

Kai Founder & CEO

林晓桐 AI 数据质量专家

DataCheck

Quick Start

文档

DataCheck

多维数据质量验证框架Multi-Dimensional Data Quality Validation

为什么选择 DataCheck？

30 秒上手

质量管线 / Quality Pipeline

核心特性 / Core Features

可组合规则引擎 / Composable Rule Engine

统计异常检测 / Statistical Anomaly Detection

LLM 辅助质量评估 / LLM-Assisted Quality Evaluation

MCP 集成 / MCP Integration

Python SDK

生态系统 / Ecosystem

多维数据质量验证框架
Multi-Dimensional Data Quality Validation