Open Source Python MIT
ModelAudit

ModelAudit

模型审计

★ 1 ⑂ 0 更新于 2026-03-17
基于统计取证的多方法蒸馏检测框架——通过行为探测提取模型指纹, 基于假设检验判定蒸馏关系,结合 Pearson 相关、Jensen-Shannon 散度和 CKA 相似度四种互补方法。
统计取证 行为探测 假设检验

Quick Start

Install
pip install knowlyr-modelaudit
Usage
from modelaudit import AuditEngine

engine = AuditEngine()
results = engine.detect(["Hello! I'd be happy to help..."])
detect_text_source 检测文本数据来源 — 判断文本可能由哪个 LLM 生成
verify_model 验证模型身份 — 检查 API 背后是不是声称的模型
compare_models 比对两个模型的指纹相似度,判断是否存在蒸馏/派生关系
compare_models_whitebox 白盒比对两个本地模型 — 使用 REEF CKA 方法比较模型隐藏状态相似度(需要模型权重)
audit_memorization 检测模型是否记忆了训练数据 — 通过前缀补全和逐字检查评估记忆程度
audit_report 生成完整的模型审计报告 — 汇总所有审计工具的结果
audit_watermark 检测文本中是否包含 AI 水印(统计特征和模式匹配)
audit_distillation 完整蒸馏审计 — 综合指纹比对 + 风格分析,生成详细审计报告。

文档

ModelAudit

LLM 蒸馏检测与模型指纹审计
LLM Distillation Detection and Model Fingerprinting
via Statistical Forensics

通过行为探测、风格指纹和表示相似度分析
检测未经授权的模型蒸馏行为

统计取证 · 行为签名 · 跨模型血缘推断

问题背景

大语言模型的蒸馏行为 (knowledge distillation) 已成为模型知识产权保护的核心威胁。学生模型通过模仿教师模型的输出分布,可以在未经授权的情况下复制其能力。现有检测方法要么依赖白盒权重访问(实际场景中通常不可得),要么仅分析表面文本特征(易被规避)。

解决方案

ModelAudit 是基于统计取证的多方法蒸馏检测框架。通过行为探测提取模型指纹,基于假设检验判定蒸馏关系,融合四种互补方法构成从黑盒到白盒的完整审计链。

四种互补检测方法

方法 类型 原理
LLMmap 黑盒 20 个行为探测,Pearson 相关比对响应模式
DLI 黑盒 行为签名 + Jensen-Shannon 散度血缘推断
REEF 白盒 CKA 逐层隐藏状态相似度
StyleAnalysis 风格分析 12 个模型家族风格签名 + 语言检测

10 维行为探测

超越简单的文本统计特征,ModelAudit 从 10 个认知维度进行结构化探测——自我认知、安全边界、注入测试、知识与推理、创意写作、多语言、格式控制、角色扮演、代码生成、摘要能力——捕获在 RLHF 对齐后仍保留的深层行为差异。

跨 Provider 审计链

无缝支持跨 Provider 蒸馏审计,教师和学生模型可来自不同 API:

knowlyr-modelaudit audit \
  --teacher claude-opus --teacher-provider anthropic \
  --student kimi-k2.5 --student-provider openai \
  --student-api-base https://api.moonshot.cn/v1 \
  -o report.md

快速开始

pip install knowlyr-modelaudit

# 检测文本来源
knowlyr-modelaudit detect texts.jsonl

# 验证模型身份
knowlyr-modelaudit verify gpt-4o --provider openai

# 完整蒸馏审计
knowlyr-modelaudit audit --teacher gpt-4o --student my-model -o report.md
from modelaudit import AuditEngine

engine = AuditEngine()
audit = engine.audit("claude-opus", "suspect-model")
print(f"{audit.verdict} (confidence: {audit.confidence:.3f})")

MCP 集成

ModelAudit 内置 8 个 MCP 工具,无缝融入 AI 工作流:

detect_text_source · verify_model · compare_models · compare_models_whitebox · audit_distillation · audit_memorization · audit_report · audit_watermark

内置基准测试

在 6 个模型家族(14 个样本)上达到 100% 检测准确率。支持识别 12 个模型家族:GPT-4 · GPT-3.5 · Claude · LLaMA · Gemini · Qwen · DeepSeek · Mistral · Yi · Phi · Cohere · ChatGLM。


GitHub · PyPI

knowlyr — LLM 蒸馏检测与模型指纹审计 · 统计取证

关于这个项目,找他们聊

Kai
Kai Founder & CEO
林锐
林锐 AI 代码审查与重构顾问