Open Source Python MIT
DataLabel

DataLabel

数据标注

★ 0 ⑂ 0 更新于 2026-03-15
轻量级协作标注框架——支持 Cohen's/Fleiss' Kappa 与 Krippendorff's Alpha 等 IAA 指标量化标注一致性, 内置冲突检测与多策略融合机制,通过 HTML 标注界面实现零部署标注。
IAA 量化 冲突融合 零部署标注

Quick Start

Install
pip install knowlyr-datalabel
Usage
# CLI: 从 schema 生成标注界面
knowlyr-datalabel create schema.json tasks.json -o annotator.html
generate_annotator 从 DataRecipe 分析结果生成 HTML 标注界面
create_annotator 从 Schema 和任务数据创建 HTML 标注界面
merge_annotations 合并多个标注员的标注结果
calculate_iaa 计算标注员间一致性 (Inter-Annotator Agreement)
validate_schema 验证 DataLabel Schema 和任务数据的格式正确性
export_results 将标注结果导出为 JSON/JSONL/CSV 格式
import_tasks 从 JSON/JSONL/CSV 导入任务数据并转换为 DataLabel 格式
generate_dashboard 从标注结果文件生成标注进度仪表盘 HTML
llm_prelabel 使用 LLM 自动预标注任务数据
llm_quality_analysis 使用 LLM 分析标注质量,检测可疑标注和分歧
llm_gen_guidelines 使用 LLM 根据 Schema 和样例自动生成标注指南
adjudicate 裁决标注冲突 — 对有分歧的标注结果进行仲裁,输出最终标签

文档

English | 中文

DataLabel

零服务器人机协同标注框架
LLM 预标注 · 标注者间一致性分析

生成独立 HTML 文件,离线完成标注。无需服务器、无需网络、无需部署。

GitHub · PyPI · knowlyr.com

问题

当前的标注工具迫使你做一个痛苦的选择:重量级平台(Label Studio、Prodigy)需要服务器和数据库,轻量脚本则没有任何质量保证。两者都不提供开箱即用的统计一致性指标或 LLM 辅助加速。

DataLabel 采用不同的方式:生成一个 HTML 文件,发给标注员,收回结果。无需服务器、无需 Docker、无需网络。

你将获得

  • 零服务器 HTML 标注 -- 独立文件内嵌所有样式、逻辑和数据,支持离线使用、暗黑模式和快捷键
  • LLM 预标注 -- Kimi / OpenAI / Anthropic 生成初始标签,标注员从校准开始,而非从零标注
  • 标注者间一致性 -- Cohen's kappa、Fleiss' kappa、Krippendorff's alpha,输出两两一致矩阵和分歧报告
  • 多策略合并 -- 多数投票、平均值、严格一致三种策略,自动标记冲突
  • 5 种标注类型 -- 评分、单选、多选、文本、排序(支持 Borda 计数法合并)
  • 可视化仪表盘 -- 独立 HTML 报告,包含进度追踪、分布图表和一致性热力图

快速开始

pip install knowlyr-datalabel

# 创建标注界面
knowlyr-datalabel create schema.json tasks.json -o annotator.html

# 可选:LLM 预标注
knowlyr-datalabel prelabel schema.json tasks.json -o pre.json -p moonshot

# 合并结果 + 计算一致性
knowlyr-datalabel merge ann1.json ann2.json ann3.json -o merged.json

# 生成分析仪表盘
knowlyr-datalabel dashboard ann1.json ann2.json -o dashboard.html
from datalabel import AnnotatorGenerator, ResultMerger

gen = AnnotatorGenerator()
gen.generate(schema=schema, tasks=tasks, output_path="annotator.html")

merger = ResultMerger()
result = merger.merge(["ann1.json", "ann2.json"], strategy="majority")
print(f"一致率: {result.agreement_rate:.1%}")

标注管线

graph LR
    S["Schema 定义"] --> P["LLM 预标注"]
    P --> G["HTML 生成器"]
    G --> B["浏览器标注"]
    B --> R["标注结果"]
    R --> M["合并 + IAA"]
    M --> D["仪表盘"]

    style G fill:#0969da,color:#fff,stroke:#0969da
    style M fill:#8b5cf6,color:#fff,stroke:#8b5cf6
    style D fill:#2da44e,color:#fff,stroke:#2da44e
    style S fill:#1a1a2e,color:#e0e0e0,stroke:#444
    style P fill:#1a1a2e,color:#e0e0e0,stroke:#444
    style B fill:#1a1a2e,color:#e0e0e0,stroke:#444
    style R fill:#1a1a2e,color:#e0e0e0,stroke:#444

MCP 集成

12 个 MCP 工具、6 个资源和 3 个提示词模板,无缝集成 AI IDE -- 在编辑器中直接创建标注、合并结果、计算 IAA 和生成仪表盘。

{
  "mcpServers": {
    "knowlyr-datalabel": {
      "command": "uv",
      "args": ["--directory", "/path/to/data-label", "run", "python", "-m", "datalabel.mcp_server"]
    }
  }
}

生态系统

DataLabel 是 knowlyr 数据基础设施的一部分:

项目 职责
发现 AI Dataset Radar 数据集竞争情报、趋势分析
分析 DataRecipe 逆向分析、Schema 提取、成本估算
生产 DataSynth / DataLabel LLM 批量合成 / 零服务器标注
质量 DataCheck 规则验证、异常检测、自动修复
审计 ModelAudit 蒸馏检测、模型指纹

GitHub · PyPI · knowlyr.com

knowlyr -- 零服务器标注框架,LLM 预标注与标注者间一致性分析

关于这个项目,找他们聊

Kai
Kai Founder & CEO
程薇
程薇 AI 测试工程师