Open Source Python

Knowlyr Gym

RL 训练框架

★ 3 ⑂ 0 更新于 2026-02-26
Gymnasium 风格的 RL 训练框架——MDP 形式化建模 Agent 决策过程, 过程奖励模型 (PRM) 提供步骤级反馈信号,支持沙箱隔离、轨迹录制和分布式 Pipeline 编排。
MDP 建模 过程奖励模型 沙箱隔离

Quick Start

Install
pip install knowlyr-hub[all]
Usage
from trajectoryhub import Pipeline, PipelineConfig

pipeline = Pipeline(PipelineConfig(output_dir="./output"))
traj = pipeline.run_from_log("agent.jsonl", "openhands")
create_sandbox 创建 Docker 沙箱执行环境
execute_tool 在沙箱中执行工具 (file_read, file_write, shell, search, git)
reset_sandbox 重置沙箱到初始状态
replay_trajectory 在沙箱中重放 Agent 执行轨迹
sandbox_snapshot 保存沙箱当前状态快照(文件系统 diff + 环境信息)
convert_logs 将 Agent 日志转换为标准化轨迹格式
validate_logs 验证日志文件是否为指定的 Agent 框架格式
get_schema 返回标准化轨迹的 JSON Schema 定义
recorder_diff 对比两条轨迹的差异 — 步骤数、工具使用、成功率等维度对比
score_trajectory 对单条 Agent 轨迹计算过程级 Reward
build_preferences 从多条轨迹构建偏好对 (用于 RLHF/DPO 训练)
calibrate_reward 将自动 Reward 与人工标注进行校准
list_rubrics 列出可用的评估 Rubric 维度
reward_leaderboard 从多条轨迹生成奖励排行榜 — 按 Reward 分数排序,对比不同模型/策略的表现
run_pipeline 运行完整的 Agent 轨迹数据 Pipeline (Task -> Sandbox -> Recorder -> Reward -> Export)
export_dataset 将轨迹数据导出为指定的训练格式 (SFT / DPO / Benchmark / HuggingFace)
process_log 处理单个 Agent 日志文件,解析并评分生成标准轨迹
process_logs_batch 批量处理 Agent 日志目录,解析并评分生成标准轨迹
pipeline_status 查看 Pipeline 执行状态和进度

文档

knowlyr-gym

Gymnasium 风格强化学习框架
Gymnasium-Style Reinforcement Learning Framework
面向 LLM Agent 训练

MDP 形式化 · 三层过程奖励模型 · SFT / DPO / GRPO 策略优化

形式化 MDP 环境、三层过程奖励、完整策略优化管线

快速开始 · 架构 · 核心创新 · 组件 · 生态系统

knowlyr-gym 是什么? / What is knowlyr-gym?

knowlyr-gym 是 LLM Agent 的训练基础设施——不是又一个推理框架。它回答三个根本问题:在哪练(Gymnasium 兼容环境)、怎么评(三层过程奖励模型)、如何优化(SFT / DPO / GRPO 策略训练)。环境产出轨迹,奖励评估质量,训练器优化策略——三者通过标准化数据格式串联为闭环。

本框架将 LLM tool-use agent 任务形式化为马尔可夫决策过程 $\langle \mathcal{S}, \mathcal{A}, T, R, \gamma \rangle$,实现了从环境交互到策略优化的完整强化学习管线。

架构 / Architecture

graph LR
    subgraph MDP["MDP 环境层"]
        ENV["AgentEnv<br/>reset() / step() / close()"]
        TS["TimeStep<br/>observation · reward<br/>terminated · truncated"]
        ENV --> TS
    end

    subgraph RL["RL 训练循环"]
        PI["策略 π<br/>(LLM Agent)"]
        COL["Rollout<br/>collect()"]
        RM["过程奖励<br/>模型 (PRM)"]
        EXP["数据集<br/>SFT / DPO / GRPO"]
        OPT["策略<br/>优化"]
    end

    PI -->|action| ENV
    TS -->|observation| PI
    COL -->|trajectories| RM
    RM -->|scored trajectories| EXP
    EXP --> OPT
    OPT -->|updated π| PI
    ENV -.->|wrappers| COL

    style MDP fill:#1a1a2e,color:#e0e0e0,stroke:#444
    style RL fill:#0d1b2a,color:#e0e0e0,stroke:#444
    style PI fill:#0969da,color:#fff,stroke:#0969da
    style RM fill:#8b5cf6,color:#fff,stroke:#8b5cf6

核心创新 / Key Innovations

Gymnasium 兼容环境协议 / Gymnasium-Compatible Environment Protocol

5 个注册环境(knowlyr/sandboxknowlyr/conversationknowlyr/engineeringknowlyr/advisoryknowlyr/discussion)搭配 4 个可组合 Wrapper——将 Gymnasium 的 reset() / step() / close() 模式扩展至 LLM Agent 场景,支持结构化 tool-call 动作空间和自然语言状态空间。

DomainProfile — 领域无关抽象 / Domain-Agnostic Abstraction

声明式领域配置,涵盖工具集、工具类别、结果判定规则和评分维度权重。7 个内置领域(coding、browser、conversation、engineering、advisory、discussion、generic)——新增领域无需修改核心代码。

三层过程奖励模型 / Three-Layer Process Reward Model

步骤级过程奖励 $r_t = R(s_t, a_t)$,取代稀疏的结果奖励。三层架构逐层提升评估质量:

方法 成本 延迟
规则层 冗余检测、回归检测、信息利用分析、效率分析 ~0 <1ms
LLM-as-Judge 基于 Rubric 的多维度语义评分 ~$0.01/步 ~1s
人工层 通过人工标注进行校准 离线 离线

策略优化 — SFT / DPO / GRPO / Policy Optimization

三种方法覆盖从行为克隆到在线策略优化的完整谱系,外加 6 项 Agent 专属训练增强:观测遮蔽、步骤加权损失、轨迹分块、课程学习、多轮格式化、步骤级 GRPO。

快速开始 / Quick Start

from knowlyrcore import make

env = make("knowlyr/conversation")
ts = env.reset(task="帮用户查询订单状态")
while not ts.done:
    action = my_agent(ts.observation)   # π(a|s)
    ts = env.step(action)              # s', r, done
env.close()
pip install knowlyr-hub[all]

组件 / Components

RL 角色 描述
knowlyr-core MDP 协议 AgentEnv · TimeStep · EnvWrapper · Registry · DomainProfile
knowlyr-sandbox 环境 Docker 沙箱执行 · SandboxEnv · ConversationEnv
knowlyr-recorder 轨迹缓冲 Agent 日志解析 · 标准化轨迹 · 适配器注册表
knowlyr-reward 奖励模型 三层 PRM · Rubric 评分 · 偏好对构建
knowlyr-hub Rollout 与数据 collect() 采样 · DatasetExporter · Pipeline 编排 · CAS 去重 · GDI 排名
knowlyr-trainer 策略优化 SFT · DPO · GRPO · 评估 · 推理桥

生态系统 / Ecosystem

项目 描述
发现 AI Dataset Radar 数据集竞争情报、趋势分析
分析 DataRecipe 逆向分析、Schema 提取、成本估算
生产 DataSynth / DataLabel LLM 批量合成 / 轻量标注
质量 DataCheck 规则验证、重复检测、分布分析
审计 ModelAudit 蒸馏检测、模型指纹
协商 Crew 对抗式多智能体协商 · 持久记忆进化
身份 knowlyr-id 身份系统 + AI 员工运行时
Agent 训练 knowlyr-gym Gymnasium 风格 RL 框架 · 过程奖励模型 · SFT/DPO/GRPO
knowlyr — Gymnasium 风格 LLM Agent 训练 RL 框架

关于这个项目,找他们聊

Kai" onerror="var d=document.createElement('div');d.innerHTML=this.dataset.fallback;this.replaceWith(d.firstChild)" />
Kai Founder & CEO
赵云帆" onerror="var d=document.createElement('div');d.innerHTML=this.dataset.fallback;this.replaceWith(d.firstChild)" />
赵云帆 AI 后端工程师