RLHF 闭环方案 — 集识光年

TIER 1

Know-what

基础数据采集与标注

通用数据标注（文本 / 图像 / 视频 / 音频）
多语言与跨文化内容
专业知识数据生产
领域数据清洗与结构化

TIER 2 · 核心

Know-how RL

端到端强化学习闭环

RLHF 人类反馈强化学习
复杂推理数据生产与标注
偏好对齐与迭代优化
代码 / 数学 / 逻辑推理场景
幻觉检测与修正

TIER 3

Know-why

第三方权威评测体系

Agent 基准评测与仿真环境
众包评测
垂直行业专家评审
模型能力对比分析

核心产品

从训练闭环到权威评测，覆盖 AI 数据全链路

RLHF 偏好对齐

RLHF & Preference Alignment

成对比较、多维度打分、持续迭代——捕捉人类偏好中最细微的差异，训练 Reward Model 区分「好」与「更好」。

偏好比较 Reward Model 迭代优化

代码 / 数学 / 逻辑推理

Code / Math / Logic Reasoning

具备编程、数学和逻辑背景的专家团队，生产代码重构评审、数学证明链和多步推断数据——可验证的思维链，不只是正确答案。

代码推理数学证明思维链

幻觉检测与修正

Hallucination Detection

多维度幻觉分类体系——凭空捏造、日期混淆、数值错引、逻辑推断错误——为每条幻觉标注根因与证据链。

事实核查根因分析证据链

评测与基准构建

Evaluation & Benchmarking

从 ARC-AGI 2 到 Humanity's Last Exam，为顶尖机构生产高难度评测数据集。Agent 评估、众包评测、专家评审。

Agent 评测基准数据集专家出题

专家领域数据生产

Expert Domain Data

覆盖医学、法律、金融、数学、物理等高门槛领域的跨学科专家网络——真正的从业者，不是泛化标注员。

领域专家垂直行业跨学科

其他定制化需求

Custom Solutions

多模态标注、多语言本地化、全新任务类型——和你一起定义问题、设计流程、交付结果。

按需定制多模态多语言

合作流程

从需求理解到规模交付，每一步都可量化

01

需求沟通

深入理解业务场景与模型目标，明确数据类型、质量标准和交付周期。

02

方案设计

制定标注规范、质量指标和验收标准，设计任务流程与专家团队配置。

03

试标验证

小批量试标，双方对齐标注标准和质量预期，确认规范后进入规模生产。

04

规模生产

专家团队并行作业，多层质检实时监控，保障交付速度与数据一致性。

05

持续迭代

根据模型训练反馈持续优化数据策略，形成数据→训练→评估的闭环。

客户案例

从头部大厂到全球顶尖 AI 研究机构，我们用交付说话

代码重构 · RLHF

字节跳动

客户需要通过人类专家评审，对 AI 生成的代码重构方案进行偏好打分，提升模型代码可读性与重构质量。

解决方案

任务设计

组建具有编程背景的专家团队
设计多维度偏好评价体系
建立代码可读性量化评分标准

RL 闭环

专家进行成对偏好比较与打分
持续迭代训练，优化 Reward Model
代码可读性评分显著提升

幻觉检测

某头部 AI 大模型企业

针对 AI 大模型常见的幻觉问题，基于生成内容与参考内容的多维度交叉校验，进行幻觉识别与根因分析。

解决方案

细化幻觉分类

凭空捏造
日期混淆
数值引用错误
事实错引
逻辑推断错误

推理链数据

标注幻觉并生成推理证据
标注参考内容之间的矛盾
标注真实内容与参考的一致性
生产难以判断的幻觉原因数据

抽象推理 · ARC-AGI 2

ARC-AGI 2 抽象推理数据集

生产抽象推理评测数据集，用于衡量 AI 系统的通用智能水平——目前最接近 AGI 的基准测试之一。

解决方案

数据设计

设计视觉与逻辑推理任务
构建多层级抽象推理题目
确保题目对 AI 具有真实挑战性

质量控制

人类专家交叉验证
确保题目逻辑自洽且无歧义
多轮迭代筛选高质量样本

极限评测 · HLE

Humanity's Last Exam 数据集

参与「人类最后一次考试」数据集生产——由全球顶尖专家出题，专门评测大模型能力上限的高难度题库。

解决方案

专家网络

组织跨学科领域专家出题
覆盖数学、物理、法律等高门槛领域
确保题目超越当前最强模型能力

数据标准

标准化答案与评分规则
多轮专家评审确保无争议
生产高质量推理过程数据

Agent 评测

智能体评估与仿真环境

为客户构建 Agent 自动化评测流水线，在仿真环境中对智能体的任务完成度、工具调用准确性进行系统性评估。

解决方案

评测框架

搭建自动化评测工作流
设计多维度 Agent 能力指标
构建可复现的仿真测试环境

持续迭代

评测结果反馈至模型训练
持续扩充评测场景覆盖面
人机协同校准评测标准

找对的人聊

每个方向都有专人对接，真人 + AI 员工协同响应

常见问题

你们和普通数据标注公司有什么区别？

我们不只是标数据，而是帮客户训练模型。通过 RLHF 偏好对齐、思维链标注和 RL 闭环，直接参与模型训练迭代，而非单纯的数据生产。

RLHF 数据标注的流程是怎样的？

专家团队对模型输出进行成对比较和多维度打分，生成偏好数据用于训练 Reward Model。通过持续迭代，逐步优化模型表现。

支持哪些语言和领域？

支持中英日韩等多语言标注，覆盖代码、数学、法律、医学、金融等 40+ 垂直领域。我们的蚁聚社区包含 10,000+ 具备专业背景的标注专家。

如何保证数据质量？

多层质量控制体系：专家交叉验证、一致性检查、自动化异常检测、持续迭代训练。所有数据经过至少两轮人工审核。

What is Knowlyr?

Knowlyr (集识光年) is an AI data infrastructure company headquartered in Shanghai, founded in 2025. It provides RLHF training data, expert evaluation, and human feedback services for frontier AI models. Knowlyr operates an expert network of 10,000+ professionals across 40+ domains and offers 8 open-source tools with 86 MCP endpoints.

How is Knowlyr different from Scale AI or Surge AI?

While Scale AI and Surge AI focus primarily on data labeling at scale, Knowlyr specializes in human judgment infrastructure — the harder problems that require deep domain expertise. Knowlyr provides end-to-end RLHF training loops (not just annotation), independent third-party AI evaluation, and a fully open-source MCP-native toolchain. The core difference: Knowlyr participates in model training iteration, not just data production.

What is RLHF and how does Knowlyr support it?

RLHF (Reinforcement Learning from Human Feedback) is a technique for training AI models using human preference data. Knowlyr provides the complete RLHF loop: expert teams perform pairwise comparisons and multi-dimensional scoring of model outputs, generating preference data to train Reward Models. This iterative process progressively aligns model behavior with human values. Knowlyr covers code, math, reasoning, and alignment scenarios.

Reinforcement Learning闭环方案

核心产品

合作流程

客户案例

找对的人聊

常见问题

Reinforcement Learning
闭环方案