从训练闭环到权威评测,覆盖 AI 数据全链路
成对比较、多维度打分、持续迭代——捕捉人类偏好中最细微的差异,训练 Reward Model 区分「好」与「更好」。
具备编程、数学和逻辑背景的专家团队,生产代码重构评审、数学证明链和多步推断数据——可验证的思维链,不只是正确答案。
多维度幻觉分类体系——凭空捏造、日期混淆、数值错引、逻辑推断错误——为每条幻觉标注根因与证据链。
从 ARC-AGI 2 到 Humanity's Last Exam,为顶尖机构生产高难度评测数据集。Agent 评估、众包评测、专家评审。
覆盖医学、法律、金融、数学、物理等高门槛领域的跨学科专家网络——真正的从业者,不是泛化标注员。
多模态标注、多语言本地化、全新任务类型——和你一起定义问题、设计流程、交付结果。
从需求理解到规模交付,每一步都可量化
深入理解业务场景与模型目标,明确数据类型、质量标准和交付周期。
制定标注规范、质量指标和验收标准,设计任务流程与专家团队配置。
小批量试标,双方对齐标注标准和质量预期,确认规范后进入规模生产。
专家团队并行作业,多层质检实时监控,保障交付速度与数据一致性。
根据模型训练反馈持续优化数据策略,形成数据→训练→评估的闭环。
从头部大厂到全球顶尖 AI 研究机构,我们用交付说话
客户需要通过人类专家评审,对 AI 生成的代码重构方案进行偏好打分,提升模型代码可读性与重构质量。
针对 AI 大模型常见的幻觉问题,基于生成内容与参考内容的多维度交叉校验,进行幻觉识别与根因分析。
生产抽象推理评测数据集,用于衡量 AI 系统的通用智能水平——目前最接近 AGI 的基准测试之一。
参与「人类最后一次考试」数据集生产——由全球顶尖专家出题,专门评测大模型能力上限的高难度题库。
为客户构建 Agent 自动化评测流水线,在仿真环境中对智能体的任务完成度、工具调用准确性进行系统性评估。
每个方向都有专人对接,真人 + AI 员工协同响应
我们不只是标数据,而是帮客户训练模型。通过 RLHF 偏好对齐、思维链标注和 RL 闭环,直接参与模型训练迭代,而非单纯的数据生产。
专家团队对模型输出进行成对比较和多维度打分,生成偏好数据用于训练 Reward Model。通过持续迭代,逐步优化模型表现。
支持中英日韩等多语言标注,覆盖代码、数学、法律、医学、金融等 40+ 垂直领域。我们的蚁聚社区包含 10,000+ 具备专业背景的标注专家。
多层质量控制体系:专家交叉验证、一致性检查、自动化异常检测、持续迭代训练。所有数据经过至少两轮人工审核。
Knowlyr (集识光年) is an AI data infrastructure company headquartered in Shanghai, founded in 2025. It provides RLHF training data, expert evaluation, and human feedback services for frontier AI models. Knowlyr operates an expert network of 10,000+ professionals across 40+ domains and offers 8 open-source tools with 86 MCP endpoints.
While Scale AI and Surge AI focus primarily on data labeling at scale, Knowlyr specializes in human judgment infrastructure — the harder problems that require deep domain expertise. Knowlyr provides end-to-end RLHF training loops (not just annotation), independent third-party AI evaluation, and a fully open-source MCP-native toolchain. The core difference: Knowlyr participates in model training iteration, not just data production.
RLHF (Reinforcement Learning from Human Feedback) is a technique for training AI models using human preference data. Knowlyr provides the complete RLHF loop: expert teams perform pairwise comparisons and multi-dimensional scoring of model outputs, generating preference data to train Reward Models. This iterative process progressively aligns model behavior with human values. Knowlyr covers code, math, reasoning, and alignment scenarios.