Join Us · 加入我们

寻找相信人类判断不可替代的人

开放岗位

Evaluation Scientist
AI 评估科学家
定义什么是好的 AI,并证明它 · 上海(可谈 remote)
+

这个角色

你要回答一个问题:什么是好的 AI,以及怎么证明它。

不只是自己定义标准,还要让客户相信这个标准是对的。
不只是构建数据集,还要证明这个数据能改进模型。

你的工作将直接影响头部 AI 公司如何训练和改进他们的模型。

你会做什么

发现问题

  • 从社区收集的 AI 错误案例中识别模式
  • 从客户反馈中发现共性痛点
  • 系统性地挖掘 AI 模型的弱点和边界案例
  • 追踪北美最新的 AI 评估研究,识别值得跟进的方向

定义问题

  • 把模糊的"AI 不好"变成可量化的评估维度
  • 设计评估 schema,明确什么是好、什么是坏
  • 针对 Agent 等新形态 AI,设计行为评估标准
  • 写出让 1 万人标注网络能一致执行的标注指南

构建数据集

  • 设计数据收集方案(众包、合成、爬取)
  • 建立质量控制流程,确保大规模标注的一致性
  • 构建可复用的 benchmark 和数据集
  • 推动评估流程的自动化和工程化

证明数据好

  • 设计实验,证明数据对模型改进的有效性
  • 撰写方法论文档,让客户理解我们的评估逻辑
  • 和客户沟通,回答"为什么你们的标准是对的"
  • 用数据和实验建立客户信任

我们希望你

必须有的能力

  • 能定义问题:看到混乱数据能归纳出结构和模式
  • 能设计标准:知道怎么把"好坏"变成可执行的规则
  • 能证明价值:会用数据和实验说服人,不怕客户质疑
  • 能沟通:能向技术人员解释方法论,也能向业务人员解释价值

必须有的心态

  • 对"AI 评估"这件事有好奇心——想搞清楚怎么衡量 AI 的好坏
  • 想定义标准,而不只是执行——有主动定义问题的冲动
  • 不只是"我觉得好",而是"我要证明给你看"

加分项

  • 有构建数据集 / benchmark 的经验(学术或工业均可)
  • 发表过 AI / NLP / 软件工程相关论文
  • 有标注 / 众包平台的实际运营经验
  • 熟悉 LLM 评估方法(RLHF、LLM-as-Judge、Constitutional AI 等)
  • 熟悉 Agent 评估、红队测试、对抗性评估
  • 有咨询或客户 facing 的工作经验

我们不需要

  • 只会写论文、不关心落地的纯学术型
  • 只会执行、不能独立定义问题的执行型
  • 遇到客户质疑就 defensive 的玻璃心
  • 对"人类判断在 AI 时代的价值"没有认同感的
Data Validation Scientist
数据价值验证研究员
用实验证明数据的价值 · 上海(可谈 remote)
+

这个角色

你要回答一个问题:我们的数据到底有没有用?

我们构建评估数据集,但数据好不好,不能只靠自己说。
你要用实验证明:用我们的数据训练的模型,确实更好。

你会做什么

设计验证实验

  • 设计对照实验,验证不同数据集对模型效果的影响
  • 定义评估指标,衡量"数据让模型变好了多少"
  • 控制变量,确保实验结论可信

跑模型训练

  • 用 3B/7B 小模型做快速验证实验
  • 微调、SFT、DPO 等方法都要会
  • 熟练使用 LLaMA-Factory、Axolotl 等训练框架

分析实验结果

  • 解读训练结果,判断数据的有效性
  • 发现数据中的问题(哪些数据有用、哪些是噪声)
  • 输出可视化报告,让非技术人员也能理解

反馈数据迭代

  • 根据实验结果,指导数据收集和标注的改进方向
  • 和评估科学家配合,形成"数据→验证→改进"闭环

我们希望你

必须有的能力

  • 会训练模型:熟悉 LLM 微调流程(SFT、DPO、RLHF 概念)
  • 会设计实验:懂得控制变量、设计对照组、统计显著性
  • 会分析结果:能从实验数据中得出可靠结论
  • 会用工具:PyTorch、Transformers、常见训练框架

必须有的心态

  • 对"数据怎么影响模型"有好奇心
  • 追求实验严谨,不满足于"跑出来了就行"
  • 愿意和非技术团队沟通,解释实验结论

加分项

  • 有 RLHF / 人类反馈相关经验
  • 发表过相关论文
  • 有数据质量评估经验
  • 熟悉 reward model 训练

我们不需要

  • 只会调参、不理解为什么的调参侠
  • 只关心模型、不关心数据的人
  • 无法向非技术人员解释结果的人

在线能力测试

我们不看简历筛人。完成这份测试,直接展示你的思维方式。

13 道开放题 · 约 2 小时 · 答案自动保存

投简历前想先聊聊?

有疑问?

联系我们 →