招聘中上海（可谈 remote）

Evaluation Scientist

AI 评估科学家 · 定义什么是好的 AI，并证明它

应聘此岗位 → 参加能力测试

这个角色

你要回答一个问题：什么是好的 AI，以及怎么证明它。

不只是自己定义标准，还要让客户相信这个标准是对的。
不只是构建数据集，还要证明这个数据能改进模型。

你的工作将直接影响头部 AI 公司如何训练和改进他们的模型。

你会做什么

发现问题

从社区收集的 AI 错误案例中识别模式
从客户反馈中发现共性痛点
系统性地挖掘 AI 模型的弱点和边界案例
追踪北美最新的 AI 评估研究，识别值得跟进的方向

定义问题

把模糊的"AI 不好"变成可量化的评估维度
设计评估 schema，明确什么是好、什么是坏
针对 Agent 等新形态 AI，设计行为评估标准
写出让 1 万人标注网络能一致执行的标注指南

构建数据集

设计数据收集方案（众包、合成、爬取）
建立质量控制流程，确保大规模标注的一致性
构建可复用的 benchmark 和数据集
推动评估流程的自动化和工程化

证明数据好

设计实验，证明数据对模型改进的有效性
撰写方法论文档，让客户理解我们的评估逻辑
和客户沟通，回答"为什么你们的标准是对的"
用数据和实验建立客户信任

我们希望你

必须有的能力

能定义问题：看到混乱数据能归纳出结构和模式
能设计标准：知道怎么把"好坏"变成可执行的规则
能证明价值：会用数据和实验说服人，不怕客户质疑
能沟通：能向技术人员解释方法论，也能向业务人员解释价值

必须有的心态

对"AI 评估"这件事有好奇心——想搞清楚怎么衡量 AI 的好坏
想定义标准，而不只是执行——有主动定义问题的冲动
不只是"我觉得好"，而是"我要证明给你看"

加分项

有构建数据集 / benchmark 的经验（学术或工业均可）
发表过 AI / NLP / 软件工程相关论文
有标注 / 众包平台的实际运营经验
熟悉 LLM 评估方法（RLHF、LLM-as-Judge、Constitutional AI 等）
熟悉 Agent 评估、红队测试、对抗性评估
有咨询或客户 facing 的工作经验

我们不需要

只会写论文、不关心落地的纯学术型
只会执行、不能独立定义问题的执行型
遇到客户质疑就 defensive 的玻璃心
对"人类判断在 AI 时代的价值"没有认同感的

投简历前想先聊聊？

王瑶 VP, People & Culture

叶心蕾 AI HR

← 所有岗位应聘此岗位 →