这个角色
你要回答一个问题:什么是好的 AI,以及怎么证明它。
不只是自己定义标准,还要让客户相信这个标准是对的。
不只是构建数据集,还要证明这个数据能改进模型。
你的工作将直接影响头部 AI 公司如何训练和改进他们的模型。
你会做什么
发现问题
- 从社区收集的 AI 错误案例中识别模式
- 从客户反馈中发现共性痛点
- 系统性地挖掘 AI 模型的弱点和边界案例
- 追踪北美最新的 AI 评估研究,识别值得跟进的方向
定义问题
- 把模糊的"AI 不好"变成可量化的评估维度
- 设计评估 schema,明确什么是好、什么是坏
- 针对 Agent 等新形态 AI,设计行为评估标准
- 写出让 1 万人标注网络能一致执行的标注指南
构建数据集
- 设计数据收集方案(众包、合成、爬取)
- 建立质量控制流程,确保大规模标注的一致性
- 构建可复用的 benchmark 和数据集
- 推动评估流程的自动化和工程化
证明数据好
- 设计实验,证明数据对模型改进的有效性
- 撰写方法论文档,让客户理解我们的评估逻辑
- 和客户沟通,回答"为什么你们的标准是对的"
- 用数据和实验建立客户信任
我们希望你
必须有的能力
- 能定义问题:看到混乱数据能归纳出结构和模式
- 能设计标准:知道怎么把"好坏"变成可执行的规则
- 能证明价值:会用数据和实验说服人,不怕客户质疑
- 能沟通:能向技术人员解释方法论,也能向业务人员解释价值
必须有的心态
- 对"AI 评估"这件事有好奇心——想搞清楚怎么衡量 AI 的好坏
- 想定义标准,而不只是执行——有主动定义问题的冲动
- 不只是"我觉得好",而是"我要证明给你看"
加分项
- 有构建数据集 / benchmark 的经验(学术或工业均可)
- 发表过 AI / NLP / 软件工程相关论文
- 有标注 / 众包平台的实际运营经验
- 熟悉 LLM 评估方法(RLHF、LLM-as-Judge、Constitutional AI 等)
- 熟悉 Agent 评估、红队测试、对抗性评估
- 有咨询或客户 facing 的工作经验
我们不需要
- 只会写论文、不关心落地的纯学术型
- 只会执行、不能独立定义问题的执行型
- 遇到客户质疑就 defensive 的玻璃心
- 对"人类判断在 AI 时代的价值"没有认同感的