招聘中上海（可谈 remote）

Data Validation Scientist

数据价值验证研究员 · 用实验证明数据的价值

应聘此岗位 → 参加能力测试

这个角色

你要回答一个问题：我们的数据到底有没有用？

我们构建评估数据集，但数据好不好，不能只靠自己说。
你要用实验证明：用我们的数据训练的模型，确实更好。

你会做什么

设计验证实验

设计对照实验，验证不同数据集对模型效果的影响
定义评估指标，衡量"数据让模型变好了多少"
控制变量，确保实验结论可信

跑模型训练

用 3B/7B 小模型做快速验证实验
微调、SFT、DPO 等方法都要会
熟练使用 LLaMA-Factory、Axolotl 等训练框架

分析实验结果

解读训练结果，判断数据的有效性
发现数据中的问题（哪些数据有用、哪些是噪声）
输出可视化报告，让非技术人员也能理解

反馈数据迭代

根据实验结果，指导数据收集和标注的改进方向
和评估科学家配合，形成"数据→验证→改进"闭环

我们希望你

必须有的能力

会训练模型：熟悉 LLM 微调流程（SFT、DPO、RLHF 概念）
会设计实验：懂得控制变量、设计对照组、统计显著性
会分析结果：能从实验数据中得出可靠结论
会用工具：PyTorch、Transformers、常见训练框架

必须有的心态

对"数据怎么影响模型"有好奇心
追求实验严谨，不满足于"跑出来了就行"
愿意和非技术团队沟通，解释实验结论

加分项

有 RLHF / 人类反馈相关经验
发表过相关论文
有数据质量评估经验
熟悉 reward model 训练

我们不需要

只会调参、不理解为什么的调参侠
只关心模型、不关心数据的人
无法向非技术人员解释结果的人

投简历前想先聊聊？

王瑶 VP, People & Culture

叶心蕾 AI HR

← 所有岗位应聘此岗位 →