这个角色
你要回答一个问题:我们的数据到底有没有用?
我们构建评估数据集,但数据好不好,不能只靠自己说。
你要用实验证明:用我们的数据训练的模型,确实更好。
你会做什么
设计验证实验
- 设计对照实验,验证不同数据集对模型效果的影响
- 定义评估指标,衡量"数据让模型变好了多少"
- 控制变量,确保实验结论可信
跑模型训练
- 用 3B/7B 小模型做快速验证实验
- 微调、SFT、DPO 等方法都要会
- 熟练使用 LLaMA-Factory、Axolotl 等训练框架
分析实验结果
- 解读训练结果,判断数据的有效性
- 发现数据中的问题(哪些数据有用、哪些是噪声)
- 输出可视化报告,让非技术人员也能理解
反馈数据迭代
- 根据实验结果,指导数据收集和标注的改进方向
- 和评估科学家配合,形成"数据→验证→改进"闭环
我们希望你
必须有的能力
- 会训练模型:熟悉 LLM 微调流程(SFT、DPO、RLHF 概念)
- 会设计实验:懂得控制变量、设计对照组、统计显著性
- 会分析结果:能从实验数据中得出可靠结论
- 会用工具:PyTorch、Transformers、常见训练框架
必须有的心态
- 对"数据怎么影响模型"有好奇心
- 追求实验严谨,不满足于"跑出来了就行"
- 愿意和非技术团队沟通,解释实验结论
加分项
- 有 RLHF / 人类反馈相关经验
- 发表过相关论文
- 有数据质量评估经验
- 熟悉 reward model 训练
我们不需要
- 只会调参、不理解为什么的调参侠
- 只关心模型、不关心数据的人
- 无法向非技术人员解释结果的人