大模型数据工程师 · 开放机会中

数据质量
驱动模型进化

你好,我是招富耀。专注 SFT 数据全链路管理与多模态数据质量体系搭建,从需求拆解到交付评测,让每一条训练数据都经得起检验。

招富耀
91%标注一致性主观类容差范围内
20,000+SFT 训练数据高质量人工精修
62%→89%模型可用率提升综合指标
产出效率提升18→55 条/人/天
4.6/5用户满意度亲子场景
500+每轮评测样本双盲抽样
91%标注一致性主观类容差范围内
20,000+SFT 训练数据高质量人工精修
62%→89%模型可用率提升综合指标
产出效率提升18→55 条/人/天
4.6/5用户满意度亲子场景
500+每轮评测样本双盲抽样

About

视觉传达 × 大模型数据
跨界视角,独特优势

我是招富耀,一名专注于 SFT 数据全链路的大模型数据工程师。拥有视觉传达设计的专业背景,这让我在多模态数据场景下——尤其是图像质量评估、视觉-文本一致性判定等环节——具备独特的跨界视角。

从知乎大语言模型训练项目的数据标注实习起步,到担任数据项目负责人统筹 AI 业务数据的完整闭环,我在实践中建立了对大模型训练数据规范、标注工作流与质量管理的系统性认知。

我相信,数据质量是模型能力的天花板。我的工作核心是在需求拆解、数据合成、标注管理与评测验收的每一个环节中,确保交付给模型的每一条数据都经得起检验。

2023.07 — 2026.01
若瑞(上海)文化科技有限公司

数据项目负责人

统筹 AI 业务数据完整闭环,管理 4 人数据组,与算法研发及硬件集成团队(共 12 人)协同推进项目落地。

2023.02 — 2023.07
知乎

数据标注实习生(面壁计划 · 大语言模型训练)

参与大语言模型训练数据集的系统性构建,负责问答对训练数据的生产管理。

2019 — 2023
山东艺术学院

视觉传达设计 · 本科

系统的审美训练为多模态场景下的数据工作提供了差异化视角。

Capabilities

你需要的一切能力
不多余的一项

01

SFT 数据全链路

从业务需求拆解、数据规格定义、合成生产、标注管理到交付评测的完整闭环。能结合模型能力演进与真实场景反馈,动态调整数据构建策略。

02

标注规则量化

擅长将主观风格需求量化为可操作的标注维度。独立搭建"黄金样本 + 双人盲标 + 仲裁"三级质检体系,主观类标注一致性达 91%。

03

数据合成与自动化

借助 AI 辅助编程进行数据预清洗;调用大模型 API 结合少样本示例进行批量合成与扩写;搭建可复用的评测工具。

04

评测体系设计

多维度盲测评测框架(0-3 分制),覆盖文本与图像维度,安全无害性一票否决。通过双盲抽样驱动模型多轮迭代。

05

多模态数据

视觉传达设计背景赋予独特视角,在图像质量评估、人像相似度判定、视觉-文本一致性等多模态场景中具有专业审美判断力。

06

团队管理

4 人数据团队日常管理经验,与算法研发、硬件集成等跨职能团队保持需求对齐与进度同步,建立周级数据交付看板。

Projects

项目实战
用数据质量说话

PROJECT 01

智慧展馆 AI 多模态系统

多模态感知 · 个性化生成 · RAG 知识增强 — 覆盖"感知识别–内容生成–实体转化"的完整 AI 系统

  • 需求拆解与规格定义 — 将业务目标拆解为讲解内容生成、人像风格转化等 AI 功能模块的数据需求,定义字段结构、标注维度与验收标准。
  • SFT 训练数据合成 — 以展馆原始资料为种子数据,设计多风格扩写模板,调用大模型 API 批量合成,经人工逐条精修,累计交付超 20,000 条。
  • RAG 知识库治理 — 制定文本切分粒度与语义完整性规范,建立知识库版本管理流程。
  • 多模态评测框架 — 覆盖文本与图像维度的双盲评测(0-3 分制),每轮 500+ 条样本,支撑多轮迭代。
PROJECT 02

智慧展馆 AI 自适应讲解系统

基于 AI 视觉特征识别,根据观众属性实现讲解内容的实时动态匹配

  • 需求规格与规则量化 — 输出 20 余页需求规格文档,将"童趣、探索、专业"三类主观风格量化为可标注维度。
  • 风格校准与黄金样本 — 构建种子数据集并通过大模型 API 扩写+人工精修,针对每套风格建立黄金样本库。
  • 真实场景数据纠偏 — 现场调研发现亲子占比高于预估,调整采集比例,稳定性显著改善。
  • 全流程质量管控 — 从标注规范到交付验收全链路推进,沉淀规则文档与质检方案的迭代机制。

Tools

自主搭建的效率工具

识别到效率瓶颈后主动搭建的自动化工具,解决数据生产与评测中的实际问题。

展语生成器

展语生成器

SFT 训练数据合成工具

以展馆原始资料为种子输入,支持四种受众风格并行扩写与流式输出。内置格式校验与质量筛选,累计支撑交付 20,000+ 条数据。

查看源码
语检评测工具

语检 — AI 评测引擎

智慧展馆大模型评测工作流

实现 5 维度自动评分与安全无害性一票否决机制,自动生成评分明细与异常样本标记。效率较纯人工提升 3-5 倍。

查看源码

Contact

期待与你交流

如果你正在寻找一位懂数据质量、懂模型需求、能从需求到交付全链路把控的大模型数据工程师,欢迎联系我。

"

数据质量是模型能力的天花板。
我的工作,是不断抬高这个天花板。

— 招富耀
微信二维码

扫码添加微信,期待与你交流