招富耀 — 大模型数据工程师

91%标注一致性主观类容差范围内

20,000+SFT 训练数据高质量人工精修

62%→89%模型可用率提升综合指标

3×产出效率提升18→55 条/人/天

4.6/5用户满意度亲子场景

500+每轮评测样本双盲抽样

91%标注一致性主观类容差范围内

20,000+SFT 训练数据高质量人工精修

62%→89%模型可用率提升综合指标

3×产出效率提升18→55 条/人/天

4.6/5用户满意度亲子场景

500+每轮评测样本双盲抽样

About

视觉传达 × 大模型数据
跨界视角，独特优势

我是招富耀，一名专注于 SFT 数据全链路的大模型数据工程师。拥有视觉传达设计的专业背景，这让我在多模态数据场景下——尤其是图像质量评估、视觉-文本一致性判定等环节——具备独特的跨界视角。

从知乎大语言模型训练项目的数据标注实习起步，到担任数据项目负责人统筹 AI 业务数据的完整闭环，我在实践中建立了对大模型训练数据规范、标注工作流与质量管理的系统性认知。

我相信，数据质量是模型能力的天花板。我的工作核心是在需求拆解、数据合成、标注管理与评测验收的每一个环节中，确保交付给模型的每一条数据都经得起检验。

2023.07 — 2026.01

若瑞（上海）文化科技有限公司

数据项目负责人

统筹 AI 业务数据完整闭环，管理 4 人数据组，与算法研发及硬件集成团队（共 12 人）协同推进项目落地。

2023.02 — 2023.07

知乎

数据标注实习生（面壁计划 · 大语言模型训练）

参与大语言模型训练数据集的系统性构建，负责问答对训练数据的生产管理。

2019 — 2023

山东艺术学院

视觉传达设计 · 本科

系统的审美训练为多模态场景下的数据工作提供了差异化视角。

Capabilities

你需要的一切能力
不多余的一项

SFT 数据全链路

从业务需求拆解、数据规格定义、合成生产、标注管理到交付评测的完整闭环。能结合模型能力演进与真实场景反馈，动态调整数据构建策略。

标注规则量化

擅长将主观风格需求量化为可操作的标注维度。独立搭建"黄金样本 + 双人盲标 + 仲裁"三级质检体系，主观类标注一致性达 91%。

数据合成与自动化

借助 AI 辅助编程进行数据预清洗；调用大模型 API 结合少样本示例进行批量合成与扩写；搭建可复用的评测工具。

评测体系设计

多维度盲测评测框架（0-3 分制），覆盖文本与图像维度，安全无害性一票否决。通过双盲抽样驱动模型多轮迭代。

多模态数据

视觉传达设计背景赋予独特视角，在图像质量评估、人像相似度判定、视觉-文本一致性等多模态场景中具有专业审美判断力。

团队管理

4 人数据团队日常管理经验，与算法研发、硬件集成等跨职能团队保持需求对齐与进度同步，建立周级数据交付看板。

Projects

项目实战
用数据质量说话

PROJECT 01

智慧展馆 AI 多模态系统

多模态感知 · 个性化生成 · RAG 知识增强 — 覆盖"感知识别–内容生成–实体转化"的完整 AI 系统

需求拆解与规格定义 — 将业务目标拆解为讲解内容生成、人像风格转化等 AI 功能模块的数据需求，定义字段结构、标注维度与验收标准。
SFT 训练数据合成 — 以展馆原始资料为种子数据，设计多风格扩写模板，调用大模型 API 批量合成，经人工逐条精修，累计交付超 20,000 条。
RAG 知识库治理 — 制定文本切分粒度与语义完整性规范，建立知识库版本管理流程。
多模态评测框架 — 覆盖文本与图像维度的双盲评测（0-3 分制），每轮 500+ 条样本，支撑多轮迭代。

PROJECT 02

智慧展馆 AI 自适应讲解系统

基于 AI 视觉特征识别，根据观众属性实现讲解内容的实时动态匹配

需求规格与规则量化 — 输出 20 余页需求规格文档，将"童趣、探索、专业"三类主观风格量化为可标注维度。
风格校准与黄金样本 — 构建种子数据集并通过大模型 API 扩写+人工精修，针对每套风格建立黄金样本库。
真实场景数据纠偏 — 现场调研发现亲子占比高于预估，调整采集比例，稳定性显著改善。
全流程质量管控 — 从标注规范到交付验收全链路推进，沉淀规则文档与质检方案的迭代机制。

Tools

自主搭建的效率工具

识别到效率瓶颈后主动搭建的自动化工具，解决数据生产与评测中的实际问题。

展语生成器

SFT 训练数据合成工具

以展馆原始资料为种子输入，支持四种受众风格并行扩写与流式输出。内置格式校验与质量筛选，累计支撑交付 20,000+ 条数据。

查看源码

语检 — AI 评测引擎

智慧展馆大模型评测工作流

实现 5 维度自动评分与安全无害性一票否决机制，自动生成评分明细与异常样本标记。效率较纯人工提升 3-5 倍。

查看源码

Contact

期待与你交流

如果你正在寻找一位懂数据质量、懂模型需求、能从需求到交付全链路把控的大模型数据工程师，欢迎联系我。

邮箱1298736616@qq.com

电话183 6308 8062

GitHubjackygilbert498-debug

微信点击查看二维码

数据质量是模型能力的天花板。
我的工作，是不断抬高这个天花板。

— 招富耀