[五分钟讲清楚]大模型开发应用层概念

whoway2026/1/30大约 4 分钟

[五分钟讲清楚]大模型开发应用层概念

工程进阶1、模型的训练和推理的区别

模型的训练和推理的区别【b 站有个很好的视频，但是下架了】

训练(Training)和推理(Inference)

大模型训练过程是指通过大数据训练出一个复杂的神经网络模型，通过大量数据的训练确定网络中权重和偏置的值，使其能够适应特定的功能。

训练过程需要较高的计算性能、需要海量的数据、训练出的网络具有一定通用性，追求的是高计算性能（高吞吐率）、低功耗。

推理：

指利用训练好的神经网络模型进行运算，利用输入的新数据来一次性获得正确结论的过程。

推理相对来说对性能的要求并不高，对精度要求也不高，在特定的场景下，对通用性要求也低，推理芯片主要追求的是低延时（完成推理过程所需要的时间尽可能短）、低功耗。能完成特定任务即可，因为推理的结果直接提供给终端用户，所以更关注用户体验。

AI芯片是大模型训练和推理的支撑。而AI芯片又分为训练（Training）芯片和推理（Inference）芯片，

工程进阶2、模型微调(Fine Tuning，也就是FT)的术语

微调(Fine Tuning)
SFT（Supervised Fine-Tuning监督微调，有监督微调）
大概 50-60 篇最核心的算法，现在策略同学学习 vLLM

工程进阶3、模型部署+模型加速

模型部署

具体要看是集群云部署，还是分布式边缘部署

模型边缘部署的相关技术，比如模型部署的时候，会遇到模型压缩与加速的技术
模型裁剪（Pruning）和模型量化（Quantization）是两种常用于模型压缩与加速的技术，尤其在部署深度学习模型到边缘设备或对推理速度有高要求的场景中非常关键。

想部署到 边缘设备（手机、嵌入式）：量化优先 + 裁剪
想 在保证精度的同时压缩：蒸馏 + 裁剪/量化组合
想加速推理但对精度有一定容忍度：量化最稳妥

模型裁剪（Pruning）

比如：一个全连接层有1000个神经元，但训练后发现其中有40%几乎从不激活，可以剪掉这些神经元，降低模型复杂度。

模型量化（Quantization）

原始模型中的每个参数是32位浮点数（FP32），你可以将其变成8位整数（INT8），使模型从100MB降到25MB。
1、pytorch是学术界用的，部署还得模型打包量化，不然边缘设备跑不动、fp32的大模型推理也贵，他们也要做量化，比调包有技术含量多了
2、模型量化，大模型的量化是一种优化技术，其过程包括将深度学习模型中的权重和激活值从高精度浮点数（如32位）转换为低精度表示（如8位整数，INT8），这个过程被称为“量化”。它旨在减少模型的大小和计算复杂性，同时尽可能减少精度损失的优化手段。就是 fp32 模型改成 int8，int4，和底层相关了，有些算子得自己写cuda编译

模型蒸馏（Knowledge Distillation）

通过大模型（教师模型）的输出，引导小模型（学生模型）学习，训练一个新模型（学生模型），模仿老师
知识蒸馏是人工智能领域重要的模型压缩方法，在自然语言处理、计算机视觉、多模态学习、预训练大模型领域有广泛应用。通过师徒传授，将大规模教师模型的知识传递给轻量化学生网络，实现模型压缩和部署。

参考资料：https://www.bilibili.com/video/BV1gS4y1k7vj/?spm_id_from=333.337.search-card.all.click&vd_source=ea20f1fccee6fd3f1af7d59cd3ae7575

大模型的能力[以火山引擎的模型为例]

深度思考能力
文本生成能力
工具调用能力，比如MCP
文本向量化能力
图像向量化能力
语音处理能力
上下文缓存
视觉理解能力
视频生成能力
图片生成能力
GUI 任务处理能力
同声传译能力
结构化输出

图片理解的传参注意事项

比如什么：

支持能访问的图片链接
支持图片的Base64编码
还有什么图片的高细节模式、低细节模式
参考资料：https://www.volcengine.com/docs/82379/1494384

多模态

多模态指的是多种模态的信息，包括：文本、图像、视频、音频等。
顾名思义，多模态研究的就是这些不同类型的数据的融合的问题。

文生图

顶尖大厂（Runway、快手、字节、Stability）：用 自研模型 + 自研工作流平台，不会直接用 ComfyUI。
中型创业公司 / 创意团队：常用 开源模型 + 自建 pipeline（Diffusers/ComfyUI）。
小型工作室 / 商业外包团队：直接用 ComfyUI + 插件，然后卖服务/交付产出。