开云体育(中国)官方网站同期模子性能着实与压缩前的微调模子卓越-开云集团「中国」Kaiyun·官方网站

你的位置：开云集团「中国」Kaiyun·官方网站 > 新闻 > 开云体育(中国)官方网站同期模子性能着实与压缩前的微调模子卓越-开云集团「中国」Kaiyun·官方网站

开云体育(中国)官方网站同期模子性能着实与压缩前的微调模子卓越-开云集团「中国」Kaiyun·官方网站

时间：2025-05-13 07:53:56 点击：108 次

最新模子增量压缩时候，一个80G 的 A100 GPU大要草率加载多达50 个 7B 模子，省俭显存约 8 倍，同期模子性能着实与压缩前的微调模子卓越。

清华大学 NLP 推行室联袂 OpenBMB 开源社区、北京大学和上海财经大学的询查团队，提议Delta-CoMe。

这项时候的中枢在于愚弄骨干模子与任务专用模子之间参数增量（即 Delta）的特色进行压缩，从而收场有储支出和部署资本的大幅裁汰。不仅有助于科罚资源瓶颈问题，更为多任务处理和模子部署开发新的可能。

具体而言，Delta-CoMe 将低秩阐述和低比特量化时候相不竭，充分愚弄 Delta 参数的低秩秉性，提议了一种全新的搀和精度压缩措施。这种措施不仅大要收场接近无损的任务性能，还能显耀晋升推理效用。

Delta-CoMe 措施先容

微调是增强预检修模子的遑急妙技，不同任务往往需要不同的微调模样。举例 Luo et al. [ 1 ] 提议 RLEIF 通过 Evove-instruction 来增强模子数学推理才略；Wei et al. [ 2 ] 愚弄 Code snnipet 合成高质地的教导数据来增多模子的代码才略。然则，这些措施频频依赖高质地数据，并需要全心盘算的计策本事收场显耀的后果。

在一些场景中往往需要具有不同才略的 LLM 同期处理问题，举例多田户场景，多任务场景以及端侧场景等等。一种当然的科罚决策是部署单个通用模子动作骨干，合作多个具有独有才略的 Delta。

以 Bitdelta [ 3 ] 为例，它通过将模子的 Delta 压缩到 1-bit，有用保留了模子在问答等场景中的才略。尽管该压缩措施在存储和推理效用上发达出色，其在更复杂的任务（如数学推理和代码生成）上仍存在赫然的才略瓶颈。

针对这一挑战，THUNLP 推行室调治北京大学和上海财经大学提议 Delta-CoMe。这一措施不竭低秩阐述和低比特量化时候，不仅显耀晋升了模子在复杂任务上的发达，还兼顾了压缩效用和本色应用需求，为模子的高效部署提供了一种新想路。

与前东说念主的措施比拟，Delta-CoMe 措施的优点在于：

不竭低秩与低比特量化，愚弄了 Delta 低秩的特色，并发现低秩阐述后的 Delta 是长尾踱步的；之后弃取搀和精度量化进一步压缩

性能着实无损，比拟于 BitDelta 等措施，在 Math, Code, Multi-modal 等复杂任务上，性能与压缩前的微调模子发达基本接近

推理速率晋升，为搀和精度量化收场了 Triton kernel 算子，对比 Pytorch 的收场模样，带来近 3 倍的推理速率晋升

进步 Delta-tuning，撑捏多精度 Backbone，Delta-CoMe 在后果上显耀优于 LoRA 微调，并不错用在多种精度的 Backbone 上

具体而言，Delta-CoMe 最初弃取 SVD 进行低秩阐述，Delta 具有低秩性，进程低秩阐述之后，其特征值呈现出长尾踱步的法令，仅有少数较大奇异值对应的奇异向量对最终的为止孝敬较大。

一个当然的意见，咱们不错把柄奇异值的大小进行搀和精度量化，将较大的奇异值对应的奇异向量用较高精度默示，而较小的奇异值对应的奇异向量用较低精度默示。

推行为止

多个开源模子和 Benchmark 的推行考证了该措施的有用性。

使用 Llama-2 动作骨干模子，在数学、代码、对话、多模态等多个任务中进行推行，Delta-CoMe 展现出平均着实无损的性能。底下离别是 7B 模子和 13B 模子的推行后果。

此外，还在 Mistral、Llama-3 等其它骨干模子上对不同的压缩措施进行了考证。

为了晋升搀和精度量化的计议效用，收场一个 Triton Kernel，比拟于 Pytorch 的收场模样，推理速率晋升了约 3 倍。

推行为止标明，使用一块 80G 的 A100 GPU 不错加载 50 个 7B 模子。

临了，还比较了 Delta-Tuning 和 Delta-Compression 的后果各异（Delta-Tuning 指的是通过检修部分参数进行微调，Delta-Compression 指的是先进行全参数微调，再将微调带来的模子参数增量进行压缩）。其中 Delta-Tuning 弃取的是 LoRA。Delta-CoMe 对比 LoRA 在疏导的存储支出下，性能显耀晋升。

Delta-CoMe 通过不竭低秩阐述和低比特量化，不仅收场了大幅度的存储压缩，还在复杂任务如数学推理、代码生成和多模态任务上防守了与压缩前模子卓越的性能发达。比拟于传统的微调措施，Delta-CoMe 展现出了更高的天真性，尤其在多田户和多任务场景中具有显耀的应用价值。此外，借助 Triton kernel 的优化，推理速率获取了显耀晋升，使得部署大规模模子成为可能。将来，这一措施的后劲不仅在于进一步优化模子存储和推理速率，也有望在更平凡的本色应用中鼓吹大谈话模子的普及和高效运作。

参考文件

[ 1 ] Yu, L., Jiang, W., Shi, H., Jincheng, Y., Liu, Z., Zhang, Y., Kwok, J., Li, Z., Weller, A., and Liu, W.Metamath: Bootstrap your own mathematical questions for large language models. In The Twelfth International Conference on Learning Representations, 2023.

[ 2 ] Luo, Z., Xu, C., Zhao, P., Sun, Q., Geng, X., Hu, W., Tao, C., Ma, J., Lin, Q., and Jiang, D. Wizardcoder: Empowering code large language models with evol-instruct. arXiv preprint arXiv:2306.08568, 2023b

[ 3 ] Liu, J., Xiao, G., Li, K., Lee, J. D., Han, S., Dao, T., and Cai, T. Bitdelta: Your fine-tune may only be worth one bit. arXiv preprint arXiv:2402.10193, 2024b.

Paper 聚拢：https://arxiv.org/abs/2406.08903

Github 聚拢：https://github.com/thunlp/Delta-CoMe

— 完 —

投稿请发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉咱们：

你是谁，从哪来，投稿内容‍

附上论文 / 名目主页聚拢，以及有关模样哦

咱们会（尽量）实时陈述你

点这里� � 热心我，谨记标星哦～

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日再会 ~