123悬赏网_日本国产一区二区_发布悬赏任务_日本国产一区_广告任务平台

首頁 > 生活分享 > 免費教學 > DeepSeek用的GRPO占用大量內存?有人給出了些破解方法

DeepSeek用的GRPO占用大量內存?有人給出了些破解方法

發布時間:2025-02-07 19:15:56
RTX 3080 移動版能訓練哪種大模型?本文為那些 GPU 資源有限時使用 GRPO 訓練的開發者提供了寶貴的指導。
 
自 DeepSeek-R1 發布以來,群組相對策略優化(GRPO)因其有效性和易于訓練而成為大型語言模型強化學習的熱門話題。R1 論文展示了如何使用 GRPO 從遵循 LLM(DeepSeek-v3)的基本指令轉變為推理模型(DeepSeek-R1)。
 
GRPO 是一種在線學習算法(online learning algorithm),它通過使用訓練過程中由訓練模型自身生成的數據來進行迭代改進。GRPO 的目標是最大化生成補全(completions)的優勢函數(advantage),同時確保模型保持在參考策略(reference policy)附近。
 
 
本文的目的是幫你節省一些時間,讓你根據硬件預算選擇合適的模型大小。在開始微調時,你必須做出的重要決定是選擇模型大小,以及你是執行完全微調還是參數高效微調(PEFT)。
 
文章作者來自 AI 公司 Oxen.ai 的 CEO Greg Schoeninger。
 
 
原文鏈接:https://www.oxen.ai/blog/grpo-vram-requirements-for-the-gpu-poor
 
作者表示,他發現 trl 庫中已經有一個易于使用的 GRPO 實現,便立刻開始了訓練,使用的硬件是配備了 16GB 顯存的 Nvidia GeForce RTX 3080 的小型筆記本電腦。正如大家可能遇到的問題,作者發現示例代碼中的參數設置導致了一個巨大的顯存不足(OOM,out of memory )錯誤。
 
torch
.
OutOfMemoryError
:
CUDA
out
of memory
.
Tried
to allocate
1.90
 
GiB
.
GPU
0
has a total capacity of
15.73
 
GiB
of which
1.28
 
GiB
 
is
free
.
 
Including
non
-
PyTorch
memory
,
 
this
process has
14.43
 
GiB
memory
in
 
use
.
 
Of
the allocated memory
11.82
 
GiB
 
is
allocated
by
 
PyTorch
,
 
and
 
2.41
 
GiB
 
is
reserved
by
 
PyTorch
but unallocated
.
 
If
reserved but unallocated memory
is
large
try
setting PYTORCH_CUDA_ALLOC_CONF
=
expandable_segments
:
True
to avoid fragmentation
.
 
See
documentation
for
 
Memory
 
Management
 
(
https
:
//pytorch.org/docs/stable/notes/cuda.html#environment-variables)
實際使用情況
 
作者表示,他們進行了一系列實驗,以確定訓練各種大小的模型所需的顯存(VRAM)要求。參數數量從 5 億到 140 億不等,他們比較了權重的完全微調與參數高效微調(使用 LoRA),所有訓練運行都在英偉達 H100 上完成,因此這里的 OOM 意味著 >80GB 的 VRAM。
 
 
在表格中,你可以找到 GSM8K 數據集上訓練的前 100 步中的峰值內存使用情況。用于實驗的模型是:
 
 
所有實驗均使用 Shadeform 的 GPU 市場完成,因此每次實驗只需要花費幾美元 H100。
 
實驗結果表明,內存需求隨著模型大小和訓練方式的不同而顯著變化。例如,全參數微調比 PEFT 需要更多的內存。
 
為什么 GRPO 對內存需求較高
 
這要從 GRPO 的原理說起,這是它的流程圖。
 
 
GRPO 對內存需求較高的原因在于,其內部涉及多個模型,并且在訓練數據中每個查詢會產生多個輸出。上圖中的策略模型、參考模型和獎勵模型各自都是一個需要進行推理的 LLM。(盡管從技術上講,獎勵模型可能不需要參數化,可以只是一個 Python 函數或正則表達式,但不影響 GRPO 對內存的高需求。)
 
為什么 8-Bit 優化和梯度檢查點有助于減少內存占用?
 
通常來講,訓練一個大型語言模型需要在內存中存儲三種主要類型的信息:模型參數、模型學習所需的梯度、優化器的跟蹤數據。
 
對上述內容我們可以這樣理解:如果模型的參數占用了 X 的空間,那么梯度也會占用大約相同的空間。然后,像 AdamW 這樣的優化器需要更多的空間,因為它們就像一個記錄員,跟蹤最近的更新歷史,以便更好地決定未來的優化。
 
為了減輕這種內存負擔,通常采用兩種技術:
 
首先,可以使用像 AdamW 這樣的 8-bit 優化器版本,它們能更高效地存儲跟蹤數據,同時仍保持良好的性能 —— 類似于壓縮照片可以節省空間,同時保留大部分圖像質量;
其次,使用梯度檢查點技術,這就像在訓練過程中拍攝快照,而不是記錄所有內容。雖然這會使訓練速度減慢約 20-30%,但它顯著減少了內存使用。
結合這些技術,即使對 GPU 資源有限的人來說,也能夠訓練更大的模型。
 
代碼示例
 
像 trl 這樣的庫已經開始支持 GRPO,使得微調由 transformers 構成的 LLM 變得非常簡單。代碼也非常簡潔,只需將訓練器替換為 GRPOTrainer 并定義一些獎勵即可。GRPO 的最小代碼量大約只有 99 行,如果你使用的是像 meta-llama/Llama-3.2-1B-Instruct 這樣的小型模型和像 openai/GSM8K 這樣的數據集,可以非常快速地啟動。

免費教學更多>>

車主現身說法,五菱星光2025款純電車值不值得買? 外觀大氣定位務實,捷達VS8即將推出 “新威馬”卷土重來?吉利與極氪合并!新能源下半場誰的機會大? 極氪回歸,“一個吉利”的威力 國內專供?奧迪Q6諜照來襲 寶馬牽手Momenta、奔馳CLA秋季上市,BBA智駕競賽加劇 年薪2億!比肩C羅的華人AI大神究竟是誰? 酒旅三國殺,已不止于即時零售行業本身,它已蔓延到了范圍更廣的本地生活服務領域 百度蘿卜快跑與Uber達成戰略合作,全球部署數千輛無人駕駛汽車 基于Chromium,消息稱OpenAI的AI瀏覽器內部代號為“Aura” 聽勸、慎言、慢功夫:嵐圖的“央企反射弧”,成就了FREE+的爆款護城河 全球首款超混旅行車!海豹06DM-i旅行版亮相石家莊 奔馳全新CLA長軸版碰撞測試!“低調測試”才真理 1200天:騰勢如何從“跟隨者”演進到“逆襲者” 理想i8內飾沒大改?但電耗不錯配置還以下犯上! 20多萬的樂道L90,要做純電時代的漢蘭達 年中盤點:吉利上半年總銷量193萬臺,臺州宣言見成效? 年中盤點:吉利上半年總銷量193萬臺,臺州宣言見成效? 瑪莎拉蒂價格暴雷!專家:明后年是超豪華“最低點” 擁抱華為、補課智能化 嵐圖高管:嵐圖FREE+非常有信心挑戰月銷目標2萬+ 破產2年后,威馬擬8月復產:今年銷售1萬輛,后年開啟IPO 銷量回暖、產品推新,“一口價”常態化,合資品牌又行了? 7月14日,蔚來汽車港股市場表現非常亮眼,再次暴漲10.6%。 蔚來公司高管:革新,不僅在樂道L90產品本身 宇通霸榜“四冠王” 安凱進前三!客車6月出口超7000輛 破紀錄! 豪華≠高價,風云A9L重塑C級旗艦價值標桿 歐洲電動車,進退兩難 樂道L90,絕沒到提前開香檳的時候 尹同躍太敢說了,奇瑞壞事好事都干了,但宣傳上誰都不得罪 極越要“復活”了?新能源墳堆爬出來的品牌,還敢信嗎?
主站蜘蛛池模板: 在线钠离子分析仪-硅酸根离子浓度测定仪-油液水分测定仪价格-北京时代新维测控设备有限公司 | 智能风向风速仪,风速告警仪,数字温湿仪,综合气象仪(气象五要素)-上海风云气象仪器有限公司 | 药品冷藏箱厂家_低温冰箱_洁净工作台-济南欧莱博电子商务有限公司官网 | 活性氧化铝球|氧化铝干燥剂|分子筛干燥剂|氢氧化铝粉-淄博同心材料有限公司 | 慢回弹测试仪-落球回弹测试仪-北京冠测精电仪器设备有限公司 | 中高频感应加热设备|高频淬火设备|超音频感应加热电源|不锈钢管光亮退火机|真空管烤消设备 - 郑州蓝硕工业炉设备有限公司 | 联系我们老街华纳娱乐公司官网19989979996(客服) | 灌装封尾机_胶水灌装机_软管灌装封尾机_无锡和博自动化机械制造有限公司 | 济南冷库安装-山东冷库设计|建造|冷库维修-山东齐雪制冷设备有限公司 | 金属管浮子流量计_金属转子流量计厂家-淮安润中仪表科技有限公司 | 不锈钢水管-不锈钢燃气管-卫生级不锈钢管件-不锈钢食品级水管-广东双兴新材料集团有限公司 | 震动筛选机|震动分筛机|筛粉机|振筛机|振荡筛-振动筛分设备专业生产厂家高服机械 | 数码管_LED贴片灯_LED数码管厂家-无锡市冠卓电子科技有限公司 | RTO换向阀_VOC高温阀门_加热炉切断阀_双偏心软密封蝶阀_煤气蝶阀_提升阀-湖北霍科德阀门有限公司 | 杰福伦_磁致伸缩位移传感器_线性位移传感器-意大利GEFRAN杰福伦-河南赉威液压科技有限公司 | 无线讲解器-导游讲解器-自助讲解器-分区讲解系统 品牌生产厂家[鹰米讲解-合肥市徽马信息科技有限公司] | 电动卫生级调节阀,电动防爆球阀,电动软密封蝶阀,气动高压球阀,气动对夹蝶阀,气动V型调节球阀-上海川沪阀门有限公司 | 热风机_工业热风机生产厂家上海冠顶公司提供专业热风机图片价格实惠 | 神超官网_焊接圆锯片_高速钢锯片_硬质合金锯片_浙江神超锯业制造有限公司 | 塑料脸盆批发,塑料盆生产厂家,临沂塑料广告盆,临沂家用塑料盆-临沂市永顺塑业 | 碎石机设备-欧版反击破-欧版颚式破碎机(站)厂家_山东奥凯诺机械 高低温试验箱-模拟高低温试验箱订制-北京普桑达仪器科技有限公司【官网】 | 高铝轻质保温砖_刚玉莫来石砖厂家_轻质耐火砖价格 | 耐高温风管_耐高温软管_食品级软管_吸尘管_钢丝软管_卫生级软管_塑料波纹管-东莞市鑫翔宇软管有限公司 | MTK核心板|MTK开发板|MTK模块|4G核心板|4G模块|5G核心板|5G模块|安卓核心板|安卓模块|高通核心板-深圳市新移科技有限公司 | 低粘度纤维素|混凝土灌浆料|有机硅憎水粉|聚羧酸减水剂-南京斯泰宝 | 聚丙烯酰胺PAM-聚合氯化铝PAC-絮凝剂-河南博旭环保科技有限公司 巨野电机维修-水泵维修-巨野县飞宇机电维修有限公司 | 全自动端子机|刺破式端子压接机|全自动双头沾锡机|全自动插胶壳端子机-东莞市傅氏兄弟机械设备有限公司 | 电动高压冲洗车_价格-江苏速利达机车有限公司 | 杭州代理记账费用-公司注销需要多久-公司变更监事_杭州福道财务管理咨询有限公司 | 冷油器,取样冷却器,热力除氧器-连云港振辉机械设备有限公司 | 安徽免检低氮锅炉_合肥燃油锅炉_安徽蒸汽发生器_合肥燃气锅炉-合肥扬诺锅炉有限公司 | 干粉砂浆设备-干粉砂浆生产线-干混-石膏-保温砂浆设备生产线-腻子粉设备厂家-国恒机械 | 无纺布包装机|径向缠绕包装机|缠绕膜打包机-上海晏陵智能设备有限公司 | 高低温万能试验机_拉力试验机_拉伸试验机-馥勒仪器科技(上海)有限公司 | POS机官网 - 拉卡拉POS机免费办理|官网在线申请入口 | 河南生物显微镜,全自动冰冻切片机-河南荣程联合科技有限公司 | 黑田精工电磁阀-CAMMOZI气缸-ROSS电磁-上海茂硕机械设备有限公司 | 环境模拟实验室_液体-气体控温机_气体控温箱_无锡双润冷却科技有限公司 | 分子精馏/精馏设备生产厂家-分子蒸馏工艺实验-新诺舜尧(天津)化工设备有限公司 | 合肥汽车充电桩_安徽充电桩_电动交流充电桩厂家_安徽科帝新能源科技有限公司 | 企业微信营销_企业微信服务商_私域流量运营_艾客SCRM官网 |