国产美女主播视频一区_国产精品蜜臀在线观看_亚洲成人动漫一区_亚洲视屏在线播放

首頁 > 讀書

將330億參數大模型「塞進」單個消費級GPU,加速15%、性能不減

來源:機器之心 時間:2023-06-23 06:17:02


(相關資料圖)

機器之心報道

編輯:小舟、陳萍

個人終端設備跑大模型成為現實了。

預訓練大語言模型(LLM)在特定任務上的性能不斷提高,隨之而來的是,假如 prompt 指令得當,其可以更好的泛化到更多任務,很多人將這一現象歸功于訓練數據和參數的增多,然而最近的趨勢表明,研究者更多的集中在更小的模型上,不過這些模型是在更多數據上訓練而成,因而在推理時更容易使用。
舉例來說,參數量為 7B 的 LLaMA 在 1T token 上訓練完成,盡管平均性能略低于 GPT-3,但參數量是后者的 1/25。不僅如此,當前的壓縮技術還能將這些模型進一步壓縮,在保持性能的同時還能大幅減少內存需求。通過這樣的改進,性能良好的模型可以在終端用戶設備(如筆記本)上進行部署。
然而,這又面臨另一個挑戰,即想要將這些模型壓縮到足夠小的尺寸以適應這些設備,怎樣才能兼顧生成質量。研究表明,盡管壓縮后的模型生成的答案準確率還可以,但現有的 3-4 位量化技術仍然會讓準確性降低。由于 LLM 生成是順序進行的,依賴于先前生成的 token,小的相對誤差不斷累積并導致嚴重的輸出損壞。為了確保可靠的質量,關鍵是設計出低位寬的量化方法,與 16 位模型相比不會降低預測性能。
然而,將每個參數量化到 3-4 位通常會導致中等程度、甚至是高等程度的準確率損失,特別是那些非常適合邊緣部署的 1-10B 參數范圍內的較小模型。
為了解決準確性問題,來自華盛頓大學、蘇黎世聯邦理工學院等機構的研究者提出了一種新的壓縮格式和量化技術 SpQR(Sparse-Quantized Representation,稀疏 - 量化表征),首次實現了 LLM 跨模型尺度的近無損壓縮,同時達到了與以前方法相似的壓縮水平。
SpQR 通過識別和隔離異常權重來工作,這些異常權重會導致特別大的量化誤差,研究者將它們以更高的精度存儲,同時將所有其他權重壓縮到 3-4 位,在 LLaMA 和 Falcon LLMs 中實現了不到 1% 的困惑度相對準確率損失。從而可以在單個 24GB 的消費級 GPU 上運行 33B 參數的 LLM,而不會有任何性能下降,同時還能提高 15% 的速度。
SpQR 算法高效,既可以將權重編碼為其他格式,也可以在運行時進行有效地解碼。具體來說,該研究為 SpQR 提供了一種高效的 GPU 推理算法,可以比 16 位基線模型更快地進行推理,同時實現了超過 4 倍的內存壓縮收益。
論文地址:/pdf/
項目地址:/Vahe1994/SpQR
方法
該研究提出一種混合稀疏量化的新格式 —— 稀疏量化表征(SpQR),可以將精確預訓練的 LLM 壓縮到每個參數 3-4 位,同時保持近乎無損。
具體來說,該研究將整個過程分為兩步。第一步是異常值檢測:該研究首先孤立了異常值權重,并證明其量化會導致高誤差:異常值權重保持高精度,而其他權重以低精度(例如 3 位的格式)存儲。然后,該研究以非常小的組大小實現分組量化(grouped quantization)的變體,并表明量化尺度本身可以被量化為 3 位表征。
SpQR 極大地減少了 LLM 的內存占用,而不會降低準確性,同時與 16 位推理相比,LLM 的生成速度快了 20%-30%。
此外,該研究發現,權重矩陣中敏感權重的位置不是隨機的,而是具有特定的結構。為了在量化過程中突出顯示其結構,該研究計算了每個權重的敏感度,并為 LLaMA-65B 模型可視化這些權重敏感度。下圖 2 描繪了 LLaMA-65B 最后一個自注意力層的輸出投影。
該研究對量化過程進行了兩個改變:一個用于捕捉小的敏感權重組,另一個用于捕捉單個的異常值。下圖 3 為 SpQR 的總體架構:
下表為 SpQR 量化算法,左邊的代碼片段描述了整個過程,右邊的代碼片段包含了二級量化和查找異常值的子程序:
實驗
該研究將 SpQR 與其他兩種量化方案進行了比較:GPTQ、RTN(rounding-to-nearest),并用兩個指標來評估量化模型的性能。首先是困惑度的測量,所用數據集包括 WikiText2、 Penn Treebank 以及 C4;其次是在五個任務上的零樣本準確率:WinoGrande、PiQA、HellaSwag、ARC-easy、ARC-challenge。
主要結果。圖 1 結果顯示,在相似的模型大小下,SpQR 的性能明顯優于 GPTQ(以及相應的 RTN),特別是在較小的模型上。這種改進得益于 SpQR 實現了更多的壓縮,同時也減少了損失退化。
表 1、表 2 結果顯示,對于 4 位量化,與 GPTQ 相比,SpQR 相對于 16 位基線的誤差減半。
表 3 報告了 LLaMA-65B 模型在不同數據集上的困惑度結果。
最后,該研究評估了 SpQR 推理速度。該研究將專門設計的稀疏矩陣乘法算法與 PyTorch(cuSPARSE)中實現的算法進行了比較,結果如表 4 所示。可以看到,盡管 PyTorch 中的標準稀疏矩陣乘法并沒有比 16 位推理更快,但本文專門設計的稀疏矩陣乘法算法可以提高約 20-30% 的速度。

?THE END

轉載請聯系本公眾號獲得授權

投稿或尋求報道:content@

相關稿件

將330億參數大模型「塞進」單個消費級GPU,加速15%、性能不減

錄音機在線錄音_錄音器在線使用 重點聚焦

(粽情千里)里約中國國際學校舉辦端午節活動 當地貧民社區居民吃粽子感受中國傳統文化_世界新要聞

中央再點名,“黃山樣本”成焦點|環球觀察

全球觀點:羊肉湯怎么做才會好喝?

大學生助力退捕漁民轉型“上岸” 今日熱聞

屯溪區:新安江畔 “葵花?!?金色美景引“客”來|環球通訊

時訊:近百家企業應邀參加!黟縣文旅高端商務專場推介會在合肥成功舉辦!

50歲男士生日應送什么禮物?早期探險家服裝造型創意或許是一個不錯的選擇!_世界播報

當前資訊!特斯拉超級充電網價值幾何?大摩:1000億美元!

寧波新修改文明行為促進條例亮點多 過馬路不能當"低頭族"

今日美元/日元匯率基本面分析及交易策略(2023年6月22日)

FF91 交付再“跳票”,賈躍亭的FF仍需融資3億美元_環球觀熱點

長的好看,十二生肖最顏控的生肖是哪一個?|每日消息

華為智選的城區NCA什么樣? 問界M5智駕版挑戰深圳華強北

鴻遠電子:公司SLCC、陶瓷管殼產品有給光模塊廠家供樣并有小批量的供貨

透支信用卡轉貸他人 聰明反被聰明誤

用Stata進行量化分析_關于用Stata進行量化分析介紹|熱訊

甘肅慶陽:端午來臨 傳承千年的指尖非遺“云暢銷”

頭條焦點:東莞道滘龍舟競渡 13條蛟龍角逐“龍王”

聚焦“百千萬工程”|新興12個鄉鎮“政銀企村戶”共建家庭農場項目全部開建

甘肅一小學多名學生疑遭推搡擠壓致傷,家長稱討要康復費受阻 世界速看料

前沿熱點:neterrnamenotresolved怎么解決 neterr_name_not_resolved

美聯儲提供的貼現窗口貸款規模從一周前的36.2億美元降至32.1億美元|環球即時看

中國中冶:擬向特定對象發行優先股募資不超150億元

【世界新視野】廣西左江之畔百舸爭流賽龍舟 上演水上“速度與激情”

廣西高考生可于6月24日至25日申請成績復核 世界獨家

放“粽”軍營 廣西南寧武警官兵別樣過端午

環球快消息!反轉!蕭敬騰出現被傳吸毒,警方要求做二次毛發檢測,結果來了

桂林平樂縣組織企業參加第23屆廣西名特優農產品(廣州)交易會 環球播報


主站蜘蛛池模板: 久久精品视频播放| 日本一区二区三区免费看| 97干在线视频| 国产精品自拍首页| 国产一区二区三区高清视频| 国产精品入口尤物| 欧美中日韩在线| 日韩中文字幕精品视频| 国产成人精品日本亚洲11| 国产精品视频网站在线观看| 亚洲欧洲日本国产| 97久久精品视频| 亚洲欧洲精品在线| 97精品欧美一区二区三区| 久久精品第九区免费观看| 欧美大片va欧美在线播放| 性高潮久久久久久久久 | 国产一区二区色| 国产精品日韩精品| 91久久精品国产91久久| 久久99精品国产一区二区三区 | 97精品在线视频| 国产免费色视频| 91免费国产网站| 久久99热精品| 国产中文字幕日韩| 精品久久久久久无码中文野结衣 | 国产乱子夫妻xx黑人xyx真爽| 青青草精品视频在线| 国产精品国产亚洲伊人久久| 亚洲国产精品综合| 亚洲综合激情五月| 欧美最猛性xxxxx(亚洲精品)| 亚洲综合日韩中文字幕v在线| 久久精品视频在线| 久久精品亚洲精品| 久久亚洲免费| 国产精品99久久久久久久久久久久| 婷婷五月综合缴情在线视频 | 91av中文字幕| 91精品国产综合久久久久久蜜臀|