<th id="5me8u"><progress id="5me8u"></progress></th>
<del id="5me8u"><form id="5me8u"></form></del>

          <label id="5me8u"><menuitem id="5me8u"></menuitem></label>

            大模型千億參數(shù)讓GPU顯存告急,英特爾居然讓你試試CPU

               2025-12-29 7688

            你敢想象:僅一臺僅裝備了單塊24G顯存消費(fèi)級顯卡的系統(tǒng),不但能跑滿血671B DeepSeek R1模型,還能帶來5并發(fā)51 Token/秒的性能(更細(xì)節(jié)數(shù)據(jù)見下圖),要知道這個性能水準(zhǔn),足以搞定像報告解讀或數(shù)據(jù)分析這類對實(shí)時性要求不高的任務(wù)了。

            這就是英特爾開發(fā)的全新異構(gòu)LLM服務(wù)方案流出的最新測試數(shù)據(jù),這個方案基于HeteroFlow軟件框架,搭配了至強(qiáng)6性能核CPU(配MRDIMM內(nèi)存,開啟AMX加速)作為硬件基座,它的目標(biāo)就是緩解 “滿血”大模型們面臨的存力困局。

            眾所周知:大模型,是樂也“大參數(shù)”,痛也“大參數(shù)”——滿血版動輒千億級的參數(shù)規(guī)模,再疊加GPU大佬們在顯存容量上的“精準(zhǔn)”刀法,總能讓你錢包嚴(yán)重失血!如果你就搞一個節(jié)點(diǎn),即便GPU多卡插滿,也就是能剛剛裝下海量參數(shù),剩余的顯存會限制并發(fā)性能和上下文的長度。咬咬牙上多個節(jié)點(diǎn),那就只能是……把牙咬碎,因?yàn)楦冻龇丁?/p>

            而現(xiàn)在,有了HeteroFlow框架的加持,如果你用的是MoE類大模型,且選擇了英特爾的至強(qiáng)6性能核CPU來做機(jī)頭處理器,那么恭喜你,破局方法來了!

            當(dāng)然這個方法可能會顛覆你“AI讓CPU走開”,或者“AI應(yīng)用中CPU只是GPU小助手”的觀念。但這個方法,恰恰是充分利用了GPU和CPU各自的優(yōu)勢——GPU算力強(qiáng),CPU內(nèi)存大。HeteroFlow的工作原理就是把Attention、Dense MLP這些算力敏感型的,也是高價值的任務(wù)留給高算力的GPU,但把MoE這種需要大存力的任務(wù),部分或全部卸載給CPU+大容量的內(nèi)存。

            這種方法的終極奧義,并不是說CPU比GPU更重要,或者你不需要GPU了,而是有了CPU的分擔(dān)與協(xié)助,GPU的工作更有意義了——它能把其成本高昂的算力和顯存全用在榨取并發(fā)性能與上下文長度上,正所謂“好鋼用在刀刃上”,讓整個系統(tǒng)不僅性能收益明顯,投資回報率也是原地起飛。

            接下來,讓我們瞧瞧HeteroFlow是怎樣具體干活的:

            一、卸載

            對AI任務(wù)做智能拆分,把部分或全部MoE負(fù)載移到CPU上,讓GPU更專注算力密集型任務(wù),細(xì)節(jié)如下圖。

            二、調(diào)度

            通過Pipelined Scheduling設(shè)計,讓CPU與GPU在各自承載的子任務(wù)間實(shí)現(xiàn)無縫銜接,最大化榨取它們各自的潛能,如下圖:

            三、加速

            雖然至強(qiáng)CPU沒有GPU那么強(qiáng)的AI加速算力,但它還是有自己的看家本領(lǐng)——英特爾AMX(高級矩陣擴(kuò)展技術(shù),有人將其比擬為“CPU里的Tensor Core”),它能為MoE任務(wù)涉及的計算提供加速。如果你對AMX技術(shù)沒有那么了解,可以借下面兩張圖快速了解一下它的核心組件與架構(gòu),以及加速能力。

            如果你比較細(xì)心,一定注意到我們在前文提到的是HeteroFlow框架 +至強(qiáng)6 性能核CPU這個組合,推薦這款CPU的原因很簡單,因?yàn)樗鼉?nèi)置AMX技術(shù),且主流型號(SKU),特別是用于機(jī)頭的SKU能解鎖對MRDIMM內(nèi)存(8000/8800)的支持,幾乎是目前市面上能同時兼顧內(nèi)存的大容量與高帶寬的惟一選擇。

            如果你還意猶未盡,覺得前文測試場景里的“低配”型系統(tǒng)和它實(shí)現(xiàn)的性能,還遠(yuǎn)遠(yuǎn)不能滿足你一些更加“高大上”的需求,先別急,因?yàn)橛⒊譅栒跍y試HeteroFlow+至強(qiáng)6的另外兩種應(yīng)用場景:

            1. 在更多節(jié)點(diǎn)的、中量級的系統(tǒng)中,瞧它能不能把MoE中的“冷專家”(不常被激活的專家)卸載到CPU上,盡可能提升這類系統(tǒng)的并發(fā)度和拓展其上下文長度;

            2. 在更大或特大規(guī)模的AI集群中,當(dāng)GPU出現(xiàn)單卡故障時,用CPU暫時頂一下,保障集群的穩(wěn)定運(yùn)行。

            由衷期待這兩個新場景能盡快落地,并有性能或性價比上的優(yōu)異表現(xiàn)供大家分享。你可以訪問英特爾官網(wǎng)了解更多基于HeteroFlow框架的異構(gòu)LLM服務(wù)方案的細(xì)節(jié),或者聯(lián)系英特爾官方得到英特爾相關(guān)技術(shù)專家的支持。

            誰說CPU只是GPU的小助手?用至強(qiáng)? 6高存力搞定MoE卸載!

            想Get基于HeteroFlow的大模型異構(gòu)新方案?

            歡迎訪問英特爾官網(wǎng),即刻揭秘!

             
            分享到: 0
            收藏 0
             
            更多>同類資訊
            免責(zé)申明
            推薦資訊
            點(diǎn)擊排行
            最新資訊更多>
            最新供應(yīng)更多>
            網(wǎng)站首頁  |  聯(lián)系方式  |  關(guān)于我們  |  問題解析  |  版權(quán)隱私  |  使用協(xié)議  |  網(wǎng)站地圖  |  排名推廣  |  廣告服務(wù)  |  積分換禮  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  粵ICP備1207862號

            中國智能化網(wǎng)(zgznh®)--引領(lǐng)工業(yè)智能化產(chǎn)業(yè)發(fā)展 共享智能化+優(yōu)質(zhì)平臺

            版權(quán)所有:深圳市智控網(wǎng)絡(luò)有限公司 學(xué)術(shù)指導(dǎo):深圳市智能化學(xué)會

            粵ICP備12078626號

            深公網(wǎng)安備案證字第 4403101901094 號 | 粵公網(wǎng)安備 44030702001206號

             

            <th id="5me8u"><progress id="5me8u"></progress></th>
            <del id="5me8u"><form id="5me8u"></form></del>

                    <label id="5me8u"><menuitem id="5me8u"></menuitem></label>
                      国产成人自拍网 | 久久精品99视频 | sm免费网站 Xx视频 | 大香蕉伊人在线视频观看最新 | 乱伦电影影音先锋 |