柚子快報邀請碼778899分享：一文搞懂GPU概念、品牌、架構(gòu)

Vevor外貿(mào)工具坊綜合2025-05-05240

http://yzkb.51969.com/

文章目錄

一、芯片概念1.1 CPU1.2 GPU1.3 ASIC1.4 FPGA1.4 NPU1.5 SOC

二、GPU廠商2.1 知名廠商2.2 國內(nèi)廠商

三、GPU架構(gòu)四、用途分類五、名字解析六、查看GPU信息

一、芯片概念

算力、芯片、GPU、NPU … 如果你今年在關(guān)注人工智能相關(guān)的消息，是否已經(jīng)被這些芯片概念弄得暈頭轉(zhuǎn)向？到底在人工智能領(lǐng)域用的是什么芯片？這PU那PU的到底有什么不同?

1.1 CPU

CPU：central process unit,中文名叫中央處理器，它是智能設(shè)備的大腦，是發(fā)布命令、控制行動的總指揮。CPU遵循的是馮諾伊曼架構(gòu)，需要存儲程序并順序執(zhí)行。順序執(zhí)行就是做完一件才能去做下一件。如果事情太多，那就等著慢慢排隊吧。下圖是一張CPU的微架構(gòu)圖，黃色部分是控制單元，綠色部分是計算單元，而橙色部分是存儲單元。我們可以清晰的發(fā)現(xiàn)，負責計算的綠色部分占比很小，占比最多的是橙色的存儲單元和黃色的控制單元，因此CPU雖然可以應(yīng)對各種計算，但其最擅長的并不是計算，而是控制和管理。就好比一個大公司的領(lǐng)導(dǎo)，基層業(yè)務(wù)也是熟悉的，但是做統(tǒng)籌管理才更能發(fā)揮其價值。CPU的代表廠商就是在電腦領(lǐng)域制霸多年的Intel奔騰和酷睿系列，想必有電腦的人都接觸過。在手機通信領(lǐng)域則是高通公司，我們熟知的芯片如高通驍龍系列的處理器。

1.2 GPU

CPU的弊端有了電腦手機了，就想著玩游戲、看視頻，對畫質(zhì)的要求越來越高，這就帶來了一個問題：巨大的計算量。我們所看見的每一幀圖像、每一個像素點都要經(jīng)過計算，這時候CPU就有些應(yīng)接不暇了，也沒空去處理其他的任務(wù)，手機、電腦就變得卡頓起來。

GPU的優(yōu)勢圖形計算有個特點，那就是每個像素點處理的過程和方式都十分相似，因此GPU就應(yīng)運而生了。 GPU全稱為graphics processing unit,中文名圖形處理器，俗稱顯卡。GPU采用數(shù)量眾多的計算單元和超長的流水線，特別擅長于處理大量類型統(tǒng)一的數(shù)據(jù)。這張圖就是GPU的微架構(gòu)圖。我們發(fā)現(xiàn)，黃色的控制單元和橙色的存儲單元占比很少，綠色的計算單元占據(jù)了絕大部分面積，而且是多條流水線一樣的計算單元并行排列。圖形計算是要處理每一個像素點，把一張圖片不同的像素點分配到GPU不同的流水線同時計算，效率瞬間大幅提升，畫面也就流暢了，手機也不卡了。這就好比原來公司缺人，經(jīng)理親自跑去搬磚，結(jié)果整個公司的運作一團亂麻?，F(xiàn)在招了幾個身強體壯的GPU專門搬磚經(jīng)理回到了管理崗位上，公司的運作又正常了起來。

GPU與AI 在人工智能領(lǐng)域，經(jīng)常聽到GPU的名字，這里首先明確，雖然圖形計算催生了GPU的誕生，但是GPU并非只為圖形計算而設(shè)計，它在結(jié)構(gòu)上并沒有專門的圖形部件，只是對CPU的結(jié)構(gòu)進行了優(yōu)化調(diào)整，所以GPU仍然是一種通用的芯片，它可以應(yīng)用于圖像處理，也可以用于科學(xué)計算。

密碼破解等需要大量并行計算的場景。人工智能領(lǐng)域，需要海量的數(shù)據(jù)對大模型進行訓(xùn)練。

而這些數(shù)據(jù)就滿足類型統(tǒng)一、數(shù)量巨大的特點。因此近些年GPU在大模型的訓(xùn)練階段大放異彩。不過GPU不能單獨工作，還是需要和CPU進行配合，CPU擅長管理，GPU擅長運算。

1.3 ASIC

ASIC：Application Specific Integrated Circuit 特定應(yīng)用集成電路 CPU和GPU都是可以適應(yīng)多種場景的通用芯片，如果一塊芯片從誕生到退役都只用來做固定的事情，比如家用路由器里的WiFi芯片，是否可以犧牲通用性來提高其他方面的表現(xiàn)呢？答案是可以的。 asic芯片就是由此而來，是為實現(xiàn)特定要求而定制的芯片，它在硬件層面實現(xiàn)對特定算法的支持，指令及簡單甚至完全固化支持的功能無法再做任何更改。ASIC雖然不具備通用性，但在功耗、體積、可靠性方面有明顯優(yōu)勢。不過它有一個最大的問題就是一旦設(shè)計有缺陷，可能所有已經(jīng)生產(chǎn)的產(chǎn)品都將面臨報廢。因此，為了確保萬無一失，其開發(fā)周期也非常的長。

1.4 FPGA

FPGA：Field Programmable Gate Array 現(xiàn)場可編程邏輯陣列

ASIC開發(fā)周期長，有沒有靈活一點的定制化芯片呢？FPGA可以通過寫入配置文件來定義其內(nèi)部結(jié)構(gòu)，使FPGA芯片可以實現(xiàn)不同的硬件設(shè)計和功能，因此FPGA的全稱是現(xiàn)場可編程邏輯陣列，這么靈活的東西對開發(fā)者的要求自然也很高。FPGA就像是樂高玩具，使用不同的碎片拼接而成，而ASIC則是定制手辦出廠就是一體化的成品。從成本上來比較，ASIC由于需要更多的開發(fā)人員和更長的開發(fā)周期，因此在小批量生產(chǎn)時，ASIC芯片的成本比FPGA更高，而當大規(guī)模應(yīng)用上量之后，ASIC芯片的平均成本較FPGA則不斷降低，因此在項目初期適合采用FPGA方案進行嘗試，而在場景明確、需求明確的量產(chǎn)階段，采用asic方案則是更優(yōu)解。

對于不缺人才也不差錢的大廠來說，大多會采用ASIC方案來量產(chǎn)定制化芯片，像大名鼎鼎的谷歌TPU Tensor Processing Unit,中文名張量處理單元，以及國內(nèi)自主研發(fā)的華為升騰910AI處理器，本質(zhì)上都是ASIC芯片。

1.4 NPU

NPU： Neural Network Processing Unit，中文名神經(jīng)網(wǎng)絡(luò)處理器。人工智能時代有沒有誕生新的事物呢？NPU就是伴隨人工智能最新的成果。顧名思義，NPU是要用集成電路來模擬人腦的神經(jīng)元和突觸結(jié)構(gòu)，把每個神經(jīng)元抽象為一個激勵函數(shù)，通過深度學(xué)習(xí)來不斷調(diào)整優(yōu)化參數(shù)和神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)，并且它突破了傳統(tǒng)芯片的馮諾伊曼架構(gòu)，模擬人腦神經(jīng)元的存儲運算一體化方式，不再將存儲和運算分離設(shè)計，從而大大提升了效率。

NPU的典型代表由我們中國的寒武紀和IBM的True North。華為從MATE10開始就在麒麟970芯片中集成了5G的NPU單元，用于優(yōu)化拍照和圖片處理等功能。如今很多手機中都包含了NPU。你也許遇見過某一天你的手機按照某個人物或者景點為你整理了一個相片合集，甚至還做成了帶配樂的短視頻。你的手機怎么會變得如此聰明呢？都能認識哪些是你女朋友的照片了？這就是NPU的功勞。

1.5 SOC

SOC: System On a Chip 片上系統(tǒng) 除了CPU、GPU、NPU，我們還聽說過大腦處理器BPU、智能處理器IPU、知識處理器KPU等等，其實26個字母可能早就被用完了，除了我們剛才重點介紹的幾種類型的芯片，其他的大多是個概念而已，像大腦處理器BPU就是地平線機器人公司用來命名自家芯片的一個注冊商標。

這么多類型的芯片，各有各的優(yōu)勢，也各有各的不足，協(xié)同工作才能發(fā)揮最大的效率。因此把它們集成到一塊就有了SOC，SOC就像一個公司把CPU、GPU、NPU、5G等模塊都集成在一個芯片組中，總經(jīng)理是CPU， GPU、NPU等分別是不同的部門經(jīng)理，聽從CPU調(diào)度。高通驍龍和華為海思這些年發(fā)布的手機芯片都是集成了多種單元的SOC芯片。

二、GPU廠商

2.1 知名廠商

1、NVIDIA（英偉達） NVIDIA是全球領(lǐng)先的圖形處理器（GPU）制造商，其顯卡產(chǎn)品在市場上占有很高的份額。NVIDIA的顯卡以性能強勁、技術(shù)領(lǐng)先而著稱，尤其在游戲領(lǐng)域，其顯卡的圖形處理能力得到了廣大游戲玩家的認可。此外，NVIDIA還推出了多款針對專業(yè)圖形處理、深度學(xué)習(xí)等領(lǐng)域的顯卡，滿足了不同用戶的需求。

戰(zhàn)略合作伙伴：一線：華碩、技嘉、微星二線：七彩虹、影馳、索泰、映眾三線：耕升、銘瑄、萬麗

2、AMD（超威半導(dǎo)體） AMD是另一家重要的顯卡制造商，其產(chǎn)品線涵蓋了從入門級到高端的各個層面。AMD的顯卡在性價比方面表現(xiàn)突出，尤其在多屏輸出和高清視頻處理方面有著出色的表現(xiàn)。近年來，AMD在顯卡技術(shù)上的創(chuàng)新也不斷加速，為用戶帶來了更多選擇。

PS: 圖形處理器（GPU）市場上兩大巨頭，AMD（A卡）和NVIDIA（N卡）

3、MSI（微星） MSI是一家知名的電腦硬件制造商，其顯卡產(chǎn)品也備受消費者青睞。MSI的顯卡以品質(zhì)穩(wěn)定、散熱性能良好而著稱，同時在外觀設(shè)計上也頗具特色。此外，MSI還提供了豐富的顯卡附件和增值服務(wù)，為用戶提供了更加完善的購物體驗。

4、Gigabyte（技嘉）技嘉是一家在主板和顯卡領(lǐng)域有著深厚底蘊的品牌。其顯卡產(chǎn)品以高性能、高穩(wěn)定性和良好的散熱性能為特點，受到了眾多用戶的喜愛。技嘉還不斷推出創(chuàng)新的產(chǎn)品和技術(shù)，以滿足市場的不斷變化和用戶的需求。

5、ZOTAC（索泰）索泰是一家專注于顯卡制造的品牌，其產(chǎn)品以高性能和合理的價格贏得了消費者的青睞。索泰顯卡在設(shè)計上注重散熱性能和穩(wěn)定性，同時在超頻方面也具有一定的潛力，為追求性能的用戶提供了更多可能性。

6、ASUS（華碩）華碩作為一家全球知名的電腦硬件制造商，其顯卡產(chǎn)品同樣備受關(guān)注。華碩的顯卡以品質(zhì)可靠、技術(shù)領(lǐng)先而著稱，同時其獨特的散熱設(shè)計和優(yōu)秀的超頻性能也贏得了用戶的贊譽。此外，華碩還提供了豐富的顯卡附件和完善的售后服務(wù)，為用戶提供了更好的使用體驗。

2.2 國內(nèi)廠商

1、寒武紀寒武紀自 2016 年成立以來一直專注于人工智能芯片產(chǎn)品研發(fā)與技術(shù)創(chuàng)新，致力于打造人工智能領(lǐng)域的核心處理器芯片。公司主要提供云端智能芯片及加速卡、訓(xùn)練整機、邊緣智能芯片及加速卡、終端智能處理器 IP 及配套基礎(chǔ)軟件開發(fā)平臺，產(chǎn)品廣泛應(yīng)用于消費電子、數(shù)據(jù)中心、云計算等諸多場景。

2、海光信息海光信息主要從事高端處理器、加速器等計算芯片產(chǎn)品和系統(tǒng)的研發(fā)、設(shè)計和銷售。公司的產(chǎn)品包括海光通用處理器（CPU）和海光協(xié)處理器（DCU），具有成熟而豐富的應(yīng)用生態(tài)環(huán)境，內(nèi)置專用安全硬件，可滿足互聯(lián)網(wǎng)、金融、能源等行業(yè)的廣泛應(yīng)用需求。

3、景嘉微景嘉微致力于信息探測、處理與傳遞領(lǐng)域的技術(shù)和綜合應(yīng)用。公司產(chǎn)品涵蓋集成電路設(shè)計、小型雷達系統(tǒng)、無線通信系統(tǒng)、電磁頻譜應(yīng)用系統(tǒng)等方向，廣泛應(yīng)用于有高可靠性要求的航空、航天、航海、車載等專業(yè)領(lǐng)域。

4、芯原股份芯原依托自主半導(dǎo)體 IP，為客戶提供平臺化、全方位、一站式芯片定制服務(wù)和半導(dǎo)體 IP 授權(quán)服務(wù)，擁有獨特的“芯片設(shè)計平臺即服務(wù)”經(jīng)營模式。公司可提供高清視頻、物聯(lián)網(wǎng)連接、數(shù)據(jù)中心等多種一站式芯片定制解決方案，擁有自主可控的圖形處理器 IP、神經(jīng)網(wǎng)絡(luò)處理器 IP 等五類處理器 IP 及 1400 多個數(shù)?；旌?IP 和射頻 IP，可快速打造出從定義到測試封裝完成的半導(dǎo)體產(chǎn)品，業(yè)務(wù)范圍覆蓋消費電子、汽車電子、物聯(lián)網(wǎng)等多種應(yīng)用領(lǐng)域。據(jù) IPnest 在 2021 年的統(tǒng)計，芯原的半導(dǎo)體 IP 銷售收入排中國大陸第二，全球第七，其中公司的圖形處理器 IP 排名全球前三。

5、壁仞科技壁仞科技創(chuàng)立于 2019 年，在 GPU、DSA（專用加速器）和計算機體系結(jié)構(gòu)等領(lǐng)域具有深厚的技術(shù)積累。公司致力于開發(fā)原創(chuàng)性的通用計算體系，建立高效的軟硬件平臺，同時在智能計算領(lǐng)域提供一體化的解決方案。

6、摩爾線程摩爾線程專注于設(shè)計高性能通用 GPU 芯片，提供圖形計算和 AI 計算的元計算平臺的集成電路高科技公司。公司高管團隊來自英偉達、AMD、ARM 等知名芯片公司，擁有豐富的 GPU 研究經(jīng)驗，致力于創(chuàng)新面向元計算應(yīng)用的新一代GPU，構(gòu)建融合視覺計算、3D 圖形計算、科學(xué)計算及人工智能計算的綜合計算平臺，建立基于云原生 GPU 計算的生態(tài)系統(tǒng)。

7、芯動科技芯動科技是國內(nèi)一站式 IP 和芯片定制及 GPU 領(lǐng)軍企業(yè)，聚焦計算、存儲、連接等三大賽道，提供從 55 納米到 5 納米全套高速 IP 核以及高性能定制芯片解決方案。公司擁有經(jīng)驗豐富的技術(shù)團隊，成立 16 年來已賦能全球數(shù)百家知名客戶，授權(quán)逾 80 億顆高端 SoC 芯片進入規(guī)模量產(chǎn)，擁有過十億顆 FinFET 定制芯片成功量產(chǎn)經(jīng)驗。

8、兆芯兆芯成立于 2013 年，提供高效、兼容、安全的自主通用處理器和芯片組等產(chǎn)品，公司掌握自主通用處理器及其系統(tǒng)平臺芯片研發(fā)設(shè)計的核心技術(shù)，全面覆蓋其微架構(gòu)與實現(xiàn)技術(shù)等關(guān)鍵領(lǐng)域，擁有較為完整的知識產(chǎn)權(quán)體系，截至目前已獲權(quán)約 1300 件專利。

9、天數(shù)智芯天數(shù)智芯致力于開發(fā)自主可控、國際領(lǐng)先的高性能通用 GPU 產(chǎn)品并提供解決方案，是國內(nèi)頭部通用 GPU 高端芯片及超級算力系統(tǒng)提供商。公司以“成為智能社會的賦能者”為使命，立足客戶、市場的需求，加速 AI 計算與圖形渲染融合，探索通用 GPU 趕超發(fā)展道路，產(chǎn)品廣泛應(yīng)用于智算重心、智慧醫(yī)療、互聯(lián)網(wǎng)、智能制造等領(lǐng)域。

10、沐曦沐曦于 2020 年 9 月成立于上海，致力于為異構(gòu)計算提供全棧 GPU 芯片及解決方案，可廣泛應(yīng)用于人工智能、智慧城市、自動駕駛、數(shù)字孿生、元宇宙等前沿領(lǐng)域。公司擁有技術(shù)完備、設(shè)計和產(chǎn)業(yè)化經(jīng)驗豐富的團隊，核心成員平均擁有近20 年高性能 GPU 產(chǎn)品端到端研發(fā)經(jīng)驗。

三、GPU架構(gòu)

Volta 架構(gòu)：Volta 架構(gòu)是 NVIDIA GPU 的第六代架構(gòu)，發(fā)布于 2017 年。Volta 架構(gòu)專注于深度學(xué)習(xí)和人工智能應(yīng)用，并引入了 Tensor Core。代表產(chǎn)品：V100、TiTan。Turing 架構(gòu)：Turing 架構(gòu)是 NVIDIA GPU 的第七代架構(gòu)，發(fā)布于 2018 年。Turing 架構(gòu)引入了實時光線追蹤（RTX）和深度學(xué)習(xí)超采樣（DLSS）等重要功能。代表產(chǎn)品是T4、2080TI、RTX5000。Ampere 架構(gòu)：Ampere 架構(gòu)是 NVIDIA GPU 的第八代架構(gòu)，2020 年發(fā)布。Ampere 架構(gòu)在計算能力、能效和深度學(xué)習(xí)性能方面都有重大提升。Ampere 架構(gòu)的 GPU 采用了多個流多處理器（SM）和更大的總線寬度，提供了更多的 CUDA Core 和更高的頻率。它還引入了第三代Tensor Core，提供更強大的深度學(xué)習(xí)計算性能。Ampere 架構(gòu)的 GPU 還具有更高的內(nèi)存容量和帶寬，適用于大規(guī)模的數(shù)據(jù)處理和機器學(xué)習(xí)任務(wù)。代表產(chǎn)品是A100、A800、A30系列。Hopper 架構(gòu)：Hopper 架構(gòu)是 NVIDIA GPU 的第九代架構(gòu)，2022 年發(fā)布。相較于Ampere，Hopper 架構(gòu)支持第四代Tensor Core，且采用新型流式處理器，每個 SM 能力更強。Hopper 架構(gòu)在計算能力、深度學(xué)習(xí)加速和圖形功能方面帶來新的創(chuàng)新和改進。代表產(chǎn)品是H100、H800。

四、用途分類

以英偉達為例分為如下三類：

geforce：打游戲的卡，帶有風扇和渦輪，可以裝在PC里。我們常說的RTX4090(2022.10)、Titan X(2012年底發(fā)布）指的就是這個系列的產(chǎn)品。 Quadro：又稱專業(yè)卡，用來視覺計算的卡，供制作游戲、動漫、高品質(zhì)制圖工作者使用。非專業(yè)用戶一般用不到。如RTX A6000 Tesla：通用計算，不帶風扇，一般是裝在服務(wù)器上，統(tǒng)一散熱。人工智能領(lǐng)域經(jīng)常提到的卡，用來深度學(xué)習(xí)模型訓(xùn)練。如V100、A100、A800、H100、H800。 PS:截圖來自nvidia官網(wǎng)

五、名字解析

凡是RTX開頭的，如RTX4060 4060TI 4070 4070TI 4080 4090等，都是采用英偉達的芯片加上主板和散熱器盡心封裝的；凡是RX開頭的7600、7700、7800、7900都是采用AMD的芯片。

因為都是英偉達或AMD的芯片和驅(qū)動，同芯片等級的所有品牌型號性能差距不到3%；

六、查看GPU信息

linux系統(tǒng)上查看GPU信息的命令：nvidia-smi 結(jié)果截圖如下這是服務(wù)器上RTX3090的信息。上面的表格中：

第一欄的Fan：N/A是風扇轉(zhuǎn)速，從0到100%之間變動，這個速度是計算機期望的風扇轉(zhuǎn)速，實際情況下如果風扇堵轉(zhuǎn)，可能打不到顯示的轉(zhuǎn)速。有的設(shè)備不會返回轉(zhuǎn)速，因為它不依賴風扇冷卻而是通過其他外設(shè)保持低溫（比如我們實驗室的服務(wù)器是常年放在空調(diào)房間里的）。第二欄的Temp：是溫度，單位攝氏度。第三欄的Perf：是性能狀態(tài)，從P0到P12，P0表示最大性能，P12表示狀態(tài)最小性能。第四欄下方的Pwr：是能耗，上方的Persistence-M：是持續(xù)模式的狀態(tài)，持續(xù)模式雖然耗能大，但是在新的GPU應(yīng)用啟動時，花費的時間更少，這里顯示的是off的狀態(tài)。第五欄的Bus-Id是涉及GPU總線的東西，domain?device.function第六欄的Disp.A是Display Active，表示GPU的顯示是否初始化。第五第六欄下方的Memory Usage是顯存使用率。第七欄是浮動的GPU利用率。第八欄上方是關(guān)于ECC的東西。第八欄下方Compute M是計算模式。下面一張表示每個進程占用的顯存使用率。

PS:顯存占用和GPU占用是兩個不一樣的東西，顯卡是由GPU和顯存等組成的，顯存和GPU的關(guān)系有點類似于內(nèi)存和CPU的關(guān)系。

柚子快報邀請碼778899分享：一文搞懂GPU概念、品牌、架構(gòu)

http://yzkb.51969.com/