• 歡迎光臨車網世界!

    微信 | 微博 車網中國公眾號二維碼

    當前位置:首頁 > 車頭條 > 返回

    【智能化論壇】何虎:開源通用GPU指令集架構-OpenGPGPU

    發布日期:2023-09-05 14:16  來源:會議  作者:方方   瀏覽次數:2017

    車網世界現場報道:

    由天津市人民政府、中國汽車技術研究中心有限公司、中國汽車工程學會、中國汽車工業協會、中國汽車報社共同主辦,天津市工業和信息化局、天津經濟技術開發區管理委員會特別支持,日本汽車工業協會、德國汽車工業協會聯合協辦的第十九屆中國汽車產業發展(泰達)國際論壇(以下簡稱“泰達汽車論壇”)于2023年9月1-3日在天津市濱海新區召開。本屆論壇以“高質量·新未來”為年度主題,邀請重磅嘉賓展開深入研討。


    在9月3日智能化論壇(下半節):關鍵技術升級與產業化路線圖中,清華大學集成電路學院副教授、博士生導師、上海清華國際創新中心副主任何虎發表了題為“開源通用GPU指令集架構-OpenGPGPU”的演講。

    何虎_調整大小.jpg

    清華大學集成電路學院副教授、博士生導師、上海清華國際創新中心副主任 何虎

    以下為演講實錄:

    非常感謝泰達汽車論壇邀請我來做報告,我們是一個學術機構,特別渴望跟產業界多進行交流,把我們一些想法和產業界結合起來,共同推動GPU技術發展。剛才倪院士特別提到RISC-V指令級原生是CPU指令級,可能能夠在目前CPU指令級格局下成長出來,就是它的開源開放的特性。


    目前GPU產業同樣也是這個局面,國際上是幾個巨頭在把持著GPU產業,特別是英偉達占據了絕大部分算力GPU市場。如果我們還希望能夠進行全新的自主創新和發展的話,是不是也考慮一種開源的開放指令級架構在目前國際巨頭壟斷情況下往前發展。


    從最早開始計算的需求一直存在,而且不斷的推動人類進步,到今天進入人工智能時代以后已經成為一種整個社會的基礎架構或基礎設施。算力決定了一個國家目前在國際上、科技上人工智能發展上最重要的基礎。目前GPU在國際上發展的脈絡還是非常清楚的,最早是圖形方式,通過擴展以及把它變成可編程器件以后,就變成了一種高性能計算處理期,性能會遠遠超過CPU?,F在進入人工智能時代以后,GPU反而在某種程度上重要性遠遠超過了CPU。


    整個國際巨頭主要有三家,英偉達、AMD、Intel。Intel是做集成顯卡,圖形的GPU量反而非常大;在計算方面最大的是英偉達,然后是AMD。我們國家近幾年,特別是2017年、2018年以后,涌現了非常多的GPU公司。因為這個賽道大家也都非??春?,希望我們中國能夠在這方面有突破。事實證明這個賽道確實是個非常好的方向,可惜由于大國競爭導致的政局因素,在GPU技術上能夠獲得的國際上的技術還是比較弱的,大部分還是基于一些IP、海外人員回歸等來做,并且都是處于私有狀態。別看企業多,每個企業都在玩自己的,完全跟別人是隔絕的,都是在自己系統里來開發。


    現在國內GPU面臨非?,F實的挑戰。


    第一,高性能處理器進口的受限,現在我們可以通過各種方式進口高性能GPU,如果按照美國出口管制法律最高性能的GPU已經都不能進口了。特別在計算GPU領域,CUDA是事實上的行業標準,大量的企業特別是用戶已經非常熟悉和習慣CUDA開發方式了,英偉達也在CUDA生態上投入了巨資來進行建設,所以它的商業價值和商業市場份額都是最大的,形成了一種事實上的壟斷。


    我們國家大概2017年、2018年涌現了大量企業,CPU技術發展已經遠遠超過GPU。從零幾年開始國內高校、科研院所也都開始進行研發了,但GPU在這個時間之前是沒有人做的,突然一下子出現了大量GPU公司,可想而知很多技術并不是從本土研發出來的,一旦遇到一些困難,很有可能首當其沖。參考RISC-V指令級、CPU指令級發展脈絡,我們覺得如果能夠在GPU架構上有一個開源開放指令級,是不是也可以有機會成為世界第三級。我們現在首先打造開源的軟件工具鏈、開源的指令級和開源的硬件架構,這三路齊頭并進。我們軟件工具鏈采用的是開源OpenCL的編程框架,應該說它首先是開源的;第二是目前唯一能夠和CUDA相提并論的并行計算框架,只是因為它是開源的,這些大公司支持不太給力,所以就在OpenCL生態方面確實不是那么理想。如果我們中國能夠接過這個棒子,能夠把OpenCL開發的和CUDA一樣好用的話,相信大量的上層建筑也能夠基于OpenCL進行。


    第二,開源的指令級現在采用的是基于RISC-V的標量和向量擴展來作為GPGPU的基礎指令級,目前定義的開源GPU指令級架構大約是90%以上的指令是RISC-V指令,會有一部分是我們自己定義的為GPU專門設計的指令,能夠盡可能讓更多的人熟悉并且使用這套指令。


    第三,在架構上我們也不斷增加一些DSA應用,能夠支持大算力的計算,最終是希望能夠建立一個開源生態,打破技術封鎖。中國人其實不擔心技術被別人使用,只是希望技術能夠被全世界的人公平的使用。OpenCL是一個異構并行的編程框架,其實它的基礎思路和CUDA區別不大,都是有一一對應關系,只不過在真正實現時有點不那么給力。在支持OpenCL的企業,特別是國際大廠,一個都不少,關鍵是屬于爹不親娘不愛的局面,還是個開源的,沒有任何一個大公司真正投入心力把它好好來開發。

    同時,為了提高通用GPU的計算性能,大的GPU公司也做了一些DSA專門的擴展,就是為了提高性能。英偉達加入了Tensor Core以后能夠支持的人工智能的算法和應用,性能得到了一個數量級的提升。


    GPU指令級其實跟CPU指令級差不多,但CPU是一開始出現就有指令級,而GPU一出現是沒有指令級的,可以說是一些控制命令,因為它主要做圖形計算,英偉達做了一個開創性工作先驅,把GPU架構引入了指令變成一個完成可編程的架構。一個專用定制電路加入指令級以后就變成了即有軟件站也有硬件站,大家各司其職就可以完成高性能的GPU編程,就變成和CPU一樣的指令級架構,所以我們需要有這樣一個指令級架構來實現高性能的GPU。


    目前指令級架構沒有一個統一的開源的GPU指令級架構,都是各個大公司自己在開發自己的,有一些像英偉達、AMD會開放一些指令級,是為了更好的軟件適配使用,甚至是一些開源軟件來適配使用,本質上都還是閉源的。國內到目前為止還沒有見到哪個公司是用開源指令級來構建自己的GPU或者把他們的指令級作為開源的方式貢獻出來。如果有了一個統一的指令級架構,意義還是非常明顯的。如果是閉源方式,大量軟件可以是開源的,就像CPU的X86、ARM,本身指令級只有少數人能用,但軟件指令級是開放的,每個軟件公司是可以開發相應軟件的,但底層處理器就沒有辦法進行實現。如果指令級架構也是開源的話,就可以從上到下到軟件技術站、硬件技術站全都可以,對全世界每個人都是開放的,就可以去開發相應的軟硬件,這樣能夠極大提高生態普及率,同時避免重復制造輪子。30幾家GPU公司在不斷的重復造同樣的輪子,但每一家都認為我是最強的,能夠把其他的打敗。


    我剛收到一個投資機構發來的調研問我GPU公司怎么樣,每一個公司都會寫我是唯一能夠超越英偉達和AMD的公司,其他都不行。有了統一指令級架構,當然我們可以去聚合各種力量,以及構建完整的軟件生態,并且可以為我們國家GPU長期發展奠定一個基礎。


    我們的技術路線首先會有開源的編程框架和工具鏈,有開源的指令級架構,還有開源的硬件,這是我們指令級架構和其他指令級架構的對比,可以看到我們指令級架構在所有功能上已經具備了高性能GPU指令級所有的必備特點,這是我們在指令級支持和定義的擴展。


    RISC-V的CPU只有5位的集成器地址編碼,也就是最多32個邏輯集成器,對于GPU來說是遠遠不夠的。我們用創新性的方法能夠把集成器堆擴展到256,這是我們實現的一些框架。我們已經完全實現了指令級的V架構的實現,是用Tensor語言實現的,在我們的開源網站上也都有。


    我們每一個SM就是流氏多處理器一個基本的架構,它是能夠實現SMT的計算和現成的調度。我們目前通過的一些benchmark的測試,其中特別提到就是我們OpenSale的編譯器,是由兆松武漢科技有限公司幫我們來開發的,它也是開發了所有的編譯器的軟件代碼,基于LVM的軟件代碼也都是完全開源的。所以我們有一個開源的GPU的平臺,這個平臺已經在Github上還有國內GitLink上都已經實現了完全的開源,我們在今年的歐洲峰會上也發了兩篇論文,有3篇碩士論文,還有4項的核心專利。


    我們現在想在清華大學教育基金會下面設立一個公益項目,能夠按照會員的方式來運行GPU的指令集架構。清華大學教育基金會是一個公益的組織,我們也在中國峰會的同期會議上也正式成立了這個社區。


    以上就是我介紹的內容,我希望我們的GPU社區是一種共有、共建、共享的一種社區,希望能夠共同推動GPU的發展,謝謝大家!

    上一篇:中國汽車芯片標準檢測認證聯盟正式成立

    下一篇:【智能化論壇】孫航:新階段智能網聯汽車標準體系的建設與發展

    熱門文章

    關于我們 聯系方式 招賢納士 隱私政策 車網歷程

    Copyright?2004-2030 車網世界版權所有 原-京ICP證040347號-1 技術支持:想象力

    ?
    国产av综合影院_樱花草在线观看视频WWW_中文字幕无线在线视频_国产免费黄色网站