芯片工程師展示了一個高度專業(yè)化的行業(yè)如何使用NVIDIA NeMo來定制大語言模型,以獲得競爭優(yōu)勢。

10月31日,NVIDIA發(fā)布的一篇研究論文描述了生成式AI如何助力芯片設(shè)計,后者是當(dāng)今最復(fù)雜的工程工作之一。
這項工作展示了高度專業(yè)化領(lǐng)域的公司如何利用內(nèi)部數(shù)據(jù)訓(xùn)練大語言模型,從而開發(fā)提高生產(chǎn)力的AI助手。
像半導(dǎo)體設(shè)計這樣如此具有挑戰(zhàn)性的工作并不多見。在顯微鏡下,NVIDIA H100 Tensor Core GPU(上圖)這樣最先進的芯片看起來就像一個精心規(guī)劃的大都市,由數(shù)百億個晶體管組成,把它們連接起來的線比人的頭發(fā)絲還細1萬倍。
多個工程團隊進行協(xié)作,需要長達兩年的時間才能構(gòu)建出這樣一個數(shù)字化超級大都市。
一些小組定義芯片的整體架構(gòu),一些小組負責(zé)各種超小型電路的設(shè)計與布局,還有一些小組負責(zé)測試工作。每項工作都需要采取專門的方法、軟件程序和計算機語言。
大語言模型廣闊的前景
該論文的主要作者、NVIDIA研究總監(jiān)Mark Ren表示:“我相信,隨著時間的推移,大語言模型將全面助力所有流程?!?/p>
在同日舉行的國際計算機輔助設(shè)計會議上,NVIDIA首席科學(xué)家Bill Dally發(fā)表主題演講并公布了這篇論文。這個年度盛會每年都會吸引數(shù)百名電子設(shè)計自動化(EDA)領(lǐng)域的工程師參加。
此次會議在舊金山舉行。Dally在會上表示:“這標志著在將大語言模型用于復(fù)雜的半導(dǎo)體設(shè)計方面邁出了重要一步。這項工作表明,即使高度專業(yè)化的領(lǐng)域也可以利用內(nèi)部數(shù)據(jù)來訓(xùn)練極具價值的生成式AI模型?!?/p>
ChipNeMo浮出水面
這篇論文詳細介紹了NVIDIA工程師如何創(chuàng)建名為ChipNeMo的定制大語言模型,供內(nèi)部使用。該模型使用公司內(nèi)部數(shù)據(jù)進行訓(xùn)練并生成和優(yōu)化軟件,以更好地協(xié)助人類設(shè)計師。
Ren在EDA領(lǐng)域從業(yè)超過20多年,他表示,從長遠來看,工程師們希望生成式AI能夠用于芯片設(shè)計的各個階段,從而大幅提升整體生產(chǎn)力。
在針對可能的使用場景對NVIDIA工程師進行調(diào)研之后,研究團隊一開始選擇了三個場景:聊天機器人、代碼生成器和分析工具。
初始用例
維護已知bug的更新描述需要耗費大量時間,而上述分析工具中的后者能夠?qū)崿F(xiàn)此類任務(wù)的自動化,并已得到廣泛的采用。
一個聊天機器人原型可以回答有關(guān)GPU架構(gòu)和設(shè)計的問題,并且已經(jīng)幫助許多工程師在早期測試中快速找到技術(shù)文檔。

代碼生成器將幫助設(shè)計者編寫芯片設(shè)計軟件。
一個正在開發(fā)中的代碼生成器(如上圖所演示)已經(jīng)用兩種芯片設(shè)計師專用語言創(chuàng)建了大約10-20行軟件的片段。它將與現(xiàn)有工具集成,為工程師們提供一個方便的助手來進行設(shè)計。
使用NVIDIA NeMo定制AI模型
這篇論文主要關(guān)注該團隊收集設(shè)計數(shù)據(jù)并使用這些數(shù)據(jù)創(chuàng)建專門的生成式AI模型,這個過程可以移植到任何行業(yè)。
作為起點,該團隊選擇了一個基礎(chǔ)模型,并使用NVIDIA NeMo對其進行了定制。作為NVIDIA AI Enterprise軟件平臺的一部分,NVIDIA NeMo是一個用于構(gòu)建、定制和部署生成式AI模型的框架。定的NeMo模型具有430億個參數(shù),這衡量了它對模式的理解力。它使用超過一萬億個文本和軟件中的token、單詞和符號進行了訓(xùn)練。

ChipNeMo提供了一個技術(shù)團隊如何用自己的數(shù)據(jù)改進預(yù)訓(xùn)練模型的示例。
然后,該團隊在兩輪訓(xùn)練中完善了該模型。第一輪使用了相當(dāng)于大約240億個token的內(nèi)部設(shè)計數(shù)據(jù),第二輪使用了約13萬個對話和設(shè)計示例。
這項工作是半導(dǎo)體行業(yè)進行生成式AI概念研究和印證的幾個例子之一,這一趨勢剛剛開始在實驗室興起。
分享經(jīng)驗
Ren的團隊學(xué)到的一個最重要的經(jīng)驗就是定制大語言模型的重要性。
在芯片設(shè)計任務(wù)中,只有130億個參數(shù)的定制ChipNeMo模型的性能達到或超過了更大的通用大語言模型(例如包含700億個參數(shù)的LLaMA2)。在某些使用場景中,ChipNeMo模型甚至好很多。
他補充道,在這一過程中,用戶需要謹慎地確定他們收集什么數(shù)據(jù)以及如何清理數(shù)據(jù)以用于訓(xùn)練。
最后,Ren建議用戶及時了解可以加快和簡化工作的最新工具。
NVIDIA Research在全球各地擁有數(shù)百名科學(xué)家和工程師,專注于AI、計算機圖形學(xué)、計算機視覺、自動駕駛汽車、機器人學(xué)等領(lǐng)域。近期的其它半導(dǎo)體項目包括使用AI設(shè)計更小、更快的電路,以及優(yōu)化大型模塊的布局。
希望構(gòu)建自己的定制大語言模型的企業(yè)現(xiàn)在可以從使用GitHub和NVIDIA NGC目錄中的NeMo框架開始。
