解決芯片復(fù)雜性增加的可擴(kuò)展方法
不斷增加的設(shè)計(jì)復(fù)雜性和多物理挑戰(zhàn)阻礙了系統(tǒng)芯片(SoC)設(shè)計(jì)團(tuán)隊(duì)的生產(chǎn)力。Mellanox工程師應(yīng)用新的解決方案,利用大數(shù)據(jù)技術(shù)和靈活的計(jì)算資源來提供電子設(shè)計(jì)自動(dòng)化功能。
不斷增加的設(shè)計(jì)復(fù)雜性和多物理挑戰(zhàn)阻礙了系統(tǒng)芯片(SoC)設(shè)計(jì)團(tuán)隊(duì)的生產(chǎn)力。工程師需要的電子設(shè)計(jì)自動(dòng)化工具不僅可以減少運(yùn)行時(shí)間,還可以提高他們批判性檢查和改進(jìn)設(shè)計(jì)的靈活性。Mellanox工程師應(yīng)用新的解決方案,利用大數(shù)據(jù)技術(shù)和靈活的計(jì)算資源來提供此功能。
高速網(wǎng)絡(luò)是數(shù)據(jù)中心連接的主干。極端帶寬和超低延遲網(wǎng)絡(luò)解決方案對(duì)于下一代數(shù)據(jù)中心高效處理新興AI、5G和自主應(yīng)用程序中呈指數(shù)級(jí)增長(zhǎng)的數(shù)據(jù)至關(guān)重要。由于芯片尺寸和復(fù)雜性與不斷增加的時(shí)間市場(chǎng)壓力相沖突,為網(wǎng)絡(luò)進(jìn)行系統(tǒng)芯片(SoC)設(shè)計(jì)的公司面臨挑戰(zhàn)。網(wǎng)格復(fù)雜性和門的數(shù)量每年都在急劇增加,網(wǎng)絡(luò)IC團(tuán)隊(duì)必須設(shè)計(jì)、分析和帶出尺寸為400–500 mm或更大的芯片。
各種多物理效應(yīng)(包括功率和熱可靠性)的交叉耦合增加,對(duì)FinFET的設(shè)計(jì)關(guān)閉提出了重大挑戰(zhàn)。多物理分析對(duì)于克服這些挑戰(zhàn)至關(guān)重要,以便設(shè)計(jì)超大、復(fù)雜和高能耗的芯片,盡管設(shè)計(jì)裕度越來越小,項(xiàng)目進(jìn)度也越來越緊。
面對(duì)這種復(fù)雜性,設(shè)計(jì)團(tuán)隊(duì)必須擁有能夠提供容量、靈活性、速度和準(zhǔn)確性的軟件工具。
Mellanox是端到端以太網(wǎng)和InfiniBand智能互連解決方案和服務(wù)的領(lǐng)先供應(yīng)商,為服務(wù)器、存儲(chǔ)和超收斂基礎(chǔ)設(shè)施提供服務(wù),它直接了解這些挑戰(zhàn)和權(quán)衡。設(shè)計(jì)團(tuán)隊(duì)必須通過最有效地利用計(jì)算資源和工程時(shí)間來管理和驗(yàn)證設(shè)計(jì)。為此,該團(tuán)隊(duì)依賴于Ansys RedHawk-SC軟件。
尋找可視性
Mellanox團(tuán)隊(duì)需要快速的周轉(zhuǎn)時(shí)間和精確的壓降精度,以確保其高度復(fù)雜的網(wǎng)絡(luò)處理器的電源完整性和可靠性。但他們也在尋求一些早年在其他大型、高復(fù)雜性設(shè)計(jì)中無法實(shí)現(xiàn)的東西:分析的靈活性和速度。由于設(shè)計(jì)已經(jīng)從45nm節(jié)點(diǎn)的略多于1億個(gè)網(wǎng)絡(luò)發(fā)展到16nm的近3.5億個(gè)網(wǎng)絡(luò),Mellanox估計(jì)它將需要解決7nm的近4.5億個(gè)IC網(wǎng)絡(luò)。
這種類型的進(jìn)化需要工具能力來匹配。十年前,在45nm工藝節(jié)點(diǎn)及其周圍,工具體系結(jié)構(gòu)通常是單片的,團(tuán)隊(duì)僅限于一臺(tái)可以同時(shí)處理多達(dá)10億個(gè)電源和接地節(jié)點(diǎn)的機(jī)器。(節(jié)點(diǎn)是提取的電源和接地網(wǎng)絡(luò)中任意兩個(gè)元件之間的連接點(diǎn)。這些元件可以是導(dǎo)線或連接到導(dǎo)線的設(shè)備實(shí)例引腳的寄生電阻、電感或電容。節(jié)點(diǎn)數(shù)是功率完整性分析中常用的一種指標(biāo),用于預(yù)測(cè)設(shè)計(jì)尺寸;它直接影響分析的運(yùn)行時(shí)和內(nèi)存需求。)
在那些日子里,工具容量是一個(gè)問題。當(dāng)對(duì)電源完整性和可靠性進(jìn)行多次分析時(shí),每次運(yùn)行(串行而非并行)可能需要超過24小時(shí)。這需要大型服務(wù)器和大量資源分配才能完成分析。更糟糕的是,系統(tǒng)偶爾會(huì)在管理復(fù)雜性方面遇到困難,并會(huì)崩潰。然后必須從頭開始分析。
第二代人出現(xiàn)了,以跟上復(fù)雜性。這一代利用了分布式計(jì)算,可以擴(kuò)展到32臺(tái)機(jī)器,最多可以處理40億個(gè)節(jié)點(diǎn)。在集成電路變得更加復(fù)雜之前,這是令人滿意的。
按大數(shù)據(jù)要求擴(kuò)展
為了提供見解并使團(tuán)隊(duì)能夠優(yōu)化其設(shè)計(jì),Mellanox需要一個(gè)靈活、高容量的解決方案,該解決方案可以擴(kuò)展到大數(shù)據(jù)挖掘和分析。工程師于2018年開始使用Ansys RedHawk-SC。RedHawk SC是基于Ansys SeaScape構(gòu)建的最新SoC電源完整性和可靠性簽署平臺(tái),Ansys SeaScape是世界上第一個(gè)用于電子系統(tǒng)設(shè)計(jì)和仿真的定制大數(shù)據(jù)架構(gòu)。SeaScape提供了單核可擴(kuò)展性、靈活的設(shè)計(jì)數(shù)據(jù)訪問、瞬時(shí)設(shè)計(jì)啟動(dòng)以及許多其他功能
成功的關(guān)鍵之一在于RedHawk-SC的彈性計(jì)算能力。彈性計(jì)算有助于根據(jù)可用CPU內(nèi)核的數(shù)量并行(或串行)處理場(chǎng)景。
SeaScape體系結(jié)構(gòu)是彈性計(jì)算的核心。它依賴于分布式數(shù)據(jù)/文件服務(wù),因?yàn)閿?shù)據(jù)可能分散在許多位置。除此之外,還有一個(gè)基于MapReduce概念的分布式數(shù)據(jù)分析層,這是所有大數(shù)據(jù)分析的基礎(chǔ)。這在概念上將數(shù)據(jù)(映射)分割為稱為碎片的小塊,并將每個(gè)碎片聚集起來進(jìn)行分析。當(dāng)服務(wù)器可用時(shí),可以根據(jù)需要將處理分發(fā)到任意多個(gè)服務(wù)器。
電源問題
這些類型的網(wǎng)絡(luò)處理器面臨的挑戰(zhàn)是總功耗和功耗。與電池供電設(shè)計(jì)不同,Mellanox使用的設(shè)計(jì)類型可以消耗200 W以上。因此,工程師必須完成完整的設(shè)計(jì)分析——準(zhǔn)確的增量功率完整性和可靠性分析——同時(shí)考慮高功耗,而不犧牲準(zhǔn)確性或結(jié)果時(shí)間。
為了加速全芯片紅外跌落仿真,可以利用電網(wǎng)上卷方法來抽象電力和地面網(wǎng)絡(luò)的中低層金屬。這種抽象可以用于全芯片仿真。這允許團(tuán)隊(duì)在單元級(jí)工作,然后跳到頂層對(duì)全芯片設(shè)計(jì)進(jìn)行全面分析
進(jìn)行全芯片扁平化運(yùn)行需要耗費(fèi)大量資源和時(shí)間。通過使用大數(shù)據(jù)分析技術(shù)執(zhí)行增量分析,設(shè)計(jì)者可以創(chuàng)建特定塊的詳細(xì)視圖,并抽象出其他所有內(nèi)容。這使他們能夠執(zhí)行更快的分析,并更容易地進(jìn)行更快速的工程變更單(ECO)修復(fù)。
Ansys RedHawk-SC憑借其彈性計(jì)算能力和支持大數(shù)據(jù)的分析功能,為工程師提供了克服之前一些挑戰(zhàn)所需的可見性。該團(tuán)隊(duì)特別贊賞紅鷹SC的自我維持穩(wěn)定性,以監(jiān)控自己的工作,并在失敗時(shí)續(xù)簽工作。
該團(tuán)隊(duì)還利用RedHawk-SC的彈性計(jì)算及其支持MapReduce的分析來獲得關(guān)鍵見解。MapReduce為設(shè)計(jì)者提供了一個(gè)鳥瞰視圖,并且可以非常順利地將焦點(diǎn)對(duì)準(zhǔn)。它提供了強(qiáng)大的功能,例如在不到兩分鐘的時(shí)間內(nèi)啟動(dòng)GUI以查看完整的芯片數(shù)據(jù)庫(kù),以及輕松導(dǎo)航不同的區(qū)域,如谷歌地圖的功能。
此外,它還支持更強(qiáng)大的計(jì)算靈活性。憑借RedHawk-SC的彈性可擴(kuò)展性,曾經(jīng)需要巨大計(jì)算資源的大型芯片區(qū)域可以分解成非常小的部分進(jìn)行分析。架構(gòu)的性質(zhì)允許這些元素通過公司的計(jì)算資源進(jìn)行分發(fā)。這樣,它可以最大限度地利用硬件資源并優(yōu)化成本。