3D NAND性能
3D NAND性能
ISSCC 2021上,3D NAND展示了3D NAND技術。三星、SK hynix和K IOxia(+ Western Digital)分享了3D TLC NAND設計,英特爾展示了144層3D QLC NAND。
3D TLC
三星、SK hynix和Kioxia / WD介紹了下一代3D TLC的信息。
三星很在性能上處于領先地位,讀取延遲最低、寫入速度最快。然而,位密度仍然明顯滯后,宣稱這一代的位密度躍升了70%。三星能夠避免使用串疊,可以將128層的堆棧作為單層制造,競爭對手都不得不將堆棧分成兩層,增加了所需的晶圓廠步驟。三星采用串疊導致密度劣勢。如果將這一轉變再推遲一代,使用其他技術的組合(最顯著的是CMOS underArray layout)實現了這種密度的提高,涉及到垂直通道的高寬比蝕刻時,三星已經領先競爭對手好幾年了,而垂直通道的高寬比蝕刻是擴展3D NAND的最關鍵的制造步驟。
SK hynix和Kioxia / WD所描述的TLC部件,區別在于SK hynix的是512Gb芯片,而Kioxia的容量為1Tb芯片。盡管Kioxia吹捧更高的NAND接口速度,兩種設計都具有相似的性能和密度。Kioxia和Western Digital宣布了162層3D NAND,總層數落后于SK hynix和Micron。cell陣列的水平密度提高了10%,Kioxia和Western Digital可能將垂直通道比任何競爭對手都更緊密地排列在一起。
3D QLC
唯一 QLC更新的公司是 英特爾。
總的來說,英特爾比其他任何競爭對手都更加注重QLC NAND。這款144L QLC是英特爾沒有與美光科技共同開發的第一代3D NAND,在某些方面是獨一無二的。英特爾將其3D NAND閃存業務出售給SK hynix,正在獲得想要的NAND。僅有144層,英特爾是層數的落后者。與9X層的QLC相比,英特爾具有更好的性能和密度-但是SK hynix和Kioxia描述的新型TLC的QLC版本應具有可比的密度。英特爾已經放棄使用96L QLC的方式來描述塊大小, 144層NAND的48MB塊尺寸看起來也很大。
CuA(CMOS-under-array)
英特爾/美光3D NAND重大創新是CMOS Under the Array(CuA)設計。將大多數NAND芯片的外圍電路(頁面緩沖器、讀取放大器、電荷泵等)置于存儲單元的垂直堆棧之下,不是并排放置。
節省了大量的裸片空間,將超過90%的裸片面積用于存儲單元陣列。SK hynix是下一個做出這種改變的廠商,稱之為"Periphery under Cell"(PuC)。Kioxia(當時的東芝)和 西數在ISSCC 2019上展示了128層的CuA設計,第五代BiCS 3D NAND最終以112L設計投產,沒有CuA。ISSCC展示"170+"層的CuA設計,第六代BiCS 3D NAND將是162層的CuA設計。
除了節省裸片空間,3D NAND的CuA/PuC的設計風格還允許裸片包含更多的外圍電路,這樣做的成本效益比更高。將裸片的存儲器陣列劃分為更多獨立的平面,每個平面都有大部分外圍電路副本。大多數沒有采用CuA布局的3D NAND,每個裸片只使用兩個平面,都在使用CuA,標準是每個裸片使用四個平面。這提供了額外的并行性,提高了每顆晶粒的性能,并抵消了通常因使用較少晶粒達到相同總容量而導致的 SSD整體性能下降。
CuA結構并非沒有挑戰和缺點。當制造商首次切換到CuA時,大大增加外圍電路的可用裸片空間。每一代相繼增加的層數意味著管理相同數量存儲單元的die空間就更少了,外圍電路仍然必須縮小。將外圍電路置于存儲單元陣列之下還會帶來新的限制。例如,三星提到,當電荷泵不再能夠使用易于包含在3D NAND堆棧中的高金屬結構時,這就為電荷泵構造大型電容器帶來挑戰。
On-Die Parallelism:每個die四個平面
將NAND閃存管die分為四個平面可以使該die并行處理更多的操作,但是并不能使其表現得像四個獨立的die。因為并行執行操作受到限制:例如,同時寫入仍必須在每個平面內的同一字線上進行。但是隨著閃存芯片數量的增加,制造商一直在努力放松一些限制。在過去的幾年中,制造商推出了“獨立”的多平面讀取,這意味著在不同平面中的同時讀取對每個平面內的讀取位置沒有任何限制,這是隨機讀取吞吐量的一大勝利。
現在,放寬了對多平面操作的另一個限制:不需要在不同平面上進行讀取操作的時序。這使得一個平面可以從SLC頁面執行多次讀取,而另一平面則可以從TLC或QLC頁面執行單個較慢的讀取。此功能稱為異步獨立(多)平面讀取。實際效果是,對于讀取操作,一個大的4平面die現在可以匹配四個較小的1平面die的性能。這可以緩解更高的每個芯片容量給每個通道僅具有一個或兩個芯片的SSD帶來的性能下降。
Kioxia和WD報告說,要實現此功能,必須停止在平面之間共享電荷泵,以免因讀取操作不同步而導致電壓和電流波動不及時。英特爾還通過其4平面144L QLC達到了此功能的一半:將多個平面配對為多個平面組,每個平面組可以執行讀取而無需與另一個平面組中的讀取時序保持一致。
NAND IO加快了對SSD控制器的支持速度
新型TLC NAND部件支持NAND閃存die和SSD控制器之間的通信的IO速度范圍為1.6到2.0 Gb / s。最快的NAND SSD的運行速度為1.2-1.4Gb / s。NAND制造商可以通過確保將用于SSD控制器設計,支持這些更高的IO速度,可能會依賴第三方控制器的SSD。Phison針對高端PCIe 4.0 SSD的最新E18 8通道控制器僅支持1.2Gb / s IO速度,即將推出的E21T 4通道NVMe控制器則支持1.6Gb / s。Silicon Motion的8通道SM2264和4通道SM2267分別支持1.6Gb / s和1.2Gb / s IO速度。
1.2Gb / s的速度運行8個通道,已經足以使SSD飽和PCIe 4.0 x4連接,新的更高IO速度在PCIe 5.0,對高端SSD并沒有多大用處。但是,價格更實惠的4通道消費類SSD控制器,能夠使用這些更高的速度更好地進入PCIe 4.0性能領域,達到或超過第一個PCIe 4.0 SSD控制器(Phison E16,8ch @ 800Mb / s)提供的吞吐量。正如諸如SK hynix GoldP31之類的驅動器,每個通道上支持高IO速度的高級4通道控制器,比8通道控制器更高的功率效率運行。
要達到更高的IO速度,需要對NAND裸片上的接口邏輯進行重大升級,如PCI Express那樣,增加的功耗是一個主要問題。三星正在通過使用雙模式驅動程序和終端解決此問題。當由于總線上的更多負載而需要更高的驅動強度時(每個通道有更多的裸片),將使用PMOS晶體管進行上拉,否則,可以使用NMOS晶體管并降低驅動器的功耗一半以上。這為三星提供了一個單一的接口設計,該設計可以很好地適用于小型消費類SSD和大型企業驅動器,每個通道具有更多的裸片。三星已經在多芯片封裝中添加了單獨的重定時器芯片,這些芯片在相同的一個或兩個通道上將許多NAND芯片堆疊在一起。
串堆疊:首款三層串堆疊NAND
串堆疊已被視為將3D NAND擴展到更高層數的必要手段。只有三星能夠一次構建超過100層的3D NAND,并且其他所有人早就轉而使用堆疊兩個具有更合理層數的decks了。這意味著例如美光公司的176層3D NAND構建為88層存儲單元,然后在其頂部再構建88層。與一次完成所有層相比,這會增加成本,并且需要在平臺之間的接口處仔細對齊。但是另一種選擇是使垂直通道更寬,以使縱橫比(寬度與深度)保持在當前晶圓廠技術可以蝕刻的范圍之內。
英特爾的144L QLC設計已經轉向了3層堆棧:48 + 48 + 48層,而不是期望的72 + 72。前一代產品是48 + 48層(總共96L)設計,因此,除了第三次重復相同的沉積,蝕刻和填充步驟順序外,對于存儲器陣列本身的制造方式幾乎沒有什么改變。英特爾通過這種方法影響了工廠的吞吐量,但它可能有助于更好地控制從堆棧頂部到底部的通道和單元尺寸的變化,對QLC及其獨特性的關注,這可能是一個更大的問題。決定仍然使用浮柵存儲單元,而不是切換到電荷陷阱單元。
總結
- 上一篇: Compiler编译过程
- 下一篇: 手机与Camera CCM技术发展趋势