ISSCC 2021: 各家3D NAND技术大比拼
2021-02-23
来源:EETOP
图片在上周周的ISSCC 2021上,六家主要的3D NAND闪存制造商中的四家展示了他们最新的3D NAND技术。其中三星、SK hynix和Kioxia(+ Western Digital)分享了其最新的3D TLC NAND设计,而英特尔则展示了其144层3D QLC NAND。美光公司和长江存储今年没有参加分享。
3D TLC(每个cell有3位)更新
三星、SK hynix和Kioxia / WD介绍了有关其下一代3D TLC的信息。美光的176L TLC未在此处显示,因为他们尚未针对最新一代的3D NAND发布大部分数据。
不出所料,看起来三星很可能再次在性能上处于领先地位,读取延迟最低、写入速度最快。然而,他们的位密度仍然明显滞后,即使他们宣称这一代的位密度跃升了70%。在过去,它们的密度滞后并不像乍一看那样是个缺点,因为三星能够避免使用串叠,可以将128层的堆栈作为单层制造,而他们的竞争对手都不得不将堆栈分成两层,增加了所需的晶圆厂步骤。这可能是三星不可避免地采用串叠的一代,但如果是这样的话,那么他们挥之不去的密度劣势就相当令人失望了。另一方面,如果他们成功地将这一转变再推迟一代,并且仅使用其他技术的组合(最显著的是CMOS underArray layout)就实现了这种密度的提高,那么这是一个非常令人印象深刻的进步,并且可以肯定地说,在涉及到垂直通道的高宽比蚀刻时,三星已经领先竞争对手好几年了,而垂直通道的高宽比蚀刻是扩展3D NAND的最关键的制造步骤。一旦三星披露实际的层数,我们就会知道更多,但他们暂时仍在保密,这暗示着他们并不希望吹嘘最高的层数。
SK hynix和Kioxia / WD所描述的TLC部件看起来相当相似,但区别在于SK hynix的是512Gb芯片,而Kioxia的容量为1Tb芯片。尽管Kioxia吹捧更高的NAND接口速度,但两种设计都具有相似的性能和密度。Kioxia和Western Digital发布了一个新闻稿,宣布了162层3D NAND,因此它们的总层数落后于SK hynix和Micron。该新闻稿还提到,其cell阵列的水平密度提高了10%,因此Kioxia和Western Digital可能将垂直通道比任何竞争对手都更紧密地排列在一起。
3D QLC(每个cell有4位)更新
今年唯一在ISSCC上进行QLC更新的公司是英特尔。
总的来说,英特尔比其他任何竞争对手都更加注重QLC NAND。这款144L QLC是英特尔没有与美光科技共同开发的第一代3D NAND,在某些方面它是独一无二的。英特尔将其3D NAND技术带向与其他行业不同的方向,因为它们将NAND闪存业务出售给SK hynix的协议将产生有趣的影响,但是在短期内,英特尔似乎正在获得他们想要的NAND。因为仅有144层,英特尔几乎可以肯定现在是层数的落后者。与9X层的QLC相比,英特尔具有更好的性能和密度-但是SK hynix和Kioxia描述的新型TLC的QLC版本应具有可比的密度。英特尔已经放弃使用96L QLC的方式来描述块大小,但144层NAND的48MB块尺寸看起来也很大。
不同厂商的CuA(CMOS-under-array)
英特尔和美光的合资企业现已解散,是继三星之后第二家转向3D NAND闪存制造商。英特尔/美光3D NAND带给业界的最重大创新是CMOS Under the Array(CuA)设计。这项技术可以将大多数NAND芯片的外围电路(页面缓冲器、读取放大器、电荷泵等)置于存储单元的垂直堆栈之下,而不是并排放置。
这种改变节省了大量的裸片空间,并允许将超过90%的裸片面积用于存储单元阵列。SK hynix是下一个做出这种改变的厂商,他们称之为“Periphery under Cell”(PuC)。其余厂商现在也都加入了这一行列。Kioxia(当时的东芝)和西数在ISSCC 2019上展示了128层的CuA设计,但他们的第五代BiCS 3D NAND最终以112L设计投产,没有CuA。他们今年的ISSCC展示的是 “170+”层的CuA设计,他们已经发布了新闻稿,确认他们的第六代BiCS 3D NAND将是162层的CuA设计。
除了节省裸片空间,3D NAND的CuA/PuC的设计风格还允许裸片包含更多的外围电路,这样做的成本效益比更高。这使得将裸片的存储器阵列划分为更多独立的平面,每个平面都有自己的大部分外围电路副本。大多数没有采用CuA布局的3D NAND都是每个裸片只使用两个平面,但现在大家都在使用CuA,标准是每个裸片使用四个平面。这提供了额外的并行性,提高了每颗晶粒的性能,并抵消了通常因使用较少晶粒达到相同总容量而导致的SSD整体性能下降。
CuA结构并非没有挑战和缺点。当制造商首次切换到CuA时,它们会大大增加外围电路的可用裸片空间。但是在那之后,每一代相继增加的层数意味着管理相同数量存储单元的die空间就更少了,因此外围电路仍然必须缩小。将外围电路置于存储单元阵列之下还会带来新的限制。例如,三星在今年的ISSCC演讲中提到,当电荷泵不再能够使用易于包含在3D NAND堆栈中的高金属结构时,这就为电荷泵构造大型电容器带来挑战。
更好的On-Die Parallelism:每个die四个平面
将NAND闪存管die分为四个平面可以使该die并行处理更多的操作,但是并不能使其表现得像四个独立的die。因为并行执行操作受到限制:例如,同时写入仍必须在每个平面内的同一字线上进行。但是随着闪存芯片数量的增加,制造商一直在努力放松一些限制。在过去的几年中,制造商推出了“独立”的多平面读取,这意味着在不同平面中的同时读取对每个平面内的读取位置没有任何限制,这是随机读取吞吐量的一大胜利。
图片现在,放宽了对多平面操作的另一个限制:不需要在不同平面上进行读取操作的时序。这使得一个平面可以从SLC页面执行多次读取,而另一平面则可以从TLC或QLC页面执行单个较慢的读取。此功能称为异步独立(多)平面读取。实际效果是,对于读取操作,一个大的4平面die现在可以匹配四个较小的1平面die的性能。这可以缓解更高的每个芯片容量给每个通道仅具有一个或两个芯片的SSD带来的性能下降。
图片Kioxia和WD报告说,要实现此功能,他们必须停止在平面之间共享电荷泵,以免因读取操作不同步而导致电压和电流波动不及时。英特尔还通过其4平面144L QLC达到了此功能的一半:将多个平面配对为多个平面组,每个平面组可以执行读取而无需与另一个平面组中的读取时序保持一致。
NAND IO加快了对SSD控制器的支持速度
ISSCC上介绍的新型TLC NAND部件支持NAND闪存die和SSD控制器之间的通信的IO速度范围为1.6到2.0 Gb / s。目前市场上最快的NAND SSD的运行速度为1.2-1.4Gb / s。NAND制造商可以通过确保将用于其SSD的自己的SSD控制器设计准备好支持这些更高的IO速度而从垂直集成中受益,但是可能会依赖其他第三方控制器的SSD供应商。Phison针对高端PCIe 4.0 SSD的最新E18 8通道控制器仅支持1.2Gb / s IO速度,而即将推出的E21T 4通道NVMe控制器则支持1.6Gb / s。Silicon Motion的8通道SM2264和4通道SM2267分别支持1.6Gb / s和1.2Gb / s IO速度。
由于以1.2Gb / s的速度运行8个通道已经足以使SSD饱和PCIe 4.0 x4连接,因此这些新的更高IO速度在PCIe 5.0到来之前对高端SSD并没有多大用处。但是,价格更实惠的4通道消费类SSD控制器将能够使用这些更高的速度更好地进入PCIe 4.0性能领域,达到或超过第一个PCIe 4.0 SSD控制器(Phison E16,8ch @ 800Mb / s)提供的吞吐量。正如诸如SK hynix GoldP31之类的驱动器所展示的那样,在每个通道上支持高IO速度的高级4通道控制器在性能上极具竞争力,同时以比8通道控制器更高的功率效率运行。
要达到这些更高的IO速度,就需要对NAND裸片上的接口逻辑进行重大升级,并且正如我们在其他高速接口(如PCI Express)中所看到的那样,增加的功耗是一个主要问题。三星正在通过使用双模式驱动程序和终端解决此问题。当由于总线上的更多负载而需要更高的驱动强度时(每个通道有更多的裸片),将使用PMOS晶体管进行上拉,否则,他们可以使用NMOS晶体管并降低驱动器的功耗一半以上。这为三星提供了一个单一的接口设计,该设计可以很好地适用于小型消费类SSD和大型企业驱动器,每个通道具有更多的裸片。(过去,三星已经在多芯片封装中添加了单独的重定时器芯片,这些芯片在相同的一个或两个通道上将许多NAND芯片堆叠在一起。
串堆叠:首款三层串堆叠NAND
串堆叠已被视为将3D NAND扩展到更高层数的必要手段。只有三星能够一次构建超过100层的3D NAND,并且其他所有人早就转而使用堆叠两个具有更合理层数的decks了。这意味着例如美光公司的176层3D NAND构建为88层存储单元,然后在其顶部再构建88层。与一次完成所有层相比,这会增加成本,并且需要在平台之间的接口处仔细对齐。但是另一种选择是使垂直通道更宽,以使纵横比(宽度与深度)保持在当前晶圆厂技术可以蚀刻的范围之内。
英特尔的144L QLC设计最令人惊讶的是它们已经转向了3层堆栈:48 + 48 + 48层,而不是我们期望的72 + 72。由于他们的前一代产品是48 + 48层(总共96L)设计,因此,除了第三次重复相同的沉积,蚀刻和填充步骤顺序外,他们对于存储器阵列本身的制造方式几乎没有什么改变。英特尔通过这种方法影响了工厂的吞吐量,但它可能有助于他们更好地控制从堆栈顶部到底部的通道和单元尺寸的变化,考虑到他们对QLC及其独特性的关注,这可能是一个更大的问题。决定仍然使用浮栅存储单元,而不是像其他所有人一样切换到电荷陷阱单元。
为了与这种三层结构配合使用,英特尔重新组织了它们处理擦除块的方式,现在三个平台中的每一个都构成了一个单独的擦除块集合。这意味着现在可以擦除144L字符串的中间三分之一,而不会干扰存储在该字符串的其他三分之二中的数据。英特尔还可以通过96L QLC将数据块按卡组划分,从而将96 MB的数据块大小减小到不太极端的48 MB数据块大小。