相信英特尔近发布的Ivy Bridge-E Core i7 4960X 6核心12线程消费级处理器,已让不少
还停留在双核四线程或四核八线程的普通消费者震撼不已。一些媒体甚至为Core i7 4960X
贴上了“地球强处理器”的标签。实际上,从整个处理器产品层面来看,这样的规格其实并不惊人——8核16线程、12核24线程等处理器早已在面向商用、科学的专业领域得到应用。而近蓝色巨人IBM更推出了一款拥有12核心96线程规格的怪兽级处理器——Power 8。那么这样的产品将拥有怎样的性能?它是如何实现这一惊人规格的呢?
其实在专业级处理器领域,IBM一直是技术规格的领头羊。早在2010年,IBM就推出了一款8核心32线程产品——Power 7系列处理器。这款处理器的规格即使在今天看起来也非常震撼,除了32线程并行执行能力,它采用了45nm工艺制造,拥有高达4.1GHz的工作频率,核心面积约为567mm2。由于技术规格、性能强劲,在随后长达三年的时间里,IBM都没有大幅度更新Power系列产品线,只是将工艺升级至32nm,提升了频率并发布了部分新的型号。相比之下,英特尔的产品已经更换了多代,制程也一路飙升至22nm。在这种情况下,IBM如果再不推出全新的Power系列处理器的话,就很可能在市场竞争中处于不利的地位。好在IBM终于完成了庞大而复杂的Power 8处理器的开发,并在2013年8月的Hotchip会议上揭开了这款怪兽级产品的神秘面纱。
对于面向服务器和企业级市场的产品来说,价格永远不是大的问题,很多企业只需要顶级的技术和顶级的产品。在普通玩家惊叹于一款28nm的GPU面积在500mm2的时候,IBM的Power 8处理器在使用22nm SOI技术的情况下,依旧达到了650mm2的庞大体积,可想而知这颗处理器拥有多么庞大的规格、多么惊人的潜力。保守估计IBM的Power 8处理器晶体管数量在120亿~140亿左右,已经远远超过了全球人口总数量。
从工艺角度来看,目前坚持使用SOI技术的只剩下寥寥几家,之前SOI技术的坚定支持者AMD在剥离了工厂后,也渐渐转向了传统的工艺技术。但这并不意味着SOI技术不好,而是其开发难度太高、技术要求也很复杂。而一旦SOI工艺成熟,相比传统的体硅工艺,SOI工艺在应用上就存在非常明显的优势:比如同等功耗下SOI产品频率更高、同等数量下SOI产品面积更小、SOI漏电率更低、寄生电容更小等。IBM作为SOI工艺的坚定支持者,在45nm SOI和32nm SOI技术后,又成功研发了22nm SOI技术并将其用于Power 8这样庞大的芯片生产,可见IBM对新工艺的掌握已经非常成熟了。单纯从技术角度来看,IBM在22nm SOI芯片的生产上同时使用了High-K金属栅极和SOI技术,被称为先进的22nm制程也不为过。
感叹完工艺和制程后,再来看看核心参数。Power 8在核心设计上采用了全新的12核心设计,每颗核心支持8路SMT。SMT即英文同步多线程的缩写,是指在处理器的一个时钟周期内可以执行多个线程指令的硬件多线程技术。SMT技术要求CPU内部有充裕的资源来应付多个线程的需要,并且还需要有极为先进的线程调配和中断机制,否则SMT不但不会给CPU性能带来增益,反而会影响单线程的性能。目前比较常见的SMT技术就是英特尔的超线程技术,不过英特尔的超线程技术实际效果有限,一次只能执行两个线程。而Power 8每个核心可以同时运行8个线程,一共可支持多达96个线程并行运算。
同时,为了更好地调整这些线程的工作情况,IBM设计了智能线
程技术,通过智能分配、动态负载来保证在不同的工作中有合适的线程调配工作。智能线程技术既能通过系统自动操作,也能通过服务器手动调配,工作模式灵活多样,避免了过去在多线程模式下导致数据库等应用性能下降的情况出现。
从2010年开始,Power 7处理器就实现了SMT 4,远远地将英特尔抛在后面。随后的Power 7+又进一步提升了产品规格,直到目前的Power 8,整体设计做出了大幅度改进,堪称目前强大的服务器产品。
Power 8的CPU核心中集成了2个FXU(定位单元)、2个LSU(负载存储器)、4个F PU(浮点运算单元)、2个VM X(矢量函数单元)、1个Cr y pto(加密计算单元)、1个DFU(十进制浮点计算单元)、一个CR(状态寄存器)、一个BR(分支寄存器)以及两个I F U(指令读取器)。从性能角度来说,Power 8的单核心性能相比Power 7提升了60%,总性能相比Power 7直接提升了两倍。
Power 8处理器核心架构,其设计方式和英特尔的Haswell-EX等顶级服务器处理器设计非常接近,都是缓存放在中央,四周围绕着8颗核心。这样的对称设计方式无论是对CPU还是缓存的使用和调度方面都更为合理。
那么,12核心96线程的配置将给处理器带来怎样的运算性能呢?稍显遗憾的是,目前IBM并没有给出具体的参数,不过我们可以通过Power 7的情况来进行合理推测。以双精度计算能力来看的话,Power 7高型号的单核心性能大约是33GFlops,8个核心差不多有大约260GFLops。而根据I BM的资料显示,Power 8单核心性能相比Power 7进步了大约60%,单核心应该有50GFlops左右的运算能力,因此12核心的Power 8大概会达到600GFlops。
相比之下,英特尔8核心服务器级处理器至强E5-2687W的计算能力在200GFlops以内,即便是采用12核心24线程设计的至强E5-2697V2处理器,其运算能力也不会超过300GFlops。此外,Power 8的问世也将大幅缩小CPU与GPU在并行运算能力上的差距。一台配备两颗Power 8 处理器的服务器平台差不多就能赶上NVIDIA GeForce GTX Titan(1.3TFlops)在双精度计算上的能力,同时对程序和并行化的要求也没有显卡那么严格、困难。总之,Power 8展示出了目前强悍的服务器级CPU性能。
处理器的主频方面,Power 8的处理器主频目前被设定在高4GHz左右,不排除未来IBM会推出更高频率的Power 8处理器。功耗控制上,Power 8处理器和英特尔新的Haswell处理器一样集成了内部VRM电压调整模块,在功耗控制方面也有比较明显的优势。目前尚没有具体数据说明Power 8功耗情况,据信至少和Power 7一样,甚至更好。同时IBM在Power 8上还引入了智能核心、智能功耗和智能内存技术,解决了困扰当今PC许久的运行效率与功耗等至关重要的问题。
在缓存设计方面,Power 8处理器的L1和L2缓存被设计在CPU内部。其中每颗核心拥有512K BL2缓存,96KB L1缓存(包含了64KB数据缓存和32K B指令追踪缓存)。L3缓存则采用了eDRAM设计,共计96M B。L1、L2和L3三级缓存是直接和CPU核心集成在一起的。除此之外,IBM还设计了由eDRAM组成、集成在外部Centaur芯片里的L4缓存,总容量高达128MB。根据IBM的资料,Power 8大幅度加强了非CPU核心部分的性能和功能设计,Power 8的缓存带宽也进一步获得提升。在内核间的数据传输上,12核心的POWER 8处理器L2缓存总计带宽高达4TB/s,L3缓存总计带宽达到3TB/s。
另外还有一点值得一提,那就是设计在Power 8 CPU核心的左右两侧的内存控制器。和传统产品不同的是,Power 8并非直接将内存控制器设计在CPU核心中,而是采用了8颗名为Centaur的外部芯片。每一颗Centaur芯片里集成一个内存控制、调度单元和16MBL4缓存,此外还有专门连接到Power 8核心的总线。简单来说,Power 8的每一颗Centaur芯片就相当于传统x86 CPU上带了缓存的内存控制器。8颗Centaur芯片的设计意味着处理器支持8通道内存和32个内存接口,其内存总带宽达到230GB/s。容量方面,如果每个内存接口都使用一根32GB服务器内存的话,那么单颗Power 8处理器可以使用的内存容量会高达1TB。如果在多路服务器中,比如在Power 795服务器上,可以通过采用32颗Power 8的方式,升级到高32T BDDR 3内存,并提供384个内核和3072个并行运行线程的强大性能。
其他方面,Power 8还整合了PCI-E 3.0总线控制器,可以提供高达48GB/s的带宽,比Power7和Power 7+所能提供的20GB/s带宽要高出不少。据悉NVIDIA正在为Power 8处理器开发全新的外部图形处理器,泰安等服务器厂商也表示支持Power 8处理器,并将推出相关产品。
那么,这样强大的Power 8处理器将应用在哪些领域呢?可以在我们日常的Windows电脑上使用吗?答案是:当然不行。作为经典的RISC高性能处理器,Power系列处理器往往运行在IBM UNIX平台上。使用Powe r处理器的行业集中在超大规模数据分析、数据计算、HPC、云计算、科学计算、金融计算以及能源计算等对运算能力有巨大需求的专业用户上。显然,性能大幅提升的Power 8处理器不仅可以改善这些用户的工作效率,也能让IBM能够继续在高端计算平台引领风骚,不惧英特尔在高性能计算领域的挑战。
SOI是Silicon On Isolator的缩写,即绝缘体上的硅技术。和传统的纯硅晶圆不同,SOI工艺使用的晶圆底部是一层绝缘层。正是这层绝缘体切断了上方MOS管漏电流的回路,使得基于SOI技术的芯片天生就有抵抗漏电流的本事,从而降低处理器功耗与发热量。