10月25日-27日,以“大数据推动数字经济”为主题的“2018中国计算机大会”(CNCC2018)在杭州市国际博览中心(G20 会场)盛大举办。作为我国计算机领域规模最大,规格最高的学术、技术、产业交融互动的盛会,本次大会汇聚图灵奖获得者、美国工程院院士、中科院、清华、北大、东京大学、微软、谷歌、阿里、头条等众多信息技术领域知名人士及院所高校企业,以超过7500名的参会人数再创CNCC十五年盛会新高。

  其中,在25日下午的硬件安全论坛中,中科院计算所研究员、中科驭数CEO鄢贵海以《软件定义体系结构及计算架构安全属性的设计权衡》为题与香港科技大学工程学院院长Tim Cheng、马里兰大学帕克分校电气与计算机工程系教授屈钢、香港中文大学计算机科学与工程系副教授徐强分别做了主题分享,并共同参与了《从硬件安全到信息系统安全:过去、现在与未来》的圆桌交流。

  鄢贵海表示,自因特尔创始人戈登摩尔于1965年提出“摩尔定律”以来,芯片的运算能力大体上按照每18个月翻一番的速率在增长。其中的贡献既来自于工艺进步,也来自架构的不断创新。芯片制造工艺进步所带来巨大贡献体现在,几乎对架构不做任何更改,仅依赖采用更细化的半导体工艺,就可以带来可观的性能提升。同时,更密集、更便宜的晶体管和互连线等片上资源也为更多架构设计提供了可能性。

  然而,随着工艺不断细化到逼近一定的物理极限,“摩尔定律”的失效已成必然。数据显示,芯片晶体管密度在近三年的年化增长率仅为3.5%,这意味着原来“工艺-架构”这种“双轮驱动”的发展模式似乎难以平衡。其实,早在2005年,单个处理器芯核的能效比提升就已经面临困难,发展多核处理器架构也一直在进行中。在这个比较直接的演化过程中,很多并行应用因此而直接受益,但也有很多应用的性能并没有因为采用多核处理器而得到提升,特别是那些没有“显式”并行度、难以进行并行编译优化的应用。

  在半导体芯片“摩尔定律”已经接近尾声的同时,“数据摩尔定律”显然才刚刚开始。根据美国发布的《2016-2045年新兴科技趋势》,全球数据量自2015年开始每两年翻一番。随着应用领域的不断创新和数据的指数级增长,尤其是人工智能、区块链、边缘计算等技术对算力需求的不断增强,依靠传统的通用计算已很难有效地为继,而专用计算架构将发挥巨大的作用。且很多领域所承载的市场容量都足以支撑一类专用架构的研发与应用。例如,有预测表明现在热点的领域如“人工智能”、“区块链”等领域都承载了万亿美元量级的市场。

  目前,面向专用计算的体系结构研究仍然处于“百花齐放”的时代,从探讨FPGA、ASIC等具体底层实现到ISA指令集扩展等软硬件架构等均有涉及。专用加速系统的设计方法也还远没有形成统一的定式。以GPU(图形处理器)为代表,VPU(视频处理器)、MPU(运动增强处理器)、APU(音频处理器)等大多与多媒体的的编码解码相关的协处理器虽然得到了较广泛应用,但在一些基础性的行业数据分析、一些业务数据爆发式增长的行业,并没有得到足够的重视。算力问题依然是亟待解决的“刚需”。

  以近年来热门的“深度学习”为例,据人工智能开放组织OpenAI 今年5月发布的分析,自2012 年以来,由于数据红利和深度学习的训练,人们对于算力的需求增长了超过30万倍。可以看到,几乎所有的互联网巨头们都在补充自己的标准服务器CPU,以通用处理器结合特定应用加速的协处理器来共同处理海量数据。例如Microsoft利用FPGA来加速其旗下的Bing搜索引擎,Google研发的TPU来加速神经网络推理,阿里巴巴公司也有FPGA硬件的团队来针对具体的计算负载来做加速等等。然而面对应用的多样性和数据的复杂性,“高性能”和“通用性”却始终“不可兼得”。

  当前,已经有一些资深的行业人士已经发现,打通底层基础硬件架构和上层应用的“全栈式”研发,定制不同的多元化解决方案,将会变成产业非常重要组成部分。然而,目前除了资本、技术均有优势的巨头们在持续的投资研发更匹配其应用与数据的处理加速器外,绝大多数企业仍然只能选择各类通用CPU为核心的服务器,即便在利用率低下、购买及使用成本高昂的情况下,仍然别无选择。

  这归结于定制专用计算架构具有很高的技术门槛,即便是基于以可编程性和灵活性著称FPGA的解决方案,多数企业的研发能力也很难下探到计算架构的层面,且还是牺牲了部分性能,因而无法从根基上优化解决方案来高效地满足“算力”的需求;而对于单个企业而言,建立一个专用架构研发团队在实际上也因为规模效应不足、研发周期长、技术难度大、成本高等因素,导致极大的风险。因此,当下计算架构的创新正是瞄准了这个众多企业面临的核心问题:利用高效的专用计算架构来显著增强企业的数据处理能力,更好的支撑已有业务的运行,也为企业奠定数据驱动的创新提供算力保障。

  作为脱胎于中科院计算技术研究所的中科驭数,为了高效解决特定领域的海量数据处理问题,创新性地采用软件定义加速器的技术路线,从底层核心技术出发,以专用芯片架构为核心,实现软硬件协同的高效的解决方案。其原创技术KPUTM(即核处理器,已提交备案),是专为加速特定领域核心功能计算而设计的一种协处理器。 KPUTM以功能核作为基本单元,直接对应用中的计算密集性应用进行抽象和高层综合,实现以应用为中心的架构“定制” 。一颗KPUTM根据需求可以集成数十至数百个功能核。

  区别于传统的以控制流计算模型为基础冯诺依曼结构,KPUTM的每一功能核都为某一功能计算专属定制,与CPU、GPU、NPU大规模同质化核心不同。其通过数据驱动计算的方式,不仅可以实现超大规模的计算并行,也实现了真正意义上的多指令多数据处理模式。且不同于FPGA在电路层的改造的性能牺牲,KPUTM的核心技术在功能核层,以编译器形式内置的功能核,既实现了领域内硬件的统一,降低了规模限制的硬件成本和设计周期;又能通过软件编程实现不同功能的计算,特定需求只需要增删功能核的种类和数量即可。在整体计算效率提升百倍的前提下,仍然具有非常高的可扩展性和灵活性。从某种意义上说,中科驭数的KPUTM技术路线有望突破传统“性能”与“通用性”不可兼得的设计局限,具有广泛的应用前景。

  在论坛结束后,记者就KPU相关技术也请教了CNCC的现场特邀嘉宾香港科技大学工程学院院长、IEEE Fellow, Tim Cheng教授。Cheng教授早年曾任职于贝尔实验室,创建了UCSB计算机工程系、主管科研的副教务长。

  Tim认为,当前算力需求爆发的趋势已经很清楚,而DSA(Domain Specific Architecture 领域专用架构)是可以突破算力瓶颈的一个方向。其优势是对于某个领域的计算任务进行优化,算力可以得到极大提升;但是市场需求量不如通用处理器大,这就要求DSA的开发成本和针对领域的需求体量做好平衡。中科驭数推出的基于SDA(软件定义架构)方法设计的KPU,解决了DSA设计成本的问题,显著降低了DSA的开发成本,这样就大大拓展了DSA的使用领域。

  此外Tim对中科驭数首先选择Fintech领域开发KPU非常赞同。Tim认为,金融计算领域市场还是非常大的,而且负载有其特殊性,是非常合适的DSA应用场景。同时,Tim也表示DSA方向可以助力国家的“科技赋能金融”的长期战略,是一项任重而道远的事业,前景非常广阔。