AI 芯片与相关产业 • 观察和展望

来源:内容来自「StarryHeavensAbove」,谢谢。

我最近受邀在 ASPDAC 会议上做了一个报告,介绍了一下我对 AI 芯片和相关产业的观察和对未来的一点点猜测,在这里整理了一下分享给大家。
AI 芯片与相关产业 • 观察和展望
两年多以前,我在 github 上开始了一个业余项目:AI Chip (ICs and IPs),主要是用于记录 AI 芯片领域的公司和重要事件。随着时间的推移,这个列表不断的增长。后来我做了这个 AI 芯片全景图,作为 AI 芯片列表的一个可视化总结,得到很多关注和传播。这个图不仅仅是一个 Logo 的集合,如果我们仔细观察,可以发现很多有趣的现象。
AI 芯片与相关产业 • 观察和展望
第一个最重要的趋势是很多非传统芯片玩家进入芯片设计,特别是 AI 芯片领域,并且表现很好。Google 2017 年公布 TPU 可以看作 AI 芯片爆发的关键点。AWS 已经在实际业务里部署了多款自研芯片,不仅是 AI。特斯拉也自己研发了 FSD 芯片,用于加速自动驾驶算法,取得了相当好的效果。其它中美科技巨头虽然路径各有不同,也都有自研定制芯片或 FPGA 的动作。这些新的玩家有很多优势,有大量需求,最熟悉业务和芯片部署场景,有丰富的资源;有非常丰富的系统经验,技术上可以从系统角度进行优化,可能减轻芯片本身的负担,等等。他们的成功也带动了更多之前不做芯片的公司开始考虑和动手自研芯片。但是,有的非传统玩家也有一个问题,即对芯片设计,开发和生产的规律不熟悉,往往低估芯片研发的投入而做出盲从但并不经济的选择;或者低估过程的艰辛,以软件和互联网产业的 KPI 来要求芯片研发,这些都可能最终导致烂尾工程。而对于传统芯片厂商来说,如何适应这个趋势也是很大挑战。不管怎样,自研定制的趋势已经逐渐形成,这对整个芯片产业和产业中所有从业人员都会产生深远的影响。
AI 芯片与相关产业 • 观察和展望
第二个大家都看得到的现象就是大量的 AI 芯片初创企业。在我的 AI 芯片列表中有大约 70 家左右,还有很多是没有公开或者我不知道的。这种初创企业大量出现的情况在半导体产业应该是前所未有的。所以大家问的最多的问题就是“最后谁能生存下来?”老实说,我不知道答案。但我们看到,Habana 刚刚被 Intel 以 20 亿美金收购。希望大家都能和他们一样幸运吧。
AI 芯片与相关产业 • 观察和展望
如果我们仔细观察 AI 芯片初创公司的发展,我们可以看到他们面临的最大挑战往往不在硬件而是在软件,能够在芯片硬件投片成功后快速实现相应的软件工具的凤毛麟角。这里面有几方面的原因,第一的是这些公司的芯片架构比较特殊,开发相应的编译工具和优化库的工作量不小。而有的公司为了保证投片的时间,降低硬件研发的难度和风险,往往选择最大程度简化硬件的编程性和灵活性,导致最后编程的困难。即便能够做到比较好的软硬件平衡,提供一套完整好用的软件工具链和开发环境本身就是很大的挑战,也是现在大家很难对 Nvidia 形成威胁的原因。一个好消息是现在大家对机器学习编译器的重视程度普遍提高,在开源社区也有一些不错的编译器项目在积极推进,比如 TVM,MLIR,GLOW 等等。这些项目都希望能够给大家提供一个好的编译器框架,支持多个层次的 IR,从而可以比较方便在不同层次进行优化。在我看来,ML Compiler 相比传统编译器来说可能玩出新的花样,比如实现软硬件的协同设计,静态优化和 Autotuner 的结合,等等。大家可以多关注这方面的工作。
AI 芯片与相关产业 • 观察和展望
另一个比较活跃的领域是基准测试 Benchmark。和传统的处理器的基准测试一样,AI 芯片的 Benchmark 是让所有设计者能够对目标应用和 workload 有清楚和统一的认识的关键。但 AI 芯片的 Benchmark 设计和部署有相当的难度。目前我们还需要用多个神经网络模型来覆盖不同的应用,同时还需要对不同场景的支持;而各种 AI 芯片架构和软件栈的成熟程度差异很大,即便让 Benchmark 跑出结果都要消耗很多精力。如之前 Cerebras 就明确说,他们宁愿把时间花在对客户应用的优化上,而不会为了取得一个漂亮的 Benchmark 结果上花一点时间。目前这方面的工作中,MLPerf 应该是最扎实的一个,但即使是 MLPerf,要想成为大家公认的标准也还有很多问题要解决。
AI 芯片与相关产业 • 观察和展望
总的来说,AI 芯片对于整个芯片产业也起到了一个巨大的推动作用。相关的 EDA 工具,IP,设计服务,Foundry 等等部门都有针对 AI 芯片的需求改进和发展。而在一些相关的基础技术上,比如新型存储,封装技术,片上网络,片间互联等等,我们都看到技术加速进步现象。
AI 芯片与相关产业 • 观察和展望
具体到芯片架构,从 2016 年开始,我们就看到了很多非常有趣的设计。Google 的 TPU 是基于脉动阵列;Nvidia 在 GPU 中加入了 Tensor core;Habana 采用 VLIW/SIMD 加 GEMM Engine 的架构,虽然中规中矩,但取得了很好的效果;Graphcore 实现了一个由上千个核组成的多核架构,并且集成了 300MB 的片上存储;而 Cerebras 的 Wafer Scale Engine 可以说是一个工程奇迹。此外我们还在谈论和期待更多的可能性,CGRA/SDH (软件定义硬件),类脑,存内计算,光计算,图处理器等等,真的是“Golden Age of Computer Architecture”。
AI 芯片与相关产业 • 观察和展望
这些架构中有很多并不是新的发明,在几十年前刚出现的时候也并不成功,在今天重新焕发青春完全是因为应用需求发生的变化。如果我们看看 AI 芯片外的更大的背景,我们今天要处理的 workload 在近十年发生了巨大的变化,已经从以处理(processing)为核心的通用计算变为以数据为核心的领域专用计算。因此,我们必须,也有机会重新思考整个计算系统的设计(参考下图)。比如目前很多的尝试就是把运算放到更合理的地方,比如数据产生和存储的地方,而不是统一用“距离遥远”的 CPU 进行处理。
AI 芯片与相关产业 • 观察和展望计算系统的功能描述和分层抽象

在这种 re-think 和 re-design 的过程中,巨大的挑战(机会)是跨越边界(包括功能模块的边界和抽象层次的边界)的优化和全栈的实现。相信,能够解决相应问题的设计,工具和方法学都有很多机会。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第 2200 期内容,欢迎关注。

推荐阅读

博通与苹果达成 150 亿美元协议,覆盖未来 3 年苹果产品

如何复制快速崛起的半导体“春秋五霸”?

华为的汽车芯片布局

半导体行业观察

AI 芯片与相关产业 • 观察和展望

半导体第一垂直媒体

实时 专业 原创 深度

识别二维码 ,回复下方关键词,阅读更多

半导体股|AI|台积电|华为|晶圆|CMOS|AMD|2019 半导体盘点

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

AI 芯片与相关产业 • 观察和展望

来源链接:mp.weixin.qq.com