行动北京大学东谈主工智能参议院和集成电路学院的双聘助理熏陶,李萌既懂 AI 又懂芯片。
近日,他和北京大学集成电路学院王源熏陶及团队联想出一款面向 Transformer 模子的高效数据流架构——HG-PIPE,并在可编程阵列逻辑(FPGA,Field Programmable Gate Array)平台上完成了及时展示。
总的来说,HG-PIPE 是一种能用于高隐隐率和低延长 ViT(Vision Transformer,视觉 Transformer)处理的活水线架构 FPGA 加快器。
(起原:ICCAD)
HG-PIPE 聘任搀杂粒度活水线架构,因此大要镌汰片上缓冲区老本,其还将绸缪数据流和并行联想链接合,从而大要摒除活水线气泡(pipeline bubbles)。
HG-PIPE 进一步引入了良好的近似联想,以完毕基于查找表(LUT,Lookup Tables)的线性运算符和非线性运算符,从而大要缓解资源为止。
比较 AutoViTAcc 等现存加快器,在一块 ZCU102 FPGA 上,HG-PIPE 完毕了进步 2.78 倍的隐隐量和进步 2.52 倍的资源遵守。
同期,他们还提供了加快器的架构联想图,展示了数据在硬件模块间的流动旨趣和绸缪旨趣。
通过连合细粒度联想和粗粒度联想的优点,本次设施大要同期完毕低延长和高资源哄骗遵守,将片上激活缓冲老本镌汰 83.3%。
当今,他们照旧完毕包括 PoT(Power-of-Two)表索引绸缪和基于 LUT(Lookup Tables)的 ReQuant 在内的优化,这些优化在不燃烧精度的情况下能将数字信号处理(DSP,digital signal processing)使用率镌汰 89.6%。
在 VCK190 开荒板上,HG-PIPE 能以 7118FPS 的速率提供及时视觉 Transformer 处理(异常于 17.8TOP/s),比 V100 图形处理器(GPU,Graphics Processing Unit)快 2.81 倍。
(起原:ICCAD)
有望用于神经收集处理器芯片
李萌示意:“本次参议主要面向视觉 Transformer 模子,旨在提高其在端侧硬件资源受限平台上的部署推理遵守,在应用上具有宽广的远景。”
一方面,行动通用型骨干收集,视觉 Transformer 模子大要复旧包括策动检测、图像分割、姿势识别、视频富厚在内的多种卑劣任务。
另一方面,由于数据诡秘、收集贯穿等成分为止,AI 模子端侧部署濒临着平日的需求,比如用于车载助手和自动驾驶场景等。
跟着汽车产业的转型和升级、以及自动驾驶手艺的冉冉发展,无不预示着委果的无东谈主驾驶也许不久就会到来。
而面向自动驾驶的低延长、高能效的端侧神经收集硬件加快器,必将成为一个执续火热的参议范围。
国内繁多造车新势力比如蔚来、联想、小米等,齐在研发我方在端侧的神经收集处理器芯片。蔚来照旧在最近展示了自家的流片终结。
而本次李萌和王源熏陶团队的参议恶果,展示了当今对于非自追溯 Transformer 而言的遵守最佳的硬件数据流联想决策,将来有望用于上述应用场景。
图 | 左:李萌;中:王源;右:郭晴宇(起原:李萌)
日前,联系论文以《HG-PIPE:聘任搀杂颗粒活水线的 Vision Transformer 加快》(HG-PIPE: Vision Transformer Acceleration with Hybrid-Grained Pipeline)为题发在绸缪机扶植联想海外会议(ICCAD,International Conference on Computer-Aided Design)[1]。
图 | 联系论文(起原:ICCAD)
异常于每秒 7353 张图像的联想帧速率
夙昔十年,收获于专用加快芯片和系统治来的算力提高,以深度学习为代表的 AI 手艺得到了快速发展。同期,也对 AI 提议了新挑战和新条款。
以防备力模子 Transformer 为例,它比传统的卷积神经收集具有更少的归纳偏见以及更强的泛化能力,因而被平日用于视觉、言语等不同模态信息的处理中。
但是,比较卷积神经收集,Transformer 模子的参数目和绸缪量有着权贵增多,因此在端侧芯单方面积、功耗等相对比较受限的场景中,濒临着更高的部署挑战和绸缪挑战。
使用 FPGA 进行视觉 Transformer 加快很有远景,但也很有挑战性。
现存的基于 FPGA 的视觉 Transformer 加快器主要依赖于时序架构,该架构通过重用交流的硬件块来处理不同的运算符,其短板在于遍及的内存考核支拨。
非论是粗粒度的照旧细粒度的活水线架构,从空间上伸开视觉 Transformer 绸缪。关联词,由于视觉 Transformer 依赖于全局绸缪,它们通常会受到硬件资源为止和活水线气泡的严重影响。
基于此,团队针对视觉 Transformer 模子的高效推理开展了本次参议。
他们但愿回应的中枢问题是:在 Transformer 模子架构渐渐络续的情况下,能否通过联想 Transformer 专用的数据流架构,来完毕超低延长的视觉 Transformer 推理优化?
北京大学集成电路学院王源熏陶,是李萌在本次参议中的互助者。从 2021 年头,王源就驱动参议张量流式处理架构(tensor streaming processing)。
具体来说,王源曾先后参议了卷积神经收集和视觉 Transformer 模子,其中对于卷积神经收集的联系论文发表于 IEEE Transactions on Circuits and Systems I: Regular Papers。
而在本次参议初期,针对张量流式处理架构能否适用于 Transformer 模子非凡通用性等问题,李萌、王源和学生郭晴宇曾开展过一场争论。
由于需要针对 Transformer 收集的每一层进行定制化联想,这让 HG-PIPE 濒临着通用性不及以及工程量遍及的挑战。
不外,当把视觉 Transformer 模子用于不同视觉任务之中,它在骨干收集上存在一定的通用性。而 FPGA 平台的可重构脾气,也不错很猛进度上舒缓 HG-PIPE 的使用局限。
此外,对于视觉 Transformer 模子来说,在端侧濒临着高能效、低延长的部署需求。
因此,该团队觉得这条手艺道路具有一定的使用价值。针对架构联想进行几次大改之后,对于本次参议的论文和加快器 demo 均在 2023 年之内成型,并获取了很好的加快效果。
(起原:ICCAD)
具体来说:
为了评估本次联想决策,他们弃取使用 Deit 微型模子和 Deit 袖珍模子,在 ZCU102 和 VCK190 这两个 FPGA 平台上进行测试,并与 AutoViTAcc、HeatViT 和 SSR 这三个基线进行了对比。
其中,ZCU102 允许与之前的参议恶果进活动直比较,而 VCK190 复旧整个收集的全面部署。在测量隐隐量时他们使用 PYNQ 框架进行测量,测量功耗时他们则使用赛灵念念公司的 BEAM 器具进行评估。
通过模拟上述联想决策,他们生成了一个时序图。然后,在加快器中按端正加载输入张量块。当首张图像的加载完成时,下一张图像驱动加载,不同图像的推理执行驱动出现一样。
同期,由于 MHA 块(Multi-Head Attention,Transformer 的要津模块)聘任粗粒度的缓冲,导致输出第一个张量块时略有延长。
尔后续图像绸缪,所测得的平均处理周期数是 57624 个周期,这和课题组的预期彼此相宜,也考证了搀杂粒度活水线的灵验性。
实验数据还披露:首张图片的总处理时候为 824843 个周期,臆想 1.94ms。当活水线踏实后,完成新图片的推理平均仅需 0.136ms,异常于每秒 7353 张图像的联想帧速率。
通过将 HG-PIPE 与其他先进恶果开展基准比较,该团队发现这种搀杂粒度活水线联想在隐隐量、资源遵守和功率遵守方面有了权贵提高。
李萌和王源也很兴奋地发现,跟着 Transformer 和大模子的平日应用,业界也越来越认同这种高度定制化、低延长的手艺决策。
包括 Groq、Tenstorrent、Etched 等海外公司,也齐在聘任雷同的联想念念想。
李萌补充称,他和团队的过往参议主要面向视觉 Transformer 模子。事实上,雷同念念想也能用于提高大模子和多模态大模子的端侧部署遵守。
不外,大模子存在自追溯解码脾气和模子范围指数级增长的特质,因此比视觉 Transformer 模子濒临着更大的存储挑战和访存带宽挑战。
是以,课题组的后续参议将主要面向多模态大模子,即参议如安在端侧的有限的硬件资源下,通过冲破带宽为止和存储为止,来提高大模子的部署遵守。
参考贵寓:
1.Guo, Q., Wan, J., Xu, S., Li, M., & Wang, Y. (2024). HG-PIPE: Vision Transformer Acceleration with Hybrid-Grained Pipeline.arXiv preprint arXiv:2407.17879.
复旧:Ren
运营/排版:何晨龙
- 股票行情快报:熙菱信息(300588)11月22日主力资金净买入1612.79万元 2024-11-22
- 股票行情快报:中广核技(000881)11月22日主力资金净卖出1262.01万元 2024-11-22
- 股票行情快报:三川奢睿(300066)11月22日主力资金净卖出306.74万元 2024-11-23
- 股票行情快报:ST天邦(002124)11月22日主力资金净卖出2337.81万元 2024-11-22
- 10月我国滥用市集有哪些变化?商务部解读 2024-11-22