Transformer流行的背后

首页>资讯 > 正文
2023-08-30 14:26:05

来源:与非网

许多技术公司都在大肆宣扬自己拥有比其他公司更好的处理transformer算法的解决方案。但其实业界transformer的基准测试尚未推出。


(资料图)

Generative AI(GAI)的蓬勃发展已经颠覆了整个AI世界,似乎是这样。

大语言模型(LLM),如ChatGPT所示,大多局限于语言建模和文本生成。但transformer(一种支撑LLM和其他GAI应用的总体深度学习架构)提供了一种可用于文本、语音、图像、3D和视频等数据流或任何传感数据的模型。

Nvidia汽车部门副总裁Danny Shapiro提到了GAI的多功能性,他说:“AI领域新的神奇之处在于它的无限性。而我们现在只触及到了表面。”

与任何新兴技术一样,硅谷也充斥着科技公司大肆宣扬其革命性解决方案的声音。坊间传闻,硅谷也在争相用transformer取代基于卷积神经网络(CNN)的模型。其中一种猜测提到了一家robotaxi公司,该公司刚刚淘汰了其内部设计的汽车芯片,并急于开发一种可以处理transformer的新款芯片。

Quadric是一家机器学习推理IP公司,Untether AI则将其硬件宣传为是“通用推理加速器”,这两家公司都在兜售可处理transformer的技术。Quadric说日本的Denso和Megachip是其客户,而Untether AI则说通用是其技术开发合作方之一。

Quadric的CMO Steve Roddy认为,transformer话题“在过去几周内真正活跃了起来”。他说:“显然,transformer总体上已经初具规模了,因为每个人都在玩生成式图像或ChatGPT等等。但到目前为止,LLM类型的东西都是在云端运行的,因为它们涉及数十亿个参数。”

Qualcomm因素‍‍

Roddy说:“尽管如此,人们现对‘设备端(on-device)’的transformer的关注要迫切得多。他猜测,引发这一变化的是Qualcomm。Qualcomm上月宣布了其2024年计划,即在智能手机和PC上提供Meta的新聊天工具、基于Llama 2的AI。

Qualcomm表示,其目的是“让开发者能够利用Snapdragon平台的AI功能,迎来全新的、令人兴奋的GAI应用”。Qualcomm的这一声明让Roddy和其他行业玩家感到不安。为什么要等到2024年?

越来越多的人猜测,Apple可能会率先采用设备端的transformer。今年秋季发布的新款iPhone能否实现这一目标?这是人们无法证实的猜测。

Gartner认为,GAI主导了有关AI的讨论,利用ChatGPT等系统以非常实际的方式提高了开发者和知识工作者的工作效率,该公司上周宣布,市场趋势正在将GAI推向“Hype Cycle中的预期膨胀高峰”。

工程咨询公司BDTI总裁、Edge AI and Vision Alliance创始人Jeff Bier在被问及一些公司吹嘘的transformer芯片时持谨慎态度。他说:“我们已经看到了相当可信的说法。但我们尚未对这些说法进行独立验证。就实际应用而言,transformer在很大程度上仍然处于领先地位。”

BDTI从事处理器基准测试(benchmarking)。不过,他说:“我们还没有对transformer或LLM进行任何处理器基准测试……我们刚刚收到第一批请求。”

什么是transformer?‍‍

首先,了解transformer模型到底是什么很重要。

在处理输入流时,与传统神经网络相比,transformer模型基于不同算法,使用不同的方法。该模型侧重于“关系”。

在自然语言处理(如ChatGPT)中,transformer模型(最初应用于LLM)是一种神经网络,用于查找和跟踪输入句子之间的关系,从而学习上下文和含义。

BDTI的高级工程师Mihran Touriguian说:“transformer非常适合查找输入之间的关系。即使输入之间的关系在时间或地点上相距甚远,该模型也能发挥作用。”

人们对transformer的兴趣之所以如此高涨,是因为它们与输入流无关。Touriguian解释说,该模型不仅可以应用于语言,还可以应用于视频或被分割成块的单一大型图像。

与其他模型相比,transformer的优势在于能找到图像中多个时间或位置输入之间的“关系”。Touriguian指出:“如果你的应用中使用了不同类型的传感器,那么transformer就非常适合。这些‘传感器’可以是图像、文本或语音。Transformer非常适合将不同的数据流结合到一个应用中。”

与数据类型无关‍‍

以往的神经网络模型需要单独的算法或拓扑结构来处理每种数据类型。Touriguian说:“在后端或前端,你可以将信息组合起来进行预测。”

与此相反,“transformer与输入类型无关”,他解释道。“因此,你可以将产生数据的多种类型传感器输入transformer。transformer基本上可以找到它们之间的关系,例如语音、图像和标题(文本)之间的关系。”

例如,在车载应用中,关键的输入数据流来自各种类型的传感器,摄像头、雷达和激光雷达都至关重要。Transformer如果能像承诺的那样发挥作用,就能将来自不同传感器的信息结合起来,为汽车提供更好的决策和解决方案。

但,我们还没有做到‍‍‍‍‍‍

然而,现实世界还没有实现这一愿景。要实现这一目标,transformer必须先进行大量的准备工作,即对输入数据进行预处理。Touriguian说,你需要“对输入的类型进行规范化”,这个过程被称为“嵌入(embedding)”,它捕捉并存储语言或其他数据流的意义和关系。它们是模型比较不同标记或数据输入的方式。

Touriguian说,在神经网络中,来自任何传感器的任何输入都必须转换为包含一定数量元素的矢量。这种规范化是transformer在多种类型传感器上运行的关键步骤。

Transformer面临的另一个障碍是其所依赖的庞大的参数和权重(数以亿计)。不过,Touriguian表示,最近这些参数已经缩小到与CNN模型相当的大小。他补充道,在精度方面,transformer与基于CNN的模型相同或略胜一筹。

然而,值得注意的是,研究人员和开发者已经意识到,通过结合CNN和transformer的优势,他们可以取得更好的结果,Touriguian指出,“CNN部分在图像上的表现非常出色,因为CNN关注的是相邻像素之间的关系。同时,在此基础上,transformer基本上可以找到这些邻域与图像中其他区域之间的关系。”

Transformer在车载领域中的应用‍‍‍‍‍‍‍‍

Transformer可以应用在哪里以及如何应用,似乎没有限制,从销售工具、聊天框、翻译到设计/工程、工厂和仓储……

例如,ChatGPT可以在车载中最明显的应用之一,就是让新手司机无需阅读数百页的使用手册,就能向汽车问:“嘿,XX,我该如何换轮胎?”

训练数据是另一个重要的应用领域。Nvidia的Shapiro举例说,GAI生成合成数据的能力可以用来向汽车的感知系统输入“一堆停车标志的图像”(有的上面有涂鸦,有的已经风化、生锈,有的被树木遮挡)。

他补充说,ViT、SwinTransformer、DETR、Perceiver等流行的视觉transformer目前已广泛应用于自动驾驶软件栈中。此外,GPT等LLM DNN可用于座舱应用,以自然、直观的方式向车内的人提供信息。他表示,Nvidia Drive“能够在车内部署运行这些复杂的视觉transformer和LLM”。

Transformer硬件需要什么?‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

Bier指出,如今,一些专注于边缘或嵌入式处理的AI硬件更加专业化,更偏爱CNN等成熟模型。另一些则更加灵活,更容易适应transformer。

Bier强调说:“这种适应性取决于两点。一是架构本身。另一个是支持它的软件工具和库。”

凭借其GPNPU架构Chimera所独有的IP,Quadric是一家声名显赫的AI IP供应商,其架构被宣传为能够“运行任何机器学习图形,包括最新的视觉transformer”。

Quadric声称,Chimera结合了神经加速器(NPU)和DSP的最佳特性,提供经典代码和图形代码的混合。Quadric的Roddy强调说,这对软件开发者尤为重要,因为他们希望“只需混合和匹配预构建的应用代码构件”。

Roddy认为,Quadric的优势在于它能够运行不同的内核来完成不同的任务(经典的DSP代码任务、经典神经网络kernel(包括检测器和验证器),以及介于两者之间的类似CPU的任务),所有这些都可以在Quadric的“单处理器”上完成。Roddy解释说:“无需多个引擎。实际只有一个处理器、一个执行流水线、一个代码流,所有这些都编译在一起。”

这与许多芯片设计者对机器学习出现的反应形成了鲜明对比。他们部署了一大块NPU加速器,并将新的加速器添加到SoC上已有的DSP和CPU内核中。

Roddy说,他们意识到无法在CPU或DSP上运行最新版本的ResNet(Residual Neural Network),“因为它太强大了”。这导致大多数公司创建了一个复杂的架构,迫使程序员“每年都要进行越来越高的抽象”,并对每个块的内存大小和工作负载分区进行“细致入微的思考”。结果导致了漫长的开发周期。

然后是transformer。

对于正在努力开发AI硬件的芯片公司来说,这无疑又是一记响亮的耳光。对于芯片设计师和程序员来说,本已复杂的局面变得更加混乱。Quadric说:“Transformer打破了你对传统NPU加速器的认知。”

Quadric认为,与以往的神经网络算法相比,视觉transformer“在网络拓扑结构和构件运算符方面大不相同”。该公司建议,“如果你的传统NPU无法处理视觉transformer,那么Quadric的GPNPU会更好”。

DNN以外的数学‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

Untether AI正在宣传其芯片对transformer的适应性。产品副总裁Bob Beachler说:“与两三年前相比,我在视觉应用中看到了更多的transformer式网络,当时大家都专注于CNN。”

因为Untether AI“一直在研究自然语言处理”,而自然语言处理是一种attention transformer式网络。Beachler称:“我们可以把为自然语言处理投入的相同电路用于基于视觉的transformer应用。”

当被问及Untether AI是否只是运气好时,Beacher回避了。他说,这个故事的寓意是“不要过度限制你的AI加速、AI应用”。

他指出:“我也看到一些初创公司在尝试进行特定类型的数学运算、棘手的数学变换。当你开始这样做时,你可以进行大量的数学变换,但你也开始失去精度。最终,你的芯片可能只能运行一次。”

要设计出能处理transformer式算法的处理器,最重要的是什么?

除了在处理器中加入灵活性之外,Beachler还强调,芯片必须处理DNN处理之外所需的所有数学运算,“比如视频缩放、激活和边界框的非最大值抑制。所有这些类型的事情都需要一种更通用的方法”。

BDTI的Bier表示赞同。他说,需要牢记的一个关键是,“现实世界中的大多数应用并不是简单地获取数据并将其输入某种DNN。它们需要使用非神经网络技术(如经典图像和信号处理技术)进行某种预处理。然后,再应用一个或多个DNN。然后再应用额外的经典算法,如跟踪算法。”

标签:

THE END
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表热讯制鞋网的观点和立场。

相关热点

新华社电 上海市文化和旅游局近日发布《上海市密室剧本杀内容备案管理规定(征求意见稿)》,并截至12月8日面向社会公众广泛征求意见。这
2021-11-19 13:46:03
《中国证券报》17日刊发文章《备战2022 基金经理调仓换股布新局》。文章称,距离2021年结束仅剩一个多月,基金业绩分化明显。部分排名靠前
2021-11-19 13:46:03
交通运输部办公厅 中国人民银行办公厅 中国银行保险监督管理委员会办公厅关于进一步做好货车ETC发行服务有关工作的通知各省、自治区、直
2021-11-19 13:45:58
新华社北京11月17日电 题:从10月份市场供需积极变化看中国经济韧性新华社记者魏玉坤、丁乐读懂中国经济,一个直观的视角就是市场供需两端
2021-11-19 13:45:58
全国教育财务工作会议披露的消息称,2020年,中国国家财政性教育经费投入达4 29万亿元,占GDP总量的4 206%,我国国家财政性教育经费支出占G
2021-11-19 13:45:48
如果你也热爱“种草”,前方高能预警!让你心心念念、“浏览”忘返的网络平台,可能早已成为一块块“韭菜地”。近日,据《半月谈》报道,有...
2021-11-19 13:45:48
日前,工业和信息化部印发《“十四五”信息通信行业发展规划》(以下简称《规划》),描绘了未来5年信息通信行业的发展趋势。《规划》指出...
2021-11-19 13:45:40
本报讯(中青报·中青网记者 周围围)2021年快递业务旺季正式拉开帷幕。国家邮政局监测数据显示,仅11月1日当日,全国共揽收快递包裹5 69
2021-11-19 13:45:40
人民网曼谷11月17日电 (记者赵益普)17日上午,中国援柬埔寨第七批200万剂科兴新冠疫苗抵达金边国际机场。当天,柬埔寨政府在机场举行了
2021-11-19 13:45:35
金坛压缩空气储能国家试验示范项目主体工程一角受访者供图依托清华大学非补燃压缩空气储能技术,金坛压缩空气储能项目申请专利百余项,建立
2021-11-19 13:45:35
视觉中国供图42亿立方米据有关部门预计,今年山西煤炭产量有望突破12亿吨,12月份山西外送电能力将超过900万千瓦,今冬明春煤层气产量将达4
2021-11-19 13:44:34
14省份相继发布2021年企业工资指导线——引导企业合理提高职工工资今年以来,天津、新疆、内蒙古、陕西、西藏、山东、江西、山西、福建、四
2021-11-19 13:44:34
中新网客户端北京11月18日电 (记者 谢艺观)“一条路海角天涯,两颗心相依相伴,风吹不走誓言,雨打不湿浪漫,意济苍生苦与痛,情牵天下喜
2021-11-19 13:44:31
近日,交通运输部等三部门发布《关于进一步做好货车ETC发行服务有关工作的通知》。通知提到,对不具备授信条件的用户,商业银行可在依法合
2021-11-19 13:44:31
欧莱雅面膜陷优惠“年度最大”风波 涉及该事件集体投诉超6000人次美妆大牌双十一促销翻车?近日,因预售价格比双十一现货贵出66%,欧莱雅
2021-11-19 13:44:13
43 6%受访者会在工作两三年后考虑跳槽54 3%受访者认为跳槽对个人职业发展有利有弊如今对不少年轻人来说,想对一份工作“从一而终”不太容易
2021-11-19 13:44:13
超八成受访青年表示如有机会愿意开展副业 规划能力最重要64 4%受访青年指出做副业跟风心态最要不得如今,“身兼数职”已成为年轻人当中的
2021-11-19 13:44:01
发展氢能正当其时【科学随笔】氢能是一种二次能源,它通过一定的方法利用其他能源制取,具有清洁无污染、可储存、与多种能源便捷转换等优点
2021-11-19 13:44:01
“千杯不醉”的解酒“神药”能信吗?专家:网红“解酒药” 其实不算药俗话说,“酒逢知己千杯少”,酒一直是国人饭桌上至关重要的存在。尽...
2021-11-19 13:43:57
最新文章

相关推荐