2023-01-11
 
长袍阵列可以让小公司访问流行的人工智能形式
2023年01月11日  

莱斯大学计算机科学家的一项突破性的低内存技术可能会使人工智能成为资源最密集的形式之一鈥攄eep学习推荐模型(DLRM)鈥攚我在小公司的范围内。

DLRM推荐系统是一种流行的人工智能形式,它学习提出用户会发现相关的建议。但是,由于顶级培训模型需要超过100 TB的内存和超级计算机规模的处理,它们只适用于一小部分财力雄厚的技术巨头。

赖斯的“随机偏移块嵌入阵列”或罗伯阵列可以改变这种情况。这是一种减少DLRM内存结构大小的算法方法,称为嵌入表,将于本周在加利福尼亚州圣克拉拉举行的机器学习和系统会议(MLSys 2022)上发表,并在会上获得优异论文奖。

Anshumali Shrivastava说:“仅使用100兆字节的内存和单个GPU,我们就可以匹配需要100兆字节内存和多个处理器的最新DLRM训练方法的训练时间,并将推理效率提高一倍。”,赖斯的计算机科学副教授在MLSys 2022上与ROBE Array的共同创造者阿迪蒂亚·德赛(Aditya Desai)和李周(Li Chou)一起介绍了这项研究。阿迪蒂娅·德赛是施里瓦斯塔瓦研究小组的赖斯研究生,李周曾是赖斯的博士后研究员,现在在西得克萨斯农工大学(West Texas a&M University)工作。

“ROBE阵列为DLRM压缩设置了新的基线,”Shrivastava说。“它使DLRM能够为普通用户提供服务,这些用户无法使用高端硬件或工程专业知识来训练数百TB大小的模型。”

DLRM系统是从数据中学习的机器学习算法。例如,向购物者推荐产品的推荐系统将使用过去交易的数据进行培训,包括用户提供的搜索词、他们提供的产品以及他们购买的产品(如果有的话)。提高推荐准确性的一种方法是将训练数据分成更多类别。例如,公司可以为男士、女士和儿童洗发水创建类别,而不是将所有洗发水放在一个类别中。

为了训练,这些分类表示被组织在称为嵌入表的内存结构中,Desai说,由于分类的增加,这些表的大小“已经爆炸”。

“嵌入表现在占DLRM模型总内存占用的99.9%以上,”Desai说。“这导致了一系列问题。例如,它们不能以完全并行的方式进行训练,因为模型必须被分解并分布在多个训练节点和GPU上。在它们经过训练并投入生产后,在嵌入式表中查找信息约占向用户返回建议所需时间的80%。”

Shrivastava说,通过使用一种称为散列的数据索引方法来创建“一个学习参数的单一数组,它是嵌入表的压缩表示”,罗伯阵列消除了存储嵌入表的需要。然后,可以“使用GPU友好的通用散列”访问阵列中的嵌入信息。

Shrivastava、Desai和Chou使用广受欢迎的DLRM MLPerf基准测试了ROBE阵列,该基准测试系统训练模型达到目标质量指标的速度。通过使用大量基准数据集,他们发现,即使在将模型压缩三个数量级后,在训练精度方面,ROBE Array仍可以与之前发布的DLRM技术相匹配或击败。

“我们的结果清楚地表明,大多数深度学习基准都可以被基本算法完全推翻,”Shrivastava说。“鉴于全球芯片短缺,这对人工智能的未来来说是个好消息。”

长袍阵列并不是Shrivastava在MLSys的第一次大轰动。在MLSys 2020上,他的团队发布了SLIDE,这是一款“亚线性深度学习引擎”,在商品CPU上运行,性能可能优于基于GPU的培训器。他们在2021的MLSys会议上跟进,表明矢量化和内存优化加速器可以提高SLIDE的性能,使其训练深度神经网络的速度比顶级GPU系统快15倍。

免责声明: 本文仅代表作者本人观点,与中国机器人网无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
客服邮箱:service@cnso360.com | 客服QQ:23341571