【Hacker News搬运】Sorbet:一种基于神经形态硬件兼容变压器的尖峰模型
-
Title: Sorbet: A neuromorphic hardware-compatible transformer-based spiking model
Sorbet:一种基于神经形态硬件兼容变压器的尖峰模型
Text:
Url: https://arxiv.org/abs/2409.15298
标题:Sorbet:基于脉冲神经网络和Transformer的神经形态硬件兼容性Spiking语言模型 摘要:为了应对隐私等问题,边缘设备上对语言模型的需求日益增长。这催生了针对资源受限设备的小型语言模型(SLM),在这些设备上,能效是一个重要考虑因素。脉冲神经网络(SNNs)因其能效性而成为解决这一问题的有希望的方法,并且已有工作在SNN上实现了基于Transformer的模型。然而,softmax和层归一化(LN)等关键操作在神经形态硬件上难以实现,许多早期工作都绕过了这些操作。为了解决这些挑战,我们引入了Sorbet,这是一个基于Transformer的Spiking语言模型,它具有更高的神经形态硬件兼容性。Sorbet集成了基于移位的新型softmax(PTsoftmax)和位移操作(BSPN)的功率归一化方法,两者都旨在替代相应的能耗密集型操作。通过利用知识蒸馏和模型量化,Sorbet实现了高度压缩的二进制权重模型,在保持竞争力性能的同时,显著降低了能耗。我们通过在GLUE基准和一系列消融实验上的广泛测试,验证了Sorbet的有效性,证明了其在语言模型推理中作为节能解决方案的潜力。 内容总结: Sorbet是一种新型的Spiking语言模型,旨在提高能效,适用于边缘设备。该模型通过在脉冲神经网络(SNN)上实现,解决了softmax和层归一化等操作在神经形态硬件上难以实现的问题。它采用了PTsoftmax和BSPN技术,这些技术旨在降低能耗。通过知识蒸馏和模型量化,Sorbet能够保持高性能的同时,大幅减少能耗。实验结果表明,Sorbet在能效方面具有巨大潜力,适用于需要节能的语言模型推理场景。
Post by: PaulHoule
Comments:
satvikpendem: I wonder how well this model can typecheck Ruby code.
satvikpendem: 我想知道这个模型对Ruby代码的类型检查有多好。
krasin: There's no code or weights released => no way to reproduce their results.
krasin: 那里;s未释放代码或权重=>;无法重现他们的结果。
evanwolf: sometimes it seems folks are just making up words.
evanwolf: 有时候,人们似乎只是在编单词。