StripedHyena-7B:增強效能與效率的下一代人工智慧架構

人工智慧的最新進展受到Transformer 架構的顯著影響,Transformer 架構是各種大型模型的關鍵組件語言、視覺、音訊和生物學等領域。然而,Transformer 注意力機制的複雜性限制了

人工智慧的最新進展受到Transformer 架構的顯著影響,Transformer 架構是各種大型模型的關鍵組件語言、視覺、音訊和生物學等領域。然而,Transformer 注意力機制的複雜性限制了其在處理長序列方面的應用。即使像 GPT-4 這樣複雜的模型也難以克服這種限制。

StripedHyena 取得突破

為了應對這些挑戰,Together Research 最近開源了StripedHyena,這是一種擁有新穎架構優化的語言模型對於長上下文。 StripedHyena 可以處理多達 128k 個令牌,並且在訓練和推理性能方面都比 Transformer 架構有所改進。它是第一個在短上下文和長上下文中與最佳開源 Transformer 模型的性能相匹配的模型。

StripedHyena 的混合架構

StripedHyena 採用混合架構,將多頭、分組查詢注意力與Hyena 區塊內的門控卷積相結合。這種設計不同於傳統的僅解碼器 Transformer 模型。它透過將卷積表示為狀態空間模型或截斷濾波器,以鬣狗塊中的恆定記憶體進行解碼。與 Transformer 相比,此架構可實現更低的延遲、更快的解碼和更高的吞吐量。

訓練與效率提升

StripedHyena 在 32k、64k 和 128k 令牌序列的端到端訓練中優於傳統 Transformers ,速度分別提高了30%、50% 和100% 以上。在記憶體效率方面,與 Transformers 相比,它在自回歸生成過程中減少了 50% 以上的記憶體使用。

注意力機制的表現比較

StripedHyena 透過大規模關注實現了品質差距的顯著縮小,提供了類似的困惑度和下游性能計算成本較低,且不需要混合注意力。

語言處理以外的應用

StripedHyena 的多功能性擴展到影像辨識。研究人員測試了其在視覺 Transformers (ViT) 中替代注意力的適用性,在 ImageNet-1k 資料集上的影像分類任務中顯示出相當的準確性。

StripedHyena 代表了AI 架構向前邁出的重要一步,為Transformer 模型提供了更有效率的替代方案,尤其是在處理長序列時。其混合結構和增強的訓練和推理性能使其成為語言和視覺處理領域廣泛應用的有前景的工具。

收藏我們

搜索