StreamingLLM 突破:處理超過 400 萬個代幣,推理速度提升 22.2 倍

在人工智慧和大語言模型(LLM) 的動態領域,最近的進步帶來了顯著的改進處理多輪對話。 ChatGPT在擴展交互過程中保持生成質量,受到輸入長度和GPU 內存限制。 LLM 會遇到比訓練序列長的輸入,

在人工智慧和大語言模型(LLM) 的動態領域,最近的進步帶來了顯著的改進處理多輪對話。 ChatGPT在擴展交互過程中保持生成質量,受到輸入長度和GPU 內存限制。 LLM 會遇到比訓練序列長的輸入,如果輸入超出注意視窗(受 GPU 記憶體的限制),就會崩潰

Xiao 等人對 StreamingLLM 的介紹。麻省理工學院發表的題為「具有註意力接收器的高效能流式語言模型」是一項突破。該方法允許在多輪對話中串流超過 400 萬個令牌的文字輸入,而不會影響推理速度和生成質量,與傳統方法相比,實現了 22.2 倍的顯著加速。然而,在原生 PyTorch 中實現的 StreamingLLM 需要針對需要低成本、低延遲和高吞吐量的實際應用進行進一步優化。

為了滿足這一需求,Colossal-AI 團隊開發了SwiftInfer,這是一個基於TensorRT 的StreamingLLM實現。此實現將大型語言模型的推理性能額外提高了 46%,使其成為多輪對話的高效解決方案。

SwiftInfer專案中SwiftInfer與TensorRT推理優化的結合,保持了原有StreamingLLM的所有優點,同時提升了推理效率。使用 TensorRT-LLM 的 API,可以像 PyTorch 模型一樣建立模型。值得注意的是,StreamingLLM 不會增加模型可以存取的上下文長度,但可以確保使用更長的對話框文字輸入生成模型。

Colossal-AI 是一個基於PyTorch 的人工智慧系統,也是這一進步不可或缺的一部分。它採用多維並行、異質記憶體管理等技術來降低AI模型訓練、微調和推理成本。在短短一年多的時間裡,它就獲得了超過 35,000 顆 GitHub star。該團隊最近發布了 Colossal-LLaMA-2-13B 車型,這是 Llama-2 車型的微調版本,儘管成本較低,但展示了卓越的性能。

旨在整合系統優化和低成本運算資源的Colossal-AI雲平台已上線人工智慧雲伺服器.該平台提供了Jupyter Notebook、SSH、連接埠轉送和Grafana監控等工具,以及包含Colossal-AI程式碼儲存庫的Docker鏡像,簡化了大型AI模型的開發。

收藏我們

搜索