StreamingLLM 突破：處理超過 400 萬個代幣，推理速度提升 22.2 倍

在人工智慧和大語言模型(LLM) 的動態領域，最近的進步帶來了顯著的改進處理多輪對話。 ChatGPT在擴展交互過程中保持生成質量，受到輸入長度和GPU 內存限制。 LLM 會遇到比訓練序列長的輸入，如果輸入超出注意視窗（受 GPU 記憶體的限制），就會崩潰

Xiao 等人對 StreamingLLM 的介紹。麻省理工學院發表的題為「具有註意力接收器的高效能流式語言模型」是一項突破。該方法允許在多輪對話中串流超過 400 萬個令牌的文字輸入，而不會影響推理速度和生成質量，與傳統方法相比，實現了 22.2 倍的顯著加速。然而，在原生 PyTorch 中實現的 StreamingLLM 需要針對需要低成本、低延遲和高吞吐量的實際應用進行進一步優化。

為了滿足這一需求，Colossal-AI 團隊開發了SwiftInfer，這是一個基於TensorRT 的StreamingLLM實現。此實現將大型語言模型的推理性能額外提高了 46%，使其成為多輪對話的高效解決方案。

SwiftInfer專案中SwiftInfer與TensorRT推理優化的結合，保持了原有StreamingLLM的所有優點，同時提升了推理效率。使用 TensorRT-LLM 的 API，可以像 PyTorch 模型一樣建立模型。值得注意的是，StreamingLLM 不會增加模型可以存取的上下文長度，但可以確保使用更長的對話框文字輸入生成模型。

Colossal-AI 是一個基於PyTorch 的人工智慧系統，也是這一進步不可或缺的一部分。它採用多維並行、異質記憶體管理等技術來降低AI模型訓練、微調和推理成本。在短短一年多的時間裡，它就獲得了超過 35,000 顆 GitHub star。該團隊最近發布了 Colossal-LLaMA-2-13B 車型，這是 Llama-2 車型的微調版本，儘管成本較低，但展示了卓越的性能。

旨在整合系統優化和低成本運算資源的Colossal-AI雲平台已上線人工智慧雲伺服器.該平台提供了Jupyter Notebook、SSH、連接埠轉送和Grafana監控等工具，以及包含Colossal-AI程式碼儲存庫的Docker鏡像，簡化了大型AI模型的開發。

StreamingLLM 突破：處理超過 400 萬個代幣，推理速度提升 22.2 倍

相關資訊

最新資訊

收藏我們