Google 推出批量校準以增強 LLM 效能

Google 研究最近推出了一種稱為批量校準(BC) 的方法，旨在提高大型語言模型的表現（法學碩士）透過降低對模板選擇等設計決策的敏感度。該方法旨在透過減輕與模板選擇、標籤空間和演示範例相關的偏差來解決性能下降問題並促進強大的法學碩士應用。該揭幕儀式於 2023 年 10 月 13 日舉行，該方法由學生研究員 Han Zhou 和 Google Research 高級研究科學家 Subhrajit Roy 闡明。

挑戰

法學碩士的表現，特別是在情境學習 (ICL) 場景中，被發現其開發過程中所做的設計選擇對其影響很大。由於這些設計決策，法學碩士的預測結果可能會出現偏差，這可能會導致意外的表現下降。現有的校準方法試圖解決這些偏差，但缺乏區分每種方法優缺點的統一分析。該領域需要一種能夠有效減輕偏差並恢復 LLM 性能且無需額外計算成本的方法。

批次校準解決方案

受到對現有校準方法分析的啟發，研究團隊提出了批量校準（Batch Calibration）作為解決方案。與其他方法不同，BC 被設計為零樣本、自適應（僅推理），並且附加成本可以忽略不計。該方法根據一批輸入估計上下文偏差，從而減輕偏差並提高效能。研究人員認為，成功校準的關鍵在於準確估計情境偏差。 BC 估計這種偏差的方法明顯不同。它依賴線性決策邊界，並利用基於內容的方式來邊緣化批次內所有樣本的輸出分數。

驗證與結果

使用PaLM 2 和CLIP 模型在10 多個自然語言理解和分析領域驗證了BC 的有效性影像分類任務。結果是有希望的； BC 顯著優於現有的校準方法，在 PaLM 2 的小型和大型變體上分別顯示 8% 和 6% 的性能增強。此外，BC 在所有評估任務中都超越了其他校準基線（包括情境校準和原型校準）的性能，展示了其作為增強LLM 性能的強大且經濟高效的解決方案的潛力。

即時工程的影響

BC 的顯著優勢之一是它對即時工程的影響。人們發現該方法對於常見的即時工程設計選擇更加穩健，並且在數據高效的同時使即時工程變得更加容易。即使使用表情符號對等非常規選擇作為標籤，這種穩健性也是顯而易見的。與其他需要 500 多個未標記樣本才能獲得穩定性能的方法相比，BC 在大約 10 個未標記樣本上表現出色，展示了其樣本效率。

批量校準方法是解決與大型語言模型性能相關的挑戰的重大一步。透過成功減少與設計決策相關的偏差並展示各種任務的顯著性能改進，BC 預計將在未來提供更強大、更高效的法學碩士應用程式。

Google 推出批量校準以增強 LLM 效能

相關資訊

最新資訊

收藏我們