MLCommons推出第一個LLM安全基準，促進AI風險評估標準化

開放工程聯盟MLCommons發布AILuminate，這是一款針對大型語言模型的安全性測試新工具，而這也是第一個由人工智慧研究人員和產業專家，共同合作設計的人工智慧安全基準，目的是要對當前受廣泛使用的大語言模型進行科學且獨立的風險分析，供企業整合人工智慧技術時參考。

企業逐漸在業務或是產品中融入人工智慧，但是目前市場上卻缺乏針對人工智慧產品安全性的標準化工具，MLCommons創辦人Peter Mattson指出，人工智慧技術如同汽車或飛機等複雜技術一樣，需要有產業標準測試，以指引負責任的開發過程。而AILuminate的推出，不僅替開發者改善系統安全性提供了方向，也讓企業能夠更清楚自家系統的安全性評分。

AILuminate安全評估涵蓋12類潛在危險，如煽動暴力犯罪、兒童性剝削、仇恨言論和智慧財產權侵害等，並藉由超過24,000條測試提示詞分析模型的回應表現。為了維持評估的科學嚴謹性，所有參與測試的模型事前均未得知測試內容，也無法使用被評估模型進行交叉驗證。這種設計避免了非嚴格基準測試中常見的偏差問題，確保測試過程的獨立性、客觀性與可信度。

MLCommons已經使用AILuminate對多款大型語言模型進行安全性評估，並提供詳細的結果分析。在測試中，Anthropic Claude 3.5 Haiku和Claude 3.5 Sonnet、Google Gemma2 9B、微軟Phi 3.5 MoE Instruct皆達到非常好（Very Good）的等級。OpenAI GPT-4o與Meta Llama 3.1 405B Instruct模型被評為良好（Good）。

Ministral 8B違反回應的數量是參考系統的1.5倍以上，並評為尚可（Fair），而Allen Institute for AI科學研究用的OLMo 7b 0724 Instruct模型則被評為差（Poor）。

MLCommons的人工智慧風險與可靠性工作組負責AILuminate的開發工作，參與者有來自史丹佛大學、哥倫比亞大學與恩荷芬理工大學的研究學者，還有Google、英特爾、Nvidia、Meta與微軟等科技公司的專家。AILuminate目前已提供英文版本，將於2025年初推出法文、中文及印地文版本，工作組也會持續更新基準，確保人工智慧技術不斷改進的同時，AILuminate能應對未來的安全挑戰。

熱門新聞