Coral Protocol 以 34% 的優勢超越微軟,成爲 AI 微型模型的頂級 GAIA 基準

簡要

Coral Protocol的多智能體系統在GAIA基準測試中超越了微軟支持的Magnetic-UI,表現提高了34%,這表明小型模型的智能編排可以與傳統的大規模AI方法相抗衡或超越。

珊瑚協議爲迷你智能代理系統設定了新的基準,在GAIA測試中超越微軟34%

用於協作 AI 的去中心化基礎設施,Coral Protocol 報告稱其多智能體系統在 GAIA 基準測試中比微軟支持的 Magnetic-UI 超出了 34%——這一前所未有的結果表明,橫向擴展可能比擴大模型參數提供更有效的方法。該協議的系統利用多個智能體之間的智能編排,而不是僅僅專注於增加模型大小。

這項表現標志着在GAIA基準上使用迷你代理獲得的最高驗證分數,支持了NVIDIA的觀點,即協調良好的小型模型在AI的未來中可能發揮關鍵作用。根據Coral開發者的說法,結果反映了在處理AI可擴展性時的概念轉變,而不僅僅是系統能力的純粹增加。

作爲一個開放協議,Coral 通過促進全球專門代理之間的協調,而不是依賴集中式通用模型,從而擴展了 AI 能力。其架構允許代理之間進行並行、安全的互動,增強了各種規模語言模型在需要高級推理、規劃和解決問題的任務中的功能。

“這一突破標志着人工智能基礎設施的一個轉折點,”Coral首席技術官Caelum Forder在一份書面聲明中表示。“這證明了水平擴展不僅是可能的——而且是實用的,而Coral是實現這一目標的最有效方式。代理人互聯網現在已成爲一個現實。如果你是一個代理人開發者,就用Coralise。如果你是一個應用程序開發者,使用我們的基礎設施以更少的成本構建更好的產品,”他補充道。

Coral Tops GAIA 基準,驗證小型模型在先進代理系統中的能力

在日益激烈的競爭中,開發先進的代理系統,許多焦點仍然集中在擴大模型規模以應對日益復雜的任務。Coral最近的表現挑戰了這種主流方法,符合最近NVIDIA研究的發現,表明較小的系統可以在不影響速度、安全性或效率的情況下提供高性能。GAIA基準測試是一個全面的高級人工智能評估套件,旨在評估系統在處理通常需要大量時間和技能的人類專家的現實任務方面的表現。該基準包括450個復雜的提示,測試研究、分析和推理能力,是評估通用大型語言模型(LLM)代理有效性的關鍵行業指標。

Coral的GAIA代理系統在基準測試中使用,基於Coral協議,並借鑑了CAMEL的OWL設計原則。它包含專門的代理,執行包括研究、分析、批評、規劃和網路導航在內的一系列任務,所有這些都通過Coral的MCP服務器基礎設施進行通信。

在GAIA基準排名中領先的小型模型表明,Coral有潛力通過基於圖的結構擴展AI系統的功能。這個結果表明,可以使用小型模型創建高性能、輕量級的代理,從而促進更廣泛的數據處理、更順暢的生態系統集成和增強的代理間通信。

“到目前爲止,小模型在代理系統中的作用被低估了,但潮流開始轉變,”Caelum Forder說。“我們已經證明這些模型可以超越其先前已知的限制,並且能夠超越現有競爭者。我相信它們在代理人工智能的未來中將發揮核心作用,”他總結道。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)