當(dāng)前位置:首頁(yè) >  科技 >  IT業(yè)界 >  正文

金智維登頂ScreenSpot-Pro榜單,多項(xiàng)指標(biāo)領(lǐng)先全球

 2026-03-25 17:12  來(lái)源: 互聯(lián)網(wǎng)   我來(lái)投稿 撤稿糾錯(cuò)

  一鍵部署OpenClaw

摘要:以小模型實(shí)現(xiàn)高精度界面定位,AI執(zhí)行能力進(jìn)入新階段

近日,一項(xiàng)聚焦AI操作能力的全球性基準(zhǔn)測(cè)試——ScreenSpot-Pro,開(kāi)始從技術(shù)圈走向更廣泛的行業(yè)視野。

在最新公布的ScreenSpot-Pro榜單中,金智維KV-Ground模型取得全面領(lǐng)先:其中,主流8B模型位列全榜單第一,超越了包括更大參數(shù)規(guī)模在內(nèi)的所有模型;4B小模型位列4B參數(shù)模型第一,以更小模型實(shí)現(xiàn)更高性能。

這一結(jié)果也充分反映出,AI 正在從“聽(tīng)得懂指令”向“真正能夠操作”邁進(jìn)了關(guān)鍵一步。

ScreenSpot-Pro 測(cè)的是什么?

過(guò)去幾年,業(yè)界常用“多模態(tài)能力”來(lái)衡量AI進(jìn)步,例如能否看懂圖片、理解頁(yè)面內(nèi)容,但在真實(shí)企業(yè)環(huán)境中,這些能力往往只停留在理解層面。真正決定AI能否落地的,是更具體的一環(huán):AI能否在復(fù)雜的軟件界面中,準(zhǔn)確找到并指向應(yīng)該點(diǎn)擊的控件。例如,當(dāng)財(cái)務(wù)人員需要在企業(yè)ERP系統(tǒng)中“生成上月銷售匯總報(bào)表”時(shí),AI不僅要理解指令,還必須在滿是菜單、工具欄和層層彈窗的完整界面里,精準(zhǔn)定位那個(gè)可能藏在角落的“導(dǎo)出”按鈕。

ScreenSpot-Pro 重點(diǎn)考察的正是這一能力。在真實(shí)測(cè)試中,它會(huì)給模型一句自然語(yǔ)言指令,例如“打開(kāi)高級(jí)篩選”或“導(dǎo)出當(dāng)前報(bào)表”,然后要求模型在一張完整的、高分辨率的真實(shí)軟件界面截圖中,精準(zhǔn)定位對(duì)應(yīng)的按鈕、菜單或輸入框。這種技術(shù)能力被稱為GUI Grounding,通俗來(lái)說(shuō),就是AI是否具備“操作電腦”的基礎(chǔ)執(zhí)行力。

ScreenSpot-Pro采用的是整屏、專業(yè)軟件的高難度場(chǎng)景,覆蓋辦公、開(kāi)發(fā)、設(shè)計(jì)、工程分析等23款真實(shí)應(yīng)用,橫跨多個(gè)行業(yè)與操作系統(tǒng),所有任務(wù)均由資深專業(yè)人士標(biāo)注。相比早期許多僅使用簡(jiǎn)化網(wǎng)頁(yè)截圖的測(cè)試,這個(gè)基準(zhǔn)更接近企業(yè)日常工作的真實(shí)復(fù)雜程度,因此被廣泛視為判斷智能體能否真正落地的世界級(jí)關(guān)鍵標(biāo)桿。它由多家知名學(xué)術(shù)機(jī)構(gòu)聯(lián)合打造,目前已被OmniParser v2、Qwen2.5-VL、UI-TARS等多個(gè)主流GUI智能體項(xiàng)目采用,成為行業(yè)共識(shí)性的重要參考。

金智維KV-Ground在高難度基準(zhǔn)上的表現(xiàn)

根據(jù)ScreenSpot-Pro官方榜單數(shù)據(jù),金智維KV-Ground-8B模型作為一款與智能體策略深度融合的模型,在ScreenSpot-Pro上得分80.5分,位列所有模型第一,成功超越包括更大參數(shù)模型在內(nèi)的多個(gè)競(jìng)品;KV-Ground-4B模型得分67.0分,摘得4B規(guī)模組第一,在全榜單中同樣表現(xiàn)突出。

這一成績(jī)已非常接近人類在復(fù)雜界面定位任務(wù)中的表現(xiàn)水平,標(biāo)志著金智維KV-Ground不僅能在專業(yè)高分辨率GUI場(chǎng)景中精準(zhǔn)理解指令,更具備接近人類水準(zhǔn)的動(dòng)手執(zhí)行能力。

值得關(guān)注的是,這一成績(jī)并非單純依賴更大參數(shù)規(guī)模。從基礎(chǔ)模型到KV-Ground版本的對(duì)比實(shí)驗(yàn)顯示,金智維KV-Ground在界面定位精度上實(shí)現(xiàn)了穩(wěn)定提升,其采用的專項(xiàng)優(yōu)化方法,能夠在不同規(guī)模模型上被穩(wěn)定復(fù)現(xiàn)和擴(kuò)展,而非針對(duì)單一榜單的偶然突破。

小模型領(lǐng)先:企業(yè)真正需要的落地優(yōu)勢(shì)

在企業(yè)真實(shí)應(yīng)用場(chǎng)景中,模型參數(shù)規(guī)模仍是重要指標(biāo)之一,但并非唯一決定因素。金融機(jī)構(gòu)需要快速處理報(bào)表,制造企業(yè)要在CAD軟件中執(zhí)行設(shè)計(jì)調(diào)整,研發(fā)團(tuán)隊(duì)則經(jīng)常面對(duì)MATLAB或SolidWorks等專業(yè)工具……這些場(chǎng)景下,部署成本、響應(yīng)速度和系統(tǒng)兼容性同樣關(guān)鍵。在這一背景下,金智維KV-Ground-4B 小模型在復(fù)雜專業(yè)界面中仍保持較高精度,意味著企業(yè)可以在更低算力條件下實(shí)現(xiàn)類似能力。

換句話說(shuō),原本可能需要較高硬件投入的界面理解與操作能力,如今在更輕量的部署環(huán)境中也可以實(shí)現(xiàn),原本中大模型動(dòng)輒幾十萬(wàn)甚至上百萬(wàn)元的服務(wù)器,大幅降低到僅需萬(wàn)元左右的設(shè)備即可滿足,實(shí)現(xiàn)更低的時(shí)延和更高的性價(jià)比。當(dāng)小模型也能精準(zhǔn)完成復(fù)雜界面定位時(shí),AI才真正具備大規(guī)模進(jìn)入企業(yè)系統(tǒng)的條件,極大降低了企業(yè)級(jí)智能體的部署門檻。

從“能理解”到“能執(zhí)行”:智能體落地邁出關(guān)鍵一步

長(zhǎng)期以來(lái),企業(yè)智能體一直都面臨一道難關(guān):大模型可以清晰理解任務(wù),卻難以直接完成操作;傳統(tǒng)自動(dòng)化工具可以執(zhí)行固定流程,卻缺乏靈活適應(yīng)能力。而GUI Grounding能力的突破,填補(bǔ)了這條斷層。

這也意味著,系統(tǒng)不需要改變,AI可以主動(dòng)適應(yīng)系統(tǒng),企業(yè)因此能夠以更低的門檻,將智能體融入日常業(yè)務(wù)流程,實(shí)現(xiàn)從輔助決策到直接執(zhí)行的躍遷。

此次金智維KV-Ground在ScreenSpot-Pro這一世界級(jí)高難度基準(zhǔn)上的領(lǐng)先表現(xiàn),打破了“參數(shù)越大越強(qiáng)”的單一認(rèn)知,展現(xiàn)出一條更注重效率與實(shí)用性的優(yōu)化路徑,即在專業(yè)GUI操作這一真實(shí)難題上,通過(guò)針對(duì)性優(yōu)化,小規(guī)模模型同樣能夠達(dá)到世界領(lǐng)先水平,這也為行業(yè)提供了新的參考思路。

如今,AI的發(fā)展正在從拼規(guī)模轉(zhuǎn)向拼能力結(jié)構(gòu),尤其是在企業(yè)落地場(chǎng)景中,高效與實(shí)用正成為核心競(jìng)爭(zhēng)力。隨著GUI Grounding等底層能力的持續(xù)成熟,企業(yè)級(jí)智能體將進(jìn)一步走向?qū)嵱秒A段,AI不僅“會(huì)想”,更“會(huì)做”,真正成為驅(qū)動(dòng)企業(yè)生產(chǎn)力的可靠力量。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
金智維

相關(guān)文章

熱門排行

信息推薦