終結「AI 點擊按鈕」時代 WebMCP預覽版引領新潮流 已登陸Chrome

終結「AI 點擊按鈕」時代 WebMCP預覽版引領新潮流 已登陸Chrome(圖:shutterstock)
終結「AI 點擊按鈕」時代 WebMCP預覽版引領新潮流 已登陸Chrome(圖:shutterstock)

Google Chrome 團隊周二 (10 日) 釋出重大更新,推出 WebMCP(Web Model Context Protocol,網頁模型上下文協定) 搶先體驗版,這項技術意味著 AI 代理 (AI Agents) 與網頁交互邏輯的根本性變革。

在當前的 AI 浪潮中,讓 AI 代理 (Agent) 像人類一樣操作網頁一直是一項挑戰。傳統上,AI 代理必須透過螢幕刮取 (Screen-scraping) 或猜測 DOM 元素來判斷哪個按鈕是「結帳」、哪邊該輸入「乘客姓名」。這種方式極度依賴網頁像素而非結構,導致自動化流程既脆弱且容易出錯。

為了打破這一僵局,Google 在 Chrome 146 的 Canary 頻道中推出了 WebMCP 的早期預覽功能。這是一項擬議中的 Web 標準,旨在讓網站能直接向瀏覽器內的 AI 代理公開「結構化工具」,讓代理程式能呼叫具有明確定義 (Schema) 的真實函數,而非盲目地猜測網頁內容。

從「像素」轉向「工具契約」

根據官方網誌的說法,WebMCP 的核心概念是「發布工具,而非像素」。網站開發者不再只是呈現美觀的介面供人眼閱讀,而是顯式地發布一個「合約」,包含以下三大關鍵要素:

1. 探索 (Discovery): 代理程式可以主動發現頁面上存在哪些工具,例如「結帳 (checkout)」或「篩選結果 (filter_results)」。

2. JSON 結構定義 (JSON Schemas): 精確定義輸入與輸出的格式,大幅減少 AI 的幻覺現象。

3. 狀態 (State): 讓代理程式與網頁對當前頁面可用資源有共同的理解。

這意味著 AI 不再需要「點點看直到成功」,而是可以直接呼叫如 book_flight({origin, destination...}) 這樣的結構化指令。

雙重 API 策略:命令式與宣告式

WebMCP 提供了兩種靈活的實作方式。首先是命令式 API(JavaScript Tools),開發者可以使用 navigator.modelContext 來註冊工具,包括定義名稱、描述、輸入規格以及執行邏輯 (execute())。

更引人注目的是宣告式 API。開發者只需在標準的 HTML 表單 () 中加入 toolname 和 tooldescription 等標籤,瀏覽器便會自動將表單欄位轉化為 AI 代理可理解的結構化工具。當代理程式呼叫該工具時,瀏覽器會自動對焦表單並預填資料;除非啟用了 toolautosubmit,否則預設仍由用戶點擊提交,保留了人類的最終控制權。

此外,WebMCP 還引入了 AI 代理感知 (Agent-awareness) 功能。透過 SubmitEvent.agentInvoked 屬性,網頁應用程式可以辨識提交是否來自 AI,並利用 respondWith() 回傳結構化的錯誤或結果,協助代理程式進行自我修正。

體驗與未來限制

目前 WebMCP 仍處於早期階段,開發者可以透過 Chrome Canary 146 版本,並在 chrome://flags 中啟用 「WebMCP for testing」 標籤來試用。同時,Chrome 也提供了相關的檢測工具擴充功能,方便開發者手動執行或測試 AI 代理的整合狀況。

儘管潛力巨大,WebMCP 仍有其侷限性。例如目前不支援後台 (Headless) 模式,必須在可見的分頁中執行;且開發者必須確保網頁 UI 的狀態能與工具呼叫保持同步。

這項標準的確立預示著「分層網頁時代」的到來。未來的網站將同時具備兩張面孔:一張是給人類使用的美觀視覺介面,另一張則是給 AI 使用的清晰工具契約。


相關貼文

prev icon
next icon