爬蟲神器 browse.sh:提供 AI 代理超 500+ 常用網站完整操作技能包 Skill
newsAI 瀏覽器基礎設施公司 Browserbase 正式推出 browse.sh,一個專門給 AI 代理(agent)使用的瀏覽器命令列工具(CLI),並附帶超過 500 個預寫好的「網路操作技能」。 (前情提要:Claude Code 終極速查表:快捷鍵、Slash 指令、技能、Agents 代理、MCP 完整操作密技) (背景補充:Y Combinator 創業指南解讀:AI Agent 在未來有哪些發展趨勢?) 5月份,一個名叫 browse.sh 的工具正式上線,它要解決的是如何讓 AI 代理(agent)如何更快速、正確的「上網做事」? 以往的答案是:自己把整個網頁的 HTML 原始碼交給語言模型判斷要點擊哪裡、填什麼欄位。這個方式不只慢,還非常燒錢:一個稍微複雜的電商頁面,光 HTML 就可能有好幾萬個字元,全部餵給語言模型,token費用支出不小。 Browserbase 給的答案是:預先把每個網站的操作邏輯寫成一個「技能包 skill」,agent 只要呼叫技能,不用每次都讀整頁 HTML。browse.sh 就是這個想法的命令列入口,也是一個開放的技能目錄(open web skill catalog)。 browse.sh 是什麼?Browserbase 推出的 AI 代理瀏覽器命令列工具 browse.sh 的官方定義是「Browser CLI and open web skill catalog for agents」,翻成白話:一個給 AI 代理用的瀏覽器命令列工具,外加一個開放的網路操作技能商店。 這裡有兩個核心概念要先拆開說清楚: 什麼是 CLI(命令列介面)?就是你在終端機視窗裡打字執行的工具。npm、git、python 都是 CLI 工具。browse 也是,安裝後就能在終端機打 browse click “input#search” 讓瀏覽器點一個特定元素。 什麼是 headless browser(無頭瀏覽器)?一個不會實際在螢幕上開啟視窗的瀏覽器程式,但行為跟真實的 Chrome 完全一樣:可以執行 JavaScript、處理 Cookie、繞過基本的反機器人偵測。AI agent 透過它「看」網頁、填表單、點按鈕,用戶什麼都不用開。 什麼是 skill(技能)?一個預先寫好的操作指令碼,告訴 agent「這個網站的搜尋欄在哪、下單按鈕是什麼 id、API 回傳的 JSON 格式長什麼樣」。比起讓 agent 每次都自己摸索,skill 讓整個流程又快又省 token。 browse.sh 的底層是 Browserbase 自家開源的 Stagehand:Browserbase 自己寫的「讓 AI 操作瀏覽器」的開源工具包,可以把它想成 Playwright 加上 AI 語意理解層。browse.sh 是把 Stagehand 的功能包裝成更好用的命令列工具,並在上面加了 500 多個現成技能。 整個生態的入口有三個: https://browse.sh/:官方網站與技能目錄瀏覽入口 https://browse.sh/llms.txt:給 AI agent 讀的精簡技能索引(體積小,適合直接餵給語言模型) https://browse.sh/llms-full.txt:完整的 SKILL.md 說明,包含每個技能的 DOM 選擇器與使用方式 這個設計本身就很有意思:browse.sh 知道它的用戶不是人,而是 AI,所以索引格式從一開始就是為語言模型設計的。 browse CLI 怎麼用?基礎指令與雲端切換 安裝只需一行: $ npm install -g browse 裝好之後,基礎操作指令涵蓋了一個瀏覽器 session 的完整生命週期: $ browse click “input#search” $ browse type “Apartments in SF” $ browse press “Enter” $ browse screenshot $ browse network –tail $ browse console –tail 這裡的 DOM 選擇器(DOM selector)是什麼?DOM 是網頁的結構樹,每個按鈕、輸入框、連結都是樹上的一個節點。DOM 選擇器就是告訴瀏覽器「要操作哪個節點」的精確地址,例如 input#search 意思是「id 叫 search 的輸入框」,button.submit-btn 意思是「class 叫 submit-btn 的按鈕」。 browse screenshot 讓 agent 在操作過程中隨時截圖確認畫面狀態;browse network –tail 則會即時列印出瀏覽器發出的所有 HTTP 請求:這對除錯非常有用,也讓開發者能直接看到網站呼叫的後端 API 端點,方便之後寫成 api 型別的 skill。 安裝技能只需要一行,之後 agent 就能直接用該網站的預寫好操作邏輯: $ browse skills add airbnb.com 官方給的完整場景範例示範了這個工具的能力上限,讓 Claude 規劃一趟猶他州公路旅行,包含充電站、露營地,最後還自動到 Ramp 申請報帳: $ browse skills add alltrails.com $ browse skills add recreation.gov $ browse skills add weather.gov $ browse skills add plugshare.com $ browse skills add ramp.com $ claude “Plan a road trip to Utah with EV charging stops and campsites for each night. Book and reimburse on Ramp.” 本地模式 vs 雲端模式是一個很實用的設計:預設情況…