AI 瀏覽器基礎設施公司 Browserbase 正式推出 browse.sh,一個專門給 AI 代理(age […] 〈爬蟲神器 browse.sh:提供 AI 代理超 500+ 常用網站完整操作技能包 Skill〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。AI 瀏覽器基礎設施公司 Browserbase 正式推出 browse.sh,一個專門給 AI 代理(age […] 〈爬蟲神器 browse.sh:提供 AI 代理超 500+ 常用網站完整操作技能包 Skill〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

爬蟲神器 browse.sh:提供 AI 代理超 500+ 常用網站完整操作技能包 Skill

2026/05/20 16:46
閱讀時長 19 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

AI 瀏覽器基礎設施公司 Browserbase 正式推出 browse.sh,一個專門給 AI 代理(agent)使用的瀏覽器命令列工具(CLI),並附帶超過 500 個預寫好的「網路操作技能」。
(前情提要:Claude Code 終極速查表:快捷鍵、Slash 指令、技能、Agents 代理、MCP 完整操作密技
(背景補充:Y Combinator 創業指南解讀:AI Agent 在未來有哪些發展趨勢?

本文目錄

Toggle
  • browse.sh 是什麼?Browserbase 推出的 AI 代理瀏覽器命令列工具
  • browse CLI 怎麼用?基礎指令與雲端切換
  • 500 個技能涵蓋哪些網站?
  • Free 免信用卡,$20 起支援 25 個並行瀏覽器
  • Browserbase 是誰?累計募資 $67.5M 的 AI 瀏覽器基礎設施公司
  • 現有限制與未來:agent 真的「會做事」還需要幾步?

5月份,一個名叫 browse.sh 的工具正式上線,它要解決的是如何讓 AI 代理(agent)如何更快速、正確的「上網做事」?

以往的答案是:自己把整個網頁的 HTML 原始碼交給語言模型判斷要點擊哪裡、填什麼欄位。這個方式不只慢,還非常燒錢:一個稍微複雜的電商頁面,光 HTML 就可能有好幾萬個字元,全部餵給語言模型,token費用支出不小。

Browserbase 給的答案是:預先把每個網站的操作邏輯寫成一個「技能包 skill」,agent 只要呼叫技能,不用每次都讀整頁 HTML。browse.sh 就是這個想法的命令列入口,也是一個開放的技能目錄(open web skill catalog)。

browse.sh 是什麼?Browserbase 推出的 AI 代理瀏覽器命令列工具

browse.sh 的官方定義是「Browser CLI and open web skill catalog for agents」,翻成白話:一個給 AI 代理用的瀏覽器命令列工具,外加一個開放的網路操作技能商店。

這裡有兩個核心概念要先拆開說清楚:

什麼是 CLI(命令列介面)?就是你在終端機視窗裡打字執行的工具。npm、git、python 都是 CLI 工具。browse 也是,安裝後就能在終端機打 browse click "input#search" 讓瀏覽器點一個特定元素。

什麼是 headless browser(無頭瀏覽器)?一個不會實際在螢幕上開啟視窗的瀏覽器程式,但行為跟真實的 Chrome 完全一樣:可以執行 JavaScript、處理 Cookie、繞過基本的反機器人偵測。AI agent 透過它「看」網頁、填表單、點按鈕,用戶什麼都不用開。

什麼是 skill(技能)?一個預先寫好的操作指令碼,告訴 agent「這個網站的搜尋欄在哪、下單按鈕是什麼 id、API 回傳的 JSON 格式長什麼樣」。比起讓 agent 每次都自己摸索,skill 讓整個流程又快又省 token。

browse.sh 的底層是 Browserbase 自家開源的 Stagehand:Browserbase 自己寫的「讓 AI 操作瀏覽器」的開源工具包,可以把它想成 Playwright 加上 AI 語意理解層。browse.sh 是把 Stagehand 的功能包裝成更好用的命令列工具,並在上面加了 500 多個現成技能。

整個生態的入口有三個:

  • https://browse.sh/:官方網站與技能目錄瀏覽入口
  • https://browse.sh/llms.txt:給 AI agent 讀的精簡技能索引(體積小,適合直接餵給語言模型)
  • https://browse.sh/llms-full.txt:完整的 SKILL.md 說明,包含每個技能的 DOM 選擇器與使用方式

這個設計本身就很有意思:browse.sh 知道它的用戶不是人,而是 AI,所以索引格式從一開始就是為語言模型設計的。

browse CLI 怎麼用?基礎指令與雲端切換

安裝只需一行:

$ npm install -g browse

裝好之後,基礎操作指令涵蓋了一個瀏覽器 session 的完整生命週期:

$ browse click "input#search" $ browse type "Apartments in SF" $ browse press "Enter" $ browse screenshot $ browse network --tail $ browse console --tail

這裡的 DOM 選擇器(DOM selector)是什麼?DOM 是網頁的結構樹,每個按鈕、輸入框、連結都是樹上的一個節點。DOM 選擇器就是告訴瀏覽器「要操作哪個節點」的精確地址,例如 input#search 意思是「id 叫 search 的輸入框」,button.submit-btn 意思是「class 叫 submit-btn 的按鈕」。

browse screenshot 讓 agent 在操作過程中隨時截圖確認畫面狀態;browse network --tail 則會即時列印出瀏覽器發出的所有 HTTP 請求:這對除錯非常有用,也讓開發者能直接看到網站呼叫的後端 API 端點,方便之後寫成 api 型別的 skill。

安裝技能只需要一行,之後 agent 就能直接用該網站的預寫好操作邏輯:

$ browse skills add airbnb.com

官方給的完整場景範例示範了這個工具的能力上限,讓 Claude 規劃一趟猶他州公路旅行,包含充電站、露營地,最後還自動到 Ramp 申請報帳:

$ browse skills add alltrails.com $ browse skills add recreation.gov $ browse skills add weather.gov $ browse skills add plugshare.com $ browse skills add ramp.com $ claude "Plan a road trip to Utah with EV charging stops and campsites for each night. Book and reimburse on Ramp."

本地模式 vs 雲端模式是一個很實用的設計:預設情況下 browse 跑的是電腦上的本地 Chromium,適合開發和測試。當要上正式環境,只要在指令前加 cloud 就能切到 Browserbase 的雲端瀏覽器基礎設施:自動幫你處理 CAPTCHA(圖形驗證碼)、身份驗證、IP 輪換:

$ browse cloud sessions create $ browse cloud fetch "https://www.nytimes.com/section/us" $ browse cloud search "Latest White House press release"

這個「本地開發、雲端生產」的分離設計讓開發者在本機測試不用付費,只有真正大量執行時才產生費用,對獨立開發者相當友善。

500 個技能涵蓋哪些網站?

超過 500 個技能全部開源在 GitHub 的 browserbase/skills 倉庫,任何人可以用 Pull Request 貢獻新技能。主要分類如下:

類別 代表站點 技能型別
旅遊 Airbnb、Booking.com、AllTrails、Recreation.gov browser / hybrid
電商 Amazon、AliExpress、eBay browser
房地產 Zillow、Redfin browser
餐廳 / 外送 Allrecipes、Yelp、DoorDash browser / api
求職 LinkedIn、Indeed browser
金融服務 Ramp(企業報帳) hybrid
政府 / 監管 weather.gov、12306.cn browser
醫療 (多個預約平台) browser
媒體 / 娛樂 (主流新聞、串流平台) api / hybrid
汽車 / 居家 (多個服務平台) browser

技能分三種型別,差異在「agent 用什麼方法取得資料」:

  • browser 型別:agent 用 headless Chromium 直接操作網頁畫面,適合沒有公開 API 的網站
  • api 型別:agent 直接打網站的後端 API 端點,繞過瀏覽器渲染,速度更快、更穩定
  • hybrid 型別:混合使用,例如登入用瀏覽器,抓資料用 API

token 成本邏輯是這個分類設計最重要的理由。以往 agent 操作一個電商網頁,要把完整 HTML 塞給語言模型分析,一個亞馬遜商品頁可能有 3 萬個字元,換算成 token 大約是 7,000 至 10,000 個。如果 agent 每步都要讀一次頁面,一個 10 步的操作就要消耗 10 萬個 token,費用很快就失控。

browse.sh 的 skill 預先標好了「搜尋欄在哪、結果清單的 DOM 是什麼、API 回傳的關鍵欄位是哪幾個」,agent 收到的是精簡指令而非整頁 HTML。

Browserbase 官方宣稱這能把 token 成本降低 50 倍,雖然實際數字因使用場景而異,但這個方向是正確的,這也是讓「會上網的 agent」從燒錢的噱頭變成可商業化產品的關鍵一步。

Free 免信用卡,$20 起支援 25 個並行瀏覽器

browse.sh 本身是免費開源工具,但其底層的雲端執行環境 Browserbase 是付費服務。定價架構如下:

方案 月費 並行瀏覽器數 內含小時數 超用費 住宅代理
Free $0 3 1 小時
Developer $20 25 100 小時 $0.12 / 小時 1 GB
Startup $99 100 500 小時 $0.10 / 小時 5 GB
Scale 客製報價 250+ 客製 客製 客製

幾個值得注意的細節:

  • Free 方案不需信用卡,每月 1 小時內含量適合快速驗證想法
  • Developer 以上含 Stealth 模式(讓瀏覽器看起來更像真人在操作,降低被封鎖的機率)與自動 CAPTCHA 破解
  • 計費是 usage-based(按實際用量計費,透過 Stripe 結算),不是固定席位費
  • 住宅代理(residential proxy):用真實住宅 IP 位址發出請求,避免被網站識別為機房 IP 而封鎖。Developer 方案含 1 GB、Startup 含 5 GB

browse.sh 與市面上主要競品的差異比較:

工具 定位 與 browse.sh 的核心差異 適合物件
Playwright / Puppeteer 通用瀏覽器自動化框架 無 skill catalog;每個網站的操作邏輯需自行撰寫;學習門檻較高 熟悉前端的全端工程師
Stagehand Browserbase 自家 AI SDK browse.sh 是 Stagehand 的命令列封裝,加了 skill catalog;Stagehand 更偏向程式庫用法 需要深度客製化的開發者
Vercel agent-browser Vercel 的 agent 瀏覽器 偏向 Next.js 生態系整合,skill 數量較少 在 Vercel 平台上構建應用的開發者
BrowserAct 開源 AI agent skill 較新,skill 數量目前遠少於 500 偏好完全開源且自託管的開發者
TinyFish 雲端瀏覽器自動化 主打企業 RPA(機器人流程自動化),較少針對 AI agent 最佳化 企業流程自動化需求

browse.sh 的主要優勢在於:技能目錄的規模(500 個 skill 遠超競品)、與 Claude Code 的深度整合(可從對話直接呼叫)、以及開發體驗的友善度(本地免費開發、一個 cloud 字首切換生產環境)。

Browserbase 是誰?累計募資 $67.5M 的 AI 瀏覽器基礎設施公司

Browserbase 成立於 2024 年,核心產品是「雲端 headless Chromium 瀏覽器即服務(BaaS)」——簡單說,就是把高度擬人化的瀏覽器環境包裝成 API,讓開發者不用自己維護瀏覽器叢集。

融資歷程:

  • 種子輪(Seed):$6.5M
  • A 輪(2024 Q3):$21M,CRV 與 Kleiner Perkins 共同領投
  • B 輪(2025 Q2):$40M,Notable Capital 領投、CRV 與 Kleiner Perkins 跟投,估值約 $3 億美元
  • 累計募資:$67.5M

兩輪合計吸引到 Kleiner Perkins(早期投過 Google、Amazon)這個等級的 VC 持續加碼,顯示這個賽道的吸引力不是短期熱潮。

Browserbase 的技術差異化在基礎設施層:

  • Identity(身份系統):幫 agent 管理登入狀態與 Cookie,讓每個 session 都像真實用戶
  • Verified browsers(已驗證瀏覽器):透過主要網站的機器人偵測篩查
  • 自動 CAPTCHA 破解:無需人工幹預,agent 可以無縫透過圖形驗證
  • 住宅 IP 代理:用真實家用網路 IP 出口,避免機房 IP 被封鎖

合作夥伴名單本身就是一張背書清單:Anthropic(Claude 的母公司)、Perplexity(AI 搜尋引擎)、LangChain(最廣泛使用的 AI agent 框架)、Vercel(前端部署平台)都是客戶或整合夥伴。

從生態系時間軸來看,browse.sh 的推出不是孤立事件:2026 年 1 月 Vercel 推出 skills.sh(agent skill 公開目錄),2026 年 5 月 Anthropic 擴大 Claude Skills 生態(推出金融分析 41 個 skill、Claude Design 等),同月 Browserbase 推出 browse.sh 並深度整合 Claude Code。

這些動作共同描繪了一個趨勢:從「會聊天的語言模型」走向「會做事的 agent」,而 skill = 動作模組,是讓 agent 真正落地的關鍵零件。

現有限制與未來:agent 真的「會做事」還需要幾步?

browse.sh 目前仍有幾個值得注意的限制:

  • 讀多於寫:目前 500 個 skill 中,查詢、搜尋、抓資料類的技能佔多數;涉及「下單付款」「提交表單」這類有真實副作用的操作較少,風險控管邏輯尚未標準化
  • 網站更新維護成本:網站改版後,DOM 選擇器就可能失效。500 個 skill 需要社群持續維護,這是開放生態的共有難題
  • 登入態管理複雜度:需要 OAuth、雙因素驗證(2FA)的網站,agent 的登入流程仍然較複雜,目前主要靠 Browserbase 的 Identity 系統輔助
  • 法規灰色地帶:自動化操作某些網站可能觸及服務條款,各地法律明確性不一

即便如此,browse.sh 的推出時機點抓得很精準:Claude Code 已有大量開發者在用,skills 生態正在快速擴張,agent 基礎設施的標準化正在凝聚。Browserbase 在賣的不只是雲端瀏覽器服務,而是讓 agent「真的會做事」的能力層,這和只會回答問題的聊天機器人是本質上不同的產品形態。

從 token 成本降 50 倍、到深度整合 Claude Code、到 500 個現成技能,browse.sh 試圖讓「會上網的 agent」從技術論文裡走到任何開發者的終端機。對加密產業而言,這既是效率工具,也是需要提前思考防禦的新變數。

📍相關報導📍

Anthropic 工程師萬字解析:我們如何用「Skills」把 Claude Code 逼出極限?9 大應用情境送給你

Anthropic 開源金融分析外掛:41 個 Skills 一鍵研究股票、財報分析、財富管理

Cloudflare Email 公測:AI Agent 現在能獨立收發郵件,MCP 伺服器讓 Claude Code 一句話就能

Coinbase x402 整合 AWS AgentCore:讓 AI 代理能自主找服務、付款、完成任務

Anthropic 報告:2028 年 AI 霸主之爭,美國不守住算力優勢恐被中國反超

市場機遇
Gensyn 圖標
Gensyn實時價格 (AI)
$0.03457
$0.03457$0.03457
-0.91%
USD
Gensyn (AI) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

不懂圖表?照樣獲利

不懂圖表?照樣獲利不懂圖表?照樣獲利

使用自動交易,3 秒鐘即可跟單頂級交易者!