AI學習｜2026-03-16

Mar 16, 2026 · 1 分鐘長 · AI學習 Claude Code AI Agent Browser Control Workflow ·

分享到:

今日最有感的事

今天最有感的，不是某一個模型又更強了，而是越來越清楚看到：AI agent 的競爭，正在從『誰比較會回答』，轉向『誰比較能穩定接上真實世界』。

這個「真實世界」有三層。

第一層，是 agent orchestration。像 Paperclip 這類工具在談的，不再是「怎麼做一個 agent」，而是「怎麼同時管理很多個 agent」，包括工作分派、預算控制、審計與持續運作。這代表單一 agent 已經逐漸商品化；真正困難的，不是做出 User → LLM → Tool 的 loop，而是把這個 loop 放進一個可治理、可追蹤、可長時間運轉的系統裡。

第二層，是 live environment access。像 chrome-cdp-skill 這類工具吸引人的地方，不只是能自動點按鈕，而是它能直接接到「你正在使用中的 Chrome」，沿用已登入 session、既有 cookies 與目前分頁狀態。這背後的意義很大：agent 不再只是在沙盒裡模擬工作，而是開始接手使用者真實的數位環境。這也解釋了為什麼 browser control 的價值，並不只是 screenshot 或 DOM，而是能否真正連上人的工作現場。

第三層，是 decision / execution split。今天看到一個很漂亮的思路：Claude 不直接控制 Gmail，而是先把判斷結果寫進 TSV 任務帳本，再交給另一個受控執行器去動作。這個架構讓我很有感，因為它代表成熟的 agent workflow 不一定追求「直接做」，而是追求「先把語意判斷轉成可稽核、可重播、可控管的結構化任務，再執行」。這其實更像 production mindset。

如果把今天的感想濃縮成一句話，那就是：

AI agent 的真正門檻，不再只是推理能力，而是怎麼安全、穩定、可治理地接管真實工作流。

Claude Code 生態今天爆紅的幾個 repo、Paperclip 的多 agent 管理、chrome-cdp 對 live Chrome 的接管、以及 TSV 中介帳本這種設計，表面上是不同主題，底層其實都在回答同一題：怎麼讓 AI 從 demo 走向真正可用。

今日收集的資源

learn-claude-code
從零開始理解 Claude Code 類 agent 的底層 loop：User → LLM → Tool → repeat
https://github.com/shareAI-lab/learn-claude-code
claude-code-best-practice
Claude Code 實戰最佳實踐整理
https://github.com/shanraisshan/claude-code-best-practice
claude-plugins-official
Anthropic 官方維護的 Claude Code plugin 目錄
https://github.com/anthropics/claude-plugins-official
obra skills framework
Agentic 開發框架與方法論
https://github.com/sponsors/obra
Paperclip
多 agent 協作與治理思路，重點在預算、組織、審計與長時間運作
（今天主要從社群貼文學到概念，待後續再深挖原始 repo）
chrome-cdp-skill
讓 AI agent 直接連到使用中的 Chrome，而不是另開一個乾淨瀏覽器
https://github.com/pasky/chrome-cdp-skill
Google Drive TSV 任務帳本思路
把 Claude 的語意判斷轉成結構化指令，再由執行器處理高權限操作；很適合 Gmail / workflow automation 場景
InsightTube
不只做雙語字幕，也把影片變成可摘要、可切章節、可對話的 AI 學習介面