2026-05-16 AI 學習日誌

今日最有感的事

Google 也下場做 Agent Skills 了

@tootiredbear 今天把 google/skills 這個 repo 釋出消息丟出來,整件事第一眼看到就值得記下來——這不是 Google 又出了一份產品文件,而是 Google 把自家產品(Google Cloud、Gemini API、BigQuery、Cloud Run 等)的產品知識、操作流程、最佳實務,包成 AI Agent 可以直接安裝、調用的 skill 模組

對非工程師的讀者補一下背景:所謂「Agent Skill」就是把「某件事該怎麼做」寫成一份結構化的指令包(通常是一個 SKILL.md + 幾支 script),AI agent 在遇到該情境時可以自動把這份 skill 載進 context、照著做。Anthropic 今年帶起這個概念之後,第三方一直在做、現在連 Google 也用同樣形式把自家產品操作打包進去。

這代表什麼?以前你要「教 AI 怎麼用 BigQuery」,得餵一堆文件、寫長 prompt;現在 Google 直接把這份知識做成可安裝的 skill 包,AI 端拿到就能執行。Bear 串文留言裡也有讀者問「這能放進 Gemini Gem 嗎」,作者回答的角度很實用——不能直接以 Skill 形式跑,但 SKILL.md 內容可以整理成 Gem 的自訂指令使用。也就是說,官方技能庫的真實價值不只在 agent,連 chatbot 形式的 Gem 也能拿來當高品質 system prompt 用

更直白地說,Google 這一步是在替「產品文件」找下一個容器:未來大家不會「讀」產品文件,而是讓 agent「裝」產品 skill。

本週 GitHub 在燒的方向,全部都是 Agent 化

另一條@0xspeter的觀察文,把這個趨勢放得更大。他列出本週 GitHub 開源圈在燒的六個方向——科研助手、影片理解、AI 記憶系統、語音生成、Browser Agent、一人團隊工作流——並指出共通點:全部都在 Agent 化

他點名了四個值得看的 repo:

  • agentmemory:讓 AI 有長期記憶,跨 session 持續累積
  • NVIDIA video-search-and-summarization:AI 真的「看懂」影片內容
  • CloakBrowser:Browser Agent 開始能像真人一樣操作網頁
  • gstack:一個人公司時代的工作流堆疊

真正值得看的是他最後那兩句斷言:「以前大家下載的是工具,現在大家下載的是『數位員工』」「下一階段不是 AI 能回答什麼,而是 AI 能替你完成多少工作」

這跟 Google Skills 那一條串起來其實是同一件事的兩面:Google 那邊是「官方願意把自家產品 SOP 做成 agent 能執行的 skill」,0xspeter 這邊是「社群層面的 agent 工具全面爆發」。供給端跟需求端都在往同一個方向走——AI 的角色定義正在從「會回答的助手」轉成「會做事的員工」。

對我來說,這兩條合起來最大的提醒是:以後評估一個新工具,不要再問「它能回答什麼問題」,要問「它有沒有 skill 形式的入口」、「它能不能跨 session 記住事情」、「它能不能自己去 browser 操作網頁」。觀察、記憶、操作、執行——這四軸才是下一階段拉開差距的維度。

今日收集的資源

@tootiredbear|Google Skills:Google 把產品知識做成 AI Agent 可安裝的技能包

  • 連結:https://www.threads.com/@tootiredbear/post/DYZRDaCH3Qt
  • google/skills 官方 repo,內容聚焦 Google Cloud、Gemini API、BigQuery、Cloud Run,把產品知識與操作流程打包成 agent 可直接調用的 skill 模組;留言補充 SKILL.md 也能拿來當 Gemini Gem 的自訂指令使用。

@0xspeter|本週 GitHub AI 開源圈全面 Agent 化

  • 連結:https://www.threads.com/@0xspeter/post/DYYSnoxEwXl?xmt=AQG07GP6p0WnfLABLv-u0FpXTWgk24qaLwHFVfLePETRgA
  • 整理科研助手 / 影片理解 / AI 記憶 / 語音生成 / Browser Agent / 一人工作流六大方向,點名 agentmemory、NVIDIA video-search-and-summarization、CloakBrowser、gstack 四個代表專案,重點金句是「下一階段不是 AI 能回答什麼,而是 AI 能替你完成多少工作」。

Remotion 官方文件:The Fundamentals

  • 連結:https://www.remotion.dev/docs/the-fundamentals
  • 用 React/TSX 寫程式碼產影片的框架基礎章節;今天順手比對過 Remotion 與 HyperFrames 的差異,結論是個人工作流先用 HyperFrames,純文件留著之後遇到別人寫的 Remotion 專案要 port 時再回查。
comments powered by Disqus