2026-05-07 AI 學習日誌

#AI學習 #備份策略 #向量搜尋

今日最有感的事

大檔備份不能直接寫進 Google Drive 的掛載資料夾

今天最痛的學習,是花了一整天才搞懂一件事:把 100 GB 級的資料 rsync 到「Google Drive 桌面版的掛載資料夾」,不等於「備份到雲端」

我原本的直覺很單純——既然 Google Drive 已經掛在本機某個路徑,那 rsync -a 來源 該路徑/ 應該就跟外接硬碟一樣,寫完就上雲。實際跑下去發現三件事接連爆掉:

第一,File Stream 會把要上傳的檔案先 staging 在本機 NVMe。我本機原本還有 900 GB 空間,跑到 53 GB partial tar.gz 的時候,本機磁碟瞬間剩 14 GB,連 /tmp 都建不出 temp file。也就是說,雲端還沒收到任何東西,本機就先被自己的「上傳暫存」塞爆。

第二,Drive 桌面版的真實上行速度,比我以為的慢一個量級。早上 09:03 寫到掛載點的 102 GB,到晚上 20:00 還只上了 14 GB,平均速度 380 KB/s,照這個速度要跑 2-3 天才會完成。這代表「rsync exit 0」這件事跟「雲端真的可以拿來還原」完全是兩件事。

第三,rsync 寫進 Dashboard 的 success 是一個謊言。我的 script 用 rsync exit code 判斷成功與否,但 rsync 只負責把檔案丟到掛載點 staging,根本不知道之後 Drive Desktop 有沒有真的上傳。Dashboard 顯示「Tier 2 backup 成功」,實際上雲端是 0%。

更直白地說,「資料寫到本機某個資料夾就算了」這個心智模型,只適用於本機磁碟和外接硬碟,不適用於雲端同步資料夾。雲端同步是非同步的、有限速的、會吃本機磁碟做暫存的。

最後解法是改走 Restic + rclone:

  • rclone 直接打 Google Drive API,不經過 Drive Desktop App,所以本機完全沒有 staging
  • Restic 做 incremental + deduplication + encryption,第一次上傳完之後,每次只傳變動的 chunk
  • 兩個組合起來,本機磁碟動都不用動,上傳速度也直接從 380 KB/s 拉到 2-3 MB/s(5-8 倍)

真正值得記住的判斷規則是:只要備份資料量超過本機剩餘空間的 30%,就不能用 rsync mirror 到雲端掛載點——必須用支援 streamed upload 的工具(Restic、rclone、duplicacy)直接打 API。

BGE-M3 cosine similarity 的 0.73 到底是什麼

下午問教科書搜尋系統「AVNRT 為什麼 P 波會藏在 QRS 裡」,看到結果旁邊掛了一個 0.73 的分數,順手問了這個數字到底代表什麼。

這個 0.73 是 cosine similarity(餘弦相似度),但對非工程師來說,更白話的解釋是這樣:

把「問題」和「教科書段落」都丟進一台叫 BGE-M3 的翻譯機,它會把每一段文字轉成 1024 個小數字組成的座標。意思相近的句子,座標也會在「語意地圖」上靠在一起。0.73 就是在說:你的問題和那段教科書,在這張地圖上的距離有多近

醫學語料的實務分布大致是這樣:

  • 0.85+:幾乎是同段重寫,可以直接抄
  • 0.75–0.85:高度相關,主引用首選
  • 0.65–0.75:相關但角度可能稍偏,可作補充
  • 0.55–0.65:邊緣相關,多半不引
  • < 0.55:通常是只共享 1-2 個關鍵字的雜訊

這代表 0.73 落在「相關但要看內文確認角度對不對」的區間,不是「越高就一定越好用」。寫教學內容時用這個分數來判斷要主引、補引還是直接丟掉,比單純按排序拿前三筆精準很多。

連帶學到的另一件事:請 AI 出圖時,「品質參數」必須直接傳給工具,不能只寫在自然語言敘述裡。今天用 Codex $imagegen 出 BGE-M3 流程圖,我把「品質:high」寫在 prompt 文字內,結果產出來的檔案只有 1.4 MB(high quality 應該 2.5 MB+),畫面又糊又擠。後來把 quality=high 直接寫死在 SKILL.md 當鐵律,每次呼叫都明確帶這個參數,產出的圖才真的對得上 gpt-image-2 的水準。Prompt 寫法本身也要改——不要寫成「規格表」(一階段標題 X、圖示 Y),要寫成「視覺敘述」(Stripe / Linear 文件頁那種 flat vector 風格),模型才不會把每格都塞滿小字。

今日收集的資源

Berry Xia 的 AI 觀察貼文(X)

  • 連結:https://x.com/berryxia/status/2051455836233548199?s=46
  • 一句說明:AI 圈推友 berryxia 的近期觀察,蒐集起來之後做為素材池追蹤。

FB 上的 AI 工具分享

  • 連結:https://www.facebook.com/share/p/1GuN61NrNx/?mibextid=wwXIfr
  • 一句說明:朋友圈分享的 AI 工具或心得貼文,未來看是否值得整理成 Threads 素材。

ai_content_radar 在 Threads 的 AI 動態

  • 連結:https://www.threads.com/@ai_content_radar/post/DYBTapxEkq1
  • 一句說明:AI 內容雷達帳號的最新動態,追蹤近期值得注意的 AI 發布。

aiposthub 的 AI 整理貼文(Threads)

  • 連結:https://www.threads.com/@aiposthub/post/DYBj0_eARkZ
  • 一句說明:AI 主題策展帳號的當日 highlight,可作素材源比對。

aiondaily 的每日 AI 摘要(Threads)

  • 連結:https://www.threads.com/@aiondaily/post/DYBtYHBEt4b
  • 一句說明:每日 AI 摘要型帳號的貼文,未來可比對自己 Threads 早報的覆蓋率。
comments powered by Disqus