2026-06-05 AI 學習日誌

今日最有感的事

oMLX 從 PyObjC 整包砍掉，改用 Swift/SwiftUI 重寫

calvinhuo1004 在 Threads 公告 oMLX「史上最大更新」：把舊的 PyObjC 架構徹底廢棄，全套改成 Apple 原生的 Swift / SwiftUI 重新開發。這代表它不再只是「能在 Mac 上跑 MLX 模型的 wrapper」，而是真的變成一個精緻的原生 Mac App。

更新內容用一張表看最清楚：

升級點	實際差別
啟動速度	首次啟動、伺服器啟停變極度流暢
介面	重新設計操作頁、設定頁、狀態顯示
模型管理	直接支援 Hugging Face 快取目錄結構，可從 LM Studio 共享模型不用重抓
自動更新	基於 GitHub Releases、下載前會確認
殺手級核心	保留「冷熱分層 KV 快取（tiered KV cache）」——記憶體不夠時自動把冷數據放到 SSD

對非工程師讀者補一下背景：MLX 是 Apple 自家給 Apple Silicon 設計的機器學習框架，oMLX 等於是把這套框架包成「我點兩下就能在我的 Mac 上跑開源 LLM」的 GUI。PyObjC 是讓 Python 呼叫 Mac 原生 API 的橋接層，但這層橋總是慢半拍、跨平台維護也卡。改成 Swift/SwiftUI 之後，等於整棟拆掉重蓋，跟系統的距離從「Python 隔著 PyObjC 看 macOS」變成「我就是 macOS App」。

真正值得看的是冷熱分層 KV 快取這個核心被保留下來。它在跑長文本或大模型時會把當下沒在用的 KV cache 自動 spill 到 SSD，等於用 SSD 補 RAM 不夠的洞——這對 Mac mini 24 GB / 32 GB 的人來說是命門功能，重寫沒砍掉就代表作者沒打算把它做成「玩具版 LM Studio」。等下班來更新試試看，順便比一下跟 LM Studio 共享模型的實際體驗。

朋友用「三引擎交叉比對」重建股東會逐字稿，逼我重新看 whisper 配置

晚上朋友傳了一份博晟生醫 2026 股東會的逐字稿重建版（Google Doc）給我看，問我這種做法可不可以參考。他的方法是：同一份錄音丟三個 ASR 模型各轉一份，再交叉比對產生一個正確的「黃金資料庫」，最後從中重建完整版本，還做了校稿說明、術語還原對照表、紅／橘字分級、#1–#22 待確認清單。

我手上剛好有這場會的另一個版本（5/28 用 whisper large-v3 + aggressive 跑出來的 17K 字版），head-to-head 比過之後給朋友的回應是：方向對、值得參考，但有個關鍵前提。

更直白地說，三引擎交叉比對只有在引擎「夠不一樣」時才有效。不同模型錯在不同地方，投票才有意義；如果拿 whisper large-v3 跟 turbo 各跑一次——它們是同一家族、同樣訓練資料、同樣架構，會在同樣的地方一起錯（錯誤相關）。等於同一票投兩次，沒什麼用。真正互補的是不同架構、不同訓練的模型。

我給自己定的三引擎組合（全本機、不出機器，適合股東會這種隱私敏感的場合）：

引擎	架構家族	中文能力	跟 Whisper 獨立性
Whisper large-v3	自回歸 Transformer（OpenAI）	強	基準
Paraformer-zh（阿里 FunASR）	非自回歸，架構完全不同	很強，中文最佳化	✅✅
SenseVoice（阿里，較新）	非自回歸，與 Whisper 不同	很強、快	✅

實作上踩到的坑也很真實：環境是 Python 3.14（很新）+ 磁碟只剩 19 GB，FunASR 那套 torch + 一堆舊依賴在 3.14 上很容易編譯失敗。改走 sherpa-onnx 路線——用 ONNX 跑 Paraformer 跟 SenseVoice，不靠 torch、有預編譯 wheel，3.14 + Mac 上的成功率高很多。

token 成本問題我也算過：三引擎本身跑在本機，完全不花 token，只吃 CPU/GPU 時間；token 只花在我做交叉比對那一步（要讀 3 份逐字稿而不是 1 份）。一集 60 分鐘大概從 ~300K token → ~500–700K token，不到 2 倍、不是 3 倍。

但我給自己的內規是：預設單引擎就好（品質已經 95% 以上，token 跟現在一樣），三引擎只在「高風險、數字／專有名詞密集」的內容才升級——股東會、法說會、要引用數字的醫學演講。一般 podcast 或 YouTube 用單引擎完全夠。今天順手把 ACLS 2025 update 課程錄音的三引擎轉錄也跑起來了——這個用途吃得到「醫療專有名詞 + 劑量數字」雙重高風險，剛好驗證新流程。

今日收集的資源

oMLX 史上最大更新（PyObjC → Swift/SwiftUI）

連結：https://www.threads.com/@calvinhuo1004/post/DZMbT70k_kj
一句說明：calvinhuo1004 公告 oMLX 整個底層改 Apple 原生 Swift/SwiftUI 重寫，保留冷熱分層 KV cache、支援從 LM Studio 共享模型。

博晟生醫股東會逐字稿——朋友的三引擎重建版

連結：https://docs.google.com/document/d/1u6Jc8KNTUnhxWghB7PaVL6tHTFwqEWVCKFobb294bmA/edit?tab=t.0
一句說明：朋友把同一份錄音丟三個 ASR 模型互比再重建的成果，附校稿說明、術語對照表、紅橘字分級、#1–#22 待確認清單，是我今天決定把 sherpa-onnx + Paraformer + SenseVoice 裝起來的觸發點。

OpenEvidence MCP 上游 repo（htlin222）

連結：https://github.com/htlin222/openevidence-mcp
一句說明：王介立醫師的 OE MCP，最近一波更新（0.3.0 + Unreleased）整個押在「瀏覽器擴充功能 relay」繞 DataDome；我本機落後 27 commit，但這條路徑跟我 headless 工作流相斥，所以維持自建的 curl_cffi 方案、不整包升級。

◆ ◆ ◆

今日最有感的事

oMLX 從 PyObjC 整包砍掉，改用 Swift/SwiftUI 重寫

朋友用「三引擎交叉比對」重建股東會逐字稿，逼我重新看 whisper 配置

今日收集的資源

每兩週收到一份急診現場的整理筆記