#AI學習 #本機LLM #Whisper #三引擎交叉比對 #oMLX
今日最有感的事
oMLX 從 PyObjC 整包砍掉,改用 Swift/SwiftUI 重寫
calvinhuo1004 在 Threads 公告 oMLX「史上最大更新」:把舊的 PyObjC 架構徹底廢棄,全套改成 Apple 原生的 Swift / SwiftUI 重新開發。這代表它不再只是「能在 Mac 上跑 MLX 模型的 wrapper」,而是真的變成一個精緻的原生 Mac App。
更新內容用一張表看最清楚:
| 升級點 | 實際差別 |
|---|---|
| 啟動速度 | 首次啟動、伺服器啟停變極度流暢 |
| 介面 | 重新設計操作頁、設定頁、狀態顯示 |
| 模型管理 | 直接支援 Hugging Face 快取目錄結構,可從 LM Studio 共享模型不用重抓 |
| 自動更新 | 基於 GitHub Releases、下載前會確認 |
| 殺手級核心 | 保留「冷熱分層 KV 快取(tiered KV cache)」——記憶體不夠時自動把冷數據放到 SSD |
對非工程師讀者補一下背景:MLX 是 Apple 自家給 Apple Silicon 設計的機器學習框架,oMLX 等於是把這套框架包成「我點兩下就能在我的 Mac 上跑開源 LLM」的 GUI。PyObjC 是讓 Python 呼叫 Mac 原生 API 的橋接層,但這層橋總是慢半拍、跨平台維護也卡。改成 Swift/SwiftUI 之後,等於整棟拆掉重蓋,跟系統的距離從「Python 隔著 PyObjC 看 macOS」變成「我就是 macOS App」。
真正值得看的是冷熱分層 KV 快取這個核心被保留下來。它在跑長文本或大模型時會把當下沒在用的 KV cache 自動 spill 到 SSD,等於用 SSD 補 RAM 不夠的洞——這對 Mac mini 24 GB / 32 GB 的人來說是命門功能,重寫沒砍掉就代表作者沒打算把它做成「玩具版 LM Studio」。等下班來更新試試看,順便比一下跟 LM Studio 共享模型的實際體驗。
朋友用「三引擎交叉比對」重建股東會逐字稿,逼我重新看 whisper 配置
晚上朋友傳了一份博晟生醫 2026 股東會的逐字稿重建版(Google Doc)給我看,問我這種做法可不可以參考。他的方法是:同一份錄音丟三個 ASR 模型各轉一份,再交叉比對產生一個正確的「黃金資料庫」,最後從中重建完整版本,還做了校稿說明、術語還原對照表、紅/橘字分級、#1–#22 待確認清單。
我手上剛好有這場會的另一個版本(5/28 用 whisper large-v3 + aggressive 跑出來的 17K 字版),head-to-head 比過之後給朋友的回應是:方向對、值得參考,但有個關鍵前提。
更直白地說,三引擎交叉比對只有在引擎「夠不一樣」時才有效。不同模型錯在不同地方,投票才有意義;如果拿 whisper large-v3 跟 turbo 各跑一次——它們是同一家族、同樣訓練資料、同樣架構,會在同樣的地方一起錯(錯誤相關)。等於同一票投兩次,沒什麼用。真正互補的是不同架構、不同訓練的模型。
我給自己定的三引擎組合(全本機、不出機器,適合股東會這種隱私敏感的場合):
| 引擎 | 架構家族 | 中文能力 | 跟 Whisper 獨立性 |
|---|---|---|---|
| Whisper large-v3 | 自回歸 Transformer(OpenAI) | 強 | 基準 |
| Paraformer-zh(阿里 FunASR) | 非自回歸,架構完全不同 | 很強,中文最佳化 | ✅✅ |
| SenseVoice(阿里,較新) | 非自回歸,與 Whisper 不同 | 很強、快 | ✅ |
實作上踩到的坑也很真實:環境是 Python 3.14(很新)+ 磁碟只剩 19 GB,FunASR 那套 torch + 一堆舊依賴在 3.14 上很容易編譯失敗。改走 sherpa-onnx 路線——用 ONNX 跑 Paraformer 跟 SenseVoice,不靠 torch、有預編譯 wheel,3.14 + Mac 上的成功率高很多。
token 成本問題我也算過:三引擎本身跑在本機,完全不花 token,只吃 CPU/GPU 時間;token 只花在我做交叉比對那一步(要讀 3 份逐字稿而不是 1 份)。一集 60 分鐘大概從 ~300K token → ~500–700K token,不到 2 倍、不是 3 倍。
但我給自己的內規是:預設單引擎就好(品質已經 95% 以上,token 跟現在一樣),三引擎只在「高風險、數字/專有名詞密集」的內容才升級——股東會、法說會、要引用數字的醫學演講。一般 podcast 或 YouTube 用單引擎完全夠。今天順手把 ACLS 2025 update 課程錄音的三引擎轉錄也跑起來了——這個用途吃得到「醫療專有名詞 + 劑量數字」雙重高風險,剛好驗證新流程。
今日收集的資源
oMLX 史上最大更新(PyObjC → Swift/SwiftUI)
- 連結:https://www.threads.com/@calvinhuo1004/post/DZMbT70k_kj
- 一句說明:calvinhuo1004 公告 oMLX 整個底層改 Apple 原生 Swift/SwiftUI 重寫,保留冷熱分層 KV cache、支援從 LM Studio 共享模型。
博晟生醫股東會逐字稿——朋友的三引擎重建版
- 連結:https://docs.google.com/document/d/1u6Jc8KNTUnhxWghB7PaVL6tHTFwqEWVCKFobb294bmA/edit?tab=t.0
- 一句說明:朋友把同一份錄音丟三個 ASR 模型互比再重建的成果,附校稿說明、術語對照表、紅橘字分級、#1–#22 待確認清單,是我今天決定把 sherpa-onnx + Paraformer + SenseVoice 裝起來的觸發點。
「重整評估」Podcast——碳水 / 有氧 / 燃脂專題
- 連結:https://podcasts.apple.com/tw/podcast/%E9%87%8D%E6%95%B4%E8%A9%95%E4%BC%B0/id1747099567?i=1000771002238
- 一句說明:拿來測 /transcribe 流程的中英混講樣本(嘉賓全英文教練 Alan),92 分鐘 large-v3 跑完僅 1 處結尾 hallucination,code-switching 表現比預期好。
OpenEvidence MCP 上游 repo(htlin222)
- 連結:https://github.com/htlin222/openevidence-mcp
- 一句說明:王介立醫師的 OE MCP,最近一波更新(0.3.0 + Unreleased)整個押在「瀏覽器擴充功能 relay」繞 DataDome;我本機落後 27 commit,但這條路徑跟我 headless 工作流相斥,所以維持自建的 curl_cffi 方案、不整包升級。
南韓選舉與 AI 假訊息相關報導(Voice Podcast EP06 查核來源)
一句說明:The Standard 報導南韓 AI 深偽假訊息如何測試現行選舉法。
連結:https://en.sedaily.com/finance/2026/04/14/pm-kim-vows-maximum-penalties-for-ai-generated-fake-news
一句說明:南韓總理金宣布對 AI 生成假新聞祭出最高罰則。
一句說明:Kathmandu Post 整理深偽影片在南韓總統大選投下的陰影,是 EP06「南韓賄選與台灣瘋傳假截圖」那集的查核脈絡之一。