#AI學習 #本機LLM #Whisper #三引擎交叉比對 #oMLX

今日最有感的事

oMLX 從 PyObjC 整包砍掉,改用 Swift/SwiftUI 重寫

calvinhuo1004 在 Threads 公告 oMLX「史上最大更新」:把舊的 PyObjC 架構徹底廢棄,全套改成 Apple 原生的 Swift / SwiftUI 重新開發。這代表它不再只是「能在 Mac 上跑 MLX 模型的 wrapper」,而是真的變成一個精緻的原生 Mac App。

更新內容用一張表看最清楚:

升級點實際差別
啟動速度首次啟動、伺服器啟停變極度流暢
介面重新設計操作頁、設定頁、狀態顯示
模型管理直接支援 Hugging Face 快取目錄結構,可從 LM Studio 共享模型不用重抓
自動更新基於 GitHub Releases、下載前會確認
殺手級核心保留「冷熱分層 KV 快取(tiered KV cache)」——記憶體不夠時自動把冷數據放到 SSD

對非工程師讀者補一下背景:MLX 是 Apple 自家給 Apple Silicon 設計的機器學習框架,oMLX 等於是把這套框架包成「我點兩下就能在我的 Mac 上跑開源 LLM」的 GUI。PyObjC 是讓 Python 呼叫 Mac 原生 API 的橋接層,但這層橋總是慢半拍、跨平台維護也卡。改成 Swift/SwiftUI 之後,等於整棟拆掉重蓋,跟系統的距離從「Python 隔著 PyObjC 看 macOS」變成「我就是 macOS App」。

真正值得看的是冷熱分層 KV 快取這個核心被保留下來。它在跑長文本或大模型時會把當下沒在用的 KV cache 自動 spill 到 SSD,等於用 SSD 補 RAM 不夠的洞——這對 Mac mini 24 GB / 32 GB 的人來說是命門功能,重寫沒砍掉就代表作者沒打算把它做成「玩具版 LM Studio」。等下班來更新試試看,順便比一下跟 LM Studio 共享模型的實際體驗。

朋友用「三引擎交叉比對」重建股東會逐字稿,逼我重新看 whisper 配置

晚上朋友傳了一份博晟生醫 2026 股東會的逐字稿重建版(Google Doc)給我看,問我這種做法可不可以參考。他的方法是:同一份錄音丟三個 ASR 模型各轉一份,再交叉比對產生一個正確的「黃金資料庫」,最後從中重建完整版本,還做了校稿說明、術語還原對照表、紅/橘字分級、#1–#22 待確認清單。

我手上剛好有這場會的另一個版本(5/28 用 whisper large-v3 + aggressive 跑出來的 17K 字版),head-to-head 比過之後給朋友的回應是:方向對、值得參考,但有個關鍵前提

更直白地說,三引擎交叉比對只有在引擎「夠不一樣」時才有效。不同模型錯在不同地方,投票才有意義;如果拿 whisper large-v3 跟 turbo 各跑一次——它們是同一家族、同樣訓練資料、同樣架構,會在同樣的地方一起錯(錯誤相關)。等於同一票投兩次,沒什麼用。真正互補的是不同架構、不同訓練的模型。

我給自己定的三引擎組合(全本機、不出機器,適合股東會這種隱私敏感的場合):

引擎架構家族中文能力跟 Whisper 獨立性
Whisper large-v3自回歸 Transformer(OpenAI)基準
Paraformer-zh(阿里 FunASR)非自回歸,架構完全不同很強,中文最佳化✅✅
SenseVoice(阿里,較新)非自回歸,與 Whisper 不同很強、快

實作上踩到的坑也很真實:環境是 Python 3.14(很新)+ 磁碟只剩 19 GB,FunASR 那套 torch + 一堆舊依賴在 3.14 上很容易編譯失敗。改走 sherpa-onnx 路線——用 ONNX 跑 Paraformer 跟 SenseVoice,不靠 torch、有預編譯 wheel,3.14 + Mac 上的成功率高很多。

token 成本問題我也算過:三引擎本身跑在本機,完全不花 token,只吃 CPU/GPU 時間;token 只花在我做交叉比對那一步(要讀 3 份逐字稿而不是 1 份)。一集 60 分鐘大概從 ~300K token → ~500–700K token,不到 2 倍、不是 3 倍

但我給自己的內規是:預設單引擎就好(品質已經 95% 以上,token 跟現在一樣),三引擎只在「高風險、數字/專有名詞密集」的內容才升級——股東會、法說會、要引用數字的醫學演講。一般 podcast 或 YouTube 用單引擎完全夠。今天順手把 ACLS 2025 update 課程錄音的三引擎轉錄也跑起來了——這個用途吃得到「醫療專有名詞 + 劑量數字」雙重高風險,剛好驗證新流程。

今日收集的資源

oMLX 史上最大更新(PyObjC → Swift/SwiftUI)

博晟生醫股東會逐字稿——朋友的三引擎重建版

「重整評估」Podcast——碳水 / 有氧 / 燃脂專題

OpenEvidence MCP 上游 repo(htlin222)

南韓選舉與 AI 假訊息相關報導(Voice Podcast EP06 查核來源)

◆ ◆ ◆