影片轉文字工具推薦:Memo AI
影片轉文字工具百百種,其中最令我驚艷的就是 Memo AI。
它是一個免費/付費的本地端軟體,同時支援 Windows 和 Mac 作業系統。
而它的功能不只有影片轉文字,還包含了文字合成語音、字幕翻譯、字幕輸出、上字幕後的影片輸出、心智圖繪製、筆記軟體串連等等。
我推薦它的原因,就是因為它把以上功能集結在一起,讓我們在工作和學習時不需要開多個視窗。這有效減少了注意力的耗散。
該影片轉文字工具目前可輸入 5 種媒體格式:
- YouTube 影片(包含 Shorts)
- .mp3 檔
- .mp4 檔
- .aac 檔
- .m4a 檔
Apple Podcast(官方說可以,但我試了不行)
接下來,我會分享Memo AI 是免費的嗎、影片轉文字 3 步驟、轉寫速度實測、該影片轉文字工具的特點、工具比較。
Memo AI 是免費的嗎?
Memo AI 可以免費使用,也可以付費。
免費版就可以使用「影片轉文字」和「字幕翻譯」等主要功能了。
付費版則是多了「品質更好的影片轉文字」、「GPU 加速轉寫」、「語音合成」和「解鎖 4K 影片導出」。
兩者差異最大的地方,就是影片轉文字的速度。
免費版只能使用 CPU 轉寫,速度較慢;
付費版可以使用 GPU 或 Cuda 轉寫,速度是爆炸性躍升。
接下來的內容,都以免費版的為主。若提到付費版的內容,會特別註明。
影片轉文字 3 步驟
步驟一:註冊 Memo AI
首先我們要註冊,才能拿到該軟體的啟動授權碼。
請到這個官方的網頁,點選「Memo is still in beta」裡的連結。進入頁面後,左側選擇「Memo AI Invitation code(免費版)」,右側則填入「你的電子郵件信箱」。
填好送出後,到信箱收信,你會收到他們寄來的信,而信裡有啟動授權碼 License key⬇️
接著去官網下載並安裝該軟體。安裝完成,開啟軟體後,你會被要求填入授權碼。填好送出後,你就能開始使用了!
準備開始把 YT 影片轉文字!
步驟二:轉寫 YT 影片
開啟並進入該軟體後,畫面上方有個填入 YT 影片連結的欄位(紅框處)。
把影片連結複製貼上,按下轉寫後,會來到以下畫面。
畫面中依序有 4 個設置可以調整:
- 原檔案語言:這裡我們調「自動檢測」
- 選擇品質:免費版只能選「極速」和「均衡」,這裡我們選均衡的「Small」
- 啟用 GPU 加速:免費版只能選 CPU(較慢)
- 自動斷句:啟用它
設置調整完成後,請按下「轉寫」,它就會自動把 YT 影片下載下來(可能需要一點時間),並把影片中的所有語音轉成文字。
轉寫完成的畫面如下。左側是影片,右側是轉寫後的時間碼和原文文字稿(你也可以把它當作字幕)。
步驟三:翻譯字幕
讀英文很吃力,所以我們要把它變成繁體中文。請點選畫面上方的「翻譯」。
翻譯服務選擇「Microsoft 微軟翻譯」,然後選擇翻譯成「繁體中文」。
接著點選「翻譯 ▷」,等它跑。跑完後,你會發現左側影片多了繁體中文字幕,右側原文文稿底下有了繁體中文字。
到這裡你就完成影片轉文字三步驟啦!恭喜!
影片轉文字速度實測
我的筆電是型號是 Stealth 14Studio A13VF。
- CPU:Intel® Core™i7-13700H
- RAM:64 GB
- 顯示卡:GeForce RTX™ 4060
- SSD:1 TB
CPU、GPU 和 Cuda 的轉寫速度比較
Memo AI 有三種影片轉文字的轉寫選項,分別是 CPU、GPU 和 Cuda(後兩者需要付費)。
這裡主要實測這三種轉寫選項的速度,轉寫品質設定為「均衡」的「Small」模型(免費版可選),而測試的影片是 Peter Attia 教授在說明長壽的 4 分鐘影片。
以下是測試結果。
CPU | GPU | Cuda | |
影片轉文字所需時間 | 106 秒 | 14 秒 | 7 秒 |
結論是用 CPU 轉寫真的很慢,等到天荒地老。
如果你工作上需要大量使用影片轉文字的話,真心建議使用付費版,用 GPU 和 Cuda 轉寫的速度真的快非常多。
以這支影片來說,CPU 到 Cuda 的轉寫耗費時間,是從「三位數」秒降低到「個位數」秒!
Cuda 對於不同時長影片的轉寫速度比較
既然知道 Cuda 是影片轉文字最快速的轉寫選項,那麼就來看看它在不同時長影片的表現。
以下是測試結果。
Cuda 影片轉文字所需時間 | |
4 分鐘影片 | 7 秒 |
10 分鐘影片 | 12 秒 |
30 分鐘影片 | 38 秒 |
60 分鐘影片 | 84 秒 |
120 分鐘影片 | 159 秒 |
轉換成折線圖。
「轉寫時間」與「影片長度」之間的關係幾乎成正比。這很直覺,影片愈長,影片轉文字所需時間就愈久。
Memo AI 的其他 8 個特點
1. YT 影片就算沒有 CC 字幕也可以影片轉文字
很多影片轉文字工具在轉寫 YT 影片時,都是轉寫影片裡的 CC 字幕(Closed Captioning)。如果一部影片沒有 CC 字幕的話,那麼它就會轉寫影片底下的「留言」,而不是影片真實內容。
這大大破壞了使用者的體驗。
但是,Memo AI 可以順利轉寫沒有 CC 字幕的影片。
因為它內建了 OpenAI 的語音辨識模型 Whisper,可以精準地將影片中的語音轉寫成文字。
註:在轉寫前請記得先下載模型。
2. 多種翻譯模型
剛剛提到的是「語音辨識模型」,這裡提到的是「翻譯模型」,這兩者不一樣(常有人搞混)。
翻譯模型指的是,翻譯文字的模型,比如英翻中、英翻日、中翻日等等。
Memo AI 目前總共有 6 種翻譯模型可以使用:
- OpenAI
- Ollama
- Microsoft
- DeepL
- Claude
在這六者之中,可以免費使用的有 Ollama、Microsoft、Google 和 DeepL,而 DeepL 要另外註冊+串 API,且有翻譯字數限制(一個月 50 萬字)。
使用 Ollama 翻譯較麻煩。因為它是本地端的 AI 模型,必須下載再安裝才能使用,而它的安裝步驟較複雜,建議參考 PAPAYA 的 YT 影片。
另外兩個模型,OpenAI 和 Claude,要付費才能使用(要串 API 並儲值)。
- 如果你是免費使用者,且不想花錢的話,我推薦你使用 Microsoft 翻譯。
- 如果你願意付費得到更好的翻譯品質,我推薦你使用 Claude 3.5 Sonnet(我自己就是這樣使用)。
3. 可二次翻譯降低機翻感
點選「設定」>「實驗室」,就可以看到「AI 二次翻譯潤色」。
開啟這個選項之後,它在翻譯文字時就會翻譯兩次,可以有效降低「機翻感」,讓翻譯後的文字顯的更通順、更口語化。
下圖是一次翻譯。
下圖是二次翻譯。
二次翻譯後的文稿讀起來確實更通順和口語化。
4. 可修改字幕(翻譯後的文字)和匯出
如果翻譯後的文字你還是不喜歡,那麼你可以手動把它改成你喜歡的樣子!
修改完後,你也可以把字幕匯出成各種檔案格式,或是直接匯出到筆記軟體中(目前只有支援 Notion 和 Obsidian)。
5. 可調整影片中字幕的呈現
影片字幕總共有 6 處可以調整:
- 字幕樣式:可以調整字幕呈現的樣式
- 主字幕:可調字幕顏色和大小
- 輔字幕:可調字幕顏色和大小
- 雙語切換:可以選擇要顯示原始語言或翻譯語言,也可以選擇同時顯示
- 字幕顯示順序:可以選擇原始語言和翻譯語言呈現的次序
- 位置:可以調整字幕在影片中的位置
直接看影片吧,比較好理解。請注意左側影片字幕的變化。
6. 可語音合成(Text-to-speech,TTS)
如果影片的原始語音是英文的話,你可以透過翻譯後的繁體中文字,來進行語音合成,讓它說中文。
目前共有 3 種語音合成模型可選:
- OpenAI
- ElevenLabs
- Edge
這三者中,只有 Edge 是可以免費使用的。其他兩者要付費才能使用(要串 API 並儲值)。
聽聽看合成後結果如何吧⬇️,以下是我用 Edge 進行語音合成後的影片,覺得講的挺順的。
除了中文之外,你也可以讓它說各國語言。而且說話者可以選擇男生或女生,超好玩 XD
7. 可建立筆記,串連 Notion
在使用 Memo AI 的過程中,你也可以用它內建的筆記工具寫筆記。
不過它的筆記工具偏陽春,並不像專業的筆記軟體有那麼多功能。
所以,建議串連其他專業筆記軟體,將你在 M 上做的筆記同步到專業筆記軟體上。他們目前只有支援 Notion。未來會支援 Flomo、Obsidian 和 Logseq。
要把筆記同步到 Notion 的話,要串 Notion API,這裡有官方教學文可以參考。
8. 可做總結和繪製心智圖
「做總結」和「繪製心智圖」必須串 OpenAI 的 API,或使用 Ollama。前者需付費,後者則免費。
以下是請它做總結的影片(沒錄完整個過程)。
以下是請它繪製心智圖的影片(沒錄完整個過程)。
下圖是完整的心智圖,你還能夠下載它和編輯文字。
影片轉文字工具比較:Memo AI vs Whisper Jax
另一個常見的影片轉文字工具是 Whisper Jax,它是免費的網頁軟體。
而我認為 Memo AI 屌打它,以下我用表格比較。
Memo AI | Whisper Jax | |
使用環境 | ✅本地端 | 必須連網路 |
使用費用 | 免費/付費 | 免費 |
註冊 | 需要註冊 | ✅免註冊 |
AI 模型 | Whisper | Whisper |
影片轉文字速度 | ✅快(電腦硬體愈好跑愈快) | 慢(很多人同時用會降速) |
文字翻譯 | ✅可翻成各種語言 | 只能翻成英文 |
可否串接 API | ✅可以 | 不可以 |
可否儲存檔案 | ✅可以 | 不可以 |
功能種類 | ✅功能繁多 | 只有影片轉文字和翻譯成英文 |
與 NotebookLM 的組合應用
NotebookLM 有個酷炫的功能,是彙整你上傳的資料,然後生成雙人對話 Podcast。但目前的缺點是只能生成「英文」Podcast。
為了聽到中文版本的 Podcast,我們可以先下載原本英文 Podcast 的音檔,然後再把音檔丟進 Memo AI,用語音合成把它轉成中文音檔。
已實測,可行!
(延伸閱讀:用 NotebookLM 讀大量書籍的方法,NotebookLM 使用案例分享)
Memo AI 適合誰?
我認為該影片轉文字工具,特別適合以下 4 種人:
- 常看國外 YT 影片(演講、訪談等長影片),且需要文字翻譯的學習者
- 不想花時間看長影片,只想看文字快速輸入的人
- 常錄 Podcast,需要把聲音輸出成字幕的創作者
- 不想用自己的聲音,而是用合成語音(需付費)的創作者
Memo AI 的價格是多少?
該影片轉文字工具目前有兩種付費方案,一種是「年訂閱制(Memo Pro)」,另一種是「買斷制(Memo Believer)」。
這裡可以看更詳細的官方定價。如果你是學生或教師的話,購買可以享折扣。
年訂閱制
- 價格:25.99 鎂/年
- 裝置數量:兩台
- 解鎖功能:GPU 加速、更高品質的影片轉文字模型、批量輸出、多格式匯出、語音合成
買斷制
- 價格:49.99 鎂、99.99 鎂、139.99 鎂、259.99 鎂
- 裝置數量:一台、三台、五台、十台(依序對應以上價格)
- 解鎖功能:和年訂閱制一樣
我的選擇
因為我自己有多台裝置,且覺得該影片轉文字工具是目前市場上最猛、最萬用的,所以我選擇「買斷制 99.99 鎂」。
如果你只是想嚐鮮一下的話,年訂閱制就夠了,該有的功能都有。
如果你只是需要影片轉文字功能,且不要求轉寫速度、不要求轉寫的太精準、對翻譯品質也沒太多要求的話,免費版就夠你用啦!
哪些創作者也在使用這款影片轉文字工具?
- 蘋果 99,他錄了一支 YT 影片,教大家如何把 Memo AI 應用在剪輯上
- 李元魁,他錄了一支 YT 影片,教大家如何使用這款影片轉文字工具
- 雷蒙,他在 FB 貼文提到,在長影片學習上 Memo AI 比 NotebookLM 更好用
Memo AI 的 2 個缺點
1. 很吃電腦效能
他們在官網的更新日誌中有提到以下這句話:
Memo AI 建議在有超過 16G 記憶體的裝置中使用,以獲得更好的體驗,裝置的配置越好,轉寫的速度就越快。
意思是當系統在進行影片轉文字的時候,會吃掉很多記憶體。記憶體不夠的話,就會當機。
如果你的電腦已經很久沒有更新硬體,用的都是幾十年前的零件,那就很可能跑不動這個工具。
2. 不支援 Podcast
雖然官方公告說他們支援 Apple Podcast,但我怎麼試都無法,總是出現「獲取媒體信息失敗」提示。
不管是英語 Podcast,還是中文 Podcast,都不行。
寫在最後
真心推薦 Memo AI 這款影片轉文字工具,它讓我們可以用更輕鬆、更快速的方式看國外長影片。
更進一步地說,這款工具真正實現了長影片的沉浸式學習!
雖然它目前有一點點小缺點,但無傷大雅,只要 YT 影片轉文字功能正常就沒什麼大礙。