簡報轉換
簡報轉換功能可以將 PDF 或圖片轉換成可編輯的 PPTX 檔案,支援 OCR 文字辨識。
適用情境
此工具特別適合轉換以下來源的簡報:
- NotebookLM - Google 的 AI 筆記工具產生的簡報
- Gamma - AI 簡報生成工具
- Canva - 匯出的 PDF 簡報
- 螢幕截圖 - 任何簡報的截圖或照片
如何進入
有兩種方式可以進入「PPTX 轉換工具」:
方式一:從簡報模式進入
在「簡報」模式中,點擊「PPTX 轉換工具」卡片即可進入。

方式二:從歷史紀錄進入
點擊歷史紀錄中的任何圖片,展開後會看到「轉換為 PPTX」按鈕,點擊即可將該筆記錄的圖片帶入轉換工具。
介面總覽

介面分為左右兩個區塊:
圖片預覽
左側區域顯示上傳的簡報圖片,可以切換查看每一頁。底部的「合併後」和「原始框」按鈕可以切換 OCR 結果的顯示方式。
設定
右側區域提供各種轉換設定:
| 設定 | 說明 |
|---|---|
| Model | 選擇 Server(較高精度)或 Mobile(輕量版) |
| OCR Engine | WebGPU 使用 GPU 加速;Worker 在背景執行緒運作 |
| Setting Mode | 統一設定(Apply to All)或逐頁設定(Per Page) |
| Text Removal Method | 文字移除方式:OpenCV.js(免費)或 Gemini API(消耗 API 額度) |
| Algorithm | 文字移除演算法:NS 或 TELEA |
進階設定
點擊 OCR Engine 旁的「進階設定」按鈕,可以調整更細緻的 OCR 參數,如偵測閾值、膨脹係數、版面分析設定等。
設定完成後,點擊「開始轉換 PPTX」按鈕開始處理。
基本用法
- 上傳 PDF 檔案或圖片
- 等待 OCR 處理
- 預覽並編輯結果
- 下載 PPTX 檔案
處理流程
1. PDF 轉圖片
首先將 PDF 的每一頁轉換成高解析度圖片。
2. OCR 文字辨識
使用 PaddleOCR 模型進行文字偵測和辨識:
- 文字偵測:找出圖片中文字的位置
- 文字辨識:將圖片中的文字轉換成可編輯文字
- 版面分析:將相近的文字區塊合併成段落
3. 去除文字
使用 OpenCV.js 或 Gemini API 的修復演算法(Inpainting)移除原始圖片中的文字。
自動備援機制
若選擇使用 Gemini API 進行文字移除,當 API 發生錯誤(如 RECITATION、額度不足等)時,系統會自動降級使用 OpenCV.js 繼續處理,確保轉換流程不會中斷。
4. 生成 PPTX
將處理後的背景圖片和辨識出的文字組合成 PPTX 檔案。
OCR 設定
執行模式
| 模式 | 說明 | 適用情境 |
|---|---|---|
| WebGPU | 使用 GPU 加速 | 現代瀏覽器、較快 |
| WASM | 純 CPU 運算 | 相容性較好 |
模型選擇
| 模型 | 大小 | 準確度 | 速度 |
|---|---|---|---|
| Server | ~172MB | 較高 | 較慢 |
| Mobile | ~21MB | 一般 | 較快 |
自動降級機制
系統具備多層自動降級機制:
- GPU 記憶體不足:WebGPU 執行時若記憶體不足,會自動切換至 WASM Worker(CPU 模式)繼續處理
- 模型大小降級:若裝置無法載入 Server 模型,會自動切換至 Mobile 模型
降級時會顯示提示訊息,讓你了解目前的執行狀態。
進階參數
- 偵測閾值:調整文字偵測的敏感度
- 膨脹係數:調整文字框的大小
- 行距閾值:影響段落合併的判斷
轉換完成

轉換完成後,介面會顯示:
- Original:原始圖片
- Processed:處理後的圖片(已移除文字)
- 縮圖列:底部顯示所有頁面,綠色勾勾表示處理成功
底部按鈕說明:
| 按鈕 | 說明 |
|---|---|
| 合併後 | 顯示版面分析後合併的文字區塊 |
| 原始框 | 顯示 OCR 偵測到的原始文字框 |
| 識別失敗 | 顯示無法識別的區域(如有) |
| 編輯區域 | 進入編輯模式調整文字區域 |
編輯模式
點擊「編輯區域」按鈕進入編輯模式,可以微調 OCR 的辨識結果。

工具列
編輯模式上方會出現工具列,提供以下工具:
| 工具 | 快捷鍵 | 說明 |
|---|---|---|
| 繪製矩形 | D | 拖曳繪製新的文字區域 |
| 梯形 | T | 將選取的區域轉換為可自由調整頂點的四邊形(選取區域時出現) |
| 分隔線 | S | 點擊兩點繪製分隔線,阻止區域合併 |
| 框選 | V | 拖曳框選要批次刪除的區域 |
| 復原 / 重做 | Ctrl+Z / Ctrl+Shift+Z | 復原或重做編輯操作 |
| 重設 | R | 重設所有編輯,恢復為 OCR 原始結果 |
| 完成 | - | 儲存編輯並離開編輯模式 |
快捷鍵
編輯模式支援以下鍵盤快捷鍵,可提高操作效率:
| 快捷鍵 | 功能 |
|---|---|
D | 切換繪製矩形模式 |
S | 切換分隔線模式 |
V | 切換框選模式 |
T | 切換梯形模式(需先選取區域) |
R | 重設所有編輯 |
Ctrl+Z / Cmd+Z | 復原 |
Ctrl+Shift+Z / Cmd+Shift+Z | 重做 |
Escape | 取消目前操作或退出模式 |
Delete / Backspace | 刪除選取的分隔線 |
快速切換
使用快捷鍵可以快速在不同工具之間切換,不需要移動滑鼠到工具列點擊按鈕。
選取與調整區域
點擊任一文字區域即可選取,選取後可以:
- 拖曳角落:調整區域大小
- 點擊中央 ✕:刪除該區域
刪除辨識失敗的區域
如果某個區域辨識失敗(例如圖示被誤認為文字),建議直接刪除該區域。刪除後,該區域不會經過 Inpaint 處理,可以保留原始背景圖片的完整性。
梯形模式(斜向文字)
當簡報中有斜向排列的文字時,矩形區域無法精確框選,這時可以使用「梯形模式」將區域轉換為可自由調整頂點的四邊形。

使用時機:
- 文字沿著斜線排列(如對角線設計)
- 透視角度造成的傾斜文字
- 藝術字或裝飾性文字排版
操作方式:
- 點擊任一文字區域將其選取(會顯示藍色邊框)
- 選取後,工具列會出現「梯形」按鈕(上窄下寬的圖示)
- 點擊「梯形」按鈕,區域會從矩形變成四邊形
- 角落的藍色圓形把手會變成紫色菱形把手
- 拖曳紫色把手來調整各個頂點的位置,使區域貼合斜向文字
- 再次點擊「還原矩形」按鈕可將區域恢復為矩形
形狀限制
系統會自動檢查四邊形是否合法(不可自交叉)。如果拖曳頂點造成邊線交叉,系統會自動還原到拖曳前的位置。
PPTX 匯出效果:
- 梯形區域會根據其傾斜角度自動計算旋轉角度
- 文字框會正確地傾斜顯示,呈現與原始簡報一致的視覺效果
- 字體大小會根據梯形的實際高度(而非外接矩形)計算,確保比例正確
實際範例:
下圖展示了一個完整的編輯案例。在這個金字塔圖表中,「(Thumbnails)」等斜向文字無法被 OCR 正確偵測,因此我們:
- 手動繪製矩形區域框選該文字
- 使用梯形模式調整區域形狀以貼合斜向文字
- 使用分隔線防止相鄰區域被錯誤合併

反覆嘗試是正常的
複雜的簡報可能需要多次調整才能達到理想效果。如下圖所示,處理後的版本下方會顯示多個縮圖,代表不同的 Inpaint 嘗試。你可以點擊不同版本來比較效果。

分隔線
版面分析時,鄰近的文字區域會自動合併為一個文字區塊(在 PPTX 輸出時會成為同一個文字框)。分隔線可以阻止這種自動合併——分隔線兩側的區域會成為不同的文字框。
使用時機:
- 當兩個不相關的文字區塊被錯誤合併為一個時
- 當標題和內文應該分開成不同的文字框時
操作方式:
- 選擇「分隔線」工具
- 點擊第一個點
- 點擊第二個點完成繪製
分隔線兩側的區域會在 PPTX 檔案中輸出為獨立的文字框。
側邊欄
點擊右側的區域列表,可以快速定位並選取對應的文字區域。這在處理大量文字區塊時特別實用。
批次刪除
使用「框選」工具可以一次選取多個區域:
- 選擇「框選」工具
- 拖曳框選要刪除的區域
- 點擊 ✓ 確認刪除
匯出選項
PPTX 設定
| 選項 | 說明 |
|---|---|
| 行高比例 | 調整文字行距 |
| 最小字級 | 限制最小字體大小 |
| 最大字級 | 限制最大字體大小 |
匯出成果預覽
下圖展示了匯出的 PPTX 檔案在 PowerPoint 中的呈現效果。可以看到:
- 梯形區域的文字框已正確旋轉,與原始斜向文字對齊
- 所有文字框都是可編輯的,可以直接修改內容
- 背景圖片已移除原始文字,呈現乾淨的背景

Inpaint 前後對比:
下圖展示了梯形區域的 Inpaint 處理效果。左邊是處理前(原始圖片),右邊是處理後(文字已移除):
| 處理前 | 處理後 |
|---|---|
![]() | ![]() |
支援格式
- 輸入:PDF、PNG、JPG、WebP
- 輸出:PPTX(相容 PowerPoint、Google Slides、Keynote)
注意事項
- 複雜版面(多欄、重疊文字)可能需要手動調整
- 手寫文字的辨識準確度較低
- 特殊字體可能會被替換為系統字體


