Skip to content

簡報轉換

簡報轉換功能可以將 PDF 或圖片轉換成可編輯的 PPTX 檔案,支援 OCR 文字辨識。

適用情境

此工具特別適合轉換以下來源的簡報:

  • NotebookLM - Google 的 AI 筆記工具產生的簡報
  • Gamma - AI 簡報生成工具
  • Canva - 匯出的 PDF 簡報
  • 螢幕截圖 - 任何簡報的截圖或照片

如何進入

有兩種方式可以進入「PPTX 轉換工具」:

方式一:從簡報模式進入

在「簡報」模式中,點擊「PPTX 轉換工具」卡片即可進入。

PPTX 轉換工具入口

方式二:從歷史紀錄進入

點擊歷史紀錄中的任何圖片,展開後會看到「轉換為 PPTX」按鈕,點擊即可將該筆記錄的圖片帶入轉換工具。

介面總覽

PPTX 轉換工具介面

介面分為左右兩個區塊:

圖片預覽

左側區域顯示上傳的簡報圖片,可以切換查看每一頁。底部的「合併後」和「原始框」按鈕可以切換 OCR 結果的顯示方式。

設定

右側區域提供各種轉換設定:

設定說明
Model選擇 Server(較高精度)或 Mobile(輕量版)
OCR EngineWebGPU 使用 GPU 加速;Worker 在背景執行緒運作
Setting Mode統一設定(Apply to All)或逐頁設定(Per Page)
Text Removal Method文字移除方式:OpenCV.js(免費)或 Gemini API(消耗 API 額度)
Algorithm文字移除演算法:NS 或 TELEA

進階設定

點擊 OCR Engine 旁的「進階設定」按鈕,可以調整更細緻的 OCR 參數,如偵測閾值、膨脹係數、版面分析設定等。

設定完成後,點擊「開始轉換 PPTX」按鈕開始處理。

基本用法

  1. 上傳 PDF 檔案或圖片
  2. 等待 OCR 處理
  3. 預覽並編輯結果
  4. 下載 PPTX 檔案

處理流程

1. PDF 轉圖片

首先將 PDF 的每一頁轉換成高解析度圖片。

2. OCR 文字辨識

使用 PaddleOCR 模型進行文字偵測和辨識:

  • 文字偵測:找出圖片中文字的位置
  • 文字辨識:將圖片中的文字轉換成可編輯文字
  • 版面分析:將相近的文字區塊合併成段落

3. 去除文字

使用 OpenCV.js 或 Gemini API 的修復演算法(Inpainting)移除原始圖片中的文字。

自動備援機制

若選擇使用 Gemini API 進行文字移除,當 API 發生錯誤(如 RECITATION、額度不足等)時,系統會自動降級使用 OpenCV.js 繼續處理,確保轉換流程不會中斷。

4. 生成 PPTX

將處理後的背景圖片和辨識出的文字組合成 PPTX 檔案。

OCR 設定

執行模式

模式說明適用情境
WebGPU使用 GPU 加速現代瀏覽器、較快
WASM純 CPU 運算相容性較好

模型選擇

模型大小準確度速度
Server~172MB較高較慢
Mobile~21MB一般較快

自動降級機制

系統具備多層自動降級機制:

  • GPU 記憶體不足:WebGPU 執行時若記憶體不足,會自動切換至 WASM Worker(CPU 模式)繼續處理
  • 模型大小降級:若裝置無法載入 Server 模型,會自動切換至 Mobile 模型

降級時會顯示提示訊息,讓你了解目前的執行狀態。

進階參數

  • 偵測閾值:調整文字偵測的敏感度
  • 膨脹係數:調整文字框的大小
  • 行距閾值:影響段落合併的判斷

轉換完成

轉換結果

轉換完成後,介面會顯示:

  • Original:原始圖片
  • Processed:處理後的圖片(已移除文字)
  • 縮圖列:底部顯示所有頁面,綠色勾勾表示處理成功

底部按鈕說明:

按鈕說明
合併後顯示版面分析後合併的文字區塊
原始框顯示 OCR 偵測到的原始文字框
識別失敗顯示無法識別的區域(如有)
編輯區域進入編輯模式調整文字區域

編輯模式

點擊「編輯區域」按鈕進入編輯模式,可以微調 OCR 的辨識結果。

編輯模式

工具列

編輯模式上方會出現工具列,提供以下工具:

工具快捷鍵說明
繪製矩形D拖曳繪製新的文字區域
梯形T將選取的區域轉換為可自由調整頂點的四邊形(選取區域時出現)
分隔線S點擊兩點繪製分隔線,阻止區域合併
框選V拖曳框選要批次刪除的區域
復原 / 重做Ctrl+Z / Ctrl+Shift+Z復原或重做編輯操作
重設R重設所有編輯,恢復為 OCR 原始結果
完成-儲存編輯並離開編輯模式

快捷鍵

編輯模式支援以下鍵盤快捷鍵,可提高操作效率:

快捷鍵功能
D切換繪製矩形模式
S切換分隔線模式
V切換框選模式
T切換梯形模式(需先選取區域)
R重設所有編輯
Ctrl+Z / Cmd+Z復原
Ctrl+Shift+Z / Cmd+Shift+Z重做
Escape取消目前操作或退出模式
Delete / Backspace刪除選取的分隔線

快速切換

使用快捷鍵可以快速在不同工具之間切換,不需要移動滑鼠到工具列點擊按鈕。

選取與調整區域

點擊任一文字區域即可選取,選取後可以:

  • 拖曳角落:調整區域大小
  • 點擊中央 ✕:刪除該區域

刪除辨識失敗的區域

如果某個區域辨識失敗(例如圖示被誤認為文字),建議直接刪除該區域。刪除後,該區域不會經過 Inpaint 處理,可以保留原始背景圖片的完整性。

梯形模式(斜向文字)

當簡報中有斜向排列的文字時,矩形區域無法精確框選,這時可以使用「梯形模式」將區域轉換為可自由調整頂點的四邊形。

梯形模式

使用時機:

  • 文字沿著斜線排列(如對角線設計)
  • 透視角度造成的傾斜文字
  • 藝術字或裝飾性文字排版

操作方式:

  1. 點擊任一文字區域將其選取(會顯示藍色邊框)
  2. 選取後,工具列會出現「梯形」按鈕(上窄下寬的圖示)
  3. 點擊「梯形」按鈕,區域會從矩形變成四邊形
  4. 角落的藍色圓形把手會變成紫色菱形把手
  5. 拖曳紫色把手來調整各個頂點的位置,使區域貼合斜向文字
  6. 再次點擊「還原矩形」按鈕可將區域恢復為矩形

形狀限制

系統會自動檢查四邊形是否合法(不可自交叉)。如果拖曳頂點造成邊線交叉,系統會自動還原到拖曳前的位置。

PPTX 匯出效果:

  • 梯形區域會根據其傾斜角度自動計算旋轉角度
  • 文字框會正確地傾斜顯示,呈現與原始簡報一致的視覺效果
  • 字體大小會根據梯形的實際高度(而非外接矩形)計算,確保比例正確

實際範例:

下圖展示了一個完整的編輯案例。在這個金字塔圖表中,「(Thumbnails)」等斜向文字無法被 OCR 正確偵測,因此我們:

  1. 手動繪製矩形區域框選該文字
  2. 使用梯形模式調整區域形狀以貼合斜向文字
  3. 使用分隔線防止相鄰區域被錯誤合併

調整後的結果

反覆嘗試是正常的

複雜的簡報可能需要多次調整才能達到理想效果。如下圖所示,處理後的版本下方會顯示多個縮圖,代表不同的 Inpaint 嘗試。你可以點擊不同版本來比較效果。

多次 Inpaint 嘗試

分隔線

版面分析時,鄰近的文字區域會自動合併為一個文字區塊(在 PPTX 輸出時會成為同一個文字框)。分隔線可以阻止這種自動合併——分隔線兩側的區域會成為不同的文字框。

使用時機:

  • 當兩個不相關的文字區塊被錯誤合併為一個時
  • 當標題和內文應該分開成不同的文字框時

操作方式:

  1. 選擇「分隔線」工具
  2. 點擊第一個點
  3. 點擊第二個點完成繪製

分隔線兩側的區域會在 PPTX 檔案中輸出為獨立的文字框。

側邊欄

點擊右側的區域列表,可以快速定位並選取對應的文字區域。這在處理大量文字區塊時特別實用。

批次刪除

使用「框選」工具可以一次選取多個區域:

  1. 選擇「框選」工具
  2. 拖曳框選要刪除的區域
  3. 點擊 ✓ 確認刪除

匯出選項

PPTX 設定

選項說明
行高比例調整文字行距
最小字級限制最小字體大小
最大字級限制最大字體大小

匯出成果預覽

下圖展示了匯出的 PPTX 檔案在 PowerPoint 中的呈現效果。可以看到:

  • 梯形區域的文字框已正確旋轉,與原始斜向文字對齊
  • 所有文字框都是可編輯的,可以直接修改內容
  • 背景圖片已移除原始文字,呈現乾淨的背景

PowerPoint 最終成果

Inpaint 前後對比:

下圖展示了梯形區域的 Inpaint 處理效果。左邊是處理前(原始圖片),右邊是處理後(文字已移除):

處理前處理後
Inpaint 前Inpaint 後

支援格式

  • 輸入:PDF、PNG、JPG、WebP
  • 輸出:PPTX(相容 PowerPoint、Google Slides、Keynote)

注意事項

  • 複雜版面(多欄、重疊文字)可能需要手動調整
  • 手寫文字的辨識準確度較低
  • 特殊字體可能會被替換為系統字體

下一步

Built with VitePress