看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 926/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: "Heaven" <heaven@novell.zcom.com.tw>, 信區: BudaTech
標  題: Re: 如何快速去除經文圖檔的圈點
發信站: 國立中山大學網路組 Mailing List (Wed Aug 13 10:51:52 1997)
轉信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu
來  源: sccid.nsysu.edu.tw

> 先不考慮土法煉鋼的招式,先研究看看是否有適當軟體可以處理得來;若不行
> ,再讓 Heaven 來傷腦筋寫個程式吧。

  後學寫好了一支程式, 第一次測試時, 一頁資料花了十分鐘才處理完 :p
  (夠誇張吧!) , 經過一些處理, 終於在 cpu pentium -100 + 32M ram
  的機器以 30 秒處理一頁, 應該可以忍受了. 待做最後一些處理, 明天
  應可完成. 因這個程式適用性不廣, 故不打算一一寄給各位, 除了原需
  求者 maha 及 徐言輝後學會強迫 mail 一份給他們外, 有需要的朋友請
  讓後學知道, 後學再私下 mail 給各位. 各位覺得有用就任意散佈無妨, 
  只是不想浪費各位資源才不直接送上.

  這個程式適用性不高, 只會處理 :

  1. 黑白的 bmp 圖檔格式, 因小弟對圖形沒什麼研究, 故只會這種.
     我是用 win95B 所附的 Imaging 這個程式來將 tif 轉成 bmp 的.
  2. 基本上, 我很難對雜點做定義, 故只處理 
     "約長寬各 16 個點的實心黑圈 (即半徑為 8) , 並該黑點上下皆為空白" 
     這是我的判斷方法. 而佛教大藏經的經文的圈點大概也是這樣樣子吧!

> 這個議題,不惟針對佛教大藏經來說,很多古書以及『尊崇古法』排版的書籍
> ,在文字辨識處理上都有類似的困難。這個障礙若能有效排除,想那 OCR軟體
> 一秒鐘十幾二十來字的辨識速度,一套電子版大藏經很快就能產生了;即使是
> 沒有圈點或進一步校對,但總算有個最基礎的材料來讓我們好好琢磨。

  再來的動作, 或許是找個能直接做 tif -> bmp 及 bmp -> tif 的轉換工具.
  因為用 imaging 等要不斷 opne , save as ... , 一樣很花時間, 不能
  大量批次處理. 若這點做出來, 而丹青也可以一次處理數頁文件, 這樣來做
  電子化就快很多了.

  這方面的下個動作可能是將圈點移入文字中, 及大正藏圖檔處理, 但好像比
  較難, 後學先觀望看看. 希望有這方面專長的朋友能支援.

  Heaven











閱讀文章: 第 926/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org