看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 926/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: "Heaven" <heaven@novell.zcom.com.tw>, 信區: BudaTech 標 題: Re: 如何快速去除經文圖檔的圈點 發信站: 國立中山大學網路組 Mailing List (Wed Aug 13 10:51:52 1997) 轉信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu 來 源: sccid.nsysu.edu.tw > 先不考慮土法煉鋼的招式,先研究看看是否有適當軟體可以處理得來;若不行 > ,再讓 Heaven 來傷腦筋寫個程式吧。 後學寫好了一支程式, 第一次測試時, 一頁資料花了十分鐘才處理完 :p (夠誇張吧!) , 經過一些處理, 終於在 cpu pentium -100 + 32M ram 的機器以 30 秒處理一頁, 應該可以忍受了. 待做最後一些處理, 明天 應可完成. 因這個程式適用性不廣, 故不打算一一寄給各位, 除了原需 求者 maha 及 徐言輝後學會強迫 mail 一份給他們外, 有需要的朋友請 讓後學知道, 後學再私下 mail 給各位. 各位覺得有用就任意散佈無妨, 只是不想浪費各位資源才不直接送上. 這個程式適用性不高, 只會處理 : 1. 黑白的 bmp 圖檔格式, 因小弟對圖形沒什麼研究, 故只會這種. 我是用 win95B 所附的 Imaging 這個程式來將 tif 轉成 bmp 的. 2. 基本上, 我很難對雜點做定義, 故只處理 "約長寬各 16 個點的實心黑圈 (即半徑為 8) , 並該黑點上下皆為空白" 這是我的判斷方法. 而佛教大藏經的經文的圈點大概也是這樣樣子吧! > 這個議題,不惟針對佛教大藏經來說,很多古書以及『尊崇古法』排版的書籍 > ,在文字辨識處理上都有類似的困難。這個障礙若能有效排除,想那 OCR軟體 > 一秒鐘十幾二十來字的辨識速度,一套電子版大藏經很快就能產生了;即使是 > 沒有圈點或進一步校對,但總算有個最基礎的材料來讓我們好好琢磨。 再來的動作, 或許是找個能直接做 tif -> bmp 及 bmp -> tif 的轉換工具. 因為用 imaging 等要不斷 opne , save as ... , 一樣很花時間, 不能 大量批次處理. 若這點做出來, 而丹青也可以一次處理數頁文件, 這樣來做 電子化就快很多了. 這方面的下個動作可能是將圈點移入文字中, 及大正藏圖檔處理, 但好像比 較難, 後學先觀望看看. 希望有這方面專長的朋友能支援. Heaven |
閱讀文章: 第 926/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |