看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 882/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: "Heaven" <heaven@novell.zcom.com.tw>, 信區: BudaTech
標  題: Re: 如何快速去除經文圖檔的圈點
發信站: 國立中山大學網路組 Mailing List (Sun Aug  3 04:11:00 1997)
轉信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu
來  源: sccid.nsysu.edu.tw

> 當以丹青 OCR(中文印刷體文字辨識系統)處理佛教大藏經,將書面經
> 文掃瞄成 TIF圖檔後,若不先將圖檔裡經文右側的圈點(舊式標點)去
> 除,則會嚴重影響辨識效果。一般是可以用丹青 OCR裡面的橡皮擦工具
> 去點,但一個一個去點實在太慢,手指頭都快抽筋了。

  後學有想寫個程式來處理, 但如何判斷尚未有頭緒, 若有網友有方法, 能否
  指點一下.

  目前想到一個可能暫時可以克服抽筋的方法. 用可編輯的繪圖程式
  來處理:

  1. 小圓點大多是在同一直排, 兄可先畫一條長直線, 並複製起來.
  2. 然後分別貼上長直線, 再將其移動至小圓點上, 有如將它們串起來.
  3. 繼續貼上長直線, 將所有的圓點串起來 (大概每一行都有吧!)
  4. 亦可畫一橫線, 跨過那些長串, 甚至連結外面的黑框.
  5. 原則就是將想去除的部份串在一起, 不要串到字.
  6. 用倒油漆的工具將白色倒在那些部份, 就全部去除了.

  這是想像, 我沒有實務經驗, 不過聽起來應該會快一點.
  您可以試試. 等我有圖檔後, 再來一起玩.

  Heaven

閱讀文章: 第 882/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org