看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 997/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: buda-tech0@buddha.nsysu.edu.tw, 信區: BudaTech
標  題: Re: 去雜點程式--大正藏版
發信站: (NEWS/INFO) National Sun Yat-San University (Tue Sep  9 16:41:49 1997)
轉信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail
來  源: buddha.nsysu.edu.tw

> > maha 當時所 mail 給我的是多少 dpi 的圖檔?
> 
> 300dpi。
>  
> > 也由於大正藏中的雜點很多, 我的程式只能處
> > 理大部份的讀音符號, 就是字下面的一, 二, v
> > 等符號,
> 以這新程式試了之前所提供的大正藏圖檔,「一」、「二」
> 、「ˇ」去得滿乾淨;「上」、「中」、「下」以及
> [二*│] 似乎也有考慮到,但仍有少部份沒有去除掉。
> 我會把上面所說的幾個奇怪的日本讀音符號送過去給heaven
> 化驗。建議朋友們能夠的話,多送一些奇怪的給他,最好是
> 以300dpi局部掃瞄成小圖檔送過去。

  等等.. 不要用圖檔炸我 :p
  其實在程式中我並不是判斷是一還是二, 而是用個條件, 如
  下圖
  
 □
  □■□
  □

 □ 代表約 16 x 10 的空白區域
  ■ 代表約 16 x 10 的有黑點的區域, 黑點可能是一二v....

  若圖檔中有合於上面的條件, 就將■變成全白的, 如此而已 
  (卻想了許久 :p) 有少部份失敗的, 大多是■太大或是和
    上下的字相連, 程式才不好判斷, 這些數量不多, 我就不理它了.

  我比較擔心的是 maha  是 300 dpi 的圖, 若有 400 dpi 或其它的, 
  上面的■可能就不是大約 16 x 10 , 那才是要改的部份.
  故反倒是有非 300 dpi 的圖檔, 讓我試試看.

  另外, 或許可以試試那種 dpi 辨識比較好?

> 另外,也要再詳細評估一下:到底去或不去掉這些,對整體
> 作業的影響大不大?因為正如heaven先前說的,若不去掉這
> 些符號,丹青 OCR好像也只是把它們通通辨識成 「1」而已
> 。

  雖然變成 1 , 若用程式可以很快去除, 但也會去除句點.
  而這支程式的最大賣點就是可以去雜點但留下句點 :p

> > 一些字上面的*及有圓圈的數字並沒
> > 有處理, 由於那些比較麻煩, 因為不小心會去除
> > 句點, 而且那些數量不多, 所以我就先不管了.
> 我想「*」及有圓圈的數字,這些不去掉也好,因為這些都
> 是非常重要的資訊,若一下子去掉了,以後很可能還是得花
> 時間在文字檔再補上的。
  
  我的想法和您一樣, 先留下符號, 日後或有機會補上校勘資料.

  Heaven
 

閱讀文章: 第 997/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org