Re: 去雜點程式--大正藏版

看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow

閱讀文章：第 997/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

發信人: buda-tech0@buddha.nsysu.edu.tw, 信區: BudaTech
標  題: Re: 去雜點程式--大正藏版
發信站: (NEWS/INFO) National Sun Yat-San University (Tue Sep  9 16:41:49 1997)
轉信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail
來  源: buddha.nsysu.edu.tw

> > maha 當時所 mail 給我的是多少 dpi 的圖檔?
> 
> 300dpi。
>  
> > 也由於大正藏中的雜點很多, 我的程式只能處
> > 理大部份的讀音符號, 就是字下面的一, 二, v
> > 等符號,
> 以這新程式試了之前所提供的大正藏圖檔，「一」、「二」
> 、「ˇ」去得滿乾淨；「上」、「中」、「下」以及
> [二*│] 似乎也有考慮到，但仍有少部份沒有去除掉。
> 我會把上面所說的幾個奇怪的日本讀音符號送過去給heaven
> 化驗。建議朋友們能夠的話，多送一些奇怪的給他，最好是
> 以300dpi局部掃瞄成小圖檔送過去。

  等等.. 不要用圖檔炸我 :p
  其實在程式中我並不是判斷是一還是二, 而是用個條件, 如
  下圖
  
　□
  □■□
  □

　□ 代表約 16 x 10 的空白區域
  ■ 代表約 16 x 10 的有黑點的區域, 黑點可能是一二v....

  若圖檔中有合於上面的條件, 就將■變成全白的, 如此而已 
  (卻想了許久 :p) 有少部份失敗的, 大多是■太大或是和
    上下的字相連, 程式才不好判斷, 這些數量不多, 我就不理它了.

  我比較擔心的是 maha  是 300 dpi 的圖, 若有 400 dpi 或其它的, 
  上面的■可能就不是大約 16 x 10 , 那才是要改的部份.
  故反倒是有非 300 dpi 的圖檔, 讓我試試看.

  另外, 或許可以試試那種 dpi 辨識比較好?

> 另外，也要再詳細評估一下：到底去或不去掉這些，對整體
> 作業的影響大不大？因為正如heaven先前說的，若不去掉這
> 些符號，丹青 OCR好像也只是把它們通通辨識成 「1」而已
> 。

  雖然變成 1 , 若用程式可以很快去除, 但也會去除句點.
  而這支程式的最大賣點就是可以去雜點但留下句點 :p

> > 一些字上面的＊及有圓圈的數字並沒
> > 有處理, 由於那些比較麻煩, 因為不小心會去除
> > 句點, 而且那些數量不多, 所以我就先不管了.
> 我想「＊」及有圓圈的數字，這些不去掉也好，因為這些都
> 是非常重要的資訊，若一下子去掉了，以後很可能還是得花
> 時間在文字檔再補上的。
  
  我的想法和您一樣, 先留下符號, 日後或有機會補上校勘資料.

  Heaven

閱讀文章：第 997/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍台大獅子吼佛學專站 http://buddhaspace.org