Re: 去雜點程式--大正藏版

看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow

閱讀文章：第 996/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

發信人: buda-tech1@buddha.nsysu.edu.tw, 信區: BudaTech
標  題: Re: 去雜點程式--大正藏版
發信站: (NEWS/INFO) National Sun Yat-San University (Tue Sep  9 13:01:28 1997)
轉信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail
來  源: buddha.nsysu.edu.tw

Heaven wrote:
> 
> 不過由於程式對雜點的大小有指定, 故若不同
> 的書或是不同的 dpi 所掃描的, 可能會有不
> 同的結果, 故請問 maha 當時所 mail 給我的
> 是多少 dpi 的圖檔?

300dpi。
 
> 也由於大正藏中的雜點很多, 我的程式只能處
> 理大部份的讀音符號, 就是字下面的一, 二, v
> 等符號,

除了「一」、「二」、「ˇ」外，就我手上的大正藏第九冊
p26、p27（好不容易找到這兩頁稍微複雜的），還有「三」
、「四」、「甲」、「乙」、「上」、「中」、「下」，以
及[二*│]和[三*│]（組合字表示）。

以這新程式試了之前所提供的大正藏圖檔，「一」、「二」
、「ˇ」去得滿乾淨；「上」、「中」、「下」以及
[二*│] 似乎也有考慮到，但仍有少部份沒有去除掉。

我會把上面所說的幾個奇怪的日本讀音符號送過去給heaven
化驗。建議朋友們能夠的話，多送一些奇怪的給他，最好是
以300dpi局部掃瞄成小圖檔送過去。

另外，也要再詳細評估一下：到底去或不去掉這些，對整體
作業的影響大不大？因為正如heaven先前說的，若不去掉這
些符號，丹青 OCR好像也只是把它們通通辨識成 「1」而已
。

> 一些字上面的＊及有圓圈的數字並沒
> 有處理, 由於那些比較麻煩, 因為不小心會去除
> 句點, 而且那些數量不多, 所以我就先不管了.

我想「＊」及有圓圈的數字，這些不去掉也好，因為這些都
是非常重要的資訊，若一下子去掉了，以後很可能還是得花
時間在文字檔再補上的。

                                         maha 9/9/97

閱讀文章：第 996/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍台大獅子吼佛學專站 http://buddhaspace.org