看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 996/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: buda-tech1@buddha.nsysu.edu.tw, 信區: BudaTech
標  題: Re: 去雜點程式--大正藏版
發信站: (NEWS/INFO) National Sun Yat-San University (Tue Sep  9 13:01:28 1997)
轉信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail
來  源: buddha.nsysu.edu.tw

Heaven wrote:
> 
> 不過由於程式對雜點的大小有指定, 故若不同
> 的書或是不同的 dpi 所掃描的, 可能會有不
> 同的結果, 故請問 maha 當時所 mail 給我的
> 是多少 dpi 的圖檔?

300dpi。
 
> 也由於大正藏中的雜點很多, 我的程式只能處
> 理大部份的讀音符號, 就是字下面的一, 二, v
> 等符號,

除了「一」、「二」、「ˇ」外,就我手上的大正藏第九冊
p26、p27(好不容易找到這兩頁稍微複雜的),還有「三」
、「四」、「甲」、「乙」、「上」、「中」、「下」,以
及[二*│]和[三*│](組合字表示)。

以這新程式試了之前所提供的大正藏圖檔,「一」、「二」
、「ˇ」去得滿乾淨;「上」、「中」、「下」以及
[二*│] 似乎也有考慮到,但仍有少部份沒有去除掉。

我會把上面所說的幾個奇怪的日本讀音符號送過去給heaven
化驗。建議朋友們能夠的話,多送一些奇怪的給他,最好是
以300dpi局部掃瞄成小圖檔送過去。

另外,也要再詳細評估一下:到底去或不去掉這些,對整體
作業的影響大不大?因為正如heaven先前說的,若不去掉這
些符號,丹青 OCR好像也只是把它們通通辨識成 「1」而已
。

> 一些字上面的*及有圓圈的數字並沒
> 有處理, 由於那些比較麻煩, 因為不小心會去除
> 句點, 而且那些數量不多, 所以我就先不管了.

我想「*」及有圓圈的數字,這些不去掉也好,因為這些都
是非常重要的資訊,若一下子去掉了,以後很可能還是得花
時間在文字檔再補上的。

                                         maha 9/9/97


閱讀文章: 第 996/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org