看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 996/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: buda-tech1@buddha.nsysu.edu.tw, 信區: BudaTech 標 題: Re: 去雜點程式--大正藏版 發信站: (NEWS/INFO) National Sun Yat-San University (Tue Sep 9 13:01:28 1997) 轉信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail 來 源: buddha.nsysu.edu.tw Heaven wrote: > > 不過由於程式對雜點的大小有指定, 故若不同 > 的書或是不同的 dpi 所掃描的, 可能會有不 > 同的結果, 故請問 maha 當時所 mail 給我的 > 是多少 dpi 的圖檔? 300dpi。 > 也由於大正藏中的雜點很多, 我的程式只能處 > 理大部份的讀音符號, 就是字下面的一, 二, v > 等符號, 除了「一」、「二」、「ˇ」外,就我手上的大正藏第九冊 p26、p27(好不容易找到這兩頁稍微複雜的),還有「三」 、「四」、「甲」、「乙」、「上」、「中」、「下」,以 及[二*│]和[三*│](組合字表示)。 以這新程式試了之前所提供的大正藏圖檔,「一」、「二」 、「ˇ」去得滿乾淨;「上」、「中」、「下」以及 [二*│] 似乎也有考慮到,但仍有少部份沒有去除掉。 我會把上面所說的幾個奇怪的日本讀音符號送過去給heaven 化驗。建議朋友們能夠的話,多送一些奇怪的給他,最好是 以300dpi局部掃瞄成小圖檔送過去。 另外,也要再詳細評估一下:到底去或不去掉這些,對整體 作業的影響大不大?因為正如heaven先前說的,若不去掉這 些符號,丹青 OCR好像也只是把它們通通辨識成 「1」而已 。 > 一些字上面的*及有圓圈的數字並沒 > 有處理, 由於那些比較麻煩, 因為不小心會去除 > 句點, 而且那些數量不多, 所以我就先不管了. 我想「*」及有圓圈的數字,這些不去掉也好,因為這些都 是非常重要的資訊,若一下子去掉了,以後很可能還是得花 時間在文字檔再補上的。 maha 9/9/97 |
閱讀文章: 第 996/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |