看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 997/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: buda-tech0@buddha.nsysu.edu.tw, 信區: BudaTech 標 題: Re: 去雜點程式--大正藏版 發信站: (NEWS/INFO) National Sun Yat-San University (Tue Sep 9 16:41:49 1997) 轉信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail 來 源: buddha.nsysu.edu.tw > > maha 當時所 mail 給我的是多少 dpi 的圖檔? > > 300dpi。 > > > 也由於大正藏中的雜點很多, 我的程式只能處 > > 理大部份的讀音符號, 就是字下面的一, 二, v > > 等符號, > 以這新程式試了之前所提供的大正藏圖檔,「一」、「二」 > 、「ˇ」去得滿乾淨;「上」、「中」、「下」以及 > [二*│] 似乎也有考慮到,但仍有少部份沒有去除掉。 > 我會把上面所說的幾個奇怪的日本讀音符號送過去給heaven > 化驗。建議朋友們能夠的話,多送一些奇怪的給他,最好是 > 以300dpi局部掃瞄成小圖檔送過去。 等等.. 不要用圖檔炸我 :p 其實在程式中我並不是判斷是一還是二, 而是用個條件, 如 下圖 □ □■□ □ □ 代表約 16 x 10 的空白區域 ■ 代表約 16 x 10 的有黑點的區域, 黑點可能是一二v.... 若圖檔中有合於上面的條件, 就將■變成全白的, 如此而已 (卻想了許久 :p) 有少部份失敗的, 大多是■太大或是和 上下的字相連, 程式才不好判斷, 這些數量不多, 我就不理它了. 我比較擔心的是 maha 是 300 dpi 的圖, 若有 400 dpi 或其它的, 上面的■可能就不是大約 16 x 10 , 那才是要改的部份. 故反倒是有非 300 dpi 的圖檔, 讓我試試看. 另外, 或許可以試試那種 dpi 辨識比較好? > 另外,也要再詳細評估一下:到底去或不去掉這些,對整體 > 作業的影響大不大?因為正如heaven先前說的,若不去掉這 > 些符號,丹青 OCR好像也只是把它們通通辨識成 「1」而已 > 。 雖然變成 1 , 若用程式可以很快去除, 但也會去除句點. 而這支程式的最大賣點就是可以去雜點但留下句點 :p > > 一些字上面的*及有圓圈的數字並沒 > > 有處理, 由於那些比較麻煩, 因為不小心會去除 > > 句點, 而且那些數量不多, 所以我就先不管了. > 我想「*」及有圓圈的數字,這些不去掉也好,因為這些都 > 是非常重要的資訊,若一下子去掉了,以後很可能還是得花 > 時間在文字檔再補上的。 我的想法和您一樣, 先留下符號, 日後或有機會補上校勘資料. Heaven |
閱讀文章: 第 997/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |