看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 953/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: "Heaven" <heaven@novell.zcom.com.tw>, 信區: BudaTech 標 題: Re: 六部藏經的辨識效果初探 發信站: 國立中山大學網路組 Mailing List (Mon Aug 25 13:11:39 1997) 轉信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu 來 源: sccid.nsysu.edu.tw > 跑了一趟中央圖書館,針對磧砂、嘉興、乾隆、中華、高麗、大正 > 等六套藏經各影印了樣本一份,帶回家實際試試辨識效果如何。 昨天本來要去法源寺的圖書館 (見何處有大藏經該串討論)查經名, 順便看看何種藏經適合 OCR 或是適合用程式來處理, 結果撲空, 星期日沒開... 只有下週再去了. 感謝 maha 兄先做了這件事了 :) > 以丹青中文OCR(印刷體文字辨識系統)專業版 V2.0來試,使用 > 4342繁體字集,不使用學習字庫,不對圖檔做任何修改,初步的 > 了解是這樣: > > ◆OCR 自動分割的效果,從最好到最壞依次為: > > 大正>高麗>磧砂>中華>乾隆>嘉興 > > ◆辨識的效果,從最好到最壞依次為: > > 大正>嘉興>中華、高麗、磧砂、乾隆 可是我試了一下, 嘉興的辨識很差耶... 幾乎都看不出是佛經了. 奇怪??? > 從比較中可以了解,還是大正藏的整體辨識效果較好,如果能夠進 > 一步將圖檔當中各式各樣的小符號清除乾淨,相信它的辨識率會直 > 逼去過圈點後的佛教大藏經。 若以不需要自動產生標點為考量, 大正藏和佛教大藏經要花的工夫 是差不多的. 佛教藏只要去除圈點即可做到. 而大正藏雖然小符號 不少, 但辨識出來大多用 1 或是 . 來表示, 這個直接用程式去除 也是小事, 這二者看來要花的工夫差不多. 後學比較在意的是自動產生符號, 這時佛教大藏經要做的就是圖檔 的文字重排, 將句點插入文字之中, 而大正藏只是要將小符號去掉 , 何者較易, 就得看程式寫的好不好了....wait...後學又突發奇想 大正藏的句點很小, 依然能辨識出來, 或許佛教大藏經不用重排, 只要安插個小句點即可. 不過間隙很小, 後學去試試看了... Heaven |
閱讀文章: 第 953/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |