看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 952/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: maha <maha@tpts1.seed.net.tw>, 信區: BudaTech 標 題: 六部藏經的辨識效果初探 發信站: 國立中山大學網路組 Mailing List (Mon Aug 25 08:27:28 1997) 轉信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu 來 源: sccid.nsysu.edu.tw 跑了一趟中央圖書館,針對磧砂、嘉興、乾隆、中華、高麗、大正 等六套藏經各影印了樣本一份,帶回家實際試試辨識效果如何。有 點可惜的是,原來經本的印刷就已不甚清晰,再經過央圖的影印機 出來,狀況不是很理想。 以丹青中文OCR(印刷體文字辨識系統)專業版 V2.0來試,使用 4342繁體字集,不使用學習字庫,不對圖檔做任何修改,初步的 了解是這樣: ◆OCR 自動分割的效果,從最好到最壞依次為: 大正>高麗>磧砂>中華>乾隆>嘉興 ◆辨識的效果,從最好到最壞依次為: 大正>嘉興>中華、高麗、磧砂、乾隆 這六套藏經,大正、嘉興採明體字,辨識效果較好;其餘四套採楷 體字,辨識效果較差。我想可能是因為楷體字形變化較大,若無建 立良好的學習字庫,效果勢必不佳。很意外的發現,對於嘉興藏的 行間垂直分隔線,丹青 OCR居然能夠聰明的分割成功。 從比較中可以了解,還是大正藏的整體辨識效果較好,如果能夠進 一步將圖檔當中各式各樣的小符號清除乾淨,相信它的辨識率會直 逼去過圈點後的佛教大藏經。 這幾個圖檔共有936Kb,除了mail一份給 Heaven外,願意接受轟炸 的朋友請私下來函索取。 maha 8/25/97 |
閱讀文章: 第 952/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |