看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 952/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: maha <maha@tpts1.seed.net.tw>, 信區: BudaTech
標  題: 六部藏經的辨識效果初探
發信站: 國立中山大學網路組 Mailing List (Mon Aug 25 08:27:28 1997)
轉信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu
來  源: sccid.nsysu.edu.tw

跑了一趟中央圖書館,針對磧砂、嘉興、乾隆、中華、高麗、大正
等六套藏經各影印了樣本一份,帶回家實際試試辨識效果如何。有
點可惜的是,原來經本的印刷就已不甚清晰,再經過央圖的影印機
出來,狀況不是很理想。

以丹青中文OCR(印刷體文字辨識系統)專業版 V2.0來試,使用
4342繁體字集,不使用學習字庫,不對圖檔做任何修改,初步的
了解是這樣:

  ◆OCR 自動分割的效果,從最好到最壞依次為:

    大正>高麗>磧砂>中華>乾隆>嘉興

  ◆辨識的效果,從最好到最壞依次為:

    大正>嘉興>中華、高麗、磧砂、乾隆

這六套藏經,大正、嘉興採明體字,辨識效果較好;其餘四套採楷
體字,辨識效果較差。我想可能是因為楷體字形變化較大,若無建
立良好的學習字庫,效果勢必不佳。很意外的發現,對於嘉興藏的
行間垂直分隔線,丹青 OCR居然能夠聰明的分割成功。

從比較中可以了解,還是大正藏的整體辨識效果較好,如果能夠進
一步將圖檔當中各式各樣的小符號清除乾淨,相信它的辨識率會直
逼去過圈點後的佛教大藏經。

這幾個圖檔共有936Kb,除了mail一份給 Heaven外,願意接受轟炸
的朋友請私下來函索取。

                                              maha 8/25/97


閱讀文章: 第 952/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org