看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 953/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: "Heaven" <heaven@novell.zcom.com.tw>, 信區: BudaTech
標  題: Re: 六部藏經的辨識效果初探
發信站: 國立中山大學網路組 Mailing List (Mon Aug 25 13:11:39 1997)
轉信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu
來  源: sccid.nsysu.edu.tw

> 跑了一趟中央圖書館,針對磧砂、嘉興、乾隆、中華、高麗、大正
> 等六套藏經各影印了樣本一份,帶回家實際試試辨識效果如何。

  昨天本來要去法源寺的圖書館 (見何處有大藏經該串討論)查經名, 
  順便看看何種藏經適合 OCR 或是適合用程式來處理, 結果撲空, 
  星期日沒開... 只有下週再去了. 感謝 maha 兄先做了這件事了 :)

> 以丹青中文OCR(印刷體文字辨識系統)專業版 V2.0來試,使用
> 4342繁體字集,不使用學習字庫,不對圖檔做任何修改,初步的
> 了解是這樣:
> 
>   ◆OCR 自動分割的效果,從最好到最壞依次為:
> 
>     大正>高麗>磧砂>中華>乾隆>嘉興
> 
>   ◆辨識的效果,從最好到最壞依次為:
> 
>     大正>嘉興>中華、高麗、磧砂、乾隆

  可是我試了一下, 嘉興的辨識很差耶... 幾乎都看不出是佛經了. 
  奇怪???

> 從比較中可以了解,還是大正藏的整體辨識效果較好,如果能夠進
> 一步將圖檔當中各式各樣的小符號清除乾淨,相信它的辨識率會直
> 逼去過圈點後的佛教大藏經。

  若以不需要自動產生標點為考量, 大正藏和佛教大藏經要花的工夫
  是差不多的. 佛教藏只要去除圈點即可做到. 而大正藏雖然小符號
  不少, 但辨識出來大多用 1 或是 . 來表示, 這個直接用程式去除
  也是小事, 這二者看來要花的工夫差不多.

  後學比較在意的是自動產生符號, 這時佛教大藏經要做的就是圖檔
  的文字重排, 將句點插入文字之中, 而大正藏只是要將小符號去掉
  , 何者較易, 就得看程式寫的好不好了....wait...後學又突發奇想
  大正藏的句點很小, 依然能辨識出來, 或許佛教大藏經不用重排, 
  只要安插個小句點即可. 不過間隙很小, 後學去試試看了...

  Heaven
閱讀文章: 第 953/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org