您有新信

 
六部藏經的辨識效果初探
#1
發信站: 國立中山大學網路組 Mailing List (tpts1.seed.net.tw>, 信區: BudaTech)
跑了一趟中央圖書館,針對磧砂、嘉興、乾隆、中華、高麗、大正
等六套藏經各影印了樣本一份,帶回家實際試試辨識效果如何。有
點可惜的是,原來經本的印刷就已不甚清晰,再經過央圖的影印機
出來,狀況不是很理想。

以丹青中文OCR(印刷體文字辨識系統)專業版 V2.0來試,使用
4342繁體字集,不使用學習字庫,不對圖檔做任何修改,初步的
了解是這樣:

  ◆OCR 自動分割的效果,從最好到最壞依次為:

    大正>高麗>磧砂>中華>乾隆>嘉興

  ◆辨識的效果,從最好到最壞依次為:

    大正>嘉興>中華、高麗、磧砂、乾隆

這六套藏經,大正、嘉興採明體字,辨識效果較好;其餘四套採楷
體字,辨識效果較差。我想可能是因為楷體字形變化較大,若無建
立良好的學習字庫,效果勢必不佳。很意外的發現,對於嘉興藏的
行間垂直分隔線,丹青 OCR居然能夠聰明的分割成功。

從比較中可以了解,還是大正藏的整體辨識效果較好,如果能夠進
一步將圖檔當中各式各樣的小符號清除乾淨,相信它的辨識率會直
逼去過圈點後的佛教大藏經。

這幾個圖檔共有936Kb,除了mail一份給 Heaven外,願意接受轟炸
的朋友請私下來函索取。

                                              maha 8/25/97
Mon Aug 25 08:27:28 1997
回覆 | 轉寄 | 返回

Re: 六部藏經的辨識效果初探
#2
發信站: 國立中山大學網路組 Mailing List (novell.zcom.com.tw>, 信區: BudaTech)
> 跑了一趟中央圖書館,針對磧砂、嘉興、乾隆、中華、高麗、大正
> 等六套藏經各影印了樣本一份,帶回家實際試試辨識效果如何。

  昨天本來要去法源寺的圖書館 (見何處有大藏經該串討論)查經名, 
  順便看看何種藏經適合 OCR 或是適合用程式來處理, 結果撲空, 
  星期日沒開... 只有下週再去了. 感謝 maha 兄先做了這件事了 :)

> 以丹青中文OCR(印刷體文字辨識系統)專業版 V2.0來試,使用
> 4342繁體字集,不使用學習字庫,不對圖檔做任何修改,初步的
> 了解是這樣:
> 
>   ◆OCR 自動分割的效果,從最好到最壞依次為:
> 
>     大正>高麗>磧砂>中華>乾隆>嘉興
> 
>   ◆辨識的效果,從最好到最壞依次為:
> 
>     大正>嘉興>中華、高麗、磧砂、乾隆

  可是我試了一下, 嘉興的辨識很差耶... 幾乎都看不出是佛經了. 
  奇怪???

> 從比較中可以了解,還是大正藏的整體辨識效果較好,如果能夠進
> 一步將圖檔當中各式各樣的小符號清除乾淨,相信它的辨識率會直
> 逼去過圈點後的佛教大藏經。

  若以不需要自動產生標點為考量, 大正藏和佛教大藏經要花的工夫
  是差不多的. 佛教藏只要去除圈點即可做到. 而大正藏雖然小符號
  不少, 但辨識出來大多用 1 或是 . 來表示, 這個直接用程式去除
  也是小事, 這二者看來要花的工夫差不多.

  後學比較在意的是自動產生符號, 這時佛教大藏經要做的就是圖檔
  的文字重排, 將句點插入文字之中, 而大正藏只是要將小符號去掉
  , 何者較易, 就得看程式寫的好不好了....wait...後學又突發奇想
  大正藏的句點很小, 依然能辨識出來, 或許佛教大藏經不用重排, 
  只要安插個小句點即可. 不過間隙很小, 後學去試試看了...

  Heaven
Mon Aug 25 13:11:39 1997
回覆 | 轉寄 | 返回

Re: 六部藏經的辨識效果初探
#3
發信站: 國立中山大學網路組 Mailing List (tpts1.seed.net.tw>, 信區: BudaTech)
Heaven wrote:
> 
>   可是我試了一下, 嘉興的辨識很差耶... 幾乎都看不出是佛經了.
>   奇怪???

Heaven的感覺是對的,以這次的圖檔來看,嘉興的辨識效果是六本中最差
的。之前的辨識效果評比,從最好到最差應修正為:

  大正>中華、高麗、磧砂、乾隆>嘉興

但是,這主要是因為嘉興藏原書文字最小、最模糊。如果您仔細看看,它
辨識不好的地方大都是影像不清楚所造成的。所以要是能夠拿到一個清晰
的原書(如果存在的話),並克服版面分割問題,它的整體效果說不定不
比大正藏差,因為它沒有那些小圈點、小符號的問題。因著這層因素,我
對嘉興藏還滿有好感的。

>   ....wait...後學又突發奇想
>   大正藏的句點很小, 依然能辨識出來, 或許佛教大藏經不用重排,
>   只要安插個小句點即可. 不過間隙很小, 後學去試試看了...

大正藏在圈點地方大多有空出少許明顯字距,佛教大藏經卻幾乎沒有,這
真是個困難所在。

                                                    maha 8/28/97
Mon Aug 25 20:33:55 1997
回覆 | 轉寄 | 返回

Re: 六部藏經的辨識效果初探
#4
發信站: 國立中山大學網路組 Mailing List (novell.zcom.com.tw>, 信區: BudaTech)
> >   大正藏的句點很小, 依然能辨識出來, 或許佛教大藏經不用重排,
> >   只要安插個小句點即可. 不過間隙很小, 後學去試試看了...
> 大正藏在圈點地方大多有空出少許明顯字距,佛教大藏經卻幾乎沒有,這
> 真是個困難所在。

  這二個都好難弄喔! 想了許久都沒有好方法.... :(
  很配服寫 ocr 的人.
  沒事就瞪著大藏經影印本在看, 看著看著, 奇怪, 大正藏一些小字
  一, 二 v 是什麼意思啊!  一直在想這些, 無法專心思考...

  順便問一下, 以往在 ocr 校對好的粗稿加上標點, 會不會很麻煩, 
  這個我沒有實務經驗. 有時我校對一頁佛教大藏經(從 ocr 至校對完)
  要十多分鐘, 不知加上標點要多久?

  Heaven
Tue Aug 26 08:57:45 1997
回覆 | 轉寄 | 返回

Re: 六部藏經的辨識效果初探
#5
wmc
發信站: 國立中山大學網路組 Mailing List (mozart.seed.net.tw , 信區: BudaTech)
Heaven wrote:
> 
>   順便問一下, 以往在 ocr 校對好的粗稿加上標點, 會不會很麻煩,
>   這個我沒有實務經驗. 有時我校對一頁佛教大藏經(從 ocr 至校對完)
>   要十多分鐘, 不知加上標點要多久?
末學校一頁大正藏要花半個多鐘頭, 先用 notepad 將一堆奇怪的符號
delete, 再依經本校對加上句讀, 缺字查詢, 組字輸入; 
有時碰到難解的缺字還會多花個半個鐘頭.
Tue Aug 26 09:57:39 1997
回覆 | 轉寄 | 返回

Re: 六部藏經的辨識效果初探
#6
發信站: 國立中山大學網路組 Mailing List (budaedu.org.tw>, 信區: BudaTech)
>   沒事就瞪著大藏經影印本在看, 看著看著, 奇怪, 大正藏一些小字
>   一, 二 v 是什麼意思啊!  一直在想這些, 無法專心思考...
>

   那些符號是日文的類似音標,或重音音節的符號;好比我們的注音符號第一聲、
第二聲等等。
Tue Aug 26 12:40:27 1997
回覆 | 轉寄 | 返回

Re: 六部藏經的辨識效果初探
#7
發信站: 國立中山大學網路組 Mailing List (tpts1.seed.net.tw>, 信區: BudaTech)
Heaven wrote:
> 
>   順便問一下, 以往在 ocr 校對好的粗稿加上標點, 會不會很麻煩,
>   這個我沒有實務經驗. 有時我校對一頁佛教大藏經(從 ocr 至校對完)
>   要十多分鐘, 不知加上標點要多久?

拿《梵網經》第14頁為例,執行去圈點程式處理後,這時候以 OCR進行作業
,計時開始── 08:11。經過自動版面分割、辨識,然後加以人工線上校對
,完成時的時間是── 08:23。前後用了『12分鐘』。接著我就急忙跑去補
習班教課,回到家時,時間是22:50。

隔天,也就是現在,將昨天校對好的那一頁粗稿加上圈點。我沒有原書,但
早已把未去圈點前的圖檔印好了,所以就一邊看著紙面,一邊盯著螢幕上的
文字檔,從 05:40 到 05:47 ,總共用了『 7分鐘』。

這一頁佛教大藏經的經文,含圈點共有799字。
799字/(12分鐘+7分鐘)=42字/分鐘──這是目前『辨識+校對+圈點』的作業速度。
7分鐘/(12分鐘+7分鐘)=37%──這是加圈點所耗用的時間比例。

以上粗略統計,供 Heaven 及各位朋友參考。近日事忙,若有問題沒有積極
回應,還請原諒。

                                                      maha 8/28/97
Thu Aug 28 08:18:59 1997
回覆 | 轉寄 | 返回

Re: 六部藏經的辨識效果初探
#8
發信站: 國立中山大學網路組 Mailing List (novell.zcom.com.tw>, 信區: BudaTech)
> 799字/(12分鐘+7分鐘)=42字/分鐘──這是目前『辨識+校對+圈點』的作業速度。
> 7分鐘/(12分鐘+7分鐘)=37%──這是加圈點所耗用的時間比例。

  7分鐘...37%.... 意思就是若能利用程式, 可省下不少時間, 看來偷懶不得了. :p
  末學考慮許多, 佛教藏先做到去圈點的部份就好. 加標點的功夫打算用在大正藏上.
  大正藏的 "雜點" 雖然較多較雜, 但若真去除, 句點就自然呈現了.

  另一問,
上回藏經列表中至少就有(白馬精舍版)(佛陀教育基金會版)(新文豐)三種版本, 
  不知它們的排版樣式都一樣? 都是有那些類似注音的符號? 

  ps. 我會寫信去問那位手上有(白馬精舍版)的朋友. 其它知道的朋友也請幫個忙,
總希望能
    找到一個很好的版本, 最好沒有雜點只有句點 :p

  Heaven
Thu Aug 28 10:00:44 1997
回覆 | 轉寄 | 返回

Re: 六部藏經的辨識效果初探
#9
wmc
發信站: 國立中山大學網路組 Mailing List (mozart.seed.net.tw , 信區: BudaTech)
Heaven wrote:
> 
>   另一問,
> 上回藏經列表中至少就有(白馬精舍版)(佛陀教育基金會版)(新文豐)三種版本,
(佛陀教育基金會版)與(新文豐)版
都是有那些類似注音的符號.
Thu Aug 28 14:38:20 1997
回覆 | 轉寄 | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org