|
|
六部藏經的辨識效果初探
|
#1 |
發信站:
國立中山大學網路組 Mailing List
(tpts1.seed.net.tw>, 信區: BudaTech)
|
跑了一趟中央圖書館,針對磧砂、嘉興、乾隆、中華、高麗、大正
等六套藏經各影印了樣本一份,帶回家實際試試辨識效果如何。有
點可惜的是,原來經本的印刷就已不甚清晰,再經過央圖的影印機
出來,狀況不是很理想。
以丹青中文OCR(印刷體文字辨識系統)專業版 V2.0來試,使用
4342繁體字集,不使用學習字庫,不對圖檔做任何修改,初步的
了解是這樣:
◆OCR 自動分割的效果,從最好到最壞依次為:
大正>高麗>磧砂>中華>乾隆>嘉興
◆辨識的效果,從最好到最壞依次為:
大正>嘉興>中華、高麗、磧砂、乾隆
這六套藏經,大正、嘉興採明體字,辨識效果較好;其餘四套採楷
體字,辨識效果較差。我想可能是因為楷體字形變化較大,若無建
立良好的學習字庫,效果勢必不佳。很意外的發現,對於嘉興藏的
行間垂直分隔線,丹青 OCR居然能夠聰明的分割成功。
從比較中可以了解,還是大正藏的整體辨識效果較好,如果能夠進
一步將圖檔當中各式各樣的小符號清除乾淨,相信它的辨識率會直
逼去過圈點後的佛教大藏經。
這幾個圖檔共有936Kb,除了mail一份給 Heaven外,願意接受轟炸
的朋友請私下來函索取。
maha 8/25/97
Mon Aug 25 08:27:28 1997
|
|
|
Re: 六部藏經的辨識效果初探
|
#2 |
發信站:
國立中山大學網路組 Mailing List
(novell.zcom.com.tw>, 信區: BudaTech)
|
> 跑了一趟中央圖書館,針對磧砂、嘉興、乾隆、中華、高麗、大正
> 等六套藏經各影印了樣本一份,帶回家實際試試辨識效果如何。
昨天本來要去法源寺的圖書館 (見何處有大藏經該串討論)查經名,
順便看看何種藏經適合 OCR 或是適合用程式來處理, 結果撲空,
星期日沒開... 只有下週再去了. 感謝 maha 兄先做了這件事了 :)
> 以丹青中文OCR(印刷體文字辨識系統)專業版 V2.0來試,使用
> 4342繁體字集,不使用學習字庫,不對圖檔做任何修改,初步的
> 了解是這樣:
>
> ◆OCR 自動分割的效果,從最好到最壞依次為:
>
> 大正>高麗>磧砂>中華>乾隆>嘉興
>
> ◆辨識的效果,從最好到最壞依次為:
>
> 大正>嘉興>中華、高麗、磧砂、乾隆
可是我試了一下, 嘉興的辨識很差耶... 幾乎都看不出是佛經了.
奇怪???
> 從比較中可以了解,還是大正藏的整體辨識效果較好,如果能夠進
> 一步將圖檔當中各式各樣的小符號清除乾淨,相信它的辨識率會直
> 逼去過圈點後的佛教大藏經。
若以不需要自動產生標點為考量, 大正藏和佛教大藏經要花的工夫
是差不多的. 佛教藏只要去除圈點即可做到. 而大正藏雖然小符號
不少, 但辨識出來大多用 1 或是 . 來表示, 這個直接用程式去除
也是小事, 這二者看來要花的工夫差不多.
後學比較在意的是自動產生符號, 這時佛教大藏經要做的就是圖檔
的文字重排, 將句點插入文字之中, 而大正藏只是要將小符號去掉
, 何者較易, 就得看程式寫的好不好了....wait...後學又突發奇想
大正藏的句點很小, 依然能辨識出來, 或許佛教大藏經不用重排,
只要安插個小句點即可. 不過間隙很小, 後學去試試看了...
Heaven
Mon Aug 25 13:11:39 1997
|
|
|
Re: 六部藏經的辨識效果初探
|
#3 |
發信站:
國立中山大學網路組 Mailing List
(tpts1.seed.net.tw>, 信區: BudaTech)
|
Heaven wrote:
>
> 可是我試了一下, 嘉興的辨識很差耶... 幾乎都看不出是佛經了.
> 奇怪???
Heaven的感覺是對的,以這次的圖檔來看,嘉興的辨識效果是六本中最差
的。之前的辨識效果評比,從最好到最差應修正為:
大正>中華、高麗、磧砂、乾隆>嘉興
但是,這主要是因為嘉興藏原書文字最小、最模糊。如果您仔細看看,它
辨識不好的地方大都是影像不清楚所造成的。所以要是能夠拿到一個清晰
的原書(如果存在的話),並克服版面分割問題,它的整體效果說不定不
比大正藏差,因為它沒有那些小圈點、小符號的問題。因著這層因素,我
對嘉興藏還滿有好感的。
> ....wait...後學又突發奇想
> 大正藏的句點很小, 依然能辨識出來, 或許佛教大藏經不用重排,
> 只要安插個小句點即可. 不過間隙很小, 後學去試試看了...
大正藏在圈點地方大多有空出少許明顯字距,佛教大藏經卻幾乎沒有,這
真是個困難所在。
maha 8/28/97
Mon Aug 25 20:33:55 1997
|
|
|
Re: 六部藏經的辨識效果初探
|
#4 |
發信站:
國立中山大學網路組 Mailing List
(novell.zcom.com.tw>, 信區: BudaTech)
|
> > 大正藏的句點很小, 依然能辨識出來, 或許佛教大藏經不用重排,
> > 只要安插個小句點即可. 不過間隙很小, 後學去試試看了...
> 大正藏在圈點地方大多有空出少許明顯字距,佛教大藏經卻幾乎沒有,這
> 真是個困難所在。
這二個都好難弄喔! 想了許久都沒有好方法.... :(
很配服寫 ocr 的人.
沒事就瞪著大藏經影印本在看, 看著看著, 奇怪, 大正藏一些小字
一, 二 v 是什麼意思啊! 一直在想這些, 無法專心思考...
順便問一下, 以往在 ocr 校對好的粗稿加上標點, 會不會很麻煩,
這個我沒有實務經驗. 有時我校對一頁佛教大藏經(從 ocr 至校對完)
要十多分鐘, 不知加上標點要多久?
Heaven
Tue Aug 26 08:57:45 1997
|
|
|
Re: 六部藏經的辨識效果初探
|
#5 |
wmc
發信站:
國立中山大學網路組 Mailing List
(mozart.seed.net.tw , 信區: BudaTech)
|
Heaven wrote:
>
> 順便問一下, 以往在 ocr 校對好的粗稿加上標點, 會不會很麻煩,
> 這個我沒有實務經驗. 有時我校對一頁佛教大藏經(從 ocr 至校對完)
> 要十多分鐘, 不知加上標點要多久?
末學校一頁大正藏要花半個多鐘頭, 先用 notepad 將一堆奇怪的符號
delete, 再依經本校對加上句讀, 缺字查詢, 組字輸入;
有時碰到難解的缺字還會多花個半個鐘頭.
Tue Aug 26 09:57:39 1997
|
|
|
Re: 六部藏經的辨識效果初探
|
#6 |
發信站:
國立中山大學網路組 Mailing List
(budaedu.org.tw>, 信區: BudaTech)
|
> 沒事就瞪著大藏經影印本在看, 看著看著, 奇怪, 大正藏一些小字
> 一, 二 v 是什麼意思啊! 一直在想這些, 無法專心思考...
>
那些符號是日文的類似音標,或重音音節的符號;好比我們的注音符號第一聲、
第二聲等等。
Tue Aug 26 12:40:27 1997
|
|
|
Re: 六部藏經的辨識效果初探
|
#7 |
發信站:
國立中山大學網路組 Mailing List
(tpts1.seed.net.tw>, 信區: BudaTech)
|
Heaven wrote:
>
> 順便問一下, 以往在 ocr 校對好的粗稿加上標點, 會不會很麻煩,
> 這個我沒有實務經驗. 有時我校對一頁佛教大藏經(從 ocr 至校對完)
> 要十多分鐘, 不知加上標點要多久?
拿《梵網經》第14頁為例,執行去圈點程式處理後,這時候以 OCR進行作業
,計時開始── 08:11。經過自動版面分割、辨識,然後加以人工線上校對
,完成時的時間是── 08:23。前後用了『12分鐘』。接著我就急忙跑去補
習班教課,回到家時,時間是22:50。
隔天,也就是現在,將昨天校對好的那一頁粗稿加上圈點。我沒有原書,但
早已把未去圈點前的圖檔印好了,所以就一邊看著紙面,一邊盯著螢幕上的
文字檔,從 05:40 到 05:47 ,總共用了『 7分鐘』。
這一頁佛教大藏經的經文,含圈點共有799字。
799字/(12分鐘+7分鐘)=42字/分鐘──這是目前『辨識+校對+圈點』的作業速度。
7分鐘/(12分鐘+7分鐘)=37%──這是加圈點所耗用的時間比例。
以上粗略統計,供 Heaven 及各位朋友參考。近日事忙,若有問題沒有積極
回應,還請原諒。
maha 8/28/97
Thu Aug 28 08:18:59 1997
|
|
|
Re: 六部藏經的辨識效果初探
|
#8 |
發信站:
國立中山大學網路組 Mailing List
(novell.zcom.com.tw>, 信區: BudaTech)
|
> 799字/(12分鐘+7分鐘)=42字/分鐘──這是目前『辨識+校對+圈點』的作業速度。
> 7分鐘/(12分鐘+7分鐘)=37%──這是加圈點所耗用的時間比例。
7分鐘...37%.... 意思就是若能利用程式, 可省下不少時間, 看來偷懶不得了. :p
末學考慮許多, 佛教藏先做到去圈點的部份就好. 加標點的功夫打算用在大正藏上.
大正藏的 "雜點" 雖然較多較雜, 但若真去除, 句點就自然呈現了.
另一問,
上回藏經列表中至少就有(白馬精舍版)(佛陀教育基金會版)(新文豐)三種版本,
不知它們的排版樣式都一樣? 都是有那些類似注音的符號?
ps. 我會寫信去問那位手上有(白馬精舍版)的朋友. 其它知道的朋友也請幫個忙,
總希望能
找到一個很好的版本, 最好沒有雜點只有句點 :p
Heaven
Thu Aug 28 10:00:44 1997
|
|
|
Re: 六部藏經的辨識效果初探
|
#9 |
wmc
發信站:
國立中山大學網路組 Mailing List
(mozart.seed.net.tw , 信區: BudaTech)
|
Heaven wrote:
>
> 另一問,
> 上回藏經列表中至少就有(白馬精舍版)(佛陀教育基金會版)(新文豐)三種版本,
(佛陀教育基金會版)與(新文豐)版
都是有那些類似注音的符號.
Thu Aug 28 14:38:20 1997
|
|
卍 台大獅子吼佛學專站 http://buddhaspace.org
| |