關於大藏經掃瞄辨識的發展,在取得大剛及海文同意後,底下引兩封我們三
人的私下討論信函,一來增進各位對此議題的了解,二來徵詢各位的寶貴意
見及可能協助。
maha 9/18/97
Thu, 11 Sep 1997
David Chiou wrote:
> Heaven wrote:
> >
> > 我的想法是先找到能借大正藏的來源,
>
> 如果不容易的話,可以請網友幫忙看看,相信許多人會
> 很樂意的 :)
「大正藏的來源」,如果是新文豐影印版,我可以試著跟樹林海明寺借借看,
,要是一冊一冊借,我想成功機率很大。
> > 再買台掃描機 (能借得到最好 :p)
>
> 這個也可向網友借借看。
為著這事,我去年已經買了一台。若有必要,還是買一台吧,很便宜的,大概
七、八千塊的就很夠用了。
> > , 開始大量掃描, 去雜點, ocr , 再進行以前提過的 "一人一頁" 計畫.
>
> 嗯!!! 好棒。
經Heaven及大家努力,這個作業越來越自動化。如果人工作業的程序能夠減到
最低,事情就好辦多了。當初針對佛教大藏經的去圈點程式一出現,我就覺得
前途大好,甚至想說就這樣先快速完成一份正確率 95%的不含圈點佛教大藏經
電子版。後來Heaven更上層樓,針對大正藏的去符號程式又出來,這樣大概又
可以弄出一份正確率 92-3%的大正藏電子版。
在整個構想上,Heaven跟我都知道最後是將這兩份電子版藏經,利用FGFC檔案
比對程式兩相比較,以產生一個正確率幾乎100%的電子藏經。可是在進行的步
驟上,大家還要再思考一下。因為我們能夠負責這方面事務的人力微薄,最好
不要一下子把作業程序複雜化,也就是希望能夠一個步驟一個步驟來做。
那麼第一個要考慮到掃瞄的資料來源,剛才已經說過大正藏,那麼佛教藏呢?
哪裡可以方便借得到?
再來是先掃瞄什麼?佛教藏或大正藏?
又,掃瞄後的辨識程序要做到什麼地步?需要線上校對嗎?
然後... ,然後.... 。
******************
Fri, 12 Sep 1997
David Chiou wrote:
> Maha wrote:
> >
> > 在整個構想上,Heaven跟我都知道最後是將這兩份電子版藏經,利用FGFC檔案
> > 比對程式兩相比較,以產生一個正確率幾乎100%的電子藏經。可是在進行的步
>
> 請問您是指「佛教大藏經」與「大正藏」的 FGFC 比對嗎?
> 還是像「新文豐大正藏」與「世樺大正藏」的 FGFC 比對呢?
我的意思是指前者,因佛教藏與大正藏是兩個截然不同的掃瞄辨識來源,兩者所
產生的電子檔較有相互比對糾錯的意義。佛教藏在去過圈點後,辨識率大增,但
事後補圈點的工作是很吃重的。而正好大正藏在去掉日本讀音符號後,辨識率也
增進不少,且圈點也大都能順利辨識出來。所以可以結合兩者之長,佛教藏的文
字辨識正確率高,而大正藏則含有圈點。如果是我,我會以大正藏電子檔為主架
構,忽略圈點比對,將之與佛教藏相互糾正文字上的錯誤,如此來產生一個文字
、圈點正確度頗高的大正藏電子版「粗樣」。為什麼說是「粗樣」?因為大正藏
的精華是在其校勘,校勘內容沒有電子化的話,我覺得只是個粗樣;但那是後頭
後頭的事了,先不想這個。
「新文豐大正藏」與「世樺大正藏」,這兩個大正藏影印版有何重大不同?印象
中頂多只是誰的影印技術比較好一點而已。
> > 那麼第一個要考慮到掃瞄的資料來源,剛才已經說過大正藏,那麼佛教藏呢?
> > 哪裡可以方便借得到?
>
> 台大晨曦社有「佛教大藏經」,不過基本上是不外借的。然而如果
> 二、三冊的借(而不是全部借),我想是有商量的餘地,尤其對於「大藏
> 經電子化」這種重要的事情,須要的話我可以找社長商量。
佛教藏全部精裝連總目錄八十五冊,每套定價新台幣肆萬元,蠻便宜的。
PS. 後來想想,不對!那是N年前的舊定價,現在的實際賣價當不只如此。
若要將大正藏與佛教藏兩相比對,我滿擔心如果這兩套藏經在文字上差異過大,
那麼比對起來可就累人了。因此,針對大正藏及佛教藏的來源,初步的做了一下
身家調查,如下:
《大正藏》:以《高麗藏》為主要底本,在《弘教藏》校勘的基礎上,參校了
《資福藏》、《普寧藏》、《嘉興藏》(校記中稱宋、元、明三
藏),並對勘了日本古抄本藏經、巴利語、梵文經典。
《佛教藏》:以《頻伽藏》為底本,重編校正,再從《大正藏》、《磧砂藏》
、《嘉興藏》、《普慧藏》、《卍續藏》、《宋藏遺珍》,以及
新從藏文譯出的經典,搜集補入《佛教大藏經》。
《頻伽藏》:以日本《弘教藏》為底本,但刪去了其中部份日本著述。
《弘教藏》:以《高麗藏》為底本,不足者以《普寧藏》補充,然後以《資福
藏》、《普寧藏》、《嘉興藏》等諸藏為校本。
(以上資料取自大陸學者方廣錩所著《佛教典籍百問》,以及由徐言輝先前提
供的<佛教大藏經簡介>。)
所以,整個脈絡大致是這樣的:
《高麗藏》→《弘教藏》→《頻伽藏》→《佛教藏》
└───────────→《大正藏》
既然都是以《高麗藏》為底本發展出來,想必文字上的差異不會太讓人頭大。
> > 再來是先掃瞄什麼?佛教藏或大正藏?
> 以我個人所知,優點可能分別如下:
> □先掃佛教藏: 由於已有徐言輝居士的經驗, 所以上手可能比較快?
> □先掃大正藏: 會引起大單位的注意.(那麼比較可能試著要求他們來支援?)
我想先來把徐言輝先前所做的佛教大藏經掃瞄部份予以完成初步辨識(不含
事後加圈點),先以此來累積一些實務經驗。徐言輝掃瞄了哪些呢?主要是
三百多卷的所有鳩摩羅什譯作(已將所有圖檔壓製成光碟),但不知六百卷
《大般若經》是否也已完成掃瞄?這個禮拜天我再打個電話好好問一下。
PS. 09/15/97跟徐言輝連絡上,六百卷《大般若經》業已掃瞄完畢。