您有新信

 
電子佛典合作事宜 (fwd)
#1
Post Gateway
發信站: 由 獅子吼站 收信 (ccstudent.ee.ntu.edu.tw , 信區: BudaTech)
---------- Forwarded message ----------
Date: Sat, 04 Jan 1997 00:47:50 +0800
From: 徐言輝 <roberhhh@ms9.hinet.net>
To: david@ccsun6
Subject: 電子佛典合作事宜

各位關心電子佛典的朋友:



我是徐言輝,roberhhh@ms9.hinet.net,在此對電子佛典的製作提出一些想法。


我是以「佛教大藏經」為底本,配合中文OCR製作電子佛典,其程序如下:



一、以中文 OCR 掃瞄,存成 DFR 檔。依經文的長短,或許一部經存成一個

    檔,也或許是每輸入 30 頁存成一個檔,特殊情況以 50 頁(例如:大

    智度論)為單位。



二、將圖檔調整為依經文順序,再存成DFR檔(延遲處理檔)。

    (掃瞄時,為了處理方便,我是先掃瞄單數頁或偶數頁,爾後再掃瞄另

     一頁,以經為單位。因為要對正的地方,一頁是以右邊及上邊為基準

     ,另一頁是以左邊及上邊為基準,每一次都要移動掃瞄框或掃瞄範圍

     ,會不方便。)



三、先由某人刪去「。」符號,再進行辨識;經過這樣處理再來辨識,能

    提高文字辨識率。爾後,進行「線上校對」(由中文OCR提供),取得最
    原始的文字檔。

 

    (進行「線上校對」時,如遇缺字,首以通用字代之,如無,暫以●取

     代」。)



【例一】:

(缺字以通用字代之,如無,暫以●取代)

。。。。。。。。。。。。。。。。。。。。。。。。。

佛說阿彌陀經

             姚秦龜茲三藏鳩摩羅什譯

如是我聞一時佛在舍衛國祇樹給狐獨園與大比丘僧千二百五十人俱皆是大阿羅漢眾所知識長老舍利弗摩

訶目乾連摩訶迦葉摩訶迦栴延摩訶俱絺羅離婆多周梨槃陀迦難陀阿難陀羅●羅僑梵波提賓頭盧頗羅墮迦

      :

。。。。。。。。。。。。。。。。。。。。。。。。。。。



四、第二次校對文字,分幾種情況:



    A. 如網路上已有相同經文,則校稿方式以檔案比對的方式為之。

    B. 由另一人再依「線上校對」方式重新校對文字,以這種方式在文

       字方面可能會比較少錯誤;如果第二個人校稿不能以「線上校對」

       方式為之,則採用「離線校對」方式,但不加標點。

    C. 如無其他人能再做另一次校稿,則文字校對工作假設已完成,並

       將文字檔儲存。



    ★第二次文字校對的優先處理順序為 A -> B -> C。



    ★不過,經這幾次的排演結果顯示,「線上校對」的正確率頗高,

      所以第二次校對文字可能更改為「離線校對」,並依第五項原則

      處理。



五。將步驟三所產生的文字,加上舊式標點,處理缺字,如遇文字句義

    不名處,參考其它大藏經給與正確的處理。

            

    ★此為「第一種存檔」方式。



【例二】:

。。。。。。。。。。。。。。。。。。。。。。。。。。。

佛說阿彌陀經

姚秦龜茲三藏鳩摩羅什譯

如是我聞。一時。佛在舍衛國祇樹給狐獨園。與大比丘僧千二百五十人俱。皆是大阿羅漢。眾所知識。長舍利弗。摩

訶目乾連。摩訶迦葉。摩訶迦栴延。摩訶俱絺羅。離婆多。周梨槃陀迦。難陀。阿難陀。羅[目∞侯]羅。僑梵波提。賓頭盧頗羅墮。迦

        :

。。。。。。。。。。。。。。。。。。。。。。。。。。。



六。依步驟四所產生的文字檔,改編成網路版,還是以舊式標點為主,

    能加以分段則分段。

 

    ★此為「第二種存檔」方式。

【例三】:

 (缺字以通用字代之,如無以組字法為之)

 。。。。。。。。。。。。。。。。。。。。。。。。。。

==================================================================

《佛說阿彌陀經》                                                                                    

                                             姚秦龜茲三藏鳩摩羅什譯

==================================================================

如是我聞。



一時。佛在舍衛國祇樹給狐獨園。與大比丘僧千二百五十人俱。皆是大阿羅漢

。眾所知識。長老舍利弗。摩訶目乾連。摩訶迦葉。摩訶迦栴延。摩訶俱絺羅

。離婆多。周梨槃陀迦。難陀。阿難陀。羅[目∞侯]羅。僑梵波提。賓頭盧頗

羅墮。迦

  :

。。。。。。。。。。。。。。。。。。。。。。。。。。。



★第五和第六二步驟可合併進行,只存網路版格式檔即可。





七。依步驟四所產生的文字檔,以新式標點、分段處理,可能的話再加上校勘。

    ★此為「第三種存檔」方式。



【例四】:

 (缺字以通用字代之,如無以組字法為之)

 。。。。。。。。。。。。。。。。。。。。。

 

《 佛說阿彌陀經》                  

                                             姚秦三藏法師鳩摩羅什譯

 

    如是我聞:



    一時,佛在舍衛國祇樹給孤獨園,與大比丘僧千二百五十人俱,皆是大阿

羅漢,眾所知識。長老舍利弗、摩訶目犍連、摩訶迦葉、摩訶迦旃延、摩訶俱

絺羅、離婆多、周利槃陀伽、難陀、阿難陀、羅[目∞侯]羅、憍梵波提、賓頭

盧頗羅墮、迦

    :

。。。。。。。。。。。。。。。。。。。。。。。。。。


目前我正在進行的有:

    一、與何宗武兄合作,《楞伽經》、《大智度論》、《大乘起信論》、

       《地藏十輪經》、《首楞嚴三昧經》(因為何兄有這些經書)等,我以產

        生如【例一】的原始文字檔為主,再交由何兄產生如【例三】型式的

        檔案,也就是以舊式標點加上稍為分段。

    二、與吳寶原兄合作「鳩摩羅什全集」,大致情形一樣,但可能的話,還會

        產生如【例四】的新式標點分段(要花比較長時間)。


【註】我們目前進行的原則是:不預設期限,全由參與的個人掌握投入的淺深,
                            而且進退自如,不須任何理由。


目前的想法還是以產生如【例三】型式的版本為主,如要加上新式標

製作的程序之所以會如此:

    第一、我有借來一套佛教大藏經。
    第二、我有掃瞄器,丹青中文OCR 處理軟體。
    第三、我有 CD-R 裝置。本來我們的構想是第二次也採用「線上校對」
          (丹青中文OCR所提供)。所以由我處理第一次掃瞄加「線上校對」,
          爾後存成 DFR 延遲處理檔。又由於 DFR檔包含掃瞄進來的圖形檔,
          檔案很大,經研究後,想以 CD-R燒錄成CD片後,方便於交給另一個
          人處理。但經過我們初期的演練結果,顯示「線上校對」的正確率
          還頗高的,所以第二次的再校工作,可能就改成「離線校對」,即
          直接以第五步驟處理,跳過第四步驟。不過,其中離線校對需要有該
          經文本才可運作,正如我和何兄合作項中的描述。
    
目前「線上校對」工作由我擔任,「離線校對」工作由他人擔任,如此一來「離
線校對」者必須有該經文才能進行。現在我又想到另一種進行方式,掃瞄部份由
我來擔任,再由我存成DFR檔燒在CD片上,爾後委託另一人做「線上校對」;這麼
一來,不需要經本也能做校對工作,但也還是要有中文OCR程式,直接參考圖形檔
作校對;而且「線上校對」完成後的是文字檔,檔案小了很多,用mail或磁片即
可傳送;最後再由我做「離線校對」。以上是我的一些想法。

最後,當然是想請問您願不願意也加入我們這樣類似的合作方案?「線上校對」
須要改正的中文字會比較多,「離線校對」等於是二校,須要改正的中文字較少
,主要的工作是加舊式標點和稍加分段。所以中文輸入的快慢並不是問題,主要
在於您有無興趣加入,而且上面也說了我們進行的原則是「不預設期限,全由參
與的個人(當然也包括我個人)掌握投入的淺深,而且進退自如,不須任何理由」
。至於真正要怎麼進行,還可以再討論看看。

祝 電子佛典製作順利

徐言輝  roberhhh@ms9.hinet.net
Sat Jan 4 04:34:52 1997
回覆 | 轉寄 | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org