您有新信

 
【佛教電腦資訊庫功德會】會議記錄 (2/3)
#1
Post Gateway
發信站: 由 獅子吼站 收信 (cctwin.ee.ntu.edu.tw , 信區: BudaTech)
Subject: Buddhism Canon Input Conference 2/3

歈
                                                              
            主    題:佛教電腦資訊庫功德會座談會              
                                                              
            主 持 人:沈家楨博士                              
                                                              
            時    間:84.5.6                                  
                                                              
            地    點:台北慧炬雜誌社                          
                                                              
            錄音整理:摩訶工作室                              
                                                              
            編    輯:慧炬雜誌                                
                                                              
            ※ 本文刊載於 84.7.30 《慧炬》 373 期 ※          
                                                              
裺

續上信:
─────────────────────────────────

    沈家楨:我簡單的報告一下,我們這八個月已經做了一點什麼東西,同
時又碰到了什麼困難。

    今天本來的意思是希望「慧炬」弄一個圓桌,大家在討論上可以方便一
點,不像今天這樣的方式。不過因為人數太多,沒有這麼大的圓桌,所以只
好這樣。但是希望各位在心裡面想這是一個討論會,並不是上面在講、下面
在聽。所以我現在向各位報告這幾個月來以美國為中心的資訊庫功德會已經
做到什麼程度,希望多得到各位的意見指示。

    到現在為止,可以分三個部份來報告。

    第一部份,現在所謂的會員並沒有一定的義務跟權利,所有的會員都是
很自由的,而且所有的會員都各有專長,有的是電腦專家,有的是佛經高手
,有的很能夠做校對工作,有的是做掃瞄辨識這一套東西,可以說各式各樣
的人都有。在我離開紐約那一天,我們有二百五十個會員,分散在各地。

    總會現在是在世界宗教研究院圖書館為場所,做為分散在世界各地會員
的工作聯合中心。選擇工作的時候,以會員的志趣為第一考慮對象。譬如說
哪一分會的會員對《妙法蓮華經》有特別興趣,他們就做與《妙法蓮華經》
有關的經論。譬如有的分會願以觀世音菩薩為對象,也是可以的。將來我們
極可能有一個光碟是以觀世音菩薩為主,這裡面有觀世音菩薩教義性的東西
,譬如<普門品>、<大悲咒>之類的,但是也可以將許許多多的「靈感錄
」放在裡面。甚至於我們有些光碟,可以在裡面畫許多漫畫,是小孩子喜歡
看的,可以培養小孩子的宗教信念,對於將來都很有關係。

    所以我們並不純粹是學術性的,也並不是說一定是商業性的,而是目的
要使得我們的後代以及後代的後代,能夠因為這一個開創而得到好處,這是
一個最重要的目的。根據這個原則,我們已經把七十四種經論輸入電腦,只
是還沒有做光碟。

    第二,現在我們用三種輸入的方法。第一種最基本的是所謂打碼輸入,
就是用電腦打字打進去。第二是用掃瞄機,就是把一個經本掃瞄過去,它就
自己進到電腦裡面去了。昨天晚上我已經睡了,十一點鐘于凌波教授打電話
給我,他說他已經弄到兩部新式的掃瞄機;現在我們已經有五部掃瞄機在用
,他說比那五部更新式,可以說一放進去,它就馬上到電腦裡面去。他捐兩
部給我們,他也是我們會員。第三個方法,台灣有一種叫「精靈筆」,就是
用筆來輸入;這個我們大部分是用來做校對的工作,現在在莊嚴寺有兩位法
師在做,一位叫宏源法師,一位叫仁定法師。現在又有第四種就要出來了,
我們得到的消息是明年就要上市,是中央研究院李院長發明的,叫「金聲三
號」,用聲音來輸入。所以說將來輸入電腦的工作會越來越進步,輸入東西
的速度越來越快、越來越正確,辨識的精確度越來越高。

    第三部份是把輸入的東西做校對。這一點,因為我們是佛教徒,我們知
道因果的關係,最重要的是我們做出來的光碟,將來的人看到了不會有錯誤
。各位都知道,光碟不能改,大家都覺得這是很權威性的東西,可是如果裡
面有錯的,就引發人一個錯誤的觀念,這個因果是很嚴重的。所以,準確性
是我們現在最大的目標,也是最大的困難。目前我們規定,至少要有四次校
對。譬如說用掃瞄掃進去了,到電腦裡面辨識出來,在電腦上校對一次,這
是第一次。第二次是在校對之後就印出來,我們要兩個不同的人分別校對,
一個是第二校,一個是第三校。之後再把它放到電腦裡面去,然後再印出來
校,這是第四校,第四校要一個字也沒有錯才可以過關,這是預備將來可以
用到光碟裡面的;如果第四校發生問題,包括字和標點的問題,有問題就要
第五校、第六校;總而言之,最後一校要沒有問題才可以定稿。所以,校對
實際上是一個很大的問題。

    這是今天我們所做的。而我們所碰到的困難,第一個是輸入資料的困難
問題,困難是在選擇版本。譬如說《六祖壇經》版本很多,版本間不同的地
方也很多。所以將來放在裡面的《六祖壇經》,是把市面上所有的都擺進去
呢,還是選擇哪一版本,這是一個問題。

    第二個大的問題是版權問題,現在很多出版的書是有版權的,有版權的
不能放進去。

    第三是造字的問題,因為現在電腦裡面的字只有一萬多一點,它現在大
概還有五千多個空的位置,但是佛經裡面有很多很多的字是電腦所沒有的。
中央研究院已經造了很多字,它有它的系統;佛光山也造了很多字,它有它
的系統。這兩個系統並不相同,就是說究竟用哪一個系統好。中央圖書館的
謝教授有另外一個意見,是說用另外一個方法來造另外一個更好的系統;這
在理論上很對,我也希望他能夠造得出來。可是謝教授講,什麼時候能造出
來,他沒有把握。所以,我們不能等這個最合理的系統。不過假定我們用了
另外一個系統,如果它有一個國家政府標準的系統出來,我們還是可以換。

    這裡有三位彌勒內院的法師對這方面很有經驗,他們已經做了很多,等
一下請他們發表意見。

    我們第四個面臨的困難,就是對熱心的人,怎麼樣才能夠利用他們的時
間而不影響他們的生活,或使他們生活得更愉快。現在功效最大的是在家的
主婦,我是以美國的情形來講,有許多家庭主婦並未在外面做事,比較空閒
,她們可以把時間挪出來做校對的工作,可以來做電腦輸入的工作,可以來
做標點的工作。

    這就像沈乃宣居士所講的,有好幾位做得十分高興。譬如她本來念《金
剛經》,念過就算,漏了一兩個字並不希奇;現在硬要她一個字一個字的校
對,不能錯一個字,她才覺得受益很大,所以這是一個沒有想到而得到的好
處。

    還有我最近知道有一對夫妻,太太的父母也來美國。這對父母本來在家
很無聊,語言又不通,女兒一早就出去做事,他們兩個就在家裡,又沒有朋
友。他們本來是預備要回國的,說是住不下去,後來聽說有這件事,他們四
個人都加入做了會員。這位父親原來是做編輯的,太太是做校對的。所以正
好,現在家裡四個人都很高興,大家共同來做這個事情,這也是料想不到的
。所以我想:有好的因就會有好的果出來。

─────────────────────────────────

    彌勒內院法師:我們只累積一點點經驗,跟佛光山或中華百科全書基金
會來比,我們的經驗很淺薄。但是我們這邊有一些針對造字方面的資料,我
們願意提供出來。

    目前我們收集到的原始的還沒有經過對比的資料,造字的部份將近三千
字,已經整理出來;還沒有整理出來的,可能要跟中央研究院的那個「偏旁
」系統來對比,以及上次跟沈博士這邊拿到的一份電腦字跟一般字的對比表
,再對比出來的話,可能將近有三千出頭的字,可能是需要造字的部份。聽
了剛剛沈博士所說的話,任何有需要的單位,我們都願意提供,我們也希望
能夠把造字這個問題提早解決,讓任何一本經典能夠成為一本真正完整的經
典,那麼將來在學術網路或各個網路上面就可以達到世界性一致的地位,不
要說這個網路上看得到的字在別的網路上看不到。

    在這個造字問題上,我們發覺,比方說我們國內比較大的一家,在北部
的是「正豐」排版,我們今天早上拿到它兩千字的造字,可是他們常常跟我
們講一個很大的問題,就是說現在他們的造字系統五千字已經完全造滿了。
所以變成說,我們原先很期望從它那邊拿到一些佛教咒語的用字,或是一些
我們佛教的常用字,可是它給我們的回答是現在他們的系統裡面,佛經中如
果不是常出現的字,他們必須用拼湊的方式,他們不再造進去了。這個代表
累積在一定的量的話,以我們現在佛教的印刷界來說,他們已經碰到這種造
字的瓶頸。

    我私下找過一位淡江大學的宗興海教授,曾經討論造字的問題,還有跟
慧燈、大乘精舍或是其它單位討論,結果是各個業者很願意把手邊的造字公
布出來,可是他們很希望將來回來的東西也要兼顧到它使用的頻率;就是說
他們現在的系統已經達到一個瓶頸,可是他們要所要用的字用起來很方便,
所以也希望將來在編排上能夠兼顧到方便使用的形式問題。這個問題我們只
做一個現象的整理跟收集,來提供給任何有心的單位繼續發心的工作,這是
第一點。

    第二點,我們這邊目前可以提供出來的,有《指月錄》、《高僧語錄》
等有關禪宗典籍;另外林光明居士那邊有一些《心經》、《金剛經》、《法
華經》、《六祖壇經》、《無量壽經》等典籍,比較偏重在中英對譯方面。
將來我們會以彌勒內院來提供所有《慈航法師全集》,我們希望把它公布出
來。林居士那邊的檔案或研究資料很多,需要的話,可以跟他聯絡。我們輸
入電腦的資料都沒有版權,可以開放給所有需要的人,將來上網路後可以給
所有需要的人。

─────────────────────────────────

    周寶珠:慧炬是第三個分會,希望將來在台灣我們是一個統籌的單位,
不希望各會員在家裡面做而沒有跟我們聯絡,然後變成大家都在做同樣一件
工作。如果能夠跟慧炬保持密切的聯繫,我們可以分工合作,這件事情很快
就可以完成。

─────────────────────────────────

    吳寶原:剛才聽沈博士說過去在美國八個月的工作期間遇到一些問題,
譬如說有關造字的問題,還有版本、版權的問題。這是一個問題沒錯,但是
過去沈博士是怎麼樣去處理它、解決它。譬如說造字,你們那邊是怎麼做?

─────────────────────────────────

    沈家楨:到現在為止,我們認為造字最好能夠統一,比如由中央研究院
統一造字。不過,各位要了解這是一個現實的問題,並不是短時間內所能完
成的。所以到今天為止,佛典裡的罕有字,在電腦裡面沒有的,而字典裡面
講有哪一個字可以通用,我們就用這個通用字,而這個通用字在電腦裡面就
有。所以已經有三百多個這種字,有一張表,就是說佛典裡面是什麼字,通
用字是什麼字,而這些通用字都是電腦裡面有的,這可以解決一部份。

    第二個問題,假如沒有通用字,有很多字是沒有通用字的,到現在為止
還是一個黑圈圈,還是等在那邊,等我們決定應該如何做。

    關於版權的問題,尤其是在台灣,譬如佛陀教育基金會、大乘精舍、慧
炬,許多有版權的單位都已把版權放棄了,讓我們可以放在光碟裡面去;其
它的單位到現在還沒有很廣泛的把版權問題解決。我們的辦法是一本書出版
,上面說「版權所有翻印必究」的,我們現在就不放進去。

    我們不要有一個觀念,認為光碟一出來,書本就用不到了。書本有書本
的價值,光碟有光碟的用途,所以書本在將來還是需要的,光碟甚至於可以
幫助書店,做為它的宣傳品。以我個人的經驗,我們讀佛經,譬如說要翻丁
福保的大辭典,有時候很困擾,花了很多時間還找不到要找的名相,因為它
那個部首索引弄了半天還沒有找出來。將來這個問題有人幫忙了,什麼人幫
你?電腦幫你忙,它很快的幫你查出來,你想這樣可以節省多少時間。

    還有現在,譬如你念《圓覺經》,在裡面看到一個名相,除了查辭典之
外,恐怕你沒有別的辦法。你想知道這《圓覺經》,太虛大師是怎麼講的,
印順大師是怎麼講的,憨山大師是怎麼請的,你要查得出來談何容易,你想
找到一本憨山大師《圓覺經》的注解就很不容易。將來你在光碟裡面,你想
看看古時候的大德究竟對這個名相怎麼解釋,它在裡面一下子就出來了。所
以對將來的人研究佛經,我覺得實在可以方便很多很多。這一個也實在是我
們推動這件事的主要目標。

─────────────────────────────────

    吳寶原:沈博士你也知道,以目前的中文系統只能造五千八百多字,我
們或彌勒內院的師父會不會耽心以後這五千八百多字真的不夠用?另外版權
的問題,現在比較流通的藏經是日本的大正藏,那如果我們用大正藏來輸入
電腦,有沒有版權的問題?

─────────────────────────────────

    沈家楨: 我只曉得一個事實,  星雲大師在西來寺本來有  Professor
Lancaster 幫他在做大正藏的輸入工作,準備製光碟,做了兩年停下來了,
其中一個主要的問題是日本抗議,說:「大正藏是我們的版權,你不能弄。
」這個我曉得,至於對不對、是不是,我就不敢講了。

    不過對於版權問題,我們要注意一點,所謂大正藏的版權,實際上並不
是指整部大正藏的內容,內容是沒有版權的。編大正藏的這些人加上去許許
多多註解,這才是他們的版權。譬如說,只輸入經的正文,沒有版權的問題
;如果把它整部大藏經用掃瞄機掃進去了,這就有問題了。

─────────────────────────────────

    某聽眾:剛剛沈博士講得很好,佛經的經文本身沒有版權,版權是釋迦
牟尼佛的。所以經典本文是沒有版權問題,人家寫的那個註釋才有問題。

    我有一個建議,我不曉得慧炬本身有沒有 BBS,或者說我們可以考慮請
求中央研究院的協助,因為現在 INTERNET 在全球很方便,如果中央研究院
肯協助的話,我們可以把資料放在它的電腦裡面,那麼所有網路上的任何一
個使用者,因為它是 OPEN 的,大家都可以從它那裡抓資料,然後去把他個
人的心得、註釋寫在裡面。 如果慧炬有 BBS 的話,在家有 PC 的人就可以
直接上線;慧炬希望會員做什麼事的話,直接在上面公布出來;就是說我現
在有什麼工作要人家來做什麼事情,然後已經完成了什麼工作,大家就不會
重複了。像這樣有個好處,就是不必定時開會,只要直接上站,我就知道現
在的進度到哪裡、我該做的是什麼,我想這樣也可以集思廣益。而且不是會
員的人在網路上也可以插一腳,不一定是會員才能夠來做這件事情。據我所
知, 政大圖書館的 BBS 站裡面就有佛經的一些註釋在裡面,但是不是我們
需要的我不知道,也就是說目前大學有人在做這方面的工作,有很多大學生
可以參與。

─────────────────────────────────

    沈家楨:這位大德講得很對,我想將來所謂的 INTERNET 總歸是必經之
路。主要一點,我常常講的我們四個困難裡面的一點,就是正確性、可靠性
,這是將來的一個大問題。假定說,有一位同學用 INTERNET 把一部佛典廣
送各地,它的可靠性能到什麼程度?這是將來我們最大的一個問題。因為第
一,釋迦牟尼佛本人沒有寫東西;第二,就是釋迦牟尼佛那時候寫的東西,
很可能現在已經不存在了,被破壞了,正確性實在是一個問題。所以佛經大
部分都是後人寫的,而經過這些年來的改變、破壞。

    譬如說《金剛經》,我對《金剛經》近幾年來用功比較多一點,《金剛
經》在開始時,須菩提問「應云何住,云何降服其心」,後面也有「云何應
住,云何降服其心」,但是我們所有的流通本,前後都是「云何應住,云何
降服其心」。因為一個字的上下不同,解釋就變了很多,許多大德就想盡腦
筋來註解為什麼這兩句都是問的一樣。有的是著重方法來解釋,有的說第一
句的意思淺、第二句的意思深,有各種解釋,就因為這一個字的不同。後來
江味農居士做了很多校對考證,他的校正本裡面寫前面問的是問「應云何住
,云何降服其心」,那時候就是說發了阿耨多羅三藐三菩提心,應該如何保
持,如何降伏妄心。後頭問的「云何應住,云何降服其心」,就是問說為什
麼講什麼東西什麼東西都是虛妄的,而叫我們還是要用阿耨多羅三藐三菩提
心。所以後半部中,就特別強調沒有阿耨多羅三藐三菩提心可得,也根本沒
有阿耨多羅三藐三菩提心可發。

    一個字的差別,就有這麼不同的意義,這是我們將來一個很大的困難。

─────────────────────────────────

    邱大剛:我覺得剛剛那位居士的意思是說我們可以用 INTERNET, 譬如
說美國和台灣這邊可以立刻連線。像我從台灣送一封信到美國,假如用電子
郵件的話,可能不到一分鐘的時間。假如美國莊嚴寺要從中央研究院得到資
訊的話,可以直接由中研院把資料傳到美國去,一分鐘的時間就可以傳到,
主要是這個作用。

    另外就現在網路上已經有的資源來說,有人常常有用電腦抄經的習慣,
經部大概有一百多部經,不過校對是不太嚴謹,我覺得這可以用來做原始資
料,就是說等於跟 OCR 是平等地位。因為現在用 OCR 輸入的經典,一般來
講辨識率不到九成;假如用這個的話,錯誤率一般是不到百分之一,所以用
已經有的檔案來做會省很多的時間。當然在校對之前是不能讓一般使用者傳
回家的,但是我們可以用 INTERNET 來做一個很好的溝通,也就是美國跟台
灣可以有互相連線的作用。

─────────────────────────────────

    沈家楨:各位能不能看得出來,這就是我們前途的希望。我今年八十三
歲,這位朋友,你幾歲?十八歲。十八歲的人思想已經到這麼樣一個程度,
我這個八十三歲的已經算是了不起了,還拼命跟在後面跑。所以這是我們的
前途,各位要掌握住這個前途,只要掌握住這個前途,佛教就跑在前面。這
個是我們功德會要想推動的目標,我很謝謝你,十八歲了不起!

─────────────────────────────────

    某聽眾:據我了解,在中央研究院歷史研究所那邊有《大正藏》在裡面
,或其它的地方,像佛光山都有。目前我們功德會這裡,如何想辦法收集,
不管是個人或出版界或研究單位,收集這些已經打進去的資料,然後來減少
輸入的時間,在這方面有沒有一個作業的程序?

─────────────────────────────────

    沈家楨:我們在這方面還只做了一小部份,所以這次到台灣來,也希望
慧炬能夠把這些事儘快的促成。也就是說,台灣個人或團體、學校在做的東
西很多,但是到今天為止,這些大德、團體都沒有連繫起來,都是各做各的
,這樣就浪費了很多時間,也使這個事情做不大。所以,怎麼樣能夠使大家
把這個力量合起來,是當務之急!

    我在美國四十七年,覺得中國人有一個最大的缺點,就是都要做老大,
都很難跟別人合作,所以團結不起來。看看日本人或者是朝鮮人,團結的力
量都比我們強得多。這是在美國一個地方,我想沈乃宣先生對這方面的經驗
很多。在同一個地方,韓國店往往是一大群,很團結;中國的就不行,中國
的這個店就罵那個店,那個店就罵這個店,互相批評。這一點當然不是說一
朝一夕可以改變,但是我們要了解有這樣一個缺點,要怎樣才可以避免這個
缺點。

─────────────────────────────────

    楊毅:剛剛沈博士講的很多問題,我想我可以回答,但我同樣有很多問
題要請教。在這之前,我想請教謝清俊教授有沒有在這邊?楊國屏博士有沒
有在座?都沒有過來!在回答一些問題之前,有幾個問題想請教一下。

    在藏經光碟化以後,光碟我們是以免費贈送的方式,還是以銷售方式來
推廣佛法?因為問題很多,我可能講起來可能會有九個問題,恐怕你們會記
不住,所以我一個一個問,你們一個一個隨意回答。不曉得目前有沒有這個
決議?

─────────────────────────────────

    沈家楨:實際上並沒有一定的規定。目前,我們是以收回成本為原則,
以流通佛法為宗旨。所以假定今天各位大德有許多捐款,單是靠捐款就可以
了。像這一批西藏文的東西,它就是贈送的,贈送了一萬多片出去。所以這
第一個問題,實際上等於是以贈送為目標,以收回成本為原則。

─────────────────────────────────

    楊毅:第二個問題是說,雖然是贈送,不過是功德會發展出來的,雖然
是集眾人之力量,那還是會有版權的問題,版權是屬於我們的,別人引用的
時候,我們是免費讓他引用呢?還是要跟他收取若干的費用?

─────────────────────────────────

    沈家楨:免費。照我了解,對不對我不曉得,光碟你自己也可以拷貝,
對不對?

─────────────────────────────────

    楊毅:免費讓他引用,即使對方是商業單位?譬如說我是一個電腦科技
公司,我想現在佛法滿興盛的,我想賺這個錢,那麼我自己發展軟體,我就
引用我們(指功德會)資訊庫的資料來賣東西。那這是屬於商業化行為,可
是他是用我們的資料,像這種情況要不要跟他收費用?

─────────────────────────────────

    沈家楨:ROACH 所做的,它上面是寫著有版權的,不過實際上他都是送
的。這一點我們現在沒有公定的方案,不過照我個人的見解,既然我們的目
的是希望流傳佛法,那麼有更多人流通,豈不是眾生得益更多?有人為得合
理的利潤來流通,只要有人向他買,那於無妨,當然不希望因為這樣子使得
某個人增加他的貪心,因此只要我們的經濟力量能夠支付,我覺得儘量贈送
,或者儘量照成本計算,那數目就很小。

─────────────────────────────────

    楊毅:您講了很多事情,講了很多問題,我現在大概可以回答一下。對
!另外還有一個問題,美國現在佛經電腦化是用什麼中文系統,是用什麼內
碼?是用倚天系統的BIG-5內碼,還是用什麼?

─────────────────────────────────

    沈家楨:我們是用BIG-5。

─────────────────────────────────

    楊毅:那麼是倚天或國喬這方面。

─────────────────────────────────

    沈家楨:你不要問我太TECHNICAL的東西,我真的會答不出來。

─────────────────────────────────

    楊毅:我想電腦化最主要的問題,剛開始可能就是版權問題,我想這個
沒問題;第二個就是輸入的問題,您也講了好幾個方式;第三個就是 AP 應
用軟體的問題,要怎麼樣輸入才比較快的問題,目前你們在美國用的是哪一
個輸入軟體?是用漢書、PE2,還是用 WINDOWS 裡面的軟體?

─────────────────────────────────

    沈家楨:差不多現在都有, 手工輸入的也有, 我們一共有六台掃瞄機
。

─────────────────────────────────

    楊毅:我想各自發心,軟體應該沒問題,主要是取得這個資料,資料能
夠共通嘛,是不是這個意思!

    關於缺字的問題, 因為 BIG-5 是五千八百多個字,我們台灣公會碼的
造字檔是六千多字,剛剛彌勒內院也講過正豐的造字超過五千多個字,所以
我們可以了解 BIG-5 這個東西不能用,用了以後會有很多問題, 因為它的
字(造字碼空間)不夠,所以說要找一個容量比較大的東西。

    這個問題,我自己有找一些平台廠商,目前全世界解決的方式,據我所
知有兩種方式,一個是 UNICODE,它是 ISO10646 的 BMP。ISO 本身的規格
是四個 BYTES,可是目前這 UNICODE 是由 MICROSOFT 率領其它 AP 的軟體
廠商加以制定,他們以後要 SUPPORT。目前我們軟體是用 ASCIICODE,是屬
於美方的標準,它是一個 BYTE,在台灣的幾個內碼, 有 BIG-5,還有 TCA
──就是公會碼, 還有 SHIFT TCA ──就是倚天碼,我們常用的是 BIG-5
內碼。 這個 BIG-5 不能用嘛,所以解決方式就是用 UNICODE,它本身能夠
定義的字,據我所知有六萬四千多個字,它可以做世界上各種文字的交換。

    在軟體 AP 方面,AP 目前據我所知, 好像還沒有 SUPPORT UNICODE,
可是這個系統已經有了,好像是 WINDOWS NT,它是屬於一個 SERVER,是用
在網路上面的。 目前剛剛出來的 WINDOWS 95,它本身存取的是四個 BYTES
,不過據我所知它沒有 SUPPORT UNICODE。

    所以說, 我們解決的方式,第一個要用 UNICODE 內碼去做中文輸入,
而且同時它可以做世界各種文字的輸入,那麼藏文、梵文、巴利文等文字的
藏經都可以收進去, 那就不會局限於只是單純的 BIG-5 中文不夠,這是第
一種方式。 第二種叫 CCCII 內碼,這是由文建會的國字整理小組所整理出
來的,目前這個工作據我所知已經移轉到中央圖書館電腦組,我跟裡面電腦
組的主管宋顧問連絡過了。

    在台灣目前用的內碼,以後擴展性比較大的有兩種。一種是屬於 CCCII
內碼,這是用在圖書館系列,美國圖書館他們承認,他們稱之為 EAC , 裡
面的藏字有二萬一千多個字,是用擷取 CCCII 內碼的字集去做的; 他們現
在給了一個 ANSY,名字我忘了,不知道 Z 多少,也就是說美國他們用中文
字的話,  是把  CCCII  內碼的字型借來用, 所以說這個內碼有長久性。
CCCII 內碼本身是三個 BYTES,它能夠定義八十三萬個字, 比 UNICODE 還
多,但是比 ISO10646 的規格要少。我記得 ISO10646 可以定義一億多個字
,有多少要算一下才知道:(一)共有 Groups 7F 個( 112 個)。(二)
每個 Group 有 Planes FF 個( 256 個)。(三)每個 Planesjb 2256 ×
256 個 Cells。(四)共得 1879048192 個 Cells。(五)第(四)項未扣
除禁制碼,所以它能定義非常多。

    另外一種擴展性比較大的是,你可能不知道,前兩年台灣要整合戶政系
統、醫療系統以及教育行政系統的一些資料,譬如說我們姓名什麼的,很多
字都打不出來,台灣各區就各自造字,現在要整合了,整合的結果是彼此的
造字都沒辦法溝通,也像是我們現在面臨的問題。所以政府現在發展一個叫
做 CNS11643,它本身就是一個國標碼,是國家承認的一個碼。 它本身也是
TWO FOUR BYTES,它的第一、二字面是 TWO BYTES,我記得全部有十七個字
面,目前已經用了七個字面。它目前的造字,前一陣子是四萬八千多個字,
現在據說已經有六萬五千多個字。

    CCCII 本身已經擴展到八萬四千多個字,這個資料已經取得了;可是在
系統方面,目前只有五萬八千多個字。

    我再整理一下。可以用的方式就是 UNICODE,可是它沒有 AP 軟體,你
沒辦法用,也就是說,即使我現在讓你用,你也沒辦法用,恐怕要等兩、三
年以後才能夠去做輸入,所以這個可能以後要做轉碼工作。

    第二個就是用 CCCII,我剛從廠商那邊過來,他們現在有一個漢書,漢
書我們通常都用在 BIG-5 碼,可是它現在已經發展 CCCII 的版本。不知道
你們美國有沒有用漢書,它滿好用的,它是一個 EDITOR。 如果做中文輸入
,除了 OCR、金聲三號語音輸入沒辦法以外,你用 KEYBOARD KEYIN 的話,
可以用漢書,因為在 CCCII 上面它可以做了。 而且它缺字的情況可能不多
,它裡面含有五萬八千多個字,像富有的「富」,上面少一點,我看過的經
典上面有過這麼一個字, 我去看 CCCII 廠商發展的平台,我發覺它也有這
個字,稱為異體字,我們通常常用的叫做正體字;所以它有五萬八千多個字
,比我們造的兩萬多個字、BIG-5 的一萬三千多字還多,我想我們就不用造
了。關於它本身的售價方式,我慢慢來報告。所以說,目前的解決方式就是
用 CCCII,而且它已經有 AP 了。我想大家如果採用這個系統內碼的話,可
以解決這個困擾。

    它還有一個好處, 它本身可以轉碼,就是你目前已經在 BIG-5 內碼裡
面造的字,我們不是面臨大家都不一樣嗎?中央研究院、佛光山都不一樣,
那麼它可以轉碼,把碼直接轉到 CCCII 系統裡面; 也就是轉過去以後,大
家只要把這個碼稍微對一下, 就沒有什麼問題了, 可是它的限制是 24 ×
24 的字。

    這是關於內碼方面以及缺字方面的問題。

    之前有講到需要 CDROM 的母機,這個在台灣滿多的, 有二倍速、四倍
速,PHILLIP 二倍速的大概九萬六千多元就可以,所以這個在台灣都不是問
題。這個廠商的資料、電話我可以提供。

    還有你講到這光碟明年可以在電視上看到裡面的資料,現在台灣這個也
可以看到了,在電腦上面播放的節目,電視上也可以看到,現在已經有這個
東西,不用等明年。

    剛剛有蓮友建議做 INTERNET,INTERNET 也是面臨到內碼問題。他的問
題就是說, 第一個,INTERNET 在台灣目前要登記,而且我記得化育文教基
金會和慧炬在凱訊裡面有一個 W3 的節點, W3 本身是建立在 INTERNET 的
上面,但是據我所知 INTERNET 跟 W3 目前在台灣都要登記,那明年可能有
廠商會 SUPPORT (指有 CCCII 內碼的系統及軟體),可是,可能是明年的
事情。即使說現在大家能夠登記,可是不一定每個人都會登記,那是要金錢
的,每個月要花一些費用的。大家做事情發心可以,花錢有時候就不一定。
即使能夠做到,還是會有問題,就是說有很多字你仍然打不出來。所以說,
我這邊有一套能夠打出所有字的系統,你那邊也必須有一套才可以,這樣子
彼此才能夠溝通,否則我這邊能夠有五萬八千多個字,你那邊沒有,你那個
是 BIG-5 一萬三千多個字,你就打不出來,所以這個是彼此都要的。

    我們還提到要請中研院來做資料傳輸,據我所知,謝教授本身就是中研
院史研所的主持人,我跟他們連絡過了,他們是屬於公家單位,我們是佛教
團體,他們只能說在他們工作範圍之內 SUPPORT 我們, 就是說剛好,他做
古籍檢索,佛教在這方面科判比較詳細,所以他直接弄佛教的,但並不表示
他會為我們做事;我問過他們,因為他們領公家的錢,替我們做事比較不恰
當,但是如果剛好工作項目重疊,他可以服務,這是他們的立場。

─────────────────────────────────

    沈家楨:你講的東西都增加我們了我們的信心和樂觀,有許多問題都已
經解決或將要解決。我現在有一個要求,就是可不可以把你的通訊地址留下
來。

─────────────────────────────────

    楊毅:我已經留給慧炬了。

─────────────────────────────────

    沈家楨:這樣太好了,我們在美國的幾位負責人可以跟你連繫,以得到
你的許多指導,我們要保持連絡。

─────────────────────────────────

    楊毅:因為我還有一些問題沒有問,我還有一些建議。我覺得問題實在
很多,您且聽一下。

    我們目前是以什麼藏為主來做電腦化?大正藏?乾隆藏?或高麗藏等等
?我收集的資料,目前有二十六個藏,加上日本最近有一個新的叫做刷版藏
,共有二十七藏,所以我們是先以哪一個藏來電腦化?我想這個您應該先思
考,要不然的話,以後電腦化的時候,變成乾隆藏一部、磧砂藏一部、龍藏
一部、北藏一部、南藏一部,變成大家所取的地方不一樣。以後新出來的資
料我們是不是要給它稱一個藏別?譬如說叫「慧炬藏」。所以我們現在要先
決定到底用哪一個藏入電腦化,這是第一個問題。

    第二個問題是,到底要有幾藏?我們一定要入幾藏?因為每個藏的版本
不一樣,雖然大部分是一樣的。

    沈家楨:一個一個來好不好!藏經大部份都有版權問題,所以我們第一
階段,也是目前的重心,是放在工具書上。一部是丁福保的《佛學大辭典》
,一部是《佛光大辭典》,還有一部是《中華佛教百科全書》,就是傳道法
師他們在做的,它已經印好了。到現在為止,丁福保的大辭典,我們已經全
部輸入了,正在做最後的校對;佛光山的佛光大辭典曾得到星雲法師的同意
,他們也不要版權,可以放到我們的光碟裡面去,不過現在還不敢講究竟它
什麼時候可以完成、什麼時候可以放到光碟裡面去。

    前天我們到傳道法師那邊看他的四庫全書,做得很不錯,他也同意把這
四庫全書全部放到光碟裡面去。這是在我們眼光裡面所謂的工具書,儘管是
大藏經,或者是任何經典都一樣需要工具書。還有一本我們就要做好的,是
《翻譯名義集》,也是一本工具書。這許多工具書,在每一張光碟裡面都需
要放進去,不論是《金剛經》、《阿彌陀經》或任何經論都需要基本工具書
來查名相。這幾本工具書可以說是我們現在力量放得最多的。

─────────────────────────────────

    楊毅:也就是說目前大藏經還沒有電腦化,現在是做工具書嗎?

─────────────────────────────────

    沈家楨:其它的佛典則是零零碎碎的在做,主要的是迎合會員的興趣及
專長,所以各種經典、經論都有,大藏經裡的也有。

─────────────────────────────────

    楊毅:我想其它問題,我把我的一些意見提供出來參考;我提一些自己
的建議,那其它的問題也就迎刃而解。

    我認為,一個資料弄上去,那是死的,死的本身比較沒有什麼作用,讓
我們看出來只是一部藏經而已,就像我們看書的藏經一樣,那就是藏經而已
,它本身不能給你一些解答。所以說,我建議要做另外一個軟體,就是謝教
授他們做的那個在  WINDOWS  裡面的檢索軟體。  可是它的軟體本身是  2
BYTES,2BYTES 本身有一個問題,還是有字不夠的問題。目前可以先用那個
,可是以後要有一個專責單位。

    這個專責單位就是您現在成立的這個藏經電腦化的單位,它負責維修。
也就是說,現在我們用的資料是一種存取方式,也許過十年以後有更進步的
記憶體存取方式,你目前的存取方式可能就不適用了。我做過比喻,現在你
這個藏經是放在圖書館右邊的這個門,我們現在進去拿這個資料一定是走右
邊的門,可是十年以後大家不用右邊的門了,覺得走右邊的門要經過很多障
礙,不方便,會跌倒,會怎樣一大堆,現在我開左邊一個門,可是很麻煩,
左邊的門一開,裡面沒資料,我們的資料是放在右邊的,這是目前記憶體存
取方式的一種。所以可能過若干年以後這個就已經落伍了,當大家都不用這
個存取方式的時候,大家用的軟體都不是這種方式的時候,你要流通可能就
比較不適用,所以說要有一個專責的維護單位,它依照每年的電腦發展去做
若干的修正。這個維護單位就需要一些費用,如果是兼職的人,做事情零零
落落,進度也會很慢,不是不能做啦,會有點慢就是了。所以說要有一個專
責單位,那個專責單位可能就需要專家,這些人的費用可能就是一些發心的
人來做,生活費支持得過去就可以了,不過那個還是需要費用。這是第一個
問題。

    我剛剛說我們要做另外一個檢索軟體,我把它的叫做「閱讀編輯器」,
它除了能夠閱讀資料以外,第一個功能是檢索。第二個功能是比較,可能是
龍藏跟大正藏要比較,我看這個《大正藏》有問題,我把《龍藏》叫出來;
假如我們已經有很多藏經入藏,那麼我可以比較。說到這裡,其它的藏經要
電腦化,是不是變成二十六套都要電腦化?我要比較二十六套啊,我這個人
的知識比較不一樣啊,你的程度比較深,所以我要比較好多套,因為我比較
有學識。如果他要比較那麼多套的時候,我們是不是每套都要入電腦化呢?
不用!謝教授用 ISO 好像 9077 SGML (正確為 88 79 ), 它是一種檢索
方式的規格,那個資料謝教授他們可以提供,它本身可以把同樣的一個內文
鍵入,我們不用再重新做, 我們在 AP 上面設一個 API 、一個 INTERFACE
,就是一個介面,然後直接把內文引用出來就好了。實際上我們二十六套全
部入電腦化,頂多是做兩藏的功夫,我相信大概只有這樣子而已,這樣二十
六套就全部都可以電腦化。這是第二個功能。

    當然它還有其它的功能,除了閱讀、比較、檢索,另外我們可能要下註
解、我們自己看的心得,所以說要有編輯功能,這個我稱為「閱讀編輯器」
。我想這個可能需要做,這樣我們才能夠迅速把佛法流通,否則我們看的話
仍然是看不懂,只是說存取攜帶方便而已,仍然沒有多大意義,沒有人來解
釋。所以,我們可以在藏經電腦化以後,請一些高僧大德、對佛學比較有研
究的來做註解,也就是提供一個註解功能,可以把高僧大德的註解叫出來。

    可能有的第四個功能是把它白話,譬如說「佛教資訊」,他不懂「資訊
」的意思,那個「資訊」這兩個字就對應到一串字列,譬如說「資訊」就是
「資料的訊息」這五個字,然後這個白話一出來就全部都出來了,這個藏經
、《金剛經》全部白話都出來了。

    這個功能還可以做這個我剛剛講的「富」沒有上面那一點,我看不懂這
個字,可是我們 AP 裡面有。這個功能,我們可以按個鍵把它直接轉成現在
教育部部頒的正體字。這是屬於閱讀編輯器要做的方面。

─────────────────────────────────

    沈家楨:你了解得很多,這些功能將來恐怕越來越多,各式各樣的功能
應該都包括在裡面。

─────────────────────────────────

    楊毅:剛剛您講過佛學字典已經弄上去了,這個在閱讀編輯器裡面也可
以做連結,連結後按個鍵,相關的解答就出來了。我有很多的問題,但大概
就是這樣。我有很多計畫,這個要一步一步來執行。大約是如此,可能還有
其它的,您講一講,我可能還有補充的。

─────────────────────────────────

    蔣啟賢:目前我是在做一件管理資訊化的軟體,這套軟體是全 WINDOWS
的。目前我們做起來,這一套資訊化軟體,我們感覺是做得相當的不錯。剛
剛我有跟莊董事長談到,未來如果在佛教裡教學,比如說我現在這邊,假如
這個是一個電腦的畫面,主要的經文就在這個地方,那這邊有英文、有日文
、有韓文、有泰文、有阿拉伯文、有法文都可以,然後只要這邊經文按出來
之後中文就跑出來, 跑出來後我這邊用一個指頭,就是那個 SENSOR,指一
下法文,法文就能夠針對這段自動翻譯出來;教學以後再擷取,這一段的中
文是怎麼樣,然後它的日文是怎麼翻譯,指一下日文就跑出來。

    歷屆祖師大德對這些經文裡的一些重要註解,就直接在這邊有一個小視
窗,翻出來看這一段經文,第一代的祖師大德他所講的就在這個地方,很容
易就跑出來。

    另外關於造字的問題,未來假如這個字造錯了,那要怎麼辦?我們可以
,假如這邊打一個新的字進去,只要電腦裡面有這樣的錯字,現在全部轉變
成一個正確的字,整個資料庫就可以重整。萬一以後你造字造錯,沒有關係
,你說這個字錯的話會誤導大家,那資料庫可以重整。所以我們的字未來好
像就是 R11、R12,或是 WINDOWS 第幾版、第幾版,一直在更新,更新到最
後,我們的錯誤率幾乎就沒有。寫出來的軟體一定會有 BUGS,BUGS 很難避
免,但是可以慢慢修正。

    目前我們這一套資料庫是美國非常有名的公司叫做 UNISYS 公司的,我
想沈博士大概知道。 我們用過其它的 WINDOWS 資料庫的軟體,IBM 或是其
它任何 WINDOWS 都比不上這一套。

    關於印表,假如我針對<法界品>,要把<法界品>的日文印出來,馬
上就可以印表,很方便,印出來就是你實際的資料。

    我感覺這個資料庫很好,我不知道沈博士這邊是不是在規畫,未來想讓
這樣的佛教教學軟體做到全世界各種語文都能夠容納在裡面,歷屆祖師大德
的註解都在裡面,而且要資料庫重整或印什麼表很容易來執行。我感覺這個
資料庫不錯,因為這個是我目前在專業裡面執行的,能提供大家一個參考的
資訊。

─────────────────────────────────

    沈家楨:各位看看,他們兩位講的東西已經是很專精很實用了,所以這
東西前途無量,但是前途也是種類繁多。我們怎麼樣把這種力量合起來,而
且這個力量合起來了,要大家發心。所以我倒很希望將來慧炬分庫能夠來做
這個連繫工作,今天只有兩個鐘點,只能談一般性的問題,將來很希望這裡
面有五位、十位大家聚在一起,有一個問題就大家來儘量交換意見。還有,
譬如他原來有一個公司,做這種營業,很可能他做出來的軟體要賣錢,也可
以啊,要賣錢也是合理啊,他也許可以特別廉價賣這個軟體,因為是佛教的
工作。

    我們要把這種力量儘量結合起來,這是將來的工作之一,我們可以早點
召開這種小組會議。

─────────────────────────────────

    楊毅:關於引用佛教資料商業化,倒是有一個 IDEA。 我們可以制定各
國當年的國民平均所得的千分之一以下,這個軟體賣的費用是這樣子,台灣
是一萬塊美金的話,千分之一就是十塊美金,十塊美金相當於兩百五十塊台
幣。如果這個軟體他賣兩百五十塊的話,我們不收費;超過這個費用,我們
斟酌收一些費用。

    剛剛這位居士講的那個資料庫軟體,它那個軟體目前發展出來有幾種文
字可以使用?

─────────────────────────────────

    蔣啟賢:這個軟體是一個系統,但是你可以做這樣的一個編輯,它裡面
就是空空的,是個平台。

─────────────────────────────────

    楊毅:它本身是用UNICODE的嗎?

─────────────────────────────────

    蔣啟賢:不是!它是用 UNISYS 公司的,目前都是用在銀行。我現在舉
個例子,比如說,今天的利率是八%,但是明天的利率要改成九%,全省的
PC 假如有十萬台,你要怎麼用硬體去改,你沒有辦法, 現在就在總公司台
灣銀行那邊打一個鍵說明天的利率改成九點零%, 整個台灣省明天全部 PC
開出來就是九點零%的利率,它有這樣資料庫很好的功能,它最主要是一個
平台、一個系統。

─────────────────────────────────

    楊毅:因為我想我們這個藏經最大的問題是字的問題,你那個如果沒辦
法 SUPPORT UNICODE,以後還是會有造字的問題, 就是說會像 BIG-5 的情
況一樣;雖然說它這個 AP 很好用,還是會有問題。

    我早上在廠商那邊,  了解到那個廠商本身有做一個   CCCII  內碼的
WINDOWS。 它那個 API 是一個介面,我們只要呼叫那個介面, 跟它 MATCH
相合的話,我們就可以在 WINDOWS 上面做編輯。 不過它只是一個介面而已
,我們必須再發展一個軟體,就是一個 EDITOR 在上面用,這個軟體在上面
用的話才能夠用 CCCII, 不過它已經給我們以後一個在 WINDOWS 上面使用
的曙光。

    剛剛這個居士建議的,就是有內碼的問題,我們必須再研究。

    因應佛經電腦化的問題,我可能發展一套輸入法,我給它暫時的名稱叫
「大師」。我這個輸入法有兩種輸入方式,一種是各國專用,是中文就用中
文的專業方式輸入,日文由日本的當地人專業輸入,這樣輸入才會快;另外
一種是屬於萬國的輸入法,我現在暫名為「大師通」,如果是中文就叫做「
大師中」,如果是日文輸入法就叫做「大師日」,如果是各國的輸入法就叫
做「大師通」,它可以打世界各國文字。

    我想有問題的文字大概是阿拉伯文,因為它可能字根會比較多;中文,
漢字最多,所以說在漢字系統上面發展出來的話,就能夠解決世界各國的輸
入障礙。它可以打中文、日文、韓文、簡體字、印尼文、越南文、希伯來文
、阿拉伯文,世界各國文字都可以打。

    這是我因應佛經電腦化所發展出來的,我預計在半年以後出版。我準備
給個人的消費者免費使用,廠商就另外說,這是我目前所預計的。在這裡順
便講一下, 我那個軟體裡面有一個叫「內碼產生器」, 裡面有一個內碼的
TABLE 自動幫你對應,也就是說你目前即使用 BIG-5,以後你仍然可以對應
CCCII。 BIG-5 裡面有一萬八千多個字, 我只要每個字把它定義說到CCCII
裡面是什麼字,以後你只要在裡面轉一轉,只要我的輸入法配合的話,即使
你用 BIG-5,仍然可以在 CCCII 裡面打出來。 這是目前我為電腦化做的一
些事情

─────────────────────────────────
Fri Mar 29 17:41:44 1996
回覆 | 轉寄 | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org