您有新信

 
【佛教文憲造字會議】會議記錄
#1
Post Gateway
發信站: 由 獅子吼站 收信 (cctwin.ee.ntu.edu.tw , 信區: BudaTech)
Subject: Buddhism Word Creation Conference

    主    題:佛教文獻造字會議

    主 持 人:謝清俊  教授

    引 言 人:釋恆清  法師

    時    間:一九九五年九月二十六日(星期二)下午一點三十分

    地    點:台北市羅斯褔路四段一號(台大哲學系一樓會議室)

    主辦單位:台灣大學文學院佛學研究中心

    錄音整理:摩訶工作室

─────────────────────────────────
1A.不明之文句以同音字置於【 】內,語意不全或錄音不清以... 表示
─────────────────────────────────

    (與會者自我介紹不完整,只整理謝清俊教授部份)

    <主持人自我介紹>

    謝清俊(中研院資訊科學研究所):

    在中文方面,我從民國六十年開始一直到現在,做了二十幾年的中文。
所以佛經方面,大家造字有問題的時候,就跑來找我。我是多管閒事,既然
有問題的話,我盡我的能力幫大家解決。其實中文電腦在現在非常普遍,用
的人也非常多,我想有能力解決這個問題的人也非常多。

    今天報告的東西主要是我們莊德明先生做的,等一下我們會把我們這邊
已經做的事情跟各位報告一下。

    我現在在中央研究院資訊科學研究所,在所裡面我也是年紀最老的一個
,所以他們通常不太管我做什麼事。吳大猷先生以前還沒辭院長時,給我一
個聘書聘到公元二○○五年,所以我現在也沒有升等的壓力,沒有出版論文
的壓力,所以我確實有時間來替大家做一些事情。

    等一下我們會把我們已經做的事情跟各位做一個示範,也非常歡迎大家
的批評。因為這個做服務的事情,服務的對象是最重要的,各位要利用這個
系統解決什麼問題,不能由我們閉門造車來想。

    這個問題剛剛也有些菩薩提到,說事實上儒、釋、道都有這個問題,其
實不只啦,所有用中文電腦的都有這個問題。我昨天在行政院開推動資訊小
組的會議,有人在內政部大聲疾呼,他說現在政府的辦公室自動化做不下去
了,因為就碰到造字的問題。他說「台灣」的「台」,正寫的跟簡寫的沒辦
法通,檢索的時候怎麼辦?諸如此類,很多這種問題。所以這個問題事實上
,我們今天所談的是一個最基本的問題,要整理電子佛典的話,這個問題非
克服不可。所以事實上也不限於我們這個會議裡面,假如我們能夠真正把這
問題解決的話,我覺得對中文電腦界都滿有好處的。

    我剛剛聽倚天劉先生說標準局也在解決這方面的問題,那很好,因為大
家都重視這個問題的話,我們正可以集思廣益,把這問題解決掉。不過我先
跟各位報告一下,這個問題似乎不是那麼簡單,如果是很簡單可以解決的話
,老早就已經解決了。這個問題事實上牽涉到很基本很基本的一些問題,就
是現在整個中文電腦的環境不夠好,你要把現在整個中文電腦環境改變的話
,那這個是相當相當長期的事情。好在我們現在佛教界我覺得滿合作的,而
且問題也比較單純,問題也定義得比較嚴謹,所以假如我們大家有心來解決
這個問題的話,我相信是可以解決到相當的程度,使我們這個電子佛經可以
大家互相的來流傳。

─────────────────────────────────

    釋恆清(台灣大學文學院佛學研究中心):

    剛才謝教授說,這件工作不簡單,可是並不是不可能,所以我希望這次
會議是一個起點。我們也不寄望一次會議就可以把問題解決,如果以後有需
要,我們台大佛學研究中心願意扮演連絡的角色,像這樣一個地方,交通又
很方便,這樣會議的地方我們可以提供,一些跑腿的工作我們可以來做。我
相信大家共同的願望就是希望能夠把這個造字的問題解決,這個功德應該都
是屬於大家的。我現在就不多浪費時間,就把整個會議交給謝教授跟莊先生
。

─────────────────────────────────

    <會議資料說明>

    ... (台灣大學文學院佛學研究中心):

    首先我們先看大的這一份「佛學文獻造字會議的課題」,這是我們今天
所要討論的課題,這裡有牽涉到我們可能會討論到的兩個問題。第一個是漢
字造字的問題。另外一個比較沒有被談起的是梵、巴、藏、羅馬字轉寫的問
題,其實這個問題在我們做佛典或佛教文獻的時候也是相當重要的一個部份
,所以今天我們就把這個納入到我們關心的主題裡面,也希望大家能夠提供
一些意見, 因為這個牽涉到在 PC 版或 MAC 版或是在 DOS、WINDOWS 底下
能夠共用的一些問題。這一張的下面就是我們提出關於台灣或整個世界上內
碼混亂的情況,然後還有今天我們進行的方式。

    另外一份「佛典共用造字集的規畫」,在前幾天已經事先寄給你們,這
是莊先生等一下會跟各位報告的。

    另外還有一張「問題、字母、外字集」,這也是莊先生今天再補充給各
位的一份資料。

    另外還有一張有很多碼,這一張是我們從日本花園大學的 CD-ROM 上面
COPY 下來的, 它原則是屬於他們日本禪學的一些造字,可能可以做為我們
今天開會的一個參考。 就是說看他們是怎麼做,他們選用的是 BIG-5 碼跟
他們的 JIS 碼,那他們怎麼樣做一個轉換, 我想這也是一個滿好的參考資
料。

    另外還有一份「 EBS 1001 佛典中文輸入規則」,剛剛已經有介紹過了
,是我們臨時印出來的。

─────────────────────────────────

    <會議開始>

    謝清俊:

    我們今天這個會,根據台大佛學中心規畫的課題,有字碼的問題,有梵
、巴、藏、羅馬字轉寫的問題,還有中文電腦系統的問題,還有進行的方式
。造字這個問題所牽涉到的,我大概跟各位介紹一下。

    造字這個問題需要一個很良好的溝通環境,因為造字是隨時會增加的,
如果沒有一個良好的溝通環境,有了新增加的字,把這新增加的字的碼定下
來了,那別人不知道,別人也不會去用。所以要解決造字問題,我覺得首先
要解決就是溝通的環境。這個溝通環境,當然我們終極的環境,我們是希望
有一個網路送到大家的每一個辦公室、家裡,你隨時要查的話,從網路上就
可以查到這些字,但是這一個理想可能還要好幾年才能實現,因為現在有很
多單位的網路事實上並不見得能夠通過去。

    所以我們這個造字的問題在構想的時候,我們可能分兩個階段。第一個
階段,我們還是用離線的方式來解決造字的問題。所謂離線的方式就是說,
希望有一個管理的中心,這個管理中心能夠匯集大家的造字,把這個字的碼
、屬性還有一些相關的東西都準備好了以後,定期的有磁碟片送給所有要用
的單位,那所有要用的單位就可以從這個磁碟片上去找在這一段期間裡面有
沒有這個字。如果有這個字,這個字的字碼是什麼、各種輸入碼是什麼、字
形是什麼、有關的屬性是什麼,這些資料在問題裡面一次就通通把它解決掉
。另外可能還有一個方式就是印書,因為有很多工作環境還不見得是跟電腦
配合來用的,所以在開始的時候我們還印一些索引字典之類的,把所有的造
字印上去。

    這些造字事實上是大家資訊共享的合作結果,也就是說這些字不管誰造
,佛光山造也好,法鼓山造也好,西蓮淨苑造也好,一旦造好了以後,這些
資料收集好了以後,我們是希望所有的佛教團體都可以享用它。這就好像圖
書館界的書目共享是一樣的,一本書有書目資料,只要有任何單位把書目資
料做好了,那麼所有的圖書館都共享,大家不必要再花時間再去從重新做這
件事情。所以這個造字問題的解決,我們是希望朝著資訊共享的方式,很平
等的來做,沒有任何的歧見,只要參加的單位都可以用,也不一定是要佛教
的團體。

    我們希望這個系統做到最後就是在網路上。我們假設一個情況,在網路
上我們要查詢或者是輸入一些資料,當你操作鍵盤的時候,你發現有一個字
你怎麼樣打電腦都出不來。這個時候,當然有一個可能是你打錯了輸入碼,
這個問題我們現在先撇開不談。假如你沒有打錯輸入碼,很可能就是這個系
統裡面沒有這個字。沒有這個字的時候怎麼辦呢?我們就是希望能夠在網路
上直接叫另外一個程式出來,就是叫我們網路字形服務的造字侍服機構出來
,然後你可以告訴它,你輸入不進去的字是什麼樣子的字。在這種情況之下
,多半這個字的發音很不容易,偶而會知道這個字的發音,但是多半是看到
這個字的字形,因此你必須要描述一下這個字,給系統知道這個字是什麼樣
子。

    那當然我們可以用我們的背景知識,比方說這個字雖然我不認識它,但
是我知道它是什麼部首,它可能是三點水,可能是「言」字旁,可能是草字
頭;或者是我知道怎麼數筆畫,我把筆畫數出來就可以整這個字。坦白來說
,是可以用這些資料去查這個字的。比方說這個字是三點水旁的,大概十七
畫,那麼你可以把這些經過一個制式的表達在網路上去查這個字。

    如果已經有這個字了,問題很簡單,問題不大。因為到了資料庫裡面一
查,把這個字查到了,水字旁的十七畫的或者十八畫、十六畫的字一共有二
十五個,那麼你看一遍有沒有很快就知道了。所以事實上資料庫有這個字的
話,問題不大,資料庫裡面就可以馬上把這個字的內碼是什麼、各種輸入碼
是什麼、它的部首是什麼、筆畫是什麼、發音是什麼、它有哪些構詞,甚至
於說有哪些異體字,我們希望這個資料庫裡面可以把這些東西完整的提供出
來,你就可以用了。

    那麼如果你系統裡沒有這個字,我們也希望有一些軟體能夠把資料庫上
面拿來的這些跟字有關的知識放到你的系統裡去。比方說有些字形可以放到
你的 FONT SERVER 裡面去,有些 ATTRIBUTE 資料可以放到你自己的小資料
庫裡面去,輸入法可以放到你的輸入法裡面去,那麼你下次就可以用這些東
西。這個地方還需要做一些軟體工具,來幫忙大家把東西弄進去。

    我要解釋一下,字形的變化是很多的,有各種體,有宋體、明體、隸書
、圓體、黑體,甚至於還有些各式各樣的中國書法上的體;這些東西的變化
也很大,有 DOT MATRIX 的,也有 SCALABLE 可以縮放的。這些東西如果各
位要的話,我想這個字的 SERVER 沒有辦法提供所有的字形。因此在我們的
構想裡, 我們希望大家以後就是一種字體的矩陣式,比方說 24 × 24,仿
宋體或者明體; 還有一種字體的 SCALABLE FONT, 比如說仿宋體或明體的
SCALABLE FONT。這個系統所提供的免費資料就到此為止。

    如果你還需要一些更漂亮的字、不同的字體,那麼這個系統應該有一個
WINDOWS 可以連到倚天、華康、文鼎這種提供字型的公司。我跟倚天談過,
也跟華康談過,也跟文鼎談過,他們的主持人原則上都同意說我們這個系統
發展好了以後,他們願意提供一個介面跟他們的系統整個連起來。那麼怎麼
樣收費?那以後再談。就是說,我們如果造了一個字以後,不是給一個單位
用;造了一個字以後,放到這裡的話,我們是所有的單位都可以用,不用每
個單位造一次這個字就被這些造字公司再收一次錢。

    我們這些安排大致上就是這樣子。但問題是,有時候你要找一個字,這
個字在資料庫裡不一定有。如果你要找一個字,這個資料庫裡沒有,你怎麼
辦?這個是比較頭痛的問題。那我們現在想了一個辦法,我們就把這個字的
結構用一個制式的表達方式把它表達出來。這個字的結構,按照我們中國人
的習慣,弓長張是橫的拼的,立早章是直的拼的,言身寸謝是橫的拼的,利
用這個字的結構,我們像四則加減乘除運算一樣,我們做一個非常簡單的所
謂的制式的表達。

    如果你發現一個字,這個字我只看到有這麼一個形,我不曉得它的筆畫
,也不曉得它的部首,什麼都不知道,但是我們希望你能夠用這種制式的表
達去找這個字。這個制式的表達,我們不一定要你寫得很全,你可以寫一部
份。比如說我要找一個字,這個字裡面有一個【絞絲】旁,那這個系統就把
所有有【絞絲】旁的字,根據字形【家族】的變化,它把整個變化的【家族
】通通給你,你去找有沒有這個?如果有了,就跟我剛剛講的一樣,這個字
已經解決了,這所有的資料下來你就可以用了。萬一說沒有,那麼這個時候
就要商量怎麼處理這個新的字。

    因此我們現在的構想就是用字的結構,也就是你看到這個字以後,你只
要認出這個字中一部份的字根,它所謂的組件,大陸上把它叫「部件」,就
是 COMPONENT, 你就可以利用這一部份 COMPONENT 去系統裡面找那個字,
如果找到了,問題通通就解決了。

    如果找不到的話怎麼辦呢?這有幾個方法,第一個方法,你知道找不到
了,那麼你那個單位如果有人力、有這個工作上的配合的話,你就可以去造
這個字的字形,你可以查一些字典。究竟查哪些字典呢?可能我們要商量一
下,就是說我們要查一些我們信得過的字典,是哪一個版本的康熙字典、哪
一個版本的中華大辭典、或者是一切經音義、或者是佛光大辭典,我們要大
家同意當我們在找這個字的屬性時要認清哪一些字典是我們必須要   CHECK
的對象。所謂字的屬性,就是部首、筆畫、發音、構詞、字形等等。把這些
東西通通整理好了以後,經過一個制式的形式傳到網路上給中心。這個中心
就好像是一個聯合書目中心,你做好一個書目,我收到了,我把它放進去,
然後給大家來用。

    當然你要是沒有人力,希望中心幫忙做這個事。那麼你就把這個字影印
下來,傳真過來或寄過來,那麼中心找人去做這個事,做好了以後問題就解
決了,大家就可以共用。但是在做的過程中間有很多問題,必須還要想辦法
去解決。比方說我在輸入一個佛經,輸入到一個怪字,比方說三點水旁邊一
個言,我怎麼打,系統都沒有這個字,我就去查,查也沒有這個字,這個時
候怎麼辦?我當然可以說我慢慢造字,把這個字造好了再放到中心去,也可
以等中心去造字。但是這個字沒造好以前,我工作還是要做啊!那這個時候
怎麼辦呢?一個辦法就是說,你用一個制式的表達,告訴中心說這個字是三
點水旁邊一個言, 那中心就會給你一個臨時的 CODE,你輸入檔案時就用這
個臨時的 CODE。 然後你還要準備一個檔案,把這個字的制式表達記下來,
為什麼?你再繼續輸入的時候,說不定你又碰到這個字,那中心還沒把這個
字弄好,你是不是又要查一遍?這個時候簡單一點,你就查查自己的檔案,
以前有這個字了,這個字是什麼碼,就把這個碼用下去。

    等到這個字的資料通通整理好了以後,正式的碼定好了,中心那邊的資
料庫更新了,那麼就可以有一個軟體,這個軟體還是要大家開發的,這個軟
體就可以根據更新的資料,把你打的檔案重新跑一遍,把原來中間用的臨時
碼通通換成正式的碼。

    所以我們就構想了這樣子一個解決的辦法。這個當然跟你們輸入時打字
的規則有關係,各位如果電腦打字用得多的時候,你就會常常碰到這樣的一
個問題,就是我輸入一個字時沒有這個字,我就處理掉,過了一陣子又沒有
字,我再處理,當你造字超過幾十個、幾百個的時候,甚至於造了上千個的
時候,你前面造的字跟後面造的字你忘記了,根本很難比啊!所以這些工作
上必須要的工具,我們也希望在這個計畫裡面能夠發展出來。也就是說,這
個計畫發展的不只是一個中文造字管理的問題,而真正這個計畫做下去的話
, 我自己的看法是,這根本就是一個所謂 DATA ENTRY SYSTEM  ,就是一
個資料登錄系統要好好整理出來。因為這些造字的管理跟資料登錄系統不互
相配合起來的話,那這個系統是很難用的;即使你有一個很好的造字系統,
你跟資料登錄系統沒有辦法好好配合起來的話,這個資料登錄系統還是相當
的不好用,問題沒有好好解決掉。

    這個計畫我們就這樣大致上這樣做了一個構想,但是我們絕對不認為這
個是唯一的構想,或是我們堅持的構想,我們都沒有這種想法,我們是很希
望聽一聽各位實務經驗很多的給我們一些意見。就是說,是不是我們開這個
會,大家可以有一個共識──「我希望以後這個系統大概是怎麼樣運作」,
這個東西對我們電腦工程師來講就等於說是外部的規格。你這個外部規格定
好了以後,我再做內部的實施,那這個是工程的事情。那這個外部的規格,
工程師的不能專權的,一定要聽聽各位的意見。那麼多收集一下意見,我們
把這個東西弄好了以後,這個系統就比較好發展。

    事實上這個字的問題要解決,還不只我剛剛講的這些資料登錄過程中的
管理問題,還有一個非常嚴重的問題就是字跟字之間究竟是什麼關係。像我
剛剛舉的例子,「台灣」的「台」一個大寫的、一個小寫的,你輸入的時候
是一個字還是兩個字呢?那你檢索的時候是相同的字還是不相同的字?「台
灣」的「台」這個字的問題還少。

    佛經從漢朝一直到現在,這麼多年中間,有歷史語言學的問題,也就是
這個文字在古時候是一種形式,到現在是另外一種形式,整個字形、字體的
變化相當的多。在這樣的情況之下,這個字究竟是不是同一個字?或者這字
是不是另外一個字的近似字或者反義字,諸如此類的東西。這些東西是需要
相當多文字學方面的知識、文獻學方面的知識,互相配合來做的。

    所以這個問題真正要解的話,各位可以想想看,如果我們不把這些文字
學的知識放到電腦裡面去,那個笨電腦怎麼會幫我們做這個事!所以這個問
題真正的癥結所在,還是一個中國文字上的知識怎麼樣在電腦裡能夠好好表
達的問題。 中國文字的知識絕對不是像現在這樣是一個 CODE、一個字形就
完了,如果中文字永遠是只有一個碼、一個形在電腦裡面就算是中文字的話
,那個寫程式的就很辛苦了,等於所有其它的知識都要他自己重新加進去,
那這個系統就很難做。所以中文字處理的問題,事實上如果說得深一點,它
根本是一個中國文字的知識在電腦裡怎麼表達的問題,這個問題如果不徹底
解決的話,中文電腦所提供的硬體、軟體環境不可能好。

    這種情形事實上在台灣我們也說過好多次了,就是我們一直呼籲在台灣
的電腦界能夠發展一個好的中文操作系統出來,因為操作系統是伺候人用電
腦的。你看國外的操作系統,它有很多東西都可以幫忙我們做外國語文的統
計,甚至於做英文二十六個字母的統計,可以做字的統計、詞的統計,做文
章的壓縮。這些用國外的電腦對英文的文獻做處理,我們可以看得非常非常
的多;但是這些東西,中文有沒有?一個都沒有。所以事實上整個中文電腦
的處理環境,中國語文文字的知識放到操作系統裡面去,這個工作還差得非
常非常的遠。在這個問題沒有好好解決以前,我自己的看法是,我們解決這
個造字的問題只能夠先從治標的方法開始做起,先做一些工具能夠滿足現在
大家工作上的需要,然後慢慢的這些工具多了以後,希望以後這些工具能夠
變成中文操作系統中的一部份,把它標準化、制式化,這樣子我們以後處理
佛經的問題就比較好解決。

    當然我剛剛跟各位報告的這些東西,還是在腦子裡的構想,也沒有把它
好好寫下來。因為我們始終覺得,有這麼一個構想要實施的話,後面還有好
多事情要慢慢做。我們也很希望大家,如果有興趣的話,發心來大家一起做
這個事。比方說,我們那個辦公室只有四個人,德明一個,我一個,還有一
個學中文的、一個學圖書館系的兩位女孩子。那我們還有其它的事情要做,
所以通常我們的人力也很單薄。

    上回有幾次聚會,大家把這個字交給我們,我們開始整理這些字。不過
這些字的資料,比方說這四、五千個字就要查字典查什麼,也是很繁瑣的事
情;而且究竟查什麼字典比較可靠呢?這個也不是我們這些學計算機的可以
決定的。所以各位如果願意分擔一部份事情的話,我很希望我們在這個會裡
面大家商量一下怎麼合作。

    過去這一年多,我們實驗室是發心替大家解決這個事,但是我們的工作
主要是莊先生他做的字形資料庫,這個字形資料庫做為以後大家檢索文字的
一個核心。大家都知道,根據屬性檢索的話很簡單,我用一個關連性資料庫
,把這些屬性放進去,我就可以用屬性檢索了,這個並不難;如果我們現在
還沒有這些工具的話,要做我們就慢慢做。但是問題是我剛剛講的,像這個
結構的資料庫就很麻煩,中間還有很多技術性的問題必須要解決。等一下莊
先生跟各位報告的就比較偏向技術方面。

    我們實驗室主要是莊先生一個人他花了一年多的時間做了這個資料庫,
各位可以看看在這個資料庫裡面,字是怎麼定義的,字形是怎麼定義的,字
樣是怎麼定義的,還有這個資料庫裡面怎樣去找各種不同的字、字體、字形
,以及這個資料庫檢索時的一些 KEY 是什麼。

    很抱歉!我們過去的一年多,只是把這個核心問題解決了。我剛剛講到
的外圍的這些應用軟體,一個都還沒有開發,也沒有把外圍的這個應用軟體
系統好好的寫下來。我們是希望這個會多開幾次以後,我們可以把要發展的
這些系統的外部規格寫清楚。大家不一定要是電腦專家,你只要跟這個業務
有關,把這個業務的需求講出來,我們就可以把這個外部的規格寫出來。這
個外部的規格寫出來,我們就可以規畫哪些好做、哪些比較急、哪些比較緩
,一步一步把它做出來。

    我不知道這樣報告是不是大家聽得清楚,但是我想也算是一個希望大家
構成的共識吧!

─────────────────────────────────

    莊德明(中研院資訊科學研究所):

    我今天大概很快把我這篇文章的重點唸一次,然後有什麼問題大家儘管
提出來,文章上面沒有顯示的 DEMO 我等一下也會做。

    這文章因為已經事先發下去了,所以我就選比較重要的地方。在第一頁
這個地方說,我目前所收集的造字大概將近五千八百多個字,這裡面有些有
造字檔、有些沒有。在我這邊螢幕上的顯示,你可以看到一些簡單的字形。
佛光山的《禪藏》大概有兩千多個字,然後沈家楨那邊的佛教電腦資訊功德
會也有一些字。 你可以看到這字形有粗有細, 一邊是倚天的造字,一邊是
WINDOWS 的,因為一個是細明體,一個可能是中明吧,所以粗細不太一樣。

    對所收集到的這些造字集,我就提出一些問題。這些造字集裡面一定有
很多的一樣的,這些一樣的到時候怎麼把它合併?還有這些造字集裡面有一
些特殊符號、外文字母,這些到底要怎麼樣處理?還有一些我認為不太需要
收錄的,比如說屬於字體上的問題,像這個平常我們寫的「尚」,假如是這
樣寫的話,這是另外一個字體上的問題,但是有時候造字也把這種有關字體
的問題也收錄進去,這方面我認為是不應該收進去的。還有另外一個是異體
字的問題,像這個「遍」跟這個「彳∞扁」,到時候這種異體字在我們這個
造字集上要怎麼處理?是都要造呢?還是說明之間的關係,只要用一個通用
字就可以了?

    等一下要 DEMO 的大概就是這篇文章的第二頁,就是一個造字在造之前
你怎麼看看這個字造了沒有,就是有關於造字的索引。提到這個造字的索引
,我們講的是一個字的定義,比如說這個字,我可以把它定義成「彳∞扁」
,這就是它的一個定義。這種字在我的文章上有陸續出現,比如說這個橫的
「君∞羊」或直的「君%羊」,等一下我的系統都可以顯示這些。

    我現在要顯示這個部件系統,假如看不清楚,可以到比較前面來看。講
義上有幾個字的字根式定義,我從我這邊的電腦可以打出來,大家可以看一
看。像這個「根」,左邊一個「木」,右邊一個「艮」。這個「時」在這個
系統裡面的定義是左邊一個「日」,右邊一個「寺」。然後這個「寺」還可
以上下分成上面一個「土」,底下一個「寸」。

─────────────────────────────────
1B.
─────────────────────────────────

    就是說這種找法跟字典的部首不太一樣。在字典裡面你大概只能用單一
的部首去找,因為每個字只有一個部首。但是在這裡你找的話,是個字根或
者是部件。在我這邊,像「日」是個部件,也是個字根,因為拆到「日」我
們就不往下拆了,所以把「日」看做是一個字根;像這個「寺」,在這個系
統裡面它只是一個部件,因為它還可以繼續往下拆。也就是說,你只要從這
個字形裡面的任何一部份來找都可以,不管是字首,不管是字根,或者是部
件。

    原則上我們是先做字形的定義,把一個字形分解成各個部件,再把部件
繼續分解成字根;然後等每個字形的定義都有了,我們就可以回過頭來找,
從部件或者從字根來找這個字形。

    這個資料庫除了字形的定義跟從字根、部件來找字以外,我們還有處理
到所謂異體字或通用字。比如說大家看到這個「牆」,在我們輸入的時候,
事實上我們已經把所有異體字的資料輸進去了,「爿∞嗇」這個是「牆」的
結構,但是右邊這三個「牆」、「晼v、「廧」是「牆」的異體字。

    在我們這個系統,異體字不一定要能夠顯示。比如說這邊有一個「雞」
的字形,那第二個、第三個因為我沒有造字,我們還是可以從字根式來看看
它的字形應該是什麼樣子,像這第二個字是「奚∞鳥」,第三個是「又∞鳥
」。也就是說,我們這個系統可以處理異體字,但是異體字不一定要造字;
你不需要造字,你還是可以從字根式來看出它的字形。

    這個系統跟這篇文章特別有關係的,大概就是這樣這個樣子。就是說,
原則上它先定義字形的結構,然後我們可以從字根或部件來找出相關的字,
或者是處理異體字。

    接下來要講的是對 BIG-5 裡面的造字區,我們現在要怎麼樣規畫。 因
為我這邊講的是比較細,我要定這些東西的話,還是希望能夠聽聽大家的意
見。所以我這邊事實上是一個初稿,等聽完大家的意見後,才有辦法定稿。

    我們現在大部份用的都是 BIG-5, 但是我這一篇雖然是用 BIG-5 為例
子, 但你真正編碼的時候,或許其它的 UNICODE 或什麼碼,你都可以用這
個方式來編碼。

    BIG-5 大概是 13053,但事實上只有 13501 字, 因為有兩組重複字。
它的造字區大致上可以分成四段,總共是 6217 字可以用。但是在它的第四
段裡面,倚天中文系統跟微軟中文視窗他們的處理不太一樣,在倚天中文系
統的第四段的  408  字已經有定義了, 所以事實上在倚天底下能定義的是
5809 個字。 那我們這裡為了兼顧在兩個系統使用上的一致性,所以那個第
四段我們基本上目前是不拿來造字, 所以我們討論到的造字總數還是 5809
字,也就是說我們現在有 5809 字可以拿來造字。

    這些造字碼事實上並不是連續的,像第三頁底下第二個表所講的,它前
面 63 個字是連續的,後來隔了好幾個字,接下來才有 94 個字是連續的,
也就是說這 5809 個在 BIG-5 裡面的造字不是連續的。

    然後為了編碼的方便,後面附錄一有一個方法,就是可以把這 5809 字
變成一個連續的號碼。 也就是說, 我從 1、2、3、4 一直編到 5809, 這
5809 個序號都可以跟其中的內碼一一對應, 那我們以後在討論到編碼的時
候,就不用討論到內碼,就直接討論從第 1 號到第 5809 號的序號。

    底下真的是要聽聽大家的意見,比如說我們現在有這 5809 字可以用,
在使用上我們感覺,造字區應該可以分為兩部份,一部份是公用的,一部份
可能是你私底下可以用的。因為中國字的數目遠遠大於這 5809 字,即使每
個字都拿出來用,到時候還是不夠。我們是覺得在處理佛典的時候,可以把
使用頻次比較高,大家比較常用的,把它放在公用造字區。假如是一些私底
下只有一個單位或幾個單位用的,可以放在一個專屬的造字區,他們可以在
這塊造字區造字,這個碼可能是對他們才有意義的。

    剛剛的考量是依據使用的頻次,另外一個是根據索引來考量。像我們剛
剛看的查詢字形結構,在字形結構裡面有很多的字根跟部件,這些字根跟部
件事實上很多還是要用到造字,就是說有些字根本來就沒有,是我們自己造
上去的,有些部件也是一樣。所以你假如希望能夠用這一套系統來索引你的
造字,你又得把一塊造字區分配給這些字根跟部件。我們定義了四百多個字
根,真正需要造字的大概將近 180 個;我們用到 561 個部件,要造字的大
概有 528 個。 我們這個數字是根據我們所做的一個實驗,這個實驗用到將
近九千個字形,裡面用到造字區的就有 528 個部件跟 180 個字根,所以將
近用到 708 個。 就是說,你要用這個文件夾或字根來找新字的時候,就要
分配一去造字區給這些字根跟部件用。

    接下來在編碼的時候要考量的就是這些所謂的特殊符號,這些特殊符號
大概會有多少個?我從佛光山《禪藏》 2041 個造字裡面看到,它的符號用
得最多的就是這些大小寫的流水號。這些流水號有多少種,大家可以看看我
今天後來發的一張「問題、字母、外字集」,那一張最底下有一些流水號的
樣子。就是說我們到底要用多少種?在編碼的時候要挪多少空間出來?

    另外一個就是所謂的外文字母。 日文字母在倚天中文系統那一塊  408
個字已經劃為日文字母, 假如我們把那一塊在 WINDOWS 的使用上也訂成跟
它一樣,那日文字母就可以解決。像梵文、轉寫字母,這些外文字母到底要
收錄多少,這我不知道,還有待這次會議來解決。

    所以在這次會議裡,我很希望第五頁的表四「內碼空間的分配」,在公
共區應該給多少個造字,或者外文字母應該給多少個造字空間,然後流水號
應該給多少,這整個把它定下來。

    接下來的表五,比如說我們有四千字的共用造字,這四千字要怎麼分配
、怎麼排序,基本上我們是按照筆畫來排序。表五我是從一部字數大概一萬
字的大學字典,我把它的筆畫做一個統計,計算每個筆畫出現的頻次大概多
少。 比如說九畫的出現頻率是 6.54,假如造字空間是 1000 字,那它大概
就分配到 65 字。這個表主要是分配共用區的那一塊造字空間。比如說我們
公共字區有 4000 字,這 4000 字要有個排序,我就按照筆畫來排。比如說
十畫,它所佔的頻率假使說是百分之十,那也就是說 4000 字裡面,你要分
將近 400 字給十畫的字來用。

    照以上所說的分配下來後,比如說這一塊是給十畫用的,我編碼的時候
不一定要從頭開始編,也可以從中間開始編,然後上下這樣跳,這樣每個筆
畫跟筆畫之間留的空間會比較有彈性。

    接下來是討論到點陣字跟縮放字形,我寫了一個比較小的造字轉換程式
。 不管你的造字是在倚天或是在 WINDOWS 裡面,或者是你有好幾個造字檔
,利用我寫的這個小程式,你就可以把這些造字檔合併。也就是說大家也可
以自己先造一些字放在自己的造字檔,然後送過來,我到時候再合併。譬如
說, 這邊是一個倚天的造字檔,這邊或許是一個 WINDOWS 的造字檔,那我
要把這個新碼轉過去,這樣就可以把這個碼轉過去了。就是說我有好幾個造
字,我最後還是可以把這些造字合併在一塊。大家分開造字也沒有關係,到
時候也可以合併。這是關於點陣字形。

    那關於縮放字形,我目前還沒有處理。我知道市面上華康已經有一些基
本的產品,因為我們實驗室有一套,所以我做個簡單的介紹。在「問題、字
母、外字集」那一張裡面,最後的一部份就是華康的外字集,它所謂的外字
集用的就是造字的那一部份,除了 BIG-5 那 13051 字以外,它大概又定義
了幾千個字你可以用。這個情況也就是說,假使我們自己定好了 4000 字,
當然也可以利用它的方法、工具,把那 4000 字補上去,這樣也就可以得到
初步的處理。

    像今天印出來的這一份「問題、字母、外字集」,就是我現在機器上所
顯示的這份文件。最底下就是華康的外字集,這些都是 TRUETYPE 的造字,
它也提供一個造字工具,我們可以去修改這些造字,也可以把我們自己的造
字變成 TRUETYPE。 中間的巴利文、梵文、藏文、日文,都可以在螢幕上顯
示。

    今天來這邊做一個簡短的報告,主要是聽聽大家的意見,我這篇文章才
有辦法做進一步的定稿。我的報告就到這裡,希望大家對我的報告多提出討
論。

─────────────────────────────────

    單維彰(中央數學系):

    今天來這裡發表我個人的一些很粗糙的意見。也許很唐突的,因為我從
來沒有在這個 FIELD 盡過一己之力,然後現在卻要說一些話, 當然這很可
能是錯誤的。我剛剛聽的時候有非常多的思緒,但是現在非常混亂,一時還
不知道什麼東西比較重要。所以首先就是先跟各位對不起,萬一我說錯了很
冒昧、很唐突的話,請各位寬容。

    莊先生做的這一套東西,我覺得他個人的功力是很深厚的,這事情可以
說是做得很偉大,因為在一年的時間裡面,你可以從最基本的東西,一路從
最下面做到最上面來,等於做了整套的系統。這件事情以一個做學術的眼光
來看是很有價值的,但是我個人認為這裡面有兩個很危險的事情。

    第一個事情是,你的整個發展,從最下層到最上層,從最下層的字的編
碼到字形的結構、MATRIX 的結構、GLYPH 的做法, 然後整個 SEARCH 的方
法,一直到最上面的使用者界面,你全部在同一個系統上面做。這個系統當
然目前是全世界最暢銷的系統,但是它很顯然不是全世界唯一的系統。這樣
做面臨兩個很明顯的問題, 第一個是【 PORTING 】,就是假定今天有一個
人覺得 MAC 比較好用,或是 UNIX 比較好用, 那他要怎麼辦?第二個問題
是,  比如說五年前這一套系統根本不存在,  五年前比如說每個人都在用
WORDSTAR,那麼今天 WORDSTAR 已經不存在了;這個東西目前是日正當中,
誰能夠說明五年之後是怎麼樣的系統,如果五年之後我們不用這個系統時,
是不是整個東西幾乎都要重來,或者至少要把它取出來放到別的系統去。這
是一個我發現的明顯問題。

    第二個我發現的明顯問題,還是跟剛剛可以說是連貫的事情,我覺得這
整個編碼、造字、使用者界面,這些應該是不同的東西。在整個電腦發展過
程,現在大家應該會同意的事情,就是說我們應該讓不相關的東西儘量不相
關,然後讓這些不相關的東西之間,每一個東西它有一個標準的輸出、輸入
界面。 如果以後我們不用 WINDOWS 了,但是我們希望這所有的字跟編碼還
可以用,那麼編碼應該是一個獨立的系統,造字是獨立的系統,它存造字的
點陣集合或者描邊字集的方法應該是在另一個系統,等等的這些系統都有一
個標準的界面。有了這些標準的界面,你可以在最下層遊走,你可以在這個
系統上用,  或者你高興就把它拿到   MAC  上面去用,  或者拿到  UNIX
X-WINDOWS 上面去用。

    這是我剛剛看了這套系統以後的想法。我現在又想到,同樣是這個系統
的一個問題,剛剛莊先生做了一套非常好的檢索系統,但這些檢索多半要靠
已經存在的字根,那麼有一些字是沒有辦法用已存在的字根做的。我剛剛坐
在這邊想,實在想不出什麼很好的例子,我舉個例子...。 不過這些字很可
能在佛經裡面是不可能出現的,像這兩個字是廣東話的方言字,這個是閩南
語的方言,誰發明的我也不知道,但是本來就存在的。右邊那個字是「沒有
」的意思,左邊那兩個字就是廣東話說的「蟑螂」,但是我不會用廣東話說
。這是個問題,所以你這個檢索系統可能不太容易全面。

    事實上我認為因為一共只有五千八百多個字,因為各位已經發展這麼多
年的東西,我個人實在很懷疑還能夠再增加什麼字,假定真的只有五千八百
個字的話,那我覺得其實一個很簡單的方法,當然莊先生的程式本身很好,
但我覺得實用而言,也許大家把造的字就印在這種 A4 的紙上,假定各位是
按照這種方法來排的話,一頁可以排 161 字,5800 字排不到 40 頁,不到
40 頁是一本很薄的小冊子。 如果大家用筆畫來排,即使你算錯筆畫,也差
不多是多一畫、少一畫,那你要查的頁數可能不到三頁,那大家眼睛看一看
也大概就查到了。當然這檢索系統還有其它的好處,就是 SEARCH 跟它重新
造字的時候是有好處。這大概是第三點。

    第四點,回到我剛剛說的各種東西應該把它隔離出來的問題,因為剛剛
也看到莊先生整理很多單位不同來源的造字系統,這些造字可能是因為大家
不太熟悉到底我們中國字還有哪一些編碼、還有哪一些標準的字集。順便說
一下,所謂的編碼跟字集是兩回事,字集是我們來規定這些字放在一組集合
裡面,編碼的意思是現在我要把這個集合裡面的每一個字放一個號碼上去,
使得電腦在傳送的時候,我丟一個號碼過去,然後對方就知道這個號碼對應
哪一個字。

    那麼當我在說編碼跟字集的時候,進了電腦裡面,光說這兩件事情是沒
有意義的。因為當你說我這個字是「你我他」的「我」,那也許大家認識這
個字,那就沒有問題了;但是如果今天說我這個就是廣東話「蟑螂」的「蟑
」,那也許就沒有意義了,因為沒有人知道它怎麼寫。所以在電腦裡面你如
果要有一套字集跟字碼的話,你一定要配上一套標準的字體,不是字形,也
許這些都是文字的遊戲。所謂「字體」的意思是說這個字基本上該怎麼寫;
那它要歪一點、斜一點、花一點、俏一點,那就叫「字形」。

    字形跟字體之間一定要有一個範圍,你不能變化得太過份,當然這個範
圍是沒有數學的定義的,所以我們很難說清楚,就只能說大家憑眼光。像剛
剛莊先生指的那個「尚書」的「尚」,上頭是往裡面撇兩撇,還是往外面撇
兩撇,怎麼認為這是同一個字,還是不同的兩個字,這件事情我個人沒有辦
法,因為這沒有一個數學上的定義,或許有可能會有,但是我沒有想過這個
問題。在英文字母上面有這個數學上的定義,一個字的字體跟它的字形,它
歪斜的程度、花體的程度,有非常嚴格的數學定義,超過那個範圍就考慮是
不同的字。

    我剛剛說到一堆字,我們把它分成三個觀念──字集、字碼、標準字體
,這三件事情可能是很多造字單位並沒有清楚的,也許你在使用電腦的時候
, 你所有的世界裡面你只知道 IBM PC,然後所有的字裡面你只知道 BIG-5
定義的字,所以你就認為 BIG-5 的字不夠,所以你就造了那麼多的字。 事
實上很多人知道 CCCII,但是我個人不知道,所以我沒辦法在這裡講。我個
人知道比較多一點的可能是 CNS,那是行政院中央標準局訂的所謂中華民國
的國家標準交換碼。

    這個中華民國的標準交換碼, 很可憐,我們自稱是電腦王國,但是...
第一次出版的時候是 1986 年, 那個時候它的程度跟 BIG-5 所定義字集的
程度差不多是一樣的; 90 年、91 年、92 年,它都有升級,就是廣大它所
定義的字集。我看到的這一套是它 92 年的東西,當然我個人的學識沒辦法
懂,因為上面有大概四萬多的字,我認識的字可能就不到二十分之一。但是
從側面的觀察,我個人覺得這一套字的後面一定是有一位非常了不起的人在
做這一件事,至少在我能檢查的部份,我覺得非常欽佩它的做法。然後他們
出了一本三百多頁的 MENU, 這個 MENU 上面什麼話都沒有,就是一個字一
個字印在上面,然後它就告訴你說這個字的標準字體是這樣寫的,這個標準
字體它有一個 40 × 40 的一個點陣的檔案,很清楚的告訴你它的格式是怎
麼排的。然後它存在磁碟片上,所以你要知道這個字標準寫法怎麼寫的話,
那個資料已經在那裡了,你把它印出來就好了;如果你不要印出來,你就看
那一本手冊。

    因為我相信在這邊可能大家不大清楚,所以我昨天晚上就特別就我手邊
的資料我就寫了一份有關 CNS 的介紹。總之,這一套 CNS 它一共定義了四
萬多個字,其中包括了教育部、戶政單位,教育部定義了所謂的常用字,那
差不多就是 BIG-5 碼前面的那一段,然後次常用字就是 BIG-5 碼後面的那
一段。它分成七個集合,前兩個集合外,第三個集合就是罕用的字,比如說
「宏痐膝q」的那個「痋v,還有「堶情v的「堙v,都是或體字。這些字
倚天的 BIG-5 把它放在所有字的最後,一共七個。

    還有我昨天晚上拿了各位已經放在電腦網路上,由邱大剛先生放上去的
,有很多人輸入的東西,我在裡面儘量去找那種沒有的字,就是有些字因為
沒有,所以輸入者就說左邊是什麼、右邊是什麼,那我一共找出來大概十個
左右,因為我的時間很有限。 找到十個左右,我都可以在 CNS 的第三個集
合或第四個集合找到字。它一共有七個集合,我個人還從來沒有看到第五、
第六或第七個集合裡面的字,因為第五個集合還是第四個集合已經是戶政字
了。所謂戶政字,各位知道,有很多相命先生會說你缺土、缺水,就在各種
地方加土加水,這種字通常來說是不存在的。最後兩個字面是教育部規定的
一萬多個罕用字,那一萬多個罕用字可能真的是罕用字而不是異體字,因為
異體字、或體字在第三或第四個集合就有了。

    所以我現在就是說,因為不能光聽我一個人,也許要問莊先生或哪一位
, 有沒有人真正檢查過這五千多個造出來的字是不存在於 CNS 標準碼裡的
。首先也許我們應該先確定這件事情,如果你造的每一個字都已經被定義在
那一套標準碼裡面的話,那如果我們今天再來說我們要把哪一個字碼放在什
麼地方、它應該怎麼寫,我覺得這可能有點危險,這會造成多頭馬車。既然
已經有一套標準在那邊,人家也是頗為用心的做這件事情了,畢竟也是中華
民國標準碼,或許我們應該給它一點機會,看一看這個碼是怎麼回事。

    但是話說回來, 你要寫程式來用這個標準碼,其實是不簡單的。 因為
BIG-5 還有其它的碼之所以能夠適用於今天的電腦系統,是因為它使用所謂
的兩個字元,這也許牽涉到太多的技術層面,但如果沒弄清楚這技術層面,
也許我們就沒辦法弄清楚我們要怎麼做,但是我覺得現在是沒有辦法談。

    基本上我的意思就是說,因為中華民國國家標準碼定義的字太多了,也
像 CCCII 這些東西一樣的,它真的是滿難用的。 所以我個人的一點意見就
是說,剛剛莊先生有說過 BIG-5 裡有兩個重複的字, 不但如此,它有大約
十七到二十個之間錯誤的排序。所謂錯誤的排序是當我們要排一個中國字集
時,我們要把它排順序,排順序時首先要照它的總筆畫排,然後照部首筆畫
排,然後再怎麼樣,這牽涉文字學的事情是我不能了解的,總之你要有一個
排序,這排序使得以後我們要做檢索或 SORTING 時都比較自然一點。 那麼
在大五碼或五大碼裡面有十幾個排序錯誤,其中還有兩個字是重複使用的。

    還有一個在【 IMPLEMENTATION 】上面比較麻煩的事情,它字碼的編碼
並不連續。諸如此類,有這些問題,而且它不是在國際標準局裡面註冊的碼
。國際標準局對所有世界上的國家,你想要把你的語言放一個標準碼的,然
後它就開放你們來登記,這叫 ISO。中華民國以政府出去登記的當然是這一
套標準碼,中國大陸有它自己的國標碼,日本人有它自己的工業系統碼 JIS
,據我知道阿拉伯、伊朗都有登記。那麼大五碼是沒有登記的,它就變成一
個很奇怪的東西,它是在全世界使用傳統中國字的華人系統裡面最暢行的碼
,事實上它很可能是唯一的碼,這是很無奈又必須接受的事情。

    講了半天,我的意思就是說,大五碼是一定要用的,至少在我們看得到
的這五年、十年之內,我覺得是沒有辦法把它淘汰掉,這是很遺憾的事情。
我們一定要用它,但是我個人的意見是說,我們要用它,我們就儘量用大五
碼已經定義的那一部份,而儘量不要用它 USER DEFINED 的那一部份,因為
那一部份如果你定了字下去的話,你就一定會跟別人衝突,因為每一個人都
沒有一個標準的看法,那個怎麼弄?

    所以我個人的想法是覺得,我們現在佛經或是中文古籍非常困難的這種
東西,這輸入是非常勞累的事情,絕對應該只做一次,也許校對兩、三次,
就是不應該花太多時間,因此我們要儘量把這一件事情跟其它事情通通分離
出來。

    因此我建議我們做兩套事情。一套事情就是說,我們現在輸入的所有文
字,我們用一套我們覺得最可能完備的碼,現在看起來只有兩個候選人,就
是國家標準碼 CNS,還有一個 CCCII,看起來可能就是這兩個;然後我們所
有的存檔都是用這兩種碼來存,因為這兩種碼很可能能夠包含所有我們碰到
的字。雖然這一套碼很難用,但是誰也不能保證以後不能用,反正我們留在
這裡。因為這一套碼第一點滿標準的,第二點它設計的滿好的,第三點它很
可能包含我們所有的字,所以我們拿這一套東西存下去比較安全。那有這麼
一套標準字碼在這邊以後,日本人、英國人、美國人、澳洲人都知道中華民
國有這一套碼,那他們要做什麼軟體時很可能會支援這一套碼,因此我們以
後可以用的別人寫的程式就會多起來,而我們要重新寫的程式就會少一點。

    所以這一套東西我們也許叫它 MASTER DATA,就是母帶,就像一個歌星
唱歌, 我們有一套母帶存在那邊,以後再拿來灌唱片、壓錄音帶、CD 唱片
。我們這一套東西當然會花比較大的磁碟空間,因為它編碼不同的關係,但
是我覺得磁碟空間現在沒有任何困難,我們就把它存成這樣子,然後以後一
層一層的應用,我們從這裡面拿東西出來。

    假定我們選了 CNS 的話,那 CNS 每一個碼對應的標準字體也是已經被
定義存在在那裡,所以我們需要用一個一個點來造字的機會就少得多。當然
剛剛提到佛光山用到括號 11、99 這些東西,那可能真的是沒有的,我相信
CNS 裡面也是沒有的,那就真的要造字。

    我剛剛說 CNS 有七個集合,事實上它一共定義了十六個集合, 從第十
二到第十六的五個集合全都是空的,那我們可以挑一個集合來用。我個人的
意見是說,儘量不要挑一個所謂 USER DEFINED 的集合。我們應該挑一個集
合,然後各位這麼多大師在這邊,也許可以動用宗教界,反正是政治的力量
,然後去跟中央標準局說:「這個集合就是我佛教的集合,我要訂在這裡。
」因為反正它還有五個空的嘛,足夠給五個很大的團體來搶,也許佛教團體
就可以訂下這個集合,別人都不要去碰它。

    如果這個政治力量可以走得通的話,我覺得這是比較方便的事情,我們
就訂在這裡地方了,別人就不要來動我這個地方。那以後造字就一個個慢慢
的增加,但我相信總有穩定的一天,那一天之後很可能大部份我們要碰到的
在 CNS 裡面還沒有的字可能都會出現了, 這時候我們應該用一個比較合理
的方法把它在那個集合裡面排序好,以後如果再發生的話,就真的比較麻煩
了,可能真的要 USER DEFINED。

    但是我個人實在是覺得,今天我們要輸入的佛經都是已經存在的東西,
存在的東西都是可以查的,存在的東西裡面的字再怎麼多也是有限多個,所
以我個人在數學上不相信會有非常長的時間持續發現新的字,我相信應該在
某一段時間以後所有曾經印在各種地方不同佛經上面的字都被發現了,那時
候我們應該有一個穩定的集合,而這個集合我們就可以去跟行政院內政部要
求我們要有一個字面。

    我覺得這是最底下的那一層了。然後再上面一層是造字的問題,這一層
我覺得相對來說是比較簡單的,而且莊先生在這一層已經做了很好的事情,
只是它的層次如果能夠【 PORTING 】到其它的地方是更好一點。

    在兩年前,留學在國外在台灣跟大陸的中國人合作在一起,訂下一個規
格 HBF,叫做「漢字中文點陣集合的標準儲存方式」。這一套儲存方式基本
上跟 UNIX 上的 X-WINDOWS 的字形標準儲存方式 BDF 完全一樣,只不過它
多了一些檔頭, 那些檔頭定義你是怎麼排碼的, 是用 CNS、還是用 BIG-5
、還是用 GB;反正是一些很不重要的細節是跟全世界在使用的 BDF 不太一
樣,其它都一樣。

    所以在字形這一方面,不管我們用現在莊先生的程式,或是 UNIX 上面
的程式,能夠做那麼一個字出來,然後如果能夠存成那樣的一個標準格式的
話,這也是比較好的事情,使得我們以後很容易換到別的地方時就可以把這
標準格式拿出來。因為標準格式在那邊,任何會寫程式的人拿到了標準格式
都知道怎麼換格式的,那你就可以換到你喜歡的格式上面去。

─────────────────────────────────

    謝清俊:

    謝謝單先生提供一些不同角度的想法,反正我們開會就是要收集大家不
同的想法,這些想法可以給大家做一個參考。

    單先生剛剛提到一些機器環境的問題,現在我們莊先生這一套東西是在
一個 SERVER 裡面,所以大概受到環境改變的影響不會那麼大,問題是使用
的人。 對使用的人,當然這個系統在 DOS、WINDOWS、WINDOWS 95、MAC 下
面,各種不同的情況的話,這些東西是真的需要花時間去開發。

    關於單先生講的字體、字形的問題,可能跟我們談的字體、字形的定義
不太一樣,這些東西因為定義不同,所以看法也有些不同。

    關於 CNS 跟 CCCII 這個檔的問題,CNS 的問題就是現在沒有系統上面
有 CNS,如果要大家去用它的話,事實上字體也沒有、字形也沒有,什麼都
沒有。 而且 CNS 這個碼是一個很奇怪的碼, 它從兩個  BYTES  變到八個
BYTES,兩個 BYTES、四個 BYTES、六個 BYTES、八個 BYTES 都有,所以事
實上用起來的話,... (單維彰解釋),我跟你說,ESCAPE SEQUENCE 我了
解, 而且 ISO2022 的標準是我帶到國內來的,這些東西事實上用起來的時
候不是你講的那麼簡單。事實上這個 ESCAPE SEQUENCE 也沒有在 ISO 登記
,如果真正講是一個國際標準的話,這個 ISO 的 ESCAPE SEQUENCE 在 CNS
裡面是私下做的決定,這還是會跟別人的碼衝突的。而且它這個確實不是兩
個 BYTES 的碼,即使有 ESCAPE SEQUENCE,把 ESCAPE SEQUENCE 加上去的
長度還是不一樣。所以這個問題我想是技術性的問題,我們不要再爭了。市
面上根本沒有 CNS 的產品存在,要大家去用的話, 事實上也不太可能,我
們現在是要解決一個實際的問題。

    當然單先生提到的是不同的想法、不同的看法,這個問題事實上就是留
給大家來看,怎麼決定比較好一點。如果大家覺得我們現在收集五千字,把
這五千字印個小冊子,大家所有的問題都解決了,那皆大歡喜,這個是好得
不得了的事情。

    這個字體的問題我再說明一下。你看到的這些字的問題,事實上我想也
不如單先生說的那麼單純。為什麼呢?因為佛經的研究,有時候它原來那個
版本所呈現那個字是什麼樣子,事實上跟佛經的考證、考據都非常有關係的
。比方說,有一些異體字,這些異體字是在中國某一個朝代、某一個時間、
某一個地區出現的。因此這些佛經上的異體字它有那樣特徵的時候,我們必
須要把它能夠儘量忠實於原來的樣子把它存下來。如果這些東西都把它消失
了,然後都換成現代的字存在 COMPUTER 裡面的話,事實上對佛經的考據跟
一些義理的研究是有相當大的傷害。因為這樣的關係,所以事實上佛經裡面
所碰到的字牽涉到中國整個文字學的演變,並不是那麼的單純。所以這些問
題,可能使用的情況不一樣,大家接觸的不一樣,有不同的看法。

    單先生提的資料,我想我們列做會議的記錄做參考。單先生提的意見,
我想記錄就照單先生的意思完全把它錄下來,然後給大家參考。我剛剛講的
這些意見,如果單先生有意見的話,我們會後再談,我想技術性的事情不必
要在這邊浪費大家太多的時間。

    各位還有什麼其它的意見嗎?請提出來!很抱歉!我剛剛沒有請大家發
言簡要一點。我看主辦單位已經準備好了便當,好像是準備長期抗戰下去。
所以你們如果想要早一點回家,就說得短一點。

─────────────────────────────────
2A.
─────────────────────────────────

    劉銘威(倚天資訊):

    我就比較商業面的角度來看這些事情,就是比較以我們公司的角度來看
這些規則,我大概跟各位介紹一下。剛剛我有提到中標局其實也在訂造字的
問題,造字的問題中標局一直想要訂,這次是委託中文推廣委員會來辦這件
事情,其實是由我們這邊在提這些案子。目前我們是有一些構想,跟單先生
剛剛講的 CNS 碼其實是很接近,我們也是想運用 CNS 碼。剛剛他拿的這份
資料是 92 年的,這是比較老的。今年 CNS 會把整個所有 CNS 訂好,可能
空的字面也找不到了,你不見得可以用,但是它定義出來的可能幾萬個字,
像目前它有四萬八千個字,所有字形都有了,我們也都拿到了,它是 24 ×
24 跟 40 × 40 的字,那我們會去整理。

    至於這四萬八千個字我們怎麼去整理呢?我們可能要去做一些對應的關
係,然後把它擺出來,加到我們的 BIG-5 裡面去。我們還是會以 BIG-5 為
BASE, 因為 BIG-5  還是大家最常用的一個  BASE, 所以我們還是希望在
BIG-5 裡面去做擴充,把這四萬八千字加進來。這樣子變成有些造字可能會
跟這四萬八千字是一樣的,那我們可以去省略。但是像剛剛提到的,不見得
很多相同的就可以省略,因為這要考慮到文學的觀點。我舉個例子──「么
」,我們台灣可能稱它是「ㄧㄠ」的字,可是它有兩個意思,在大陸這是「
什麼」的「麼」,它是簡體字,一模一樣的,你說你要收錄一個還是收錄兩
個,你收錄一個絕對出問題,因為它是不同字,它的唸法也不一樣,它的意
義也不一樣,有很多類似這樣的問題要解決。

    所以我們之前在談這個中標局造字規範時,國防部也找過我們,其實跟
佛教界來找我們是一樣的情況。在國防部裡面,它造字也碰到很多問題。為
什麼?國防單位有多少個,每一個單位都在造字,這個單位造五百個字,那
個單位造六百個字,那整個整合起來怎麼辦呢?他們最後沒有辦法。所以現
在國防部它也統一了,它現在要把全國所有的國防單位的所有造字通通收納
到行政院國防部裡面,他們會有專人來統計,先把所有一樣的字刪除掉,不
一樣的收集起來。他們預估大概是有三、四千個字,其實很多可能都重複造
字,那麼他們就要有一個規畫,就像剛剛謝教授這邊講的。

    就是說他們的定義也是這樣,例如說我今天造了一個字,這個字它的筆
畫是多少,它的字根是什麼,還有部首,以及怎麼去形容這個字,或是說這
個字是出自哪裡,這個字我可能是從哪一篇文章裡面出來的字,這個都是方
便以後你去查詢,這個很重要,沒有這個,以後你很難查詢。雖然你說造字
不多,圖書館的造字有多少?一個圖書館的資料可能十幾萬字,造字可能幾
萬個,你要去找,那是很辛苦的,你知不知道它是一樣或是不一樣,你可能
會不清楚,你一定要去敘述這是什麼東西。所以他們委託我們去做這樣的一
個資料庫,就是說我把一個字訂進來,它是什麼字根,它的倉頡碼要怎麼打
,它的注音碼怎麼打,它是出自哪裡,這個都是方便以後的尋找。今天有個
人要造一個字,我要先來找看看有沒有重複。所以以後國防部任何一個單位
要造一個字,它先要到行政院國防部這邊,跟它登記說我要造這個字,字形
告訴他,是出自哪裡,所有的資料提供了以後,國防部幫它造這個字,然後
發給全國的國防單位,所以全國的每個國防單位都可以用同樣的內碼,這樣
就不會有出錯。

    中標局想到更的層次,因為它不是只有國防單位,它還是有一些行政單
位都要用,所以它想整體來做一個總整理,這個畢竟是一個滿大的工程。在
佛教這領域裡面,我想可能會比較偏向國防單位這樣子,就是說我們先以治
標的方式來做,我們先不要以治本的方式,因為治本勢必是一個很龐大的事
情,你可能一做要做個五、六年或十年,那都不一定,因為光是一個十幾萬
字要請多少人去整理,這個字有沒有衝突的問題你都很難理解。通常一個人
一生中大概頂多用兩千多個字,如果你用五、六千個字,那大概是對文學很
有修養的人才會用那麼多的字,這是經過統計過的數字。所以你要了解那麼
多的字,那是很困難的。

    接下來我想提一下,在佛教界裡面使用並不是只有造字的問題,還有巴
利文、藏文、梵文的問題,這些我們要怎麼處理?其實我跟聖性法師這邊有
談過,他們因為使用的需求,所以我們是去整理那個巴利文。我有一個同學
當完兵就出家了,他就要求我幫他弄巴利文,我就幫他做一個巴利文的系統
。結果後來發現跟聖性法師這邊提供的巴利文不一樣,就是說我原本只找了
十二個字而已,結果發現他們說有十七個,可是我今天看到莊先生提供的這
些有二十三個,那我現在搞不清楚到底巴利文要有幾個字根。原本我想,如
果我們可以確定幾個,  我們要用到多少個字, 我們把它定義出來, 因為
WINDOWS 這方面不是我們公司所能做的, 但至少在 DOS 方面,就是在我們
倚天中文系統方面,我們可以來提供這個巴利文的字根進來,甚至提供這個
輸入法,讓大家可以打巴利文字,我們就可以來解決這些問題。但是我現在
比較耽心的就是字數的問題,我們可不可以把它收納得進來?

    至於剛剛提到我們的造字區,如果只是佛教界這邊來用的話,如果說幾
千字就可以解決的話, 我們目前 BIG-5 內碼裡面有五千八百多個字可以來
造, 可能不是很足夠,其實 BIG-5 還有四千多個字可以擴充,其實以前我
們也在用這四千多個字,所以其實整個造字區應該是九千多個字。

    最後我提一下我們倚天在造字上未來的策略,其實我們已經在開發一個
系統,就是造字系統。這造字系統就是剛剛我提到的這個,我們在做點陣字
造字時,我們可以造出一個可能是 16 的字或是 24 × 24 的字,這個我們
都可以。那你造字時你要給它字根,因為你今天造出一個字,你要有辦法做
輸入,你不能每一個都去打內碼,這是很辛苦的,所以當你造一個字以後,
你要訂它的倉頡碼、注音碼,或是筆畫什麼的,這些定義出來。那我們會有
一個這樣的系統,根據這個系統,你還可以造出描邊字。這些你都可以在這
個系統裡面一次全部把它造出來。我們這個造字系統造出來的字,你可以用
在 DOS 上面的倚天系統,也可以用在 WINDOWS 上面,可以同時使用的。

    這樣子變成以後你只要有一個單位固定來管這個東西,你所有的造字透
過這裡,你可以把描邊字也造出來、點陣字也造出來,它的規則是怎麼樣,
筆畫是多少,注音碼、倉頡碼,都可以解決,然後再發給各個單位。至於細
節流程,我想剛剛謝教授也提到了很多,到時候真的要來考慮的可能是往返
傳遞的問題等等,這個可能是比較細節的問題。

    我報告到這邊,不曉得各位有什麼樣的意見要指教,請各位提出來。

─────────────────────────────────

    周伯戡(台大歷史系):

    今天會議是講佛經造字的問題,可是牽涉到許多關於像國防部的造字和
其它地方的造字,我不曉得我們談到佛經的造字是不是也要跟國防部的造字
或者中央政府戶政使用的造字要互相互通?這點我還不太清楚,因為不曉得
這次召開會議主要的動機是什麼?不過我可以提供一些經驗,關於過去在佛
經形成的過程中間,對於中文字的寫法所造成的一些困擾。

    中文字毫無疑問的不是像英文字一樣,它有很多不同的寫法。在以前佛
經傳入的時候,就有許多抄經,最早期有漢隸,一直到後面的楷書。當初是
抄經是會造成許多困擾,每一個抄經的人,雖然是同一個字,張三和李四會
寫出完全不同的字出來。所以佛經出現各種不同的字,是在歷史上我們讀佛
教寫本的時候經常會看到的事情。

    在唐朝初年的時候,在秘書省成立官方抄經的地方,所以由中央政府寫
了一部書叫做《字樣》。《字樣》就是當時同樣一個字有各種不同的寫法,
它把它都列進去,然後對在中央政府裡面抄經的,譬如玄奘翻譯完畢以後要
開始抄那部經,應該要用什麼字,強迫規定使用那個字樣。這個《字樣》當
然現在已經不存在了,但我們在敦煌的作品裡面可以看到,當初在敦煌那些
人在抄經的時候手上有一個參考作品,就是那個《字樣》;就是說你看到一
個舊的本子,本子裡的這個字你不認識,然後你把《字樣》翻一翻,用當時
的楷書把它抄下來。

    我們曉得中文字有很多各種不同的寫法,我們知道最早期是在漢朝時候
就有【西平十經】,由官方來確定經書這個字應該怎麼寫法,不然考試的時
候張三跟李四寫的,雖然是寫同一個字,但是考官看不懂的,所以那時候有
強迫規定的。在唐朝初期,我們知道為了要抄佛經,官方定了《字樣》;以
後又有所謂的【開平十經】,再強迫定出標準的字樣。到了北宋初年的時候
,印開寶藏的時候,再度定出標準來。

    可是即使如此,我們到現在為止,即使是讀刻本經的時候,同樣的一個
字又有各種不同的寫法。所以想企圖把這個字完全統一起來,其實是有點困
難的。但是官方至少要想辦法確定一個立場,說哪一個字是標準的字,但是
它沒辦法完全禁絕這個字的其它不同的寫法。

    再討論到另外一個問題,就是等到大正年間的時候,印當時《大正藏》
時用了活字印刷,是根據當時的《高麗藏》,那個時候又把《高麗藏》當時
寫經的字體用現在的楷書重新印上去。所以事實上你如果去看的話,各位可
以看到有很多地方不一樣。所以你能讀《大正藏》,未必就能讀寫本,我先
提醒一下,這兩種完全不一樣,因為字體完全不一樣。

    所以如果今天是討論佛教寫經的造字問題的話,必然會面臨一個問題,
我們要決定。就像以前在定下本子的時候,哪個字是標準字體,這個我們必
須要先做一個決定,不然造字可以造得沒完沒了,因為中國字可以寫很多種
。像「法」這個字,如果你讀到六朝初期的寫本,那個「法」字是很奇怪的
寫法,各位看了那個字都不認識。所以,所要面臨的問題是,我們是不是要
用現在的,譬如《大正藏》的方式,用現在楷書的寫法,硬是把它定了下來
。

    像在韓國的佛教協會, 他們企圖把《高麗藏》編入 CD-ROM,但是它也
面臨了問題,因為《高麗藏》寫經的時候有很多奇怪的字,它們在韓國自己
的 KSC 碼也不完全存在,所以現代集團自己造字。 我們現在不知道,它最
後造出來的字,到底我們能不能用,很可能就只是在 CD-ROM 裡面跑,根本
不能上網路; 絕對不能上網路, 據我所了解,不可能上網路的,最多是以
CD-ROM 的形式在傳布。

    我們今天討論到佛經,如果講說我們不討論治本的方式,只討論治標,
那現在我們面臨一個問題,就是佛經造字的時候是不是要用一個現在標準的
寫法,強迫那個字必須要用這個方式出現?還是要把原來那個字怎麼寫法的
繼續擺回來,那當然那是做研究用的。我說過,你如果能讀《大正藏》,不
一定能讀寫本,那是兩碼事情,因為那個字的形式已經完全改變了。所以如
果只討論治標的話,就應該考慮是不是要用一個標準的現代字來確定。那麼
如果用標準的現代字,很可能我們現在已經出現的字已經夠用了,因為我們
可以把它全部改成現代的字體。

─────────────────────────────────

    謝清俊:

    謝謝周教授的說明。我想這邊有幾位計算機方面的,對佛經方面的工作
可能還不太了解,周教授的說明很好,大家可以多了解。

    事實上一個國家標準碼,它通常是很難照顧到文學、社會方面研究用的
字。同樣的情形也可以舉個例子來說,日本京都大學在印東洋文獻目錄的時
人,它已經印了十幾年了,它為了印東洋文獻目錄收集了十萬多個字,然後
自己在學校裡面做了一個資料庫,自己編了一個碼,然後印這個東洋文獻目
錄印了十幾年,但是日本國家標準從來不把它放到國家標準裡面去。因為各
位知道,標準局是工業局的標準局,標準局是隸屬工業局,然後隸屬經濟部
,所以通常文化方面的標準或教育方面的標準,在標準方面總是會有所欠缺
。

    那我們做佛經的登錄,我說一下我自己的立場。我們整理這些造字應該
是跟怎麼用這個造字是兩回事,如果我們整理這些造字的時候,就有一些強
制性,舉個比方說,都一定規定只造現在的字,只根據現在標準裡的來造字
,那麼對古籍來講就造成相當的傷害,對研究來講也造成很多不可能的狀況
,所以這個我想我不必多說了。

    所以事實上我們這個造字系統應該是,看我們現在佛教的團體、學術的
團體怎麼去用這個佛經、怎麼去用這些字,那麼這些電腦工具應該是站在一
個中性的立場,沒有任何預設立場的,然後幫忙去把大家的問題來解決。如
果是先有預設立場在這裡的話,那這個使用就會有偏頗了。

    事實上各位所看到的這個展示,只是這個系統的前半部,因為後半部一
直還沒有做出來,所以我們沒有給大家展示。現在這個系統裡面有說一個字
的定義是什麼,這個字有哪幾種不同的字形,這個剛剛各位看到了。事實上
這個筆畫的變化在這裡面展示得並不多,這個系統的下半部就是包括所有筆
畫的變異都在裡面。這些的筆畫的變異都在裡面的話,也就是說這個所謂的
字形資料庫,它可以解決筆畫之間差異的問題。你只要能夠用一個制式的描
述把這些筆畫描述進去的話,這些問題都可以解決。

    因此這個資料庫讓大家造的各種字形,坦白講是沒有任何限制的。也就
是從技術的立場來講,我們儘量提供一些現在有的技術,你這個字形有什麼
稍許的差異,你只要在你的應用上面,你覺得有道理,我要做一個這樣的字
形,這個字形可以登錄在上面。那究竟多少呢?我想以我們現在台灣做佛經
的處理跟做研究的狀況來講,也不會是無止境的吧!所以這個處理起來,應
該這方面的東西可以處理。

    我想字形結構上的變異現在已經可以處理了,筆畫上有少許的變異,你
如果要把這些東西留下來的話,我只能跟各位說,大概過一年以後,這個資
料庫連筆畫的變異也可以幫各位留下來。

    那麼謝謝周教授的說明,我想這樣子也可能讓學計算機的朋友了解一下
。事實上在佛教的應用方面,目前還不只是說,把佛經打成一個檔案,放到
電腦上讓大家去用,或者是印佛經,或者是做一個資料庫去檢索佛經,這些
東西都是比較初級的應用。如果你真正講電腦裡面佛經的考據以及義理之辨
,那事實上以後這個系統希望能夠兼顧到這方面的應用。

    事實上這件事情我是覺得這樣,我們實驗室做的這個系統能不能用?這
並不是太重要的事情。最重要的事情就是說,我們現在大家要不要合作,組
織起來,把這個造字的問題跟資料流通的問題把它解決掉?如果大家有心這
樣做的話,那我們可以決定我們下一步該怎麼做。如果要決定下一步該怎麼
做,就要有些人把一些規格寫出來,然後讓大家來討論,讓大家來改。如果
說大家自己做自己的,覺得沒有必要這時候把它統一的話,那事實上這也是
一種做法,我想並沒有強制說大家一定要通通一起來。

    關於佛經造字的問題,我們可以這樣說,是牽一髮而動全身。事實上造
字的問題不是一個單純獨立的造字的問題,因為它牽涉到資料的登錄,牽涉
到資料的共享,牽涉到資料的傳輸,牽涉到資料的檢索,以及牽涉到以後印
刷等各方面各種不同的應用。所以事實上這個東西不是一個獨立的事件,它
是一個很基礎很基礎的東西,那麼牽涉的東西可以多一點、可以少一點。那
如果大家一起要來解決這個問題的話,那我們一起工作的範圍到什麼程度,
這個我們也需要大家來談一談。

    剛剛提出來的還有些問題,我覺得單先生提出來一個很重要的問題,就
是說大家的電腦不一樣,怎麼共享資料?這也是很麻煩的事情。事實上如果
不能達到資料的共享,這些大家一起造字也是白造了。大家一起造字,大家
一起共用同樣造字的碼,最重要的是希望這些資料可以互相流通、互相共享
。資料互相流通、互相共享,不是說你的檔案我可以拿得過來就可以了,不
是這樣;你的檔案我拿過來以後,我還要能夠讀得懂;我要能夠讀得懂你的
檔案,當然我必須要認識你的字碼;但是這個還不夠,你這個檔案的結構要
不要描述給我知道?所以佛經變成電腦檔案以後,怎麼樣把電腦檔案的佛經
它裡面的內部結構能夠有一個共同的描述,這個可能是在造字解決以後第二
個要碰到的問題。如果沒有這樣子的了解的話,事實上大家拿到別人的檔案
,也沒有辦法說不經修改,我的程式馬上就可以用,事實上不太可能。

    如果要做到佛經的電子檔案,不分機器的種類,不分軟體,都可以通用
,這個理想是可以做得到的,這個技術是現在已經有的,這個我可以肯定的
跟各位報告。但是需要我們多溝通,把這些基本的造字的問題、資料的格式
、檔案的格式,以及種種對內容的標幟,這些標準通通要做出來,所以這條
路還很遠,不是那麼近。但是最基本最基本的問題,是要把造字的問題解決
掉,造字問題不解決掉,後面講的都是白說,你不可能做到那個境界。

    我跟各位報告一下,世界上有一個組織叫做 TEI,這個組織是三個大學
會,包括世界上的計算語言學會、人文與電腦學會,諸如此類,三個大學會
,他們邀集了全世界的學者,當然不包括中國的,花了六年的時間,把英文
的各種文獻,它重要的內容,如何標幟,通通做出來,這個資料是今年四月
出版的。國外的學者他們花了這麼大的功夫,把詩、詞、散文、小說、信件
等等裡面重要內容的標幟、標準通通弄出來了,那麼你以後整理文獻的時候
,碰到這些標題是什麼,你就加一個記號;開始的主旨是什麼,你就加一個
記號;稱呼是什麼,加一個記號。這些東西通通有了標準以後,那麼英文的
電子文件就可以被所有的機器、不同的軟體通通分享,因為它們都用共同的
方式來表達。這個是國外花了大力氣,邀集了全世界的學者在做的。

    我的一個感覺是說,事實上我們把佛典造字問題解決,這個是最基本的
;造字的問題解決了以後,如果要讓電子佛典在網路上或者媒體上,大家不
分機器、不分軟體,通通都可以流行的話,那下面一個更重要的工作就是要
把佛經的內容標幟的標準做出來。這可能分經、律、論各種不同的部一個一
個來做,可能分不同時間翻譯的東西這樣子來做,所以下面那個工作才是更
可怕。

    這個工作,很坦白講,我真的不知道大家意見如何,如果有需要我們幫
忙,我們實驗室的幾位都非常願意來幫忙做這個事情。但是這個事情,恆清
師父找我的時候,我跟師父特別報告,我說這個不是我們學電腦的人可以出
來主持的,這個應該是佛教界的大師出來主持,我們只是工人,你們要蓋什
麼樣的房子,我們幫你蓋,蓋好了,這個房子是真的佛教界的房子。所以我
是用這樣的心情來參加這樣的工作。

    剛剛各位沒有意見,所以我花一點時間,我把對這個事情我所看到的意
義跟各位報告。如果我們電子佛典共同用字的問題,大家都沒有辦法一起來
解決的話,那說要以後所有的電子佛典流出去,要不分機器、不分軟體,大
家都可以處理,這是不太可能的事情。那麼這一部份如果解決了以後,我們
以後說不定可以做到真的電子佛典可以給大家共享。這好像香積佛的飯,也
好像師子座,這個是取之不盡用之不竭的東西,我們至少可以把這個電子佛
經儘量讓大家都接觸得到。佛法難聞,佛經也難接觸得到,但是至少我們現
在有這個技術可以做這個事啊!所以這個應該是滿有意義的事情。

─────────────────────────────────

    釋慧明(西蓮淨苑):

    我對謝教授一直覺得很感動,他對佛經的推動真的很發心,而且真的是
菩薩心腸。現在我把我個人碰到的一些問題,還有一些所使用的解決方法提
供給大家。

    首先,謝教授有提到字典的版本問題,末學在碰到一些古字的時候,也
曾經查過很多的字典,譬如說三民書局最新出版的字典,還有文化大學主編
的《中文大辭典》,後來我發覺在《康熙字典》裡面找到的古字比較多。《
康熙字典》有新修跟原始的,在原來的《康熙字典》是切音,因為有時候我
們查到那個字需要知道它的讀音,後來我所用的版本是台北啟業書局民國六
十八年出版的那個《新修康熙字典》,裡面就很多古字都可以查得到,它是
民國【高樹帆】再重修的。如果在《新修康熙字典》沒有找到的,我再用《
增修辭源》,這是台灣商務印書館民國五十四年【增續】編修訂版的五版。
我用的是這兩個版本。

    我想假如我們用同一部字典,這樣會比較好。譬如說,像末學在整理古
字方面,我自己就先做了一個表,首先我有序號,然後再來就是部首,然後
再來就是筆畫,還有書本上的字形,還有電腦上的字形,它的注音,還有它
的字義, 我在每個字義後面會標譬如《康熙字典》 518 頁的下欄,這樣以
後大家要回查的時候會比較容易。然後在字義,甚至我還會,譬如說「錯誤
」的「誤」這個字,在書本上它是豎心旁,然後它跟言字旁的「誤」是相通
。這個做法跟剛剛莊德明先生所做的那個完全一樣,它這個有很好的好處就
是,我當時在看到豎心旁的「ㄨˋ」,我可能不知道這是言字旁,那你查到
一個字,你就又可以了解它就是那個字,你就可以了解它的意思;再來你假
如又知道它的讀音,我又會讀;然後如果在字形資料庫再加上它的意思的話
,你又知道它的意思。或許以後莊先生這個資料庫可以變成《康熙字典》另
外的一個資料庫。這是有關字典的方面。

    再來就是異體字,因為我所整理的是的唐宋的古籍,那書名叫《南山三
大部》,是唐朝道宣律師所著的。它有三個版本,一個是清靜金陵刻經處的
版本,那是木刻本,也就是【會本】;另外一個是《萬續藏》的版本;另外
一個是《大正藏》的版本。有時候我碰到一個字,我會去查這三個版本有哪
些字形的差異。因為當時我的想法,除了出版書面上的書以外,還想出磁碟
片,然後如果太多的造字,那我豈不是發行磁碟片還要發一個造字集給人家
!所以在造字的統一上,我覺得是很必要的。像剛剛莊先生所提的,如果我
們大家共用一個字區,這樣每個人所用的那個字就是那個區,都不會重疊。

    像謝教授當時有給我三百多個《文心雕龍》的造字,結果我轉到我的電
腦,它就必須要捨掉,因為重疊,所以我不是要用那三百多個,就是要捨掉
我自己的;後來我考慮的結果是沒有用那三百多個,因為我原來的檔案就是
我自己的造字。所以我覺得如果我們能夠統一,這樣子會比較好。

    我曾經請問師大國文系的一位教授,我說我們真的有必要完全照經書上
的那個字來用嗎?我們難道不可以用我們現代的字?譬如說剛剛「君、羊」
這個「群」,「君」在上面跟在左邊還不是一樣,我們能夠了解就好了。可
是那位國文系的教授說,他的講法跟謝教授一樣,如果「君」在上面的話,
可能是哪個朝代的作品。那現在我們的佛經一直經過現代學術化的研究,有
些後人就會推斷說這部經可能不是隋朝的智者大師所寫的,可能是宋朝或者
哪個朝代的人編出來的。假使我們沒有去更動,他從字形上面就可以推斷唐
朝確實是用這個字。這在佛經上還有文字學上會有它的價值,所以我覺得異
體字還是有必要保留。

    最後就是末學今天有帶一份華康外字集,因為末學在編輯的過程碰到很
多的造字,然後我都一一登錄下來。後來我的電腦公司的那位顧問,他就給
了我華康造字集,我一看那外字集,很多我都不用造了。所以我們在五千多
個造字裡面,如果能夠以華康那三千多字為基礎,然後剩下的兩千多我們再
擴充,是不是比較好?因為華康那一份點陣字也有了,然後印出來的都有了
。這是末學的一點意見。而且華康的那一份,它的流水碼幾乎都有了。

─────────────────────────────────

    周伯戡:

    今天如果有討論造字問題的話,會面臨到一個最基本的問題,我想把剛
才講的話再精要的說一次。

    毫無疑問,中國字的異體字有很多種,那是不是每一種異體字都要造一
個字?在唐朝初期官方就立了一本書叫做《字樣》,雖然有很多異體字,但
是請抄經手抄的時候請抄這個字,不准抄其它字,硬是把它固定下來。《大
正藏》在編的時候,《高麗藏》有很多當時的木刻字,但是《大正藏》在編
的時候,高楠順次男就強迫說就用現在這個字。所以我說過,你讀《大正藏
》受再讀《高麗藏》的話,很多字都不一樣。剛剛講的意思是說,現代集團
要重新要恢復古字,不過我們相信它絕對不可能在網路上出現,因為它根本
沒辦法流傳。

    所以今天我要問的一個問題是最基本的一個問題,我們在為這個佛經造
字的時候,我們造字的基本目的是在什麼地方?如果說為的是流傳,或者是
把古代的字用現代的字,意思不要改變。譬如說「和尚」的「尚」有兩種不
同的寫法,如果是規定在有一個基本的字碼的話,我們就不必再去造另外一
個字,硬是強迫用一個字來確定。這涉及到價值上的判斷,當然這和研究沒
有關係,因為做研究的人最後還是要回歸原來的那個本子是怎麼寫的。但如
果是只是在知識上的流傳來講,為了資訊時代的來臨,使知識能夠流傳,而
不必找太多麻煩,我們可以用現在已經出現的字。但是我們要強調的是,這
當然和做研究沒有關係,但是適合於資訊迅速的普及。

    我說這涉及到價值上的判斷,所以各位這樣討論一下子,是不是為了一
個資訊時代,使資訊大量普及,而不必牽扯太多的麻煩,來使用現代已經造
出來的字來流傳。這是讓大家來考慮的問題。

─────────────────────────────────

    釋慧明:

    剛剛你的意見,不是上次我們電子佛典有討論說,我們以後會有藏經區
,還有現代文學。所以目前在使用字體上,如果在寫自己的東西就用現在通
用的字,可是如果是整理古籍方面就是一定用原來的字。因為我們現在有現
在的同義字,可是到了後代會... 像大藏經它的下面不是也有標元本、宮本
是用什麼樣的字,它還是有標出來。你的意思,當時末學有想到說,其實我
這個東西是要讓人家了解意思就好了,反而你用那個古字比較不知道。就像
「自強」的「強」,古字是「彊」,當時我一看也不曉得這是什麼字,後來
去查才知道它就等於那個「強」。在你傳播知識上說我要人家了解這個意思
,那這個字不同,可能意思就不了解了,當然在意思的了解上用「強」會比
較好。可是如果你所顧及的層面多的話,就是還是保留原典,那麼末學的用
法還是用那個「彊」,然後下面再用括號說同「強」字,這樣讀的人他也可
以了解這個字,然後另外一方面做研究的人還是可以了解。

    (周伯戡解釋)可是目前縱使那些,譬如你說的很像「鹿」的那個「法
」我們不要造,就照我們現在這個「法」,可是目前佛經上還是有很多需要
用到造字的;假如異體字不造,還是有很多需要造字的,真的很多,那時候
末學有做整理。(周伯戡解釋)周教授!如果那個字到現在沒有相通的字呢
?(周伯戡解釋)

─────────────────────────────────

    謝清俊:

    我想這個問題,在我們工程師的立場,我們工程師做出來的工具是不希
望有任何的限制說你只能拿這個工具去做怎麼樣的事情。所以也就是說,我
們有一個統一造字的管理,但是各位要把這個造字用到什麼地方去,我想應
該沒有什麼太大的關係。你如果真正要做得很仔細,我們幫你做得仔細。如
果這個東西只有你一個人用,這個事實上有一個特別的檔案給你專門用都可
以。所以事實上從工程的角度來看,我倒覺得各位要怎麼用,不同的用處可
以有年百種,每一個造字的需求會不一樣;但是我們設計一個工具的話,我
們不希望這個工具被限制只能用在這裡。

    所以事實上我想沒有關係的,舉個比方說,這一個文獻,我要把它電子
化,事實上電子化第一個問題該考慮的是什麼呢?第一個問題該考慮的就是
這裡面的這些訊息我要保留多少在電子檔案裡面,我要犧牲多少進不去了。
比方說,這個紙張的資料就進不去啊!這個電子檔案,你不可能摸到這個紙
張的感覺嘛!那人所用的幾版的資料,事實上有很多訊息是沒有辦法進而電
腦檔案裡去的,這個時候你究竟該保留多少資料?文字的資料該保留多少?
這就是個問題,因為你用的目的不一樣,你在這個機器裡面存的造字就可能
有不一樣的需求。

    但是我們總覺得,如果說我只是要把佛經普遍化,給大家都看得懂,儘
量用現在的字,那這裡面如果有必要的話,我們為這個目的可以專門營造一
群造字字形給它用的。那如果說某些人要做研究,我就拿你們剛剛舉的例子
,《大正藏》的字可能經過修改,《高麗藏》的寧沒有經過修改,那如果《
大正藏》的資料跟《高麗藏》的資料通通進而電腦裡的話,那研究的人員就
很方便了,他至少在電腦裡就可以看得出來,這個字是這樣子的,這個資料
是屬於《大正藏》的;那個字是這樣子的,那個資料應該是屬於《高麗藏》
的。

    中國文學方面的東西,至少我所接觸的、我所了解的,就是你考據之學
、義理之學都是基於文字學,你這個文字學的東西不保留下去的話,你這考
據學也好、義理之學也好,做不下去了。如果現在有一些工具都可以把這些
資料都存起來,都可以幫你整理這些資料的話,你要怎麼用那是你的事情。

    我不知道我的意思說清楚了沒有,就是說大家要怎麼用這個系統,這個
工程系統應該不會有這種偏見才對。如果一個工程系統有這種偏見的話,那
它就是很偏的。舉個例子,這個東西只能給研究用,它就只能給研究用,不
能給推廣用;只適合推廣用的,不能給研究用。

    事實上我覺得我們這個系統做出來的話,你要整理什麼什麼樣的字形、
整理多少字形,應該都可以處理的,不會有什麼太大的問題。

─────────────────────────────────

    單維彰:

    因為現在用 BIG-5 的話,有六千個格子, 假定像你剛剛那樣說的,如
果現在造了一萬兩千個字在裡面,那用的時候是臨時 ASSIGN 那個格子嗎?

─────────────────────────────────

    謝清俊:

    這個是這樣子的...

─────────────────────────────────
2B.
─────────────────────────────────

    (續上)

... 某些人他必須要保留一些文字細節資料的話,那麼可能有一個版本是專
門給這個用的,那一般用的有一般用的版本。也就是說,這五千多字這個空
間,以後可能會有一部份因為用途的不同而會造成重疊。這個我想,如果以
目前的情況來講的話,這個是在所難免。還有剛剛倚天的那位先生說, BIG
-5裡面還有四千多字可以擴充的空間,也許那個地方也可以給我們再用。

    不過這所有的問題都哪裡來的呢?我很坦白跟各位講,就是那個 13051
做的孽啊!那個 13051 大家用了多少字了?那個 13051 實在沒有好好去統
計一下使用的頻度。 很坦白講, 那個 13051 如果照我的意見的話, 只要
5401 在裡面就夠了,5401 以外的字我通通把它殺光,把它分好幾個塊,給
各位不同的團體去用它不同的字。因為根據統計,中國字三、四千字的使用
頻度在各種應用裡面都已經超過百分之九十九,大概五千字在很多應用裡面
使用的頻度都可以在百分之九十九以上,就剩下的那麼百分之零點一的那些
字是散布在一個幾乎八萬字的一個空間裡面,這八萬字空間的使用頻度幾乎
是一樣的,因為你不同的用途就會有不同的選擇。所以中文字除非你收集到
八萬字以上,要不然你永遠沒有辦法完整,你也就是永遠有那麼一個小機會
你有的字不在那裡面。

    我剛剛報告的這些統計資料,還不包括書法的變異在裡面,還全部都是
印刷體的統計。如果還包括唐朝手寫本的書法變異的話,那這個數目字還比
這個更大,大得比這個更多。

    所以現在這個字碼的問題,  很坦白講, CNS  也好, CCCII  也好,
UNICODE 也好,不管它收集四萬、五萬、七萬,還是大陸上最近宣布一個八
萬字的大字庫,不管它是哪一個,事實上對我們來講是一個很遠的東西。如
果有這樣一個東西在,做背景支持,每一個都很有用。 舉個比方說,CCCII
現在有五萬三千字,那拿 CCCII 做一個 BACKGROUND,你沒有的字到 CCCII
去找一找拿過來, 如果這些  UTILITY 把它開發出來, 這也是很有用的;
CNS 的 UTILITY 如果能開發出來,應該也是很有用的。 但是這些 UTILITY
都沒有的時候,你拿來就要命了嘛,那沒辦法用啊!所以如果有這些大字庫
、大字集,它已經變成電腦可以用的,可以在背景上支援我們這邊做很多事
情。就像莊先生說的,你現在發現其它的造字檔上有一些點陣字體,這些點
陣字你要用的時候發現沒有, 他已經寫了一個小程式,就可以從那個 FONT
裡面把它抓進來,存到我們自己要的 FONT 裡面去。像這些東西慢慢我們就
要做出來,做出來就可以把別的字集上把這些 FONT 抓過來自己來用。所以
那些東西,我是覺得只能慢慢再說。

    關於中文字集需不需要照不同的應用來編不同的字集?這個問題大家有
很分歧的看法。有人主張說,不同的應用就要編不同的字集。舉個比方說,
你會計用的字、進出口海關用的字、化學用的字、軍事用的字、佛經用的字
,這些東西都要分。有人說不需要,我把它通通抓來就好。事實上如果我們
根據日本的經驗,如果分不同的行業用的字,這個對文字處理方面會造成很
大的好處,這個是日本所做的經驗。日本甚至於他們在做翻譯的時候,他們
都必須要根據不同行業用的字來做翻譯。當然日本的經驗不見得能夠用到我
們自己身上,但是在佛經方面,因為做研究需要字集,印刷需要字集,傳播
需要字集,有各種不同需要的話,需不需要做畫分,我不敢說,但是這個可
能是一個必須走的趨勢,也可能是以後我們在一些細部討論的時候所必須要
面臨來決定的一些問題。但是在目前這個情況之下,我是覺得再談下去的話
,這個問題沒辦法解決,因為還是一直談、一直談下去。

    關於 BIG-5 的 13051, 能不能把一些字跟空間放出來給大家用?我覺
得這也不是不可能的事情。因為我跟倚天有一位先生談過,他說你們如果要
的話, 我們就把 13051 後面的那些字抽掉幾千個也可以啊!讓你們自己去
定義啊!所以這種不是技術上的問題,是技術上可以做得到的。但問題是有
沒有那麼多人有這個需要?有那麼多人有這個需要的話,事實上就可以誘發
出這樣子適合我們的產品出來。

    (周伯戡問)我的意思就是說,這個造字的服務,應該是一個統一的服
務,不管你做哪一樣的研究,希望能滿足大家不同的應用,而不是解決幾個
單一應用方面所產生的問題。

─────────────────────────────────

    周邦信(法鼓山資訊中心):

    剛剛從各位專家發表的意見,我們會看得到以後會有很長的路要走,而
且裡面還有非常多的細節的問題。從我一個使用者的角度來看,我們非常希
望有像謝教授剛剛所提的是一個大家可以溝通的環境,我們大家要造的字能
夠有一個統一的碼,然後大家共通來用,這是我們最希望能夠看到的,希望
這件事情能夠完成。

─────────────────────────────────

    謝清俊:

    根據我們的統計,很少說一個文獻它用的不同的字集會超過一萬個字。
我跟各位報告一下,司馬遷的《史記》,<本紀>大概是五十多萬字,然後
註釋大概是有差不多七十萬字,加起來差不多超過一百三十萬字,那它用了
多少個不同的字呢?不到六千。《清史稿》超過差不多一千萬字,它用了多
少個不同的字?八千零一點,連八千一百都不到。也就是說,我們可以看到
幾百萬字,甚至於上千萬字的大文獻,事實上它用的字集不大。但是如果把
《二十五史》從《史記》一直到《清史稿》, 我們跟這個 13051 對照一下
, 我唸各位講,很滑稽的一件事情,這個 13051 裡面差不多有五千字用不
到。    這個《二十五史》總共加起來用了差不多一萬三千多個不同的字,
13051 之外我們要幾乎造五千字才能夠把《二十五史》處理掉。

    我為什麼花這麼多時間跟各位報告這個事情,13051 這個字真的是作孽
無窮,為什麼?連《二十五史》那麼常用的歷史文獻,字沒有包括在裡面,
它那些字不知道從哪裡來的,然後弄了一些非常冷僻不用的字放在裡面。我
可以很肯定的告訴大家,每一個電腦裡面都背了五千個以上你從來不會用的
字,不只是浪費你的錢,浪費碼的地方,也浪費機器裡面所有消耗的電力、
IC 板的空間,通通給它浪費掉了,每一個機器裡面都是這樣。 所以整理這
些文字的事情,我是覺得剛開始的時候我們台灣實在做得很不好,這個原來
沒有好好做,就遺害到我們現在。 說一句很不雅的話,這 13051 不只是佔
著茅坑學拉屎,它如果把那個空間讓出來的話,我們現在還更好用一點。它
那個空間地方佔掉了,撐著那麼大的一個地方 13051,然後你說字都在裡面
,你卻經常會找不到一些字;然後你說你要用得夠,然後我們自己現在要加
一些字,那就在外面加得很辛苦。

    現在的問題是, 我們 13051 如果做一個基礎,我們現在有五千八百個
空間可以造字,這五千八百個當然你還要留幾百個給其它的符號用,所以大
概有五千字的空間可以造字。這五千字的空間,根據我自己的判斷,不一定
是對的,我覺得可以夠我們用一個相當長的時間,如果沒有太多怪字的話。
也就是說,13051 這個字集,再加上我們自己選的這個五千字,如果運氣好
的話,至少可以夠我們用個五年、六年,甚至於更長的時間。我所講的用個
五年、六年的時間或更長的時間,是說大家做一般的推廣用,現在印經書或
者推廣用。如果周教授他要做佛經研究的話,那些原來的字體、很多東西都
要弄進去的話,那可能這個就不太夠了。

    這不太夠的問題在哪裡呢?大家沒有搞清楚這個碼究竟是什麼碼,你用
的電腦的 BIG-5 或者 CCCII 或者 CNS,究竟是字碼還是字形碼?如果是字
碼的話,根本不會增加那麼多嘛!如果是字形碼的話,那字形就數目很多。
那字形跟字碼中間應該有個關係啊?舉個比方說說,剛剛講的「群眾」的「
群」,「君」在左邊,「君」在上面,或者大陸上的簡體字跟台灣現在的正
體字,你說是一個字嗎?「群眾」的那個「群」,你說是一個字嗎?是兩個
字?還是一個字?大家說不定都說,這個「群眾」的「群」,這個「君」字
放在右邊、放在上面有什麼關係呢?但是以前總統府一個資政叫做張「君%
羊」,你如果把他那個「君%羊」寫在右邊的話,你看他答不答應,他絕對
說那個不是我。

    中文字不同的使用情境有它不同的需求,因為當那個字用做一個識別符
號的時候,它的語意都沒有關係,重要的是形。它如果以形為主的話,「君
」字擺在左邊跟擺在上面,確實是兩個字的形,那個字的應用的時候是以字
形來區別,那麼當然有人說那是兩個字,事實上他的意思是那兩個字是不同
的形,他是根據那個形來識別中文字,並不是說那兩個字是同樣一個字。現
在又牽涉到一個問題,什麼叫同樣一個字?「中華民國」的「華」字被大陸
寫成「化%十」,那個「化%十」跟我們說的「華」是同樣一個字嗎?那你
必須要有一個定義,說同一個字是什麼定義。如果我們用語言學的角度來講
,同樣意義的字就是同一個字,那麼我們有一種定的方式。如果說,同樣外
觀的字是叫同一個字,那我們有另外一種定的方式。剛剛有一位先生說,這
個究竟是「么」還是「麼」?這個看定義不同。

    那麼這些東西怎麼定義呢?我跟各位再報告一下,這個系統裡面有方法
幫各位去區別什麼是字的定義、什麼是字形的定義,你只要定出來,這個系
統可以幫你做。我們現在舉的例子是按字的意思來做區別的。剛剛莊先生報
告我們做了九千一百一十幾個字形,事實上只有 8532 字,中間有五百多個
字的形是重複的,今天各位看到的示範是可以做這方面的事情。

    事實上這個問題真正說深入一點的話,也就是說我們現在要整理佛教的
造字,剛剛有很多菩薩也都講,我們不只是管理造字的事情,甚至我們講同
一個字,什麼叫做同一個字?什麼叫做同一個字形?什麼叫做同一個字體?
什麼叫做同一個字樣?這些東西在造的時候,我們這個碼究竟是怎麼編?很
坦白講,CNS 也好,CCCII 也好,UNICODE 也好,10646 也好,一直到現在
, 這個問題還沒解決,因為這些東西都是說它編一個字碼 CHARACTER CODE
,事實上它所謂 CHARACTER CODE, CHARACTER 也在裡面,GLYPH 也在裡面
,FONT 的變化也在裡面,甚至有些符號也攪混在裡面。 你可以看看那裡面
, 那個韓國人最有意思, 白底黑字的是一個 CODE, 黑底白字是另外一個
CODE,它通通搶在裡面。

    有時候這些東西,我們現在做起來的困難就是這個環境不好。事實上一
個中文字,如果照意義分的話,一個中文字可能有好幾個不同的形,每一個
形又有不同的體,形是說它的結構的問題,體是說它的外觀的問題,所以這
整個弄起來的話,這個系統是照這樣一個發展順序做下來的。所以這個系統
,我們自己的看法就是說,這個 DATABASE 如果好好建好的話,可以在計算
機裡面當做一個制式的定義,來定義告訴 COMPUTER 什麼是一個字、什麼是
這個字的字形、什麼是這個字相關的字體、什麼是這個產生的字樣,這裡面
都可以處理。也就是在這種情況之下,我們才有信心說這個系統應該應該可
以處理大家所造的字, 因為它的一個 DATABASE,它是一個 OPEN SYSTEM,
你有多少字, 只要它機器裡面的儲存空間夠,它就不會 OVERLOAD,可以一
直存下去;可能以後存得太多了,一個字有幾百個字形的話,那說不定會速
度慢一點,那個時候我們再來看效果方面要怎麼處理。

    所以我趁這個機會也再跟各位說明一下這個系統。這個系統究竟要怎麼
用?不管大家要怎麼樣把它用,我們是很願意公開讓大家用的,所以今天如
果大家願意拿回去做做實驗的話,我們就抄給大家,各位可以帶回去自己用
一用。各位怎麼用它,我們都沒有意見,將來你最好不要拿去做生意啦!其
實這個也沒有辦法做生意,因為我們這個是免費的,你拿去做生意賣錢的話
,大概也賣不了多少。

─────────────────────────────────

    釋聖性(海明寺):

    我最關心的是我們能不能在今天這一次會議訂出一個最近程的目標,就
是說我們能不能夠有近程、中程、長程的目標。我們治標也要治本,我們今
天也談了很多觀念上的問題,第一個,那我們能不能達成一個共識?能不能
成立一個組織?就是說大家能夠在一個共同的遊戲規則下來運作。要有這樣
一個共識,就算剛開始起步人不多,沒有關係,但是它要有一個地方能夠工
作,像工作站一樣,要有一個地點。第二個,大家能不能尋求一個共識,最
近我們想達成什麼目標,然後把這幾個目標大概能夠談出來的話,我想起碼
我們可以著手去推動它;不然的話,如果這種東西沒有共識的話,還是各做
各的。

─────────────────────────────────

    釋恆清:

    其實我聽了一個下午,我還是不懂。可是像法師說的,我想我們今天也
花了好幾個鐘頭的時間來談一些技術上的問題,還有觀念上的問題。那比較
深一層的細節,我想還是留待一個層次再來討論,因為勢必要有長時間的讓
專家去思考,然後去商量,技術上去解決等等。我也贊成聖性法師所提的,
我想我們共識大概都有,就是我們必須要有一個統一的造字規格。如果大家
有這個共識,一定沒有反對,對不對?好!那這個是大家的共識。第二個是
用哪一個系統,我們今天的討論,有的贊成 CNS,有的是 BIG-5,主要還是
這兩個系統比較多。 剛才杜老師說,如果是用 CNS 為背景,BIG-5 為使用
者,換句話說,CNS 當做 MASTER DATA,BIG-5 用做 USER DATA,是不是可
行?這個我不太懂,大家也可以當做一種思考。

    現在我們是不是決定由哪一個單位來負責統籌?現在做這些工作的人,
基本上中研院、佛光山造了很多字,然後其它在座的單位可能造幾百個、幾
百個,那大概其它的寺廟、團體會跟著這個大的組織或領導的人來走,所以
我想這應該沒有問題。要緊的是,在座的,尤其是佛光山、中研院,還有其
它幾個地方,如果在座的今天能夠推舉一個負責的單位來統籌... 我不知道
這樣講對不對,我不是說叫它當山頭,這個沒有什麼山頭;就是說,把這個
重任交給它,它要負起這個責任來做統一佛教典籍造字的工作,要把這個重
任扛起來。那至於怎麼樣去做,它必須要去溝通,必須要去跟關心的人,或
者是在做的這些人,去做溝通。然後至於怎麼樣造,那可能就是下一步他們
可以自己去決定。或者說,我們硬性規定,將來佛教界自己造字的話,造完
必須送到這個單位來;然後誰要這個字,你這個單位有義務要支援,技術上
的支援、什麼的支援,一切一切它都必須要負責。如果我們今天起碼能夠決
定這樣的話,那下一步就可以進行第二步的工程,再來找適當的人。像我就
可能不參加,因為我也聽不懂。就是找真正參與、真正懂的人,讓那些人在
細節部份去商量。

    是不是這樣會比較具體一點?如果大家同意這樣的話,那我們今天是不
是可以決定一個單位?誰願意扛起這個重任,這個實在是非常非常重的責任
,因為如果做得不好,將來全台灣佛教界一定罵它,因為是你決定的這個系
統,將來如果是字不夠啊,字造得不好用啊,它必須要扛起這個責任,它必
須要有這個使命感。可是呢,其他人也有這個義務,必須要跟隨著它;因為
大家要統一嘛,大家就照它的嘛,以後才你的可以用我的、我的可以用你的
嘛,這樣才叫共享。所以那一個單位,我想我們今天是不是可以來決定一下
?那下一次要怎麼樣召集會議,或者是需要什麼,以台大佛學研究中心,在
人員上、在資源上,我們可以全力配合,可是技術、智慧的層面它要來領導
。針對這一點各位有什麼高見,或者是推舉哪一個單位,或者說誰願意?

─────────────────────────────────

    釋慧明:

    我贊成由謝教授來主持。因為末學曾經找過華康,它造一個字一種字體
五百塊。像剛剛看的這個華康外字集,它有三種字體,這些也要用買的,然
後另外你沒有的字再請它造。譬如說它這邊有細明、中楷、中黑,你造一個
字就要一千五百塊。那如果我們由謝教授來負責的話,這樣華康它也不吃虧
,因為它造出來的字可以給很多人用。而且謝教授已經做到這種地步了,我
覺得是很合適的。

─────────────────────────────────

    陳履碚(佛光山):

    中央研究院謝教授已經花了很多年的時間在做這件工作,而且今天大家
看了莊先生開發的軟體,這以後是會非常有用的。我舉個例子,佛光山造了
兩千多字,現在每次在打字的時候是這麼厚的一本,照筆畫在裡面去找。有
時候比如說很多人在打,同時舉手說這個字沒有的話,一下子找不出來,就
另外再造一個,所以重複的字非常多。所以我想我們不能繼續這樣做下去了
,一定要有一個標準的方法。那既然謝教授跟莊先生已經開始做了,是不是
應該讓他們繼續做下去?因為我想今天大家聽起來,會覺得沒有另外的一個
方法可以做的。所以我的建議是請中央研究院謝教授繼續做下去。

─────────────────────────────────

    謝清俊:

    其實有些話我必須說清楚,因為我們實驗室做這些事情,真的,我們認
為我們是個工人,我們不是主人。這個廟應該怎麼蓋,哪裡有房子,哪裡有
樓梯,哪裡有窗戶,哪裡應該供一尊佛,這些事情,坦白說,我們是不夠的
。所以我一直希望請佛教界出來主持,這樣子大家可以合作得更好一點,能
有一個平衡。

    我有很多意見,我是嘴巴很大,但是至少大家請相信我一點,我不堅持
我的意見,如果別人有更好的意見,我會接受。但是如果讓我們那裡就這樣
做下去,沒有一個平衡的話,我覺得這樣不好,我真的覺得這樣不好,這就
是為什麼以前我們那個電子佛典學會到後來無疾而終。

    後來恆清師父找我,我說我們不能開這個會,如果要開這個會,請台大
佛學研究中心來開。工作我是很願意做,我們也很願意幫這個忙,但是我是
希望還是像台大佛學中心出來主持這件事情。這樣子我是覺得,佛學中心跟
各位的溝通會比我直接跟各位溝通有時候會好一些。當然,技術的溝通由我
跟各位來溝通。但是有很多政策方面的,有很多佛學方面的,等等有關的溝
通,由恆清師父這邊出面會比較好。

    我這是心底的話,我這不是推辭。做小工,我們都願意做,對不對!事
實上這個事情要做的話,我是覺得應該有一個很開放的議壇,讓大家把所有
的意見都說出來,最後這個規格該怎麼訂、工具該怎麼修,這樣子才會比較
好一點。

─────────────────────────────────

    釋恆清:

    謝教授講得很有道理。我們用「台大」這個招牌當然看起來是很中立的
一個立場,這是唯一最大的好處。我們這個研究中心一點山頭的色彩都不會
有,這是它的好處。可是我們也有我們的困難點,但是我們絕對全力支持。
我覺得謝教授講得很有道理的就是說,它必須要集思廣益。所以基本上我們
可以組一個 COMMITTEE,組一個小型的,不要太大的,幾個很重要的專家。
因為可能你也希望有其它專家來給你一些意見,大家可以來討論,總是精益
求精。 組一個 COMMITTEE 倒是有需要,可是不要太多,因為不專家的人不
必要。

    再一點就是,我也了解謝教授的資源可能也有限,他在中研院的管轄之
下,他必須要遵守他的規範等等,換句話說,他不能拿著中研院的,然後完
全做佛教的事情,恐怕也有他的困難。所以我想,如果在經費上、人員上有
一些需要支援的話,那我們佛教界是義不容辭,必須要支援的。這個有什麼
辦法呢?我們中心是沒有辦法,我個人也沒有辦法,可是我們可以募款。經
費方面,我們可以用世俗不同的管道去募一些必須的經費,給他請人來做,
這是一定要的,這些問題我想倒是容易解決。而技術上的問題必須要有一些
專家,解決的方法就是組一個 TEAM。 如果你要我們出面幫你邀請人,你的
人手不夠啦,我們辦公室可以幫你打打電話,這個我們可以做得到,這樣好
不好?

─────────────────────────────────

    謝清俊:

    當然,在這種情況下,我們一定參與。不過,我想有些基本立場還是必
須要做一個說明。

    各位了解這個系統不是一個小系統,絕對不是很簡單的系統,若是簡單
的事情老早就解決掉了。這個系統需要投入比較長的時間,還有相當多的人
力,因為還有好多資料。舉個比方說,現在收集到的五千多個字,還沒有輸
入進去,這些字都要找人一個一個輸入進去,那沒有輸入的人,還要再訓練
一些輸入的人員。所以事實上,光是這一部份,已經造的字把它放到資料庫
裡面,一旦放好了以後,馬上一個效果出來,就是你們要用的話,每個單位
都可以有一個資料庫,你馬上就可以查;如果以後新增的字不太多的話,事
實上它就已經幫了大忙。

    但是這個事情,像我今天跟各位報告的,這個事情牽涉得很廣,牽涉到
很多服務性的事情。所以事實上我們實驗室花了些時間把它弄出來,但是我
們很願意把它變成一個大家的東西,就是屬於 PUBLIC DOMAIN 的東西。 甚
至於我們寫的程式的 SOURCE CODE 都可以給大家, 為什麼?因為有很多這
上面的應用程式,不是我們可以寫的,是要大家一起來寫的,說不定需要中
央大學的、倚天的、法鼓山的,大家一起來寫。所以我們很希望這個東西是
為我們大家做的東西,這個東西做好了,產權是屬於大家的,所有人都可以
用。

    在這樣的情況之下,我是覺得這些管理的事情比這技術上的事情可能更
麻煩。我們可以儘量幫忙技術性的事情,就像恆清師父講的。但是整個管理
上的事情、決策上的事情,需要有一個像台大佛學中心這樣,真的比較超然
的單位,讓大家來決定這個事情,決定了以後,我們就來做。

    成立委員會的事情,我也很贊成。說不定我們可以成立兩個委員會,一
個是管理的委員會,這些公共的財產、公共的工作是怎麼分配的。舉個比方
說,現在佛光山有兩千多個字,我們一直到現在還沒有放進去,那是不是哪
位發心來放進去?事實上兩千多個字大概一個人兩個月就可以放進去。那有
些地方新造的字怎麼放進去?怎麼規畫起來?像這一些東西,工作上的分配
,倒不是說技術上的發展。那技術上怎麼發展?可能專門有一個委員會來商
量一下, 像這些東西你怎麼跟 MAC 連起來,MAC 的東西怎麼跟它連起來,
像這些不同機器、不同軟體現在不能互通的,這些問題是不是我們想辦法去
解決,由這個技術委員會來想辦法去解決。

─────────────────────────────────

    釋恆清:

    謝教授的這個建議就是兩個委員會,有他的道理,不知道大家有什麼意
見?那「管理」,你的意思是怎麼樣?它必須要做哪些事情?

─────────────────────────────────

    謝清俊:

    舉個比方說,我們現在已經把佛光山的兩千三百多個字都放進去了,現
在要發給大家用,那總要有人去做這些發的事情,發了以後後續管理的事情
。如果說西蓮淨苑那邊又有新的五百個字要加進來,那至少要看看有誰去做
這些事情,把它加進來。我是覺得有很多這種... (釋恆清:小細節那些。
)不只是小細節,我舉的例子可能是小細節。

    我們現在應該發展一個系統來做什麼,這個就交給技術委員會去做,你
現在是不是可以找一些人在技術上往這個方向做。事實上這個管理委員會是
掌舵的。也就是說,我們現在用這個系統解決造字的問題,那對我們來講,
我們現在大家都是要來印佛經,那說不定第一個問題就是先替大家把印佛經
的問題解決,那這個需要怎麼樣配合,那技術委員會跟著來做。

    我的意思就是說,這個大的方向,跟政策方面的走向,由管理委員會來
決定。那麼有很多技術性的問題,找人寫程式啊,分配工作啊,這些東西交
給技術委員會。

─────────────────────────────────

    釋恆清:

    那這個管理委員會必須要有什麼東西來配合,譬如說在佛教界造的字它
必須要全部收進來給你們,然後你們做好之後,它從這邊又可以發出去...

─────────────────────────────────

    謝清俊:

    現在是這樣,現在整理字是一個很好的時機,因為很多單位都做了很多
電子佛經的東西,很多單位也都造了一些字,那如果趁這個機會把大家造的
字集合起來,把它整理一下,根據部首、筆畫或者什麼東西,重新整理一下
,使它比較更有規律,能放到造字區去,這個是目前可以做的,這個時機比
以前好,因為你如果再早幾年的話,說不定你收集不到這麼多字。那現在既
然已經收集到了五千多個字,我們把這五千多個字整理一下,把重複的去掉
,然後把它的位置擺好。如果這些工作大家同意這樣做的話,我們可以根據
莊德明先生今天的報告,技術委員會就朝這個方向做下去,做了一些,就讓
大家去流傳。那做了多少就讓大家來流傳,我想這個事情由管理委員會來決
定。

    因此我是覺得,管理委員會可能溝通很重要,可能就是要跟佛光山、法
鼓山、西蓮淨苑或者彌陀內院或者很多不同的單位,要充分的溝通。大家希
望這個系統能夠幫你做什麼事,這個你不要找工程師,在旁邊自己談都可以
;工程師在旁邊,有時候還礙於面子不好談。所以我是覺得,這個事情都談
完了以後,你希望這個系統能幫你做什麼,最緊急的是什麼事,然後把這些
問題交給技術委員會來解決。解決了,怎麼去用,怎麼去散布,或者有關版
權的問題... 比方說,佛光山兩千三百字進來了,它有一些要求,它說這些
東西只能給大家溝通用,你不能把這些字形拿去賣;那麼,管理委員會要來
解決這些問題。也就是說,我們大致上要有一個職掌上的敘述。

─────────────────────────────────

    釋恆清:

    這樣的話,我們是不是今天可不可以就來決定?因為也就是現在這些人
。那如果你想到他今天沒來,可是他確實是這方面的專家,或者他可能在這
方面可以具體幫忙的話,也請各位提供,因為我知道的比較有限。那是不是
我們現在就可以來提供一些名單?就是說在管理委員會跟技術委員會... 換
句話說,由這個TEAM來負責,至於他們下面要做的項目,他們必須再去開會
,然後詳細去討論,有很完備的計畫之後,然後公諸於全佛教界。我們可以
從雜誌,或直接個別的通知,把我們這個造字的整個構想、計畫、推動的情
況,能提供什麼,還有大家的權利、義務,我們都跟整個佛教在做這方面的
人講清楚。那我相信大家一定會支持,因為他一定會有求於你嘛,很簡單嘛
,他一定會合作嘛,他自己造的會出來,然後人家的字庫那麼多,他將來馬
上就可以用,我相信還是可行的。

    現在我們起碼先把它組織起來好不好?我們先說技術委員會的,那當然
是謝教授,還有... (謝清俊:技術委員會我看我也跑不掉,我就參加技術
委員會。)就當召集人好了。

─────────────────────────────────

    謝清俊:還有莊德明先生,還有蔡先生。我想這樣吧!我們弄一張紙傳
下去,你願意參加技術委員會的,我們都歡迎。如果有推薦的話,也請寫下
來。

─────────────────────────────────

    李鴻榮(928電腦股份有限公司):

    我趁這個時間講一下。我今天來也是輾轉知道的,因為沒有發通知給我
們,也不可能發通知給我們,因為我們不是在這範圍之內的。那我們公司為
什麼願意來參加?主要目的也是願意來參與這個事情。因為我們公司有造字
部門、有輸入部門,所以關於有些字是不是要輸入電腦,其實我們有人員可
以幫忙做。我們是電腦公司,你們會想到跟利益上有什麼牽連在一起,其實
你想說有也有,說沒有也沒有。因為我們幫忙做這個事情,可能不需要收費
用的。我們總經理希望我來了解這個事情。原則上我會參加技術委員會這個
部份,關於執行部份我們會分一點力來做。

─────────────────────────────────

    釋自衍(香光尼眾佛學院圖書館):

    管理委員會是不是先選出負責的單位?我建議是台大佛學資料中心,它
是最中立的地方。

─────────────────────────────────

    謝清俊:

    對!對!我想台大佛學中心已經沒有什麼異議了。

─────────────────────────────────

    釋恆清:

    我們像謝教授說的,也是跑不掉了,也是沒辦法。當然我們願意服務,
可是我們還是需要大家的幫忙,這是一定要拜託大家的。你也是可以參加兩
個,如果你兩個都能夠幫得上忙的話。

─────────────────────────────────

    謝清俊:

    如果大家沒有什麼話說,我再囉嗦幾句話。上兩個禮拜,我去阿拉斯加
開一個會,  那個會是談論中、 日、 韓文件處理標準的問題,  提到有關
ISO10646 跟 UNICODE 的一些問題。大陸大概在上一次 ISO10646 開會的時
候,他們建議把中文字根放到 ISO10646 裡面。這件事情事實上也談了很久
了,談了有兩年了。大陸上整理了三百多個字根、八個操作符號,所以我們
現在中央標準局也在整理字根。這一套字根我們會給中央標準局,也就是說
,中央標準局拿了這一套字根,我希望它能夠把它放到未來的碼裡面。我想
這件事情大概沒什麼問題,順便跟各位報告一下。

    德明剛剛手上拿了一張這個紙很好,我以為他今天沒帶來。我們現在這
個系統一共 485 個字根,還有 557 個部件,部件就是比較複雜的字根而不
是字的,如果大家有興趣可以來這邊看一看。

─────────────────────────────────

    <會議結束>
Fri Mar 29 18:53:53 1996
回覆 | 轉寄 | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org