看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 1086/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: Heavenchow@Lion (Heaven), 信區: BudaTech
標  題: Re: 補字機制
發信站: 獅子吼站 (Fri Dec 26 15:48:34 1997)
轉信站: Lion

這是上封提到的討論, 這些討論日後會全部公開, 現在是利用這個機會, 
將相關討論提出來, 看能不能趁勢將整合的大事一舉推到頂點.
===========================
【11/11 huiqun】

基於各位近日多封信件皆討論25T、CBS、中研院莊居士、普賢WMC兄、缺字等錯
綜複雜的關係,弟想說明一下我的立場。

各位的發心都是佛典電子化吧。弟一來沒有這方面的能力,二來從不擔心佛典沒
有人去電子化,所以沒有這個發心。

只是看到"big5缺字"這個基本而首要的問題如果沒有統一處理,以後會構成許多
交流上的麻煩,而這些麻煩將是沒有辦法解決的,教界在佛典電子化的合作更會
因此而受負面影響。

以big5的普及性,忽略它是不可能的。但大部份的人都視缺字處理為一項佛典電
子化的附帶工作,只要把自家所電子化的經文推出,缺一個字造一個就算了。

如果想著推出電子化經文是給別人讀的,恐怕要重新思考一下,誰會在螢幕上讀
經?弟以為佛典電子化一大優點是便於檢索、"處理"、交流。缺字連連,各家各
碼,如何檢索、處理、交流?

弟卻覺得缺字是big5的遺憾,造字並非佛典電子化的附帶工作,每個造字都應享
有與任何一個系統內建字同等的地位,"標準造字檔"更應是標準配備而非附加配
備。

在目前欠缺"標準造字檔"的時候,組字和圖形都是很好的過渡方法,當然也可以
把組字和圖形作為另一種固定的表達方式。

目前三大造字檔是中研院、資功會、佛光山,都是能看不能用。前者應是最具權
威的,但只提供一個造字檔和若干學術文獻,沒有提供個別原始資料轉碼服務,
愛用者無法從原有的自家造字檔轉移至中研院造字檔,也沒有提供常態性的增訂
服務,愛用者發現新缺字時只能報告而無法適時取得新造字。後二者更只是為配
合出版品而產生的附屬品。

弟的主張是大家一起來,培養因緣以建立一套"佛典Big5缺字系統",包含:

一、標準Big5造字檔
二、個別原始資料轉碼機制與服務
三、常態性造字增訂機制與服務
四、組合字、圖形、相通字表、異體字表、繁簡對照表、其他相關工具...

凡是朝這大方向走的,必定會遇上大量繁瑣的人工作業,無論是甚麼單位,小弟
都樂意義務協助處理此等耗時的人工作業。凡是為了一時交差而只肯原地踏步
的,弟則恕難提供協助。凡是指向個別出版品的短視作業,小弟也不會助其製造
更多混亂。

弟相信Maha兄和Heaven兄二位大概都頗清楚弟的想法,弟也很樂於跟二位學習和
配合。Tone兄則因最近才有接觸,弟還待加強合作默契。普賢WMC兄方面,只是
這幾天來了兩封信,弟還搞不懂那邊在做的是甚麼,如果與弟的想法相符,我還
是一樣隨緣協助。中研院莊居士則弟完全生疏,但以其崇高地位,中研院無庸置
疑乃落實整套"佛典Big5缺字系統"之最佳負責單位,不知道莊居士是否有這種打
算,是的話,我想大家都會非常歡喜的投入協助。如果資功會或佛光山有意出面
負責"佛典Big5缺字系統",弟也會不遺餘力幫忙。
====================================================================
【11/26 huiqun】
...........
有中研院為大家做好的現成東西,教界和學界都應安心盡量去應用,
也相信沒有人會笨到要閉門造車或捨近圖遠的。
不過,只是「標準統一造字執行機制」還未完整,其中元件發揮不了。

  標準統一造字檔 (大家都公認中研院的)
+ 安全轉換服務 ( ? )
+ 適時增訂造字服務 ( ? )
+ 標準統一造字檔更新 ( ? )
──────────
= 標準統一造字執行機制 ( ? )
====================================================
【11/28 heaven】

至於 huiqun 所提的, 我腦中大概的構想如下:

1. 適用度高的轉換(碼)程式是要寫的, 但這是 case by case 的工作.
對不同的造字檔做對照表, 才是最辛苦的一環. 這點日後另外談好了!

2. 依目前大正藏第九冊缺字的格式 (若有不足再討論) , 將中研院的造字檔
也放上 web server 供人查詢, 大家才知道哪個字已有造字. 基本資料為何.

3. 做一個留言板, 有人有新字要處理時, 寫在留言板上, 大家就知道這個字
將被處理. 並自動 mail 給中研院及 web server 管理者或缺字負責人.

中研院負責編一個 big5 造字內碼 (依德明兄以前寫的筆劃原則) 或不造
的原因 (是不是每個字都一定會造呢?) .

缺字負責人則做"標準"組合字, 筆劃, 倉頡碼... 等資料 (這部份是否由中研
院統一做? 我是擔心中研院負擔較重, 這種比較不重要的, 可以隨時改的, 
就給缺字負責人或 web 負責人來做就好了)

做完後就交給 web 負責人, 負責將留言板資料清除, 放入正式區, 並 mail 
原通知者. 若有資料網友想填充的, 留言板亦是個好地方. 而留言板的資
料亦可考慮過濾後送上 buda-tech .

4. 缺字查詢的區域分為二個, 站上會隨時附上最新的造字檔, 故第一個
查詢區就是以造字檔的字為主.
第二個就是最近新增的字, 尚未加入造字檔, 但已有指定內碼. 若各單位
想自己加入造字檔亦可, 只要內碼一致, 自己造也無礙. 另外就是可能有
些字不造 (出現頻率太低或其它原因, 因為我不知道是不是每個字都造, 
直到爆掉為止?) , 也是寫出不造原因, 組合法, 注音....

.... 嗯! 看來似乎不錯.... :p
========================================================

  heaven
--
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 140.113.87.165]
閱讀文章: 第 1086/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org