您有新信

 
補字機制
#1
ita
發信站: 獅子吼站 (Lion , 信區: BudaTech)
OPEN 98 的補字機制 (以下為行文方便,缺字使用張文明居士之組字法)

補字:在電腦中沒有標準儲存方式(encoding)的字(Character)/字母(Letter)。
一)中文異體字
佛典因年代久遠的關係含有大量的異體字(異於今日標準寫法的字),如[月*劦] 之標準
寫法是「脅」,[艸%公%心]事實上是「蔥」的異體,考慮到如果將這些異體字皆當成缺
字,一律造在BIG5使用者字區(五千餘個空間),將會有空間不足及輸入及查詢非常麻煩
的問題。所以,本軟體採用「同碼不同形」的方法來解決異體字的問題,具體的做法是
:利用造字工具設計一系列的異體字型,並在13051 標準字區置入相應內碼的異體字,
異體字型的檔名為EBTVn.TTF,其中n為第n號異體(1937>n>1) ,第0號保留給大陸用的
簡體字,第1937號保留給日本的Kanji(漢字),因為版權的關係,本軟體只能提供自家
造的佛典異體字,不過如果[口*十]、[人*(私-禾)]雖然分別為「葉」字的簡寫和
「佛」字的日本版,但因為佛學文件常常出現,所以我們還是會造進異體字區。其餘第
1至1936號空間則為異體字,我相信一個字不會有超過1936種異體罷!此外,有些BIG5
有收錄的字,如「尒」、「飢」等其實是「爾」和「饑」的異體,為了一致性,我們也
會造進異體字型。
在首頁將「正規化異體」的功能取消即可顯示異體字。(研發部按:目前未完成)

二)中文缺字(非異體字)
這部份我們以佛典補字集(感謝中研院提供)為底本,扣除異體字再加上佛光山禪藏及般
若藏中一些新的字,做成新的一套Truetype 描邊字型,因為是TTF的關係因此可以立即
下載顯示,不需重新開機。本網頁將扮演一個積極的缺字資訊分享環境,開發網路版的
缺字查詢/報告/下載/轉換工具,供大家免費使用,並設專人永繼地為大家解決相關
的技術問題及製作最美觀的描邊字型。我們希望這套缺字方案在中研院強力的支援及結
合佛光山藏經系列、印順導師文集等無論質量及數量均屬上乘的資料下,能成為教界最
後的一套造字檔,終止造字檔不相容的夢魘。

三)不屬於A~Z的羅馬字母 (梵文轉寫字、法文、德文等)
一般稱作含有區別音符(Diacritical Mark)的字母,即在A上面一橫、E上面兩點之類的
字母,這在雖然不是什麼大事,卻發現倒也困擾了不少從事佛典輸入及散佈的工作者,
第一版的佛光大辭典是以中文造字來解決這個問題,坦白說這是非常笨的方法,因為不
但顯示難看(佔兩Bytes),查詢麻煩兼無法排序 (A和 [A長音]無法排在一起),實在一
無是處,(筆者忝為該版核心研發人員,慚愧),另外台大佛研中心梵文巴利文的教學則
用小圖(Gylph)的方式,顯然也不是非常好的方法,因為小圖只解決了顯示的問題,在
資料輸入維護及網路傳輸上都不理想。
現有的英文字母字型雖然不少,卻沒有一套能支援全部的區別音符字母又同時不佔用
A4 (中文字字區第一字元)以後的字元(以便與中文相容),何況一般大量資料的輸入工
作皆以純文字模式進行,要如何才能讓一般的錄入員方便地輸入這些字母?

四)特殊字體
這部份以天城體(Devanagari、俗稱梵字)和藏文為代表,我們稍微研究了一下,發現如
果要讓它要在輸入層次(很難教育使用者輸入)與中文相容不太容易,但顯示則沒有問
題,所以原則上我們原始資料一律用轉寫字母來表示,在輸出時再轉換為相應的字型。

結語
和電子佛典結緣至今已近七年,其中有太多的法喜,當然也有面對現實的無奈,隨著經
驗的累積,除了義無反顧地繼續為這意義深遠的工作努力之外,有幾點信念只有隨著時
間越來越堅定,願與大眾共勉。
1)不要試圖在電腦資料庫中保存原始文件的所有資訊,這是不切實際的做法,因為電
子媒體是自人類發明印刷術以來最大的突破,很多觀念和做法將因之徹底改觀、所以完
全遷就舊有的文件是沒有意義的,我們要保存的是文件的內容和結構,而不要花太多精
力在其外觀及物理性結構上。
2)不要完全信任科技,要抱持科技為文化服務的態度,不要圖一時之快,將重要的文
化資產削足適履地遷就科技,這是我多年的心得:不當的規劃、儲存方式將會令後人非
常痛苦!另一種極端是完全不信任科技,認為科技變化太快、電腦化沒有意義,很快就
過時,有書本就好了。這是斷佛慧命的邪說!自古至今,有太多大德為了保存留傳佛
經,奉獻了畢身的心血,他們無一不是善巧利用當代最先進可行的技術,為的是什麼?
難道他們不知道木刻的佛經極易毀於兵燹、石刻的佛經製作成本高昂而移動不易嗎?他
們當然知道,但不能因為這樣就不做了,自己修行就好,而是了解到只要盡一份心,芸
芸眾生中就會多一點機會接觸到佛經,藉此悟入佛的知見。我們今天面臨的情形是電子
媒體以其無與倫比的優勢吸引了這一代人類最傑出的精英、越來越多的文化成就是以電
腦網路的形式來做媒介,學佛而又懂電腦的我們又怎能置身事外呢?
3)要加強合作,漢文佛典電子化已落後其他語系一大截,我們既然認同菩薩道,並了
解漢文佛典在大乘佛法中之價值,那麼就應放棄一已之私、門戶之見,多多配合連絡,
如果認為自己的比妙雲蘭若(印順導師駐錫處)更有佛學素養、漢字處理技術比中研院謝
清俊教授高明、資源也比佛光山多的話不仿繼續閉門造車,以我個人的了解,論人才、
資源、文化遺產,我們絕不輸人,但為什麼在漢文電子佛典在國際上沒有得到應有的地
位呢?真的是中文的整體運算環境不好嗎?還是沒有整合的緣故?值得大家深思!
Fri Dec 26 09:02:25 1997
回覆 | 轉寄 | 返回

Re: 補字機制
#2
Heaven
發信站: 獅子吼站 (Lion , 信區: BudaTech)
==> 於 ita (ita@Lion) 文中述及:
: 的技術問題及製作最美觀的描邊字型。我們希望這套缺字方案在中研院強力的支援及結
: 合佛光山藏經系列、印順導師文集等無論質量及數量均屬上乘的資料下,能成為教界最
: 後的一套造字檔,終止造字檔不相容的夢魘。
: 3)要加強合作,漢文佛典電子化已落後其他語系一大截,我們既然認同菩薩道,並了
: 解漢文佛典在大乘佛法中之價值,那麼就應放棄一已之私、門戶之見,多多配合連絡,
: 如果認為自己的比妙雲蘭若(印順導師駐錫處)更有佛學素養、漢字處理技術比中研院謝
: 清俊教授高明、資源也比佛光山多的話不仿繼續閉門造車,以我個人的了解,論人才、
: 資源、文化遺產,我們絕不輸人,但為什麼在漢文電子佛典在國際上沒有得到應有的地
: 位呢?真的是中文的整體運算環境不好嗎?還是沒有整合的緣故?值得大家深思!

  很高興看到有人很有魄力的要開發"教界最後一套造字檔", 深為造字檔所困擾的
  我們, 沒有理由不大力支持.

  想想軟體界的國王 Microsoft , 之所以能稱霸許久, 除了軟體強又好用之外, 
  有一個原因就是能整合別人的資料, 也就是能讓使用者在不改變原有之資料
  格式下, 進行使用其好用的軟體. 若當時 excel 不支持 123, IE 若不支援
  java , 它能有現在的使用群嗎? ... 扯太遠去了. :p

  前一陣子由佛研中心主導, 臨時成立的25T藏經整理小組, 是一支為了將手中
  現有資源--25冊CCCII大正藏--做最佳處理的臨時團體, 這部份的成果日後會
  公佈, 這先估且不談. 主要是在成員中, 是由 huiqun 及中研院負責缺字的
  處理事宜. 中研院的努力大家是有目共睹的. 而 huiqun 也花了許多苦心, 
  將當時的主要三家造字檔 -- 中研院, 佛光山補字集 (佛光山大辭典 v1.0)
  及美國佛教電腦資訊庫功德會 -- 這三家的造字檔, 他將之整理, 並列出對
  照表, 將各字的內碼整理, 用人力方式將所有內碼一一比對, 所做出的整理
  表, 若是佛光山有意要來整合所有的造字檔, 並永續服務, 個人認為利用這
  份資料來撰寫其它家造字檔轉換程式, 這是很重要的關鍵. 也只有如此, 才
  能讓其它造字很容易的轉換. 若能在起步時先將現有資源整合, 後續大家再
  一起共同發展, 這可能才是比較圓滿的方法.

  若各位想看這一份資料, 它是 Access 的資料庫, 目前放在
  ftp://buddha.nsysu.edu.tw/pub/25t/BIG5_DB.zip
  有 6M 之多, (因為每個字都有圖檔), 這是一份非常珍貴的資料, 還希望
  能讓它發揮最大的功效.

  至於幾封相關的重要討論, 下封提出讓各位參考. 說句真心話, 若真有人
  願意出來做, 大家都是會力以赴的幫助到底.

  heaven
Fri Dec 26 15:31:00 1997
回覆 | 轉寄 | 返回

Re: 補字機制
#3
Heaven
發信站: 獅子吼站 (Lion , 信區: BudaTech)
這是上封提到的討論, 這些討論日後會全部公開, 現在是利用這個機會, 
將相關討論提出來, 看能不能趁勢將整合的大事一舉推到頂點.
===========================
【11/11 huiqun】

基於各位近日多封信件皆討論25T、CBS、中研院莊居士、普賢WMC兄、缺字等錯
綜複雜的關係,弟想說明一下我的立場。

各位的發心都是佛典電子化吧。弟一來沒有這方面的能力,二來從不擔心佛典沒
有人去電子化,所以沒有這個發心。

只是看到"big5缺字"這個基本而首要的問題如果沒有統一處理,以後會構成許多
交流上的麻煩,而這些麻煩將是沒有辦法解決的,教界在佛典電子化的合作更會
因此而受負面影響。

以big5的普及性,忽略它是不可能的。但大部份的人都視缺字處理為一項佛典電
子化的附帶工作,只要把自家所電子化的經文推出,缺一個字造一個就算了。

如果想著推出電子化經文是給別人讀的,恐怕要重新思考一下,誰會在螢幕上讀
經?弟以為佛典電子化一大優點是便於檢索、"處理"、交流。缺字連連,各家各
碼,如何檢索、處理、交流?

弟卻覺得缺字是big5的遺憾,造字並非佛典電子化的附帶工作,每個造字都應享
有與任何一個系統內建字同等的地位,"標準造字檔"更應是標準配備而非附加配
備。

在目前欠缺"標準造字檔"的時候,組字和圖形都是很好的過渡方法,當然也可以
把組字和圖形作為另一種固定的表達方式。

目前三大造字檔是中研院、資功會、佛光山,都是能看不能用。前者應是最具權
威的,但只提供一個造字檔和若干學術文獻,沒有提供個別原始資料轉碼服務,
愛用者無法從原有的自家造字檔轉移至中研院造字檔,也沒有提供常態性的增訂
服務,愛用者發現新缺字時只能報告而無法適時取得新造字。後二者更只是為配
合出版品而產生的附屬品。

弟的主張是大家一起來,培養因緣以建立一套"佛典Big5缺字系統",包含:

一、標準Big5造字檔
二、個別原始資料轉碼機制與服務
三、常態性造字增訂機制與服務
四、組合字、圖形、相通字表、異體字表、繁簡對照表、其他相關工具...

凡是朝這大方向走的,必定會遇上大量繁瑣的人工作業,無論是甚麼單位,小弟
都樂意義務協助處理此等耗時的人工作業。凡是為了一時交差而只肯原地踏步
的,弟則恕難提供協助。凡是指向個別出版品的短視作業,小弟也不會助其製造
更多混亂。

弟相信Maha兄和Heaven兄二位大概都頗清楚弟的想法,弟也很樂於跟二位學習和
配合。Tone兄則因最近才有接觸,弟還待加強合作默契。普賢WMC兄方面,只是
這幾天來了兩封信,弟還搞不懂那邊在做的是甚麼,如果與弟的想法相符,我還
是一樣隨緣協助。中研院莊居士則弟完全生疏,但以其崇高地位,中研院無庸置
疑乃落實整套"佛典Big5缺字系統"之最佳負責單位,不知道莊居士是否有這種打
算,是的話,我想大家都會非常歡喜的投入協助。如果資功會或佛光山有意出面
負責"佛典Big5缺字系統",弟也會不遺餘力幫忙。
====================================================================
【11/26 huiqun】
...........
有中研院為大家做好的現成東西,教界和學界都應安心盡量去應用,
也相信沒有人會笨到要閉門造車或捨近圖遠的。
不過,只是「標準統一造字執行機制」還未完整,其中元件發揮不了。

  標準統一造字檔 (大家都公認中研院的)
+ 安全轉換服務 ( ? )
+ 適時增訂造字服務 ( ? )
+ 標準統一造字檔更新 ( ? )
──────────
= 標準統一造字執行機制 ( ? )
====================================================
【11/28 heaven】

至於 huiqun 所提的, 我腦中大概的構想如下:

1. 適用度高的轉換(碼)程式是要寫的, 但這是 case by case 的工作.
對不同的造字檔做對照表, 才是最辛苦的一環. 這點日後另外談好了!

2. 依目前大正藏第九冊缺字的格式 (若有不足再討論) , 將中研院的造字檔
也放上 web server 供人查詢, 大家才知道哪個字已有造字. 基本資料為何.

3. 做一個留言板, 有人有新字要處理時, 寫在留言板上, 大家就知道這個字
將被處理. 並自動 mail 給中研院及 web server 管理者或缺字負責人.

中研院負責編一個 big5 造字內碼 (依德明兄以前寫的筆劃原則) 或不造
的原因 (是不是每個字都一定會造呢?) .

缺字負責人則做"標準"組合字, 筆劃, 倉頡碼... 等資料 (這部份是否由中研
院統一做? 我是擔心中研院負擔較重, 這種比較不重要的, 可以隨時改的, 
就給缺字負責人或 web 負責人來做就好了)

做完後就交給 web 負責人, 負責將留言板資料清除, 放入正式區, 並 mail 
原通知者. 若有資料網友想填充的, 留言板亦是個好地方. 而留言板的資
料亦可考慮過濾後送上 buda-tech .

4. 缺字查詢的區域分為二個, 站上會隨時附上最新的造字檔, 故第一個
查詢區就是以造字檔的字為主.
第二個就是最近新增的字, 尚未加入造字檔, 但已有指定內碼. 若各單位
想自己加入造字檔亦可, 只要內碼一致, 自己造也無礙. 另外就是可能有
些字不造 (出現頻率太低或其它原因, 因為我不知道是不是每個字都造, 
直到爆掉為止?) , 也是寫出不造原因, 組合法, 注音....

.... 嗯! 看來似乎不錯.... :p
========================================================

  heaven
Fri Dec 26 15:48:34 1997
回覆 | 轉寄 | 返回

補字機制
#4
ita
發信站: 獅子吼站 (Lion , 信區: BudaTech)
個人了解電子佛典此事也有六、七年了,每年均有人在討論
造字的問題,從CCCII、UNICODE、Big5造字諸如此類的大作,
而隨之每年新的技術,從DOS、Win31、Win95不同User平台,
各方均有不同的見解,近來看到 "補字機制"此文從側面得
知是多方面人士的心力結合,應是不錯的解決之道。似乎
沒有人有更好的意見,也希望大家多方面的支持,不然老
是看到大家在buda-tech上天馬行空!沒有較好的具體成果(
抱歉小弟也只會說說也不會coding )。

相信"補字機制"均達目前的標準,我想大家有空可
多多了解 http://210.61.183.71/ 站長的用心!!
Fri Dec 26 16:59:00 1997
回覆 | 轉寄 | 返回

Re: 補字機制
#5
Heaven
發信站: 獅子吼站 (Lion , 信區: BudaTech)
==> 於 ita (ita@Lion) 文中述及:
: 拜讀了Heaven兄的大作小弟有點疑問:

  不敢, 不敢, 多是別的人東西, 小弟只是引出來而已. :)

: 各方均有不同的見解,近來看到 "補字機制"此文從側面得
: 知是多方面人士的心力結合,應是不錯的解決之道。似乎
: 沒有人有更好的意見,也希望大家多方面的支持,不然老
: 是看到大家在buda-tech上天馬行空!沒有較好的具體成果(
: 抱歉小弟也只會說說也不會coding )。

  不錯, 真的是非常好的東西, 不然小弟也不會如此興奮了. ^___^

  目前的成果都有賴於中研院的努力及佛光山的實做, 才能有如此
  之成就. 小弟也是從旁看消息的人而已. 不過中研院及佛光山也
  知道這方式有其限制, 將資料轉至純文字的檔案格式, 問題就出
  來了. 許多根本問題還是會存在, 看看下一版的 big5 (big5 plus?)
  能不能解決這些問題.

  但目前, 這的確是最好的方式了, 故引出如何將其它造字檔整合協
  助轉換, 這也是一個重要的部份. 這部份並不是誰的義務, 而是希
  望大家一起來努力的事.

  heaven
Fri Dec 26 18:03:47 1997
回覆 | 轉寄 | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org