看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 1083/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: ita@Lion (ita), 信區: BudaTech
標  題: 補字機制
發信站: 獅子吼站 (Fri Dec 26 09:02:25 1997)
轉信站: Lion

轉載自 http://210.61.183.71 之補字區

OPEN 98 的補字機制 (以下為行文方便,缺字使用張文明居士之組字法)

補字:在電腦中沒有標準儲存方式(encoding)的字(Character)/字母(Letter)。
一)中文異體字
佛典因年代久遠的關係含有大量的異體字(異於今日標準寫法的字),如[月*劦] 之標準
寫法是「脅」,[艸%公%心]事實上是「蔥」的異體,考慮到如果將這些異體字皆當成缺
字,一律造在BIG5使用者字區(五千餘個空間),將會有空間不足及輸入及查詢非常麻煩
的問題。所以,本軟體採用「同碼不同形」的方法來解決異體字的問題,具體的做法是
:利用造字工具設計一系列的異體字型,並在13051 標準字區置入相應內碼的異體字,
異體字型的檔名為EBTVn.TTF,其中n為第n號異體(1937>n>1) ,第0號保留給大陸用的
簡體字,第1937號保留給日本的Kanji(漢字),因為版權的關係,本軟體只能提供自家
造的佛典異體字,不過如果[口*十]、[人*(私-禾)]雖然分別為「葉」字的簡寫和
「佛」字的日本版,但因為佛學文件常常出現,所以我們還是會造進異體字區。其餘第
1至1936號空間則為異體字,我相信一個字不會有超過1936種異體罷!此外,有些BIG5
有收錄的字,如「尒」、「飢」等其實是「爾」和「饑」的異體,為了一致性,我們也
會造進異體字型。
在首頁將「正規化異體」的功能取消即可顯示異體字。(研發部按:目前未完成)

二)中文缺字(非異體字)
這部份我們以佛典補字集(感謝中研院提供)為底本,扣除異體字再加上佛光山禪藏及般
若藏中一些新的字,做成新的一套Truetype 描邊字型,因為是TTF的關係因此可以立即
下載顯示,不需重新開機。本網頁將扮演一個積極的缺字資訊分享環境,開發網路版的
缺字查詢/報告/下載/轉換工具,供大家免費使用,並設專人永繼地為大家解決相關
的技術問題及製作最美觀的描邊字型。我們希望這套缺字方案在中研院強力的支援及結
合佛光山藏經系列、印順導師文集等無論質量及數量均屬上乘的資料下,能成為教界最
後的一套造字檔,終止造字檔不相容的夢魘。

三)不屬於A~Z的羅馬字母 (梵文轉寫字、法文、德文等)
一般稱作含有區別音符(Diacritical Mark)的字母,即在A上面一橫、E上面兩點之類的
字母,這在雖然不是什麼大事,卻發現倒也困擾了不少從事佛典輸入及散佈的工作者,
第一版的佛光大辭典是以中文造字來解決這個問題,坦白說這是非常笨的方法,因為不
但顯示難看(佔兩Bytes),查詢麻煩兼無法排序 (A和 [A長音]無法排在一起),實在一
無是處,(筆者忝為該版核心研發人員,慚愧),另外台大佛研中心梵文巴利文的教學則
用小圖(Gylph)的方式,顯然也不是非常好的方法,因為小圖只解決了顯示的問題,在
資料輸入維護及網路傳輸上都不理想。
現有的英文字母字型雖然不少,卻沒有一套能支援全部的區別音符字母又同時不佔用
A4 (中文字字區第一字元)以後的字元(以便與中文相容),何況一般大量資料的輸入工
作皆以純文字模式進行,要如何才能讓一般的錄入員方便地輸入這些字母?

四)特殊字體
這部份以天城體(Devanagari、俗稱梵字)和藏文為代表,我們稍微研究了一下,發現如
果要讓它要在輸入層次(很難教育使用者輸入)與中文相容不太容易,但顯示則沒有問
題,所以原則上我們原始資料一律用轉寫字母來表示,在輸出時再轉換為相應的字型。

結語
和電子佛典結緣至今已近七年,其中有太多的法喜,當然也有面對現實的無奈,隨著經
驗的累積,除了義無反顧地繼續為這意義深遠的工作努力之外,有幾點信念只有隨著時
間越來越堅定,願與大眾共勉。
1)不要試圖在電腦資料庫中保存原始文件的所有資訊,這是不切實際的做法,因為電
子媒體是自人類發明印刷術以來最大的突破,很多觀念和做法將因之徹底改觀、所以完
全遷就舊有的文件是沒有意義的,我們要保存的是文件的內容和結構,而不要花太多精
力在其外觀及物理性結構上。
2)不要完全信任科技,要抱持科技為文化服務的態度,不要圖一時之快,將重要的文
化資產削足適履地遷就科技,這是我多年的心得:不當的規劃、儲存方式將會令後人非
常痛苦!另一種極端是完全不信任科技,認為科技變化太快、電腦化沒有意義,很快就
過時,有書本就好了。這是斷佛慧命的邪說!自古至今,有太多大德為了保存留傳佛
經,奉獻了畢身的心血,他們無一不是善巧利用當代最先進可行的技術,為的是什麼?
難道他們不知道木刻的佛經極易毀於兵燹、石刻的佛經製作成本高昂而移動不易嗎?他
們當然知道,但不能因為這樣就不做了,自己修行就好,而是了解到只要盡一份心,芸
芸眾生中就會多一點機會接觸到佛經,藉此悟入佛的知見。我們今天面臨的情形是電子
媒體以其無與倫比的優勢吸引了這一代人類最傑出的精英、越來越多的文化成就是以電
腦網路的形式來做媒介,學佛而又懂電腦的我們又怎能置身事外呢?
3)要加強合作,漢文佛典電子化已落後其他語系一大截,我們既然認同菩薩道,並了
解漢文佛典在大乘佛法中之價值,那麼就應放棄一已之私、門戶之見,多多配合連絡,
如果認為自己的比妙雲蘭若(印順導師駐錫處)更有佛學素養、漢字處理技術比中研院謝
清俊教授高明、資源也比佛光山多的話不仿繼續閉門造車,以我個人的了解,論人才、
資源、文化遺產,我們絕不輸人,但為什麼在漢文電子佛典在國際上沒有得到應有的地
位呢?真的是中文的整體運算環境不好嗎?還是沒有整合的緣故?值得大家深思!

--
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 203.73.26.1]
閱讀文章: 第 1083/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org