看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 1128/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: Heavenchow@Lion (Heaven), 信區: BudaTech
標  題: Re: 成立佛典缺字討論小組
發信站: 獅子吼站 (Mon Jan  5 09:38:45 1998)
轉信站: Lion

本篇給各位參考, 若有興趣的朋友, 歡迎加入佛典缺字討論小組, 
至該小組討論下去. 謝謝!

  §囉嗦的契子§

在 25T 小組處理經文時, 討論到最後的成品, 我曾對 maha 建議, 
網路上大正藏第九冊的格式太麻煩了, 而且很浪費空間, 若要做到
保留完整資訊, 可在每一段做個記號, 如此閱讀比較清爽, 檔案也
會變小. maha 立即向我說明, 這樣在校對時很方便, 立刻可以知
道是何頁何行何字, 在其它的處理也很方便. 日後要改, 則怎麼改
都可以....

後來聽說 open 98 根據這種格式, 不到二小時就將六十華嚴全文
檢索做出來, 並在其「再論補字機制」 提到 : 

「在CCS 2.0 (參考www consortium)的規格中有一個很重要的觀念
  ,即電腦螢幕及平面紙張只不過是同一份Core data (核心資料)
  的兩不同出版方式而已,所以其內建有出版至螢幕或紙張的指令
  。」

也就是說, 我上述的想法犯了一個錯誤, 就是想將原始資料、成品
結果、其他處理來源(如全文檢索)... 都希望是同一份東西, 所以
處處都遇到捉襟見捉肘的窘態, 怎麼都做不到一舉數得的結果. 如
今這個觀念, 的確是給了後學一些想法上的出路, 原始資料歸原始
資料, 日後要怎麼展現或處理, 都是各人的事, 重點就在「如何輸
入原始資料」及「如何展現成品」, 分開來想的確簡單多了, 於故
試著整理自己在三篇補字機制及 25T 小組的處理心得, 看能不能整
理出些什麼給大家參考.

  §古早的問題§

缺字最老的問題, 大概就是造字的空間不足. 各家造字的亂象不談
 (罵了好多人 :p)這個問題也是各家都會遇到的. 看了一些報告, 
最常聽到的做法是「將最需要的放入」, 比較不重要的就用組合字
或其它方式處理掉. 但什麼才是需要的? 若是輸入 30 冊大正藏, 
重要的字就填滿了, 其它的幾冊怎麼辦? 除非大正藏及其它的辭典
, 工具書全部都出來了, 再來麻煩中研院等大機關來裁決? 

日後或許會有不少新的標準出來, 但在這之前, 問題還是要解決, 
我本來是放假完才要整理這一篇, 但有人覺得事情比較急, 故我就
先寫了. 我們是可以慢慢玩, 但資功會及佛光山都是在陸續出成品
的單位, 他們可等不得, 拖愈久則問題愈多, 我想大家都能理解. 
現有之 CNS , CCCII , Unicode 及討論中的 big5-plus(?) , 都是
字較多的東西, CNS 及 CCCII 25t 小組有玩過了, 至於 OPEN 98 
則認為 Unicode 會成為標準, 我想其自有專業的眼光. 若有機會, 
可請其另文撰寫, 發表看法. 這裡只是要說, 在這些標準出來之前,
我們必需有一個自己的暫時標準, 並且能容易的轉到後來的規格中.

現在就以補字機制及其它心得以「成品輸出」及「資料輸入」二個
角度來探討, 看看是否有什麼問題在其中.

  §成品輸出§

成品輸出就是利用「原始資料」或稱 Core data (核心資料) , 再
利用程式轉入下列各種格式的成品. 有些如 Word , 則可以利用
Word 的巨集將核心資料轉成其可展現的結果.

在此, 小弟只討論異體字及缺字, 其它如天城體及羅馬字母等, 我
沒有去仔細想過.

●缺字 : 使用造字空間, 諸位專家們都說真正的缺字實在不多... 
         我們就先這樣同意好了.
  
  ○在特殊讀經器 (如 OPEN 98 )  : 直接輸出      
  ○在支援多字面程式 (如 Word ) : 直接輸出
  ○在支援圖形的介面 (如瀏覽器) : 直接輸出
  ○在純文字模式 (如筆記本)     : 直接輸出
  ○在 dos 模式 (如 pe2 , 漢書) : 直接輸出

  ※以上或有兼具多特色的程式, 如 Word 可直援字面及內嵌圖形圖形.
  ※支援多字面程式, 即可同時看到明體, 楷書等同字(碼)不同形的程式.

●異體字 : 使用標準 Big5 空間, 但使用其它字面. 在輸出時必需有正
           體字, 字面編號, 異體字形的完整缺字表格.

  ○在特殊讀經器 (如 OPEN 98 )  : 直接輸出      
  ○在支援多字面程式 (如 Word ) : 直接輸出
  ○在支援圖形的介面 (如瀏覽器) : 轉成圖檔
  ○在純文字模式 (如筆記本)     : 1.直接轉成正體字 2.轉成正體字
                                  但加上標記 3.轉成組合字
  ○在 dos 模式 (如 pe2 , 漢書) : 1.直接轉成正體字 2.轉成正體字
                                  但加上標記 3.轉成組合字

  §資料輸入§

●缺字 : 由於使用造字空間, 只要提供良好之輸入法, 則與一般字輸入
         無異.
●異體字 : 在「三論補字機制」一文中, 作者提到為了「兼顧應用(人容
           易讀)及流通(機器可讀) 便利」提出了的 OPEN 98 經文原始
           檔規格的建議, 格式有點類似 <#Vn>[正體字] ,而打算使用
           詞庫的方式來輸入, 以避免使用者查表的困擾.

           這個方式以前 maha 也和我提過, 是為了要輸入組合字用的. 
           例如[爿*木]這個字, 對倉頡的使用者可能會輸入[女一木]=[VMD]
           , 只是在組合字時, 希望能輸出[爿*木]而 OPEN 98 的規格
           可能是輸入<#V1>[床]. 輸入原理相同, 但 maha 好像提過, 
           通用詞庫無法輸出半形字, 有關這方面及通用詞庫使用法, 
           能否請 maha 介紹一下.

           或許我們可以輸入[?女一木]或[?VMD], 到時再用轉換程式
           依缺字表轉換即可. 只是要考慮重覆字的情形, 例如梵網中
           [爿*木]的缺字, 即是用 VMD.GIF 的圖形來表示. 又想到一
           點, 若用[?VMD床], 大概就比較不會重覆了吧! 這類方法缺
           點是在轉換前, 可能不易看出是什麼字.

  §其它§

其它要討論的事及 OPEN 98 提出來的功能亦不少, 如檢索 (異體字可用
正體字檢索) , 加入其它標記, 讓文章可依作者, 段落...等等您想得出
來的方式檢索 (當然, tag 就要再定義下去) , 不過這些比較和缺字無
關, 又如 OPEN 98 亦提到可將自家之造字以另一字面來看待, 這樣就可
以不動到核心資料....  等特異功能, 後學已無力再思索下去了... 

總之, 核心歸核心, 展現歸展現. 是一個很好的觀念. 以經典系列及梵網
為例, 經典系列是以純文字檔為核心, 所以展現出來的資料就是純文字. 
而梵網則是曾國豐的力造, 有興趣的人可以去看看. 尤其在古文格式上, 
我個人認為不錯. 但我曾問過他一個問題, 若有 user 想 copy 資料,  
您要怎麼還原? (因為他大量用了 JavaScaipt 在處理, 但處理時很方便, 
但還原可能就有點麻煩). 他是說為什麼還原? 我說因為想在家裡看, 或
是其它處理.... 那時結論是東坡站還是有原稿, 不然以後也可以提供
Html 格式檔, 讓 user 下載. 我想可以這樣說, 梵網的整體很不錯, 但
就是不易變更. 而且他辛苦的加上了作者, 校對者及其它線上註解, 在原
始檔案有些可能沒有, 也就造成了多份原始資料的場面出來. 在後來的發
展上是比較麻煩的. 

這時若能將大家認為重要的資料加入核心資料中, 在成品展現及資料處理
上則大家各憑本事, 都是很好的方式. 而這些就有待大家的共同討論了.

[問題一] : 若異體字和正體字不是全然相等時, 如何處理?
[問題二] : 有人問及通用字庫的作法及限制? maha 能否提出心得.

  其它則看不到什麼問題, 只是一些規格討論, 歡迎大家提出看法.

  heaven
--
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 140.113.87.165]
閱讀文章: 第 1128/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org