看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 501/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: Maha Wu <maha@tpts1.seed.net.tw>, 信區: BudaTech 標 題: 《高麗藏》電腦輸入工程考察記 發信站: National Sun Yet San University (Mon Apr 7 09:50:32 1997) 轉信站: Lion!news.nsysu!buda-tech@sccid.nsysu 來 源: sccid.nsysu.edu.tw 各位關心電子佛典的朋友: 下文摘錄自: http://power.beijing.cn.net/bikeserver/dharma/9608/b9608f09.htm ---------------------------------------------------------------------------- 法音 1996年第8期(總第144期)第21頁 《高麗藏》電腦輸入工程考察記 烏·阿浦 著 劉建 譯 1995年9月24日﹐我訪問了正在進行世界上最大的電腦輸入工程之一《高麗 藏》輸入工程的兩個辦事機構。我將在下面談一談我的一些訪問觀感。我希望﹐這些觀 感不僅會有益于《高麗藏》輸入工程﹐而且也有益于東亞和其他地方正在擬議中的類似 工程。 《高麗藏》﹙高麗大藏經﹚所以非常馳名不僅是因為其不同尋常的版本質量﹐而且 也由于其木刻經板至今猶存。這些刻于十三世紀的為數80000餘塊的大型雙面印刷 經板﹐現收藏于韓國最著名的禪寺之一海印寺內。這一堪稱韓國國寶的收藏﹐是現存年 代最為久遠的囊括全部漢文佛典在內的木刻經板珍藏。 《高麗藏》電腦輸入工程的歷史不算很長。它實際上是隨劉易斯·蘭卡斯特教授二 1991年前後前手輸入試驗而開始的。1993年以來﹐曾在京都我供職的研究所研習過的海 印寺宗林法師(Ven.chongnim)﹐出任整個工程的主管。在最初試驗期間﹐《高麗藏》頭兩卷 得以輸入電腦﹐各種問題日益清楚地呈現出來。嗣後﹐一批僧人和學者開始研究與大量 存在于《高麗藏》中的漢字異體字有關的各種問題。工程募集到一些資金並獲得各種形 式的支持﹔雖在1994年9月于海印寺召開的電子佛典會議期間﹐我並不曾想到這一 大規模輸入行動會很快開始﹔然而﹐不久以後﹐三星公司總裁決定以資金和人員支援這 一輸入工程。 項目人員 目前﹐有兩組工作人員從事這項工程﹕約50人在位于漢城商業區的輸入中心﹐由 三星公司僱傭並支付工資。他們的主要工作是將全部《高麗藏》輸入電腦。約40人為 打字員﹔其餘為編輯、負責給漢字異體字列表的大學生和工程師。海印寺僱傭的6人在 漢城的另一個辦事處工作。他們主要研究與資料傳送﹙資料校正、檢索和互聯網絡等﹚ 有關的問題。 自1994年底以來﹐輸入一直進展神速。預計基本輸入工作在1995年11月 前後完成。三星工作組組長是個電腦工程師﹐他說他們將力圖在1996年第一季度生 產出高麗藏的光盤版﹙CD﹣ROM﹚。海印寺工作組認識到﹐校正如此大量的電子文 本﹐很可能需要十年以上的時間﹐但效法我們將未經充分校正的電子佛典《禪宗基本讀 物》光盤﹙ZenbaseCD﹣ROM﹚作為阿爾法版﹙αversions﹚發行 的先例﹐我們可能很快就可以擁有全部《高麗藏》的阿爾法版。 漢城輸入中心 漢城的輸入設施干淨得一塵不染﹐而且場地寬敞﹐所需設備應有盡有。輸入人員使 用著良好的電腦、稿架、扶手、熒屏濾光器等等。所有電腦均與工程師辦公室聯網。我 觀看過其他各種輸入中心﹐獨對這裡的整個配置印象十分深刻。 四年前上海的最初輸入試驗表明﹐不是不同漢字的絕對數目﹐而是《高麗藏》大量 的異體字﹐會給輸入提出最大的問題。人們應當重新創造稍有差異的漢字還是干脆就在 輸入階段將它們“規範化”呢﹖三星公司的工程師們在負起這一輸入工程的責任之後﹐ 決定使用一套與木刻經板上的漢字大小和式樣一致的漢字﹐從而從一開始就消除Big 5﹙編者註﹕Big5是臺灣的一種繁體漢字編碼集﹚字庫的許多問題。這一原則是十 分容易表述的﹕打字員在屏幕上應當看到他們在紙上所看到的東西﹐從而在輸入階段得 以免除大多數本來無可避免的斟酌定奪。經驗表明﹐由于牽涉到太多的人﹐而且這些人 又有著太多的不同意見﹐這樣的斟酌定奪會使輸入的資料發生錯訛。 輸入過程和漢字編碼 對于漢字編碼﹐三星公司的工程師們決定採用韓國文字信息處理軟件中的一個包括 16000個漢字的漢字編碼集。當人們弄清楚這套漢字編碼所包括的漢字數量不夠用 之時﹐這一漢字編碼集又被擴充了近2000個漢字。由于基本輸入工作正在接近完成 ﹐于是加上了第二批類似規模的工作量。採用並非人們普遍採用的漢字編碼具有一些優 點﹕工作人員可以根據需要自由定制漢字及字型﹐並可以隨意擴充漢字數目。在以後的 階段﹐必須創建將三星公司的漢字編碼集與臺灣的Big5、日本的JIS、統一碼﹙ Unicode﹚等漢字編碼集聯係起來的轉換表。人們告訴我﹐一個KS編碼轉換表 已經問世﹔然而﹐怎樣處理KS編碼中沒有的許多漢字我尚不清楚。我認為﹐日本的漢 字詞基﹙KanjiBase﹚方法至為有用﹐因為它被設計得可以獨立于硬件和軟件 之外。 對于輸入工作﹐三星公司僱傭了約40人﹙大多數為女性﹚﹐並將他們送到學校培 訓。吸引人的屏幕字體﹐加上以Windows為基礎的定制文字信息處理程序﹐以及 運轉迅速的硬件和源于中國的輸入方法﹙編者註﹕由北京中易公司開發的鄭碼輸入法﹐ 這一輸入法已成為Windows95中文版和Windows3﹒2中文版的標準配 置﹚﹐提供了一個至為理想的環境。屏幕上的漢字﹐宛如它們在稿紙上一樣﹐以豎排版 的樣式出現﹐而在輪廓分明的用戶界面上編輯文本是容易的。 輸入系統不是以發音而是以字型為基礎的﹔因此﹐打字員必須學會將一定的字型與 鍵盤上一定的按鍵聯係起來。這樣﹐在普通鍵盤上大約平均擊鍵三次即可出現一個漢字 。對于最普通的漢字或短語﹐可以創造出縮略打法。輸入速度極快﹐令人目眩。 缺字處理 對于系統中沒有的漢字﹐輸入人員用一個紅圈將紙上的漢字標出﹐同時往電腦中打 入一個星號。我在一個文字覆蓋僅三分之二的屏幕上﹐數出了多達十九個星號。這就表 明了在所採用的策略中我發現的主要問題之一。一頁標著圓圈的稿紙照片上顯示﹐甚至 非常普通的漢字也被標上查無此字的記號﹐而這已是整個《高麗藏》的三分之二已被輸 入之時﹗當然﹐按時將缺失的漢字增加到已有的漢字庫中﹐就會消滅這些星號的大多數 。錯過這樣的機會往往逃不脫一條總的法則﹕人們未能在最初抓住機會做的事情日後須 用長得多的時間予以彌補。正如資料卷宗中大量星號所表明的﹐消除星號將成為一個令 人頭疼的主要問題。其實可以不必如此﹐人們甚至可以不用星號﹐而將不成功的輸入編 碼存檔﹐並用記號標出其界限。在以後階段﹐可使有單一輸入編碼的漢字自動復位。 此外﹐即使匆促一瞥也可以發現﹐有些被標出的漢字被圈錯了﹐因為它們實際上存 在于漢字庫中。打字員可能沒有當即找到這個漢字﹐就輸入了一個星號。如果高度看重 速度而監督又不嚴密﹐這樣的習氣將會司空見慣。我在察看一些輸入樣張之時發現了此 類習慣的充分證據。例如﹐上面提到的那張照片底部右邊的第一個漢字﹙“頓”﹐突然 之意﹚肯定應在字庫之中﹐因而本來是可以輸入的。 輸入質量控制 這自然使我想到詢問質量控制的程度。在我所指導過的輸入工程中﹐我已經注意到 ﹐為了取得良好的資料質量﹐我們需要進行頻繁的無遺漏的資料校正及對輸入人員提出 非常嚴格的體例標準。這樣﹐輸入時間就成了相對時間﹐並且始終應當與資料校正及編 輯時間結合在一起計算。然而﹐要做到這一點﹐人們必須實際從事資料校正並編輯這些 資料。對于我提出的輸入錯誤百分比的問題﹐他們告訴我約為百分之一。如果考慮到校 正通常比初始輸入更為費力﹐這一比例對于這樣一項宏偉的工程來說就太大了。然而﹐ 我在反復詢問後獲悉﹐迄今為止﹐對于輸入資料的校對工作僅做了一點﹔這一工作被推 遲到後期階段。如若由我負責﹐我將會在輸入的幾個早期階段督促打字員校對自己的輸 入﹔在一個受過良好教育的熟悉漢字及其異體字問題的校對員二校通過之後﹐每一個打 字員都必須改正自己的錯誤﹐從而使眼力和思想都受到訓練﹐並教育她們學會將輸入速 度與資料質量適當地結合起來。當然﹐這樣的基本質量控制﹐也會使所有種類的問題暴 露出來﹐否則﹐它們將被掩蓋起來。我現在將集中探討這些問題。 處理異體字 處理漢字異體字至為重要﹔由于木版印刷以手寫體為基礎﹐漢字異體字遂層出不窮 。即使每天都讓屏幕上顯示出來的漢字異體字數量增加﹐並將它們用便條送達打字員們 ﹐或照我的辦法﹐以輸入編碼觸發聯機文件提供﹐事情也將永遠沒完沒了。的確﹐《高 麗藏》中的漢字異體字極其豐富﹐以至一些人以此作為自己的研究領域。在目前的輸入 工程中﹐三星公司雇傭了少數大學生將畫了圓圈的漢字以及異體字記在卡片上﹐然後再 將它們編目。 由于這一具有相當規模的卡片目錄抽屜表現出朝鮮字母體系的特點﹐我以為整個目 錄是按照讀音分類的。然而﹐漢字異體字與罕見漢字的讀音常常不是無人知曉就是難以 確定。為什么不根據以字形為基礎的輸入編碼安排它們﹐從而也讓打字員參看它們呢﹖ 一個原因可能是﹐漢字異體字的審定者是韓國一家大學的教授﹐過一段時間纔來漢城一 次並帶來與那些漢字異體字“同等”的漢字一覽表。他本人可能不會打字﹐因而不能使 用輸入編碼。我不清楚﹐人們在輸入階段對這位教授的指示執行得有多么嚴格﹐但從少 數記在打字員桌上的的漢字異體字判斷﹐我以為漢字異體字“規範化”的大量工作也推 遲到了較後的階段。 異體字規範化 對于漢字異體字需要規範化到什么程度的問題﹐通常是從錯誤的出發點來著手處理 的。總之﹐印刷商的思維定勢依然在起作用﹕印刷商不能將兩個漢字上下疊著印刷﹐必 須選擇出一個單一的字來﹐因此﹐更傾向于“規範化”﹙正字﹚﹐亦即選定漢字標準字 形﹐而不是他本來不得不造的漢字異體字。然而﹐衹要加上允許過濾的特殊標誌﹐電子 文本卻很容易允許在同一位置採用任何數量的漢字。我們可以根據當時需要﹐給普通用 戶顯示普通漢字字形﹐給專家顯示漢字原有字形。換言之﹐電子文本在得到正確標誌之 時是靈活的﹐可以輕而易舉地適應特定需要。 因此﹐電子文本的標準化實質上是一項軟件任務﹐但必須為此做一些準備。若此事 由我決定﹐我將把掃描出來的異體漢字聯機列表﹐使之能為打字員使用﹐以至他們可以 簡簡單單地在實際看見的漢字列表上用鼠標點取﹔然後將輸入那位教授所提議的“正體 字”﹐並加上指明異體漢字序列號的標記。這幾乎不會給打字員們造成更多的麻煩﹙衹 須對屏幕多看一眼並多擊一鍵﹚﹐但卻給隨後的文字處理提供了價值難以估量的信息。 首先﹐保證數據資料的最好質量﹐以避免僅僅受限于一個專家的判斷。其次﹐它將使隨 後的批量校正成為可能。第三﹐它將促使各種版本的問世﹐並可為對漢字異體字有興趣 的研究者們提供一個版本。第四﹐它將極大地有利于轉換成現在和將來的各種漢字編碼 ﹐這一點或許最為重要。例如﹐日本的JIS編碼包含著數目驚人的漢字異體字﹔Bi g5編碼則幾乎沒有這些漢字異體字﹔統一碼﹙Unicode﹚將包括相當數目的漢 字異體字﹐而某一未來編碼﹙或供專家用的編碼﹚甚至可能兼有它們的全部特點。衹要 有合適的軟件技術﹐所有這些特性﹐包括我們還沒有注意到的一些特性﹐均可以實現。 致力于規範化當然需要﹐但規範化不應當影響原始資料﹐而應當作為服務于特定用戶和 特定目的“處理”這些原始資料的一個部分。用我在《電子達磨》第三卷中用過的比喻 來說即是﹕輸入資料應當像一盤音樂母帶﹐在信息上盡可能最為豐富。這種豐富可以在 後來減少下來﹐以滿足特定的需要和模式﹙例如盒式錄音帶﹚。從多到少的路是容易走 的﹔但是﹐任何熱愛Caruso錄音機的人都會確認﹐由少至多幾乎不可能是順利的 。 程序性標記與描述性標記 上面指出的一些問題是由于電子媒體問世未久以及我們對于電子文本缺乏經驗。這 在漢城輸入中心亦顯而易見。在那裡約有六人在校正輸入資料的格式﹐刪除或增加回車 符﹐以便使電子文本與印刷版本如出一轍。就我所知所有這一切純屬程序性工作﹙程序 性標記﹚﹐沒有考慮內容方面的任何問題。例如﹐每篇佛經的標題通常置于一個單行﹐ 接著是回車。通常﹐印刷版面編排立即辨識出這是一個標題。至于電子文本﹐人們需要 輸入顯式標記﹐以使這一隱式信息更為明晰。例如﹐人們可以從菜單檢索佛經篇名並選 擇“章節標題”。可以在選擇好的一行文字的開端加上〔HEAD2〕字樣﹐而在其末 尾加上〔/HEAD2〕字樣。佛經篇名可用〔HEAD1〕和〔/HEAD1〕予以 標記。這一簡單措施可能會使成千上萬的不同標題以特定的標識固定下來﹐或給《高麗 藏》的所有篇名和小標題創立一個綜合索引。與程序性標記﹙手工選擇每一篇名作標識 ﹚相對比﹐這被稱為描述性標記。就《高麗藏》輸入工程而言﹐描述性標記可用于各種 目的。除了一個例外﹐下面諸例均很容易實現﹐並成為編輯過程的一部分﹕ 各種層次標題的標記﹔ 卷帙信息的標記﹙例如“第二卷”﹚﹔ 作者名字的標記﹔ 目錄的標記﹔ 段標記﹔ 經版邊緣信息的標記﹙例如刻工姓名﹚﹔ 大漢字的標記﹙例如《高麗藏》中包括的詞典檢索詞﹚﹔ 較小漢字的標記﹙如在注解中﹚﹔ 詩偈和其他明顯格式的標記﹔ 不同種類空白標記﹙例如兩行詩之間的空白﹐一行開頭的相當于敲擊tab鍵一次 造成的空白﹐等等﹚﹔ 用統一標號對異體字進行的標記﹙無論如何﹐所有星號都必須由漢字取代﹐這將是 一個好的開端﹚。 這種描述性標記將極有利于隨後的工作﹔例如﹐與這些文本相對應的漢文文檔﹐可 以全自動地生成﹐或所有異體字形態均可以通過一個命令就被列出。 現在還不清楚三星公司在數據校對和編輯工作中將介入多深﹔然而我認為﹐至少在 資料校對的第一階段﹐原文與輸入資料打印稿的逐字校對﹐應當被視作輸入任務的組成 部分。在第二或第三階段﹐人們還將閱讀文稿的內容﹐用彩色鉛筆作基于文稿內容的標 記﹐例如﹕標點符號﹐人名﹐佛菩薩名稱﹐地名﹐著述名﹐引文﹐注釋﹐如此等等。 電腦專家﹖還是學者﹖ 電腦專家標記的第一階段應該起突出作用﹐並為良好的數據質量奠定基礎。他們對 電子文本及其獨特成分、格式和可能性知道得越多﹐他們的工作就會干得越好。這意味 著﹐從第一階段開始﹐對電子文本有經驗的學者就應當參與。正如我對這個項目的一些 方面作評估時顯示﹐這樣的咨詢可能節省成千上萬個工時﹐並極大地提高原始資料質量 。然而﹐越是深入佛經內容的標記﹐這一領域的傳統學者所起的作用就越大。任何電腦 專家都標點不了古代漢語佛教典籍﹐更不要說從事更為重要的標記工作了。這種標記工 作的大部﹐甚至能由不熟悉電腦的學者來完成﹔一個人衹要配備一套彩色鉛筆﹐就可以 在紙上做大量此類工作。 當然﹐電腦專家﹙他們也許知道什么是可能的﹚和學者﹙他們必須掌握什么是需要 的﹚之間的合作始終都是十分重要的。 如果計劃管理良好﹐描述性標記最終將帶來電子文本與生俱來的優勢﹐其中一些我 們已經知道﹐更多的我們尚在忽視。它將大量數據聯係起來的能力﹐使人們可以實現一 個重要目標﹐即將經版信息與辭典信息聯結起來。我們可以僅僅檢索一個特定人物或特 定時期譯出的佛典文本﹐或點擊一個人名﹐就可以獲得辭典的相關條目。無論如何﹐有 一件事是肯定的﹕最初將高麗大藏經鐫刻到木版上並在每刻一字前作一次頂禮的虔誠的 佛門弟子﹐做夢也無法想到他們的勞動果實今天正在獲得一種新的形態。如與他們的辛 勞相比﹐十一二年的資料校正和內容標記可能就不能算一項艱難的任務了。即使為了他 們﹐人們也應當不辭勞苦﹐創造出一個高質量電子版本﹐確保它還能再留存另一個一千 年。 ------------------ 摩訶工作室.吳寶原 E-mail:maha@tpts1.seed.net.tw Tel:(02)6741715/Fax:(02)6741716 |
閱讀文章: 第 501/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |