看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 1009/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: "Heaven" <heaven@novell.zcom.com.tw>, 信區: BudaTech
標  題: 電子版大藏經輸入計畫
發信站: (NEWS/INFO) National Sun Yat-San University (Sat Oct 11 01:48:24 1997)
轉信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail
來  源: buddha.nsysu.edu.tw


	※ 電子版大藏經輸入計畫 ※
 
┌──┐
│緣起│ 
└──┘
	由於近日諸多因緣配合,讓一些朋友覺得可以開始
	改變以往被動整理網路上網友輸入的經文,而改為
	有計畫的主動輸入大藏經,以產生一套電子版的大
	藏經,以完全免費的方式提供大眾。
┌──┐
│計畫│ 
└──┘
	完成一套完全免費的電子版大藏經。
┌──┐
│目標│ 
└──┘
	產生經過初步校對並含有基本標點符號的電子經文。

┌────┐
│工作內容│
└────┘

	1. 處理現有的 CCCII 格式之大正藏資料。
	2. 以 Scanner + OCR 來產生電子版大藏經。
	3. 將產生之經文整理並放置在下列位置 :
		
	   a. 東坡站 FTP Server
	   b. 梵網 FTP Server
	   C. 經典系列 WWW Server
	   d. 梵網 www Server

┌────┐
│工作細節│
└────┘

● 處理現有的 CCCII 格式之大正藏資料

   1. 使用轉碼程式將 CCCII 碼轉成 Big-5 碼。(已有現成程式)
   2. 使用程式來依 CCCII 原稿來尋找 Big-5 碼中的 ASCII 碼為
      0xFFFF 的字,這表示該字在 Big-5 為缺字部分,依此產生一
      缺字檔。(程式待寫)
   3. 手動將缺字檔做成【缺字-缺字代碼】對照表。(人工處理)
   4. 使用程式利用【缺字-缺字代碼】對照表並參考 CCCII 原稿將
      Big-5 碼檔中的缺字更換成缺字代碼。(程式待寫)
   5. 整理缺字資料,進而做出【缺字代碼-通用字或組合字】對照表。
      (人工處理)
   6. 再使用程式利用【缺字代碼-通用字或組合字】將含有缺字代碼
      之Big-5文件之代碼轉成通用字或組合字。(程式待寫)
   7. 若有 CCCII 碼轉 Big-5 碼有問題的字,亦可使用上述方法
      來還原成正確的字。(程式待寫,同步驟 3 - 6 )
   8. 初步校對。(錯字及標點)
   9. 排版。

● 以 Scanner + OCR 來產生電子版大藏經

   1. 先找出最好的二種佛經版本及光學辨識效果最好的掃瞄 DPI 值。
      第一個版本為主要版本,建議為大正藏。第二個版本為對照版, 
      目的是利用不同版本的經文比較可加速比對出經文錯誤之處。
      故第二個版本可為 CCCII 版本轉成之 Big-5 碼檔,或是佛教大
      藏經現有之圖檔所辨識出之經文,或是第二種大正藏版本之經文。
   2. 使用掃瞄機大量掃瞄佛經。
   3. 使用去雜點程式去除圖檔中的雜點。 (此程式已初步完成)
   4. 進行 OCR 文字辨識,以產生初步二種版本之文字檔。
   5. 將二種版本的文字以程式進行比對,以快速找出相異之處。
      (此程式已初步完成) 
      註: 若本步驟比對校果不佳則省略。
   6. 將此檔案及圖檔(縮小四分之一)統一放置管理。
   7. 開放由網友傳回上述之圖檔及文字以進行校對. 校對後再傳回。

      ◎取回資料方式: (待討論,目前的方案計有)

        a.統一放置 FTP Server,由下載者至某一 BBS 或 WWW 登記。
          該 Server 並提供下載及校對上載的記錄供查詢。
          (難度較高,並重覆下載的機率也可能較高)
        b.統一由某人負責,欲校對者可 mail 該負責人,並將校對好
          的檔案 mail 給他。該負責人必須在某一 BBS 或 WWW 維護
          最近記錄以供查詢。
          (須由專人負責,但管理較簡單)


      ◎校對原則 :

        a.只處理錯字及標點。
        b.不處理缺字,僅由 "●" 來表示缺字。
        c.不做排版處理。

      ◎傳回資料方式: (待討論,同上之取回資料方式)

   8. 統一缺字處理。
   9. 排版。

  
●將產生之經文整理並放置在各 FTP 及 WWW Server 辦法

  由各 Server 負責人進行。

┌─────┐
│須保存資料│
└─────┘

  1. 原始圖檔。
  2. 1/4 大小原始圖檔,以供下載校對用。
  3. 各圖檔經 ocr 所產生之原始經文。
  4. 由 CCCII 碼轉成含缺字代碼之原稿。
  5. 經網友校對過的經文。
  6. 經過處理排版過的經文。

┌─────┐
│待討論事宜│
└─────┘

  1. 處理之經文版本。 (最好有二版,以便做快速比對用)
  2. 【缺字-組合字】的統一處理方式。
  3. 【缺字-造字】的統一處理方式,最好各大單位能一起再開一次會議。
  3. 上下載檔案的聯絡、管理流程。
  4. 完稿之排版格式。

====================================

閱讀文章: 第 1009/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org