看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 1009/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: "Heaven" <heaven@novell.zcom.com.tw>, 信區: BudaTech 標 題: 電子版大藏經輸入計畫 發信站: (NEWS/INFO) National Sun Yat-San University (Sat Oct 11 01:48:24 1997) 轉信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail 來 源: buddha.nsysu.edu.tw ※ 電子版大藏經輸入計畫 ※ ┌──┐ │緣起│ └──┘ 由於近日諸多因緣配合,讓一些朋友覺得可以開始 改變以往被動整理網路上網友輸入的經文,而改為 有計畫的主動輸入大藏經,以產生一套電子版的大 藏經,以完全免費的方式提供大眾。 ┌──┐ │計畫│ └──┘ 完成一套完全免費的電子版大藏經。 ┌──┐ │目標│ └──┘ 產生經過初步校對並含有基本標點符號的電子經文。 ┌────┐ │工作內容│ └────┘ 1. 處理現有的 CCCII 格式之大正藏資料。 2. 以 Scanner + OCR 來產生電子版大藏經。 3. 將產生之經文整理並放置在下列位置 : a. 東坡站 FTP Server b. 梵網 FTP Server C. 經典系列 WWW Server d. 梵網 www Server ┌────┐ │工作細節│ └────┘ ● 處理現有的 CCCII 格式之大正藏資料 1. 使用轉碼程式將 CCCII 碼轉成 Big-5 碼。(已有現成程式) 2. 使用程式來依 CCCII 原稿來尋找 Big-5 碼中的 ASCII 碼為 0xFFFF 的字,這表示該字在 Big-5 為缺字部分,依此產生一 缺字檔。(程式待寫) 3. 手動將缺字檔做成【缺字-缺字代碼】對照表。(人工處理) 4. 使用程式利用【缺字-缺字代碼】對照表並參考 CCCII 原稿將 Big-5 碼檔中的缺字更換成缺字代碼。(程式待寫) 5. 整理缺字資料,進而做出【缺字代碼-通用字或組合字】對照表。 (人工處理) 6. 再使用程式利用【缺字代碼-通用字或組合字】將含有缺字代碼 之Big-5文件之代碼轉成通用字或組合字。(程式待寫) 7. 若有 CCCII 碼轉 Big-5 碼有問題的字,亦可使用上述方法 來還原成正確的字。(程式待寫,同步驟 3 - 6 ) 8. 初步校對。(錯字及標點) 9. 排版。 ● 以 Scanner + OCR 來產生電子版大藏經 1. 先找出最好的二種佛經版本及光學辨識效果最好的掃瞄 DPI 值。 第一個版本為主要版本,建議為大正藏。第二個版本為對照版, 目的是利用不同版本的經文比較可加速比對出經文錯誤之處。 故第二個版本可為 CCCII 版本轉成之 Big-5 碼檔,或是佛教大 藏經現有之圖檔所辨識出之經文,或是第二種大正藏版本之經文。 2. 使用掃瞄機大量掃瞄佛經。 3. 使用去雜點程式去除圖檔中的雜點。 (此程式已初步完成) 4. 進行 OCR 文字辨識,以產生初步二種版本之文字檔。 5. 將二種版本的文字以程式進行比對,以快速找出相異之處。 (此程式已初步完成) 註: 若本步驟比對校果不佳則省略。 6. 將此檔案及圖檔(縮小四分之一)統一放置管理。 7. 開放由網友傳回上述之圖檔及文字以進行校對. 校對後再傳回。 ◎取回資料方式: (待討論,目前的方案計有) a.統一放置 FTP Server,由下載者至某一 BBS 或 WWW 登記。 該 Server 並提供下載及校對上載的記錄供查詢。 (難度較高,並重覆下載的機率也可能較高) b.統一由某人負責,欲校對者可 mail 該負責人,並將校對好 的檔案 mail 給他。該負責人必須在某一 BBS 或 WWW 維護 最近記錄以供查詢。 (須由專人負責,但管理較簡單) ◎校對原則 : a.只處理錯字及標點。 b.不處理缺字,僅由 "●" 來表示缺字。 c.不做排版處理。 ◎傳回資料方式: (待討論,同上之取回資料方式) 8. 統一缺字處理。 9. 排版。 ●將產生之經文整理並放置在各 FTP 及 WWW Server 辦法 由各 Server 負責人進行。 ┌─────┐ │須保存資料│ └─────┘ 1. 原始圖檔。 2. 1/4 大小原始圖檔,以供下載校對用。 3. 各圖檔經 ocr 所產生之原始經文。 4. 由 CCCII 碼轉成含缺字代碼之原稿。 5. 經網友校對過的經文。 6. 經過處理排版過的經文。 ┌─────┐ │待討論事宜│ └─────┘ 1. 處理之經文版本。 (最好有二版,以便做快速比對用) 2. 【缺字-組合字】的統一處理方式。 3. 【缺字-造字】的統一處理方式,最好各大單位能一起再開一次會議。 3. 上下載檔案的聯絡、管理流程。 4. 完稿之排版格式。 ==================================== |
閱讀文章: 第 1009/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |