您有新信

 
電子版大藏經輸入計畫
#1
發信站: (novell.zcom.com.tw>, 信區: BudaTech)
	※ 電子版大藏經輸入計畫 ※
 
┌──┐
│緣起│ 
└──┘
	由於近日諸多因緣配合,讓一些朋友覺得可以開始
	改變以往被動整理網路上網友輸入的經文,而改為
	有計畫的主動輸入大藏經,以產生一套電子版的大
	藏經,以完全免費的方式提供大眾。
┌──┐
│計畫│ 
└──┘
	完成一套完全免費的電子版大藏經。
┌──┐
│目標│ 
└──┘
	產生經過初步校對並含有基本標點符號的電子經文。

┌────┐
│工作內容│
└────┘

	1. 處理現有的 CCCII 格式之大正藏資料。
	2. 以 Scanner + OCR 來產生電子版大藏經。
	3. 將產生之經文整理並放置在下列位置 :
		
	   a. 東坡站 FTP Server
	   b. 梵網 FTP Server
	   C. 經典系列 WWW Server
	   d. 梵網 www Server

┌────┐
│工作細節│
└────┘

● 處理現有的 CCCII 格式之大正藏資料

   1. 使用轉碼程式將 CCCII 碼轉成 Big-5 碼。(已有現成程式)
   2. 使用程式來依 CCCII 原稿來尋找 Big-5 碼中的 ASCII 碼為
      0xFFFF 的字,這表示該字在 Big-5 為缺字部分,依此產生一
      缺字檔。(程式待寫)
   3. 手動將缺字檔做成【缺字-缺字代碼】對照表。(人工處理)
   4. 使用程式利用【缺字-缺字代碼】對照表並參考 CCCII 原稿將
      Big-5 碼檔中的缺字更換成缺字代碼。(程式待寫)
   5. 整理缺字資料,進而做出【缺字代碼-通用字或組合字】對照表。
      (人工處理)
   6. 再使用程式利用【缺字代碼-通用字或組合字】將含有缺字代碼
      之Big-5文件之代碼轉成通用字或組合字。(程式待寫)
   7. 若有 CCCII 碼轉 Big-5 碼有問題的字,亦可使用上述方法
      來還原成正確的字。(程式待寫,同步驟 3 - 6 )
   8. 初步校對。(錯字及標點)
   9. 排版。

● 以 Scanner + OCR 來產生電子版大藏經

   1. 先找出最好的二種佛經版本及光學辨識效果最好的掃瞄 DPI 值。
      第一個版本為主要版本,建議為大正藏。第二個版本為對照版, 
      目的是利用不同版本的經文比較可加速比對出經文錯誤之處。
      故第二個版本可為 CCCII 版本轉成之 Big-5 碼檔,或是佛教大
      藏經現有之圖檔所辨識出之經文,或是第二種大正藏版本之經文。
   2. 使用掃瞄機大量掃瞄佛經。
   3. 使用去雜點程式去除圖檔中的雜點。 (此程式已初步完成)
   4. 進行 OCR 文字辨識,以產生初步二種版本之文字檔。
   5. 將二種版本的文字以程式進行比對,以快速找出相異之處。
      (此程式已初步完成) 
      註: 若本步驟比對校果不佳則省略。
   6. 將此檔案及圖檔(縮小四分之一)統一放置管理。
   7. 開放由網友傳回上述之圖檔及文字以進行校對. 校對後再傳回。

      ◎取回資料方式: (待討論,目前的方案計有)

        a.統一放置 FTP Server,由下載者至某一 BBS 或 WWW 登記。
          該 Server 並提供下載及校對上載的記錄供查詢。
          (難度較高,並重覆下載的機率也可能較高)
        b.統一由某人負責,欲校對者可 mail 該負責人,並將校對好
          的檔案 mail 給他。該負責人必須在某一 BBS 或 WWW 維護
          最近記錄以供查詢。
          (須由專人負責,但管理較簡單)


      ◎校對原則 :

        a.只處理錯字及標點。
        b.不處理缺字,僅由 "●" 來表示缺字。
        c.不做排版處理。

      ◎傳回資料方式: (待討論,同上之取回資料方式)

   8. 統一缺字處理。
   9. 排版。

  
●將產生之經文整理並放置在各 FTP 及 WWW Server 辦法

  由各 Server 負責人進行。

┌─────┐
│須保存資料│
└─────┘

  1. 原始圖檔。
  2. 1/4 大小原始圖檔,以供下載校對用。
  3. 各圖檔經 ocr 所產生之原始經文。
  4. 由 CCCII 碼轉成含缺字代碼之原稿。
  5. 經網友校對過的經文。
  6. 經過處理排版過的經文。

┌─────┐
│待討論事宜│
└─────┘

  1. 處理之經文版本。 (最好有二版,以便做快速比對用)
  2. 【缺字-組合字】的統一處理方式。
  3. 【缺字-造字】的統一處理方式,最好各大單位能一起再開一次會議。
  3. 上下載檔案的聯絡、管理流程。
  4. 完稿之排版格式。

====================================
NEWS/INFO National Sun Yat-San University Sat Oct 11 01:48:24 1997
回覆 | 轉寄 | 返回

Re: 電子版大藏經輸入計畫
#2
發信站: (novell.zcom.com.tw>, 信區: BudaTech)
[請各位注意: 由於目前 buda-tech mailing list 回信時, 收信者會
 自動列上發信人的位置, 和以往列上 buda-tech@buddha.nsysu.edu.tw
 不同, 若是各位要回信至 mailing list 者請自行轉換.]
==================
> 很久沒上網, 今日收email 卻狀況多多, 但還是有幸看到此計劃, 
> 敢問這是您個人的發心還是您結合了一批人要進行, 還是只是
> 您個人最近的從事電子佛典的工作整理.

  謝謝您的關心, 這份計畫是一些朋友在私下討論後略得的結果.
  由於日前 mailing list 主機硬碟出了點狀況, 幾位朋友就私下將
  以前所開發出來的一些程式, 打算進一步整合起來以便更主動
  的事經典電子化, 加上最近蕭先生提供了CCCII 碼25 冊大藏經
  , 對我們更是莫大的助益. 而美國佛教電腦資訊庫功德會及台
  大佛研中心亦很有興趣參與, 在可見的未來, 希望能有更多的
  朋友來加入. 

  如 maha 兄曾在 mailing list 所言, 我們主要是提供技術上的支
  援, 儘量以電腦來取代人力, 我想目前可能是由佛研中心出面
  處理 CCCII 碼部份, 而實際上, 全部工作大多是靠眾人之力來
  一起完成. 日後有什麼進一步工作計畫, 自會在 buda-tech 上
  發佈, 希望大家一同來關心, 謝謝!

> 去雜點程式能否給末學一份.

  這個程式目前尚在測驗階段, 有它的限制在, 其實驗報告
  已由 maha 兄發佈過一些, 實在感謝他的辛苦.

  程式參數說明可使用 fgmvdot /c /? 來取得, 目前限制大概有:
 
  1. 只能處理黑白 bmp 格式的圖檔, 希望日後有能力直接處理 tif 檔.
  2. 僅能處理大正藏格式 (使用參數 /T) 及佛教藏格式 (使用參數 /B)
      , 目前計畫是加入續藏經的雜點處理能力.
  3. 雜點寬度的大小, 請自行估計, maha 兄日前的報告有提到.
      佛教藏就是那些黑圓圈的寬度, 大正藏就是那些 "-", "=" 符號的
      寬度. 日後在程式中公佈最佳值. :)

  Heaven
NEWS/INFO National Sun Yat-San University Sun Oct 12 10:35:51 1997
回覆 | 轉寄 | 返回

Re: 電子版大藏經輸入計畫
#3
karma
發信站: 獅子吼站 (Lion , 信區: BudaTech)
==> 於  ("Heaven") 文中述及:
:       ※ 電子版大藏經輸入計畫 ※
:  
: ┌──┐
: │緣起│ 
: └──┘
:       由於近日諸多因緣配合,讓一些朋友覺得可以開始
:       改變以往被動整理網路上網友輸入的經文,而改為
:       有計畫的主動輸入大藏經,以產生一套電子版的大
:       藏經,以完全免費的方式提供大眾。

    我寫了一些 Java Applet, 可以讓無中文視窗系統之使用者
    (如居住國外) 或是非 Big5 內碼之使用者得以觀看 Big5 中文文件.

    請參考

    http://www.neto.net/~lmy/

    如果有我可以幫忙的地方, 我很樂意協助本計劃.
Tue Nov 25 15:43:15 1997
回覆 | 轉寄 | 返回

Re: 電子版大藏經輸入計畫
#4
發信站: (tpts1.seed.net.tw>, 信區: BudaTech)
karma wrote:
> 
>     我寫了一些 Java Applet, 可以讓無中文視窗系統之使用者
>     (如居住國外) 或是非 Big5 內碼之使用者得以觀看 Big5 中文文件.
> 
>     請參考
> 
>     http://www.neto.net/~lmy/
> 
>     如果有我可以幫忙的地方, 我很樂意協助本計劃.

非常歡迎您加入佛典電子化討論。

我是個一般網路使用者, Java 什麼的我是不懂。剛上您的網站
一看,發現一個小問題。以下這兩個地方,怎麼我一進去,只要
玩到下頭的PageUp、PageDown等按鈕,沒幾下就當機了:

Introduction to JACTERM This is a Chinese document, but no
Chinese-enabled browser is
needed to view the file. 97-06-28 14:23 

Copyright, Chinese document, no Chinese system needed. 

我是使用中文WIN95,流覽器是 Netscape 3.0中文版。

*******

我有看到您以倚天16字形所做的demo,雖然看來不怎麼亮麗,但
應該是一種突破吧!

您說目前尚無法輸入中文,那麼,假如以後可以輸入中文,是不
是就可以針對文件來進行中文檢索查詢?
 

 摩訶工作室.吳寶原
 E-mail:maha@tpts1.seed.net.tw
 Tel:(02)6741715/Fax:(02)6741716
NEWS/INFO National Sun Yat-San University Wed Nov 26 00:12:43 1997
回覆 | 轉寄 | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org