您有新信

 
掃瞄檔處理流程
#1
發信站: (tpts1.seed.net.tw>, 信區: BudaTech)
感謝大家熱情贊助。這件認養工作,截至目前有意加入者六人,若加
上原有的三位認養者,及提供技術的Heaven,跟居中協調的我,共有
十一人,就暫且名之為「佛教藏 OCR小組」。

由於剛在一起作業,這陣子可能有些事項需要溝通協調,對於較為廣
泛性的問題,往後就讓我們一起討論吧(請適當的更換標題)。若再
有新加入者,我會隨時通知各位。

底下是我對QUIZ來函的回覆。

QUIZ wrote:
> 
>  我一直在想說,通通灌到大硬碟去,然後去圈點程式給他
>  24小時去執行。丹青可以的話也照辦。這樣就可以只
>  剩下校對的工作了說。而且通通轉成文字檔了。
> 
>  文字校對時,網友間要分工的話,傳文字檔當然比傳圖
>  檔更有效率囉。
>
>  通通轉成文字後,那鍋校稿的義工,可以自備經本,或到圖書館
>  等去借。只傳文字檔給他就可以了。那麼會有很多人有能力共襄
>  盛舉的。
> 
>  因為去圈點,使用丹青等等,這些比較技術性,可能不太好找人。
>  再加上圖檔傳遞也不是很方便(您可累了...^_^)
> 
>  因此我覺得如果可以分工,多人多台電腦處理,通通先轉成文字檔
>  可能也不錯。品質也比較整齊說。

如果「通通轉成文字後,那鍋校稿的義工,可以自備經本」去校對,
這樣當然有很多的便利,檔案傳輸比較簡易,可以參與的人也會比較
多。不過,這種便利我們以後或許會用得上,但卻不是現在這個環節
。請看我以下幾點說明。

  1.既已採用 OCR作業,線上校對時可以一邊看掃瞄圖、一邊看辨識
    後的文字來修正,這樣的好處不可輕易放棄。
  2.這次經由 OCR線上校對產生的文字檔,將不再把所去掉的圈點加
    入文字中,也就是說結果是一個不含圈點的文字檔。因為這些結
    果的最大用處是拿來跟另一個依大正藏格式輸入的經文檔做文字
    上的比對,以此來訂正大正藏經文檔的錯誤。
  3.等檔案比對完成後,必須再做一次人工校對,這時候就可以考慮
    採行QUIZ的方法,讓更多的人來參與,只是所用以校對的經本必
    須得是大正藏才行。
  4.QUIZ的方法還可以應用在依大正藏格式所輸入的經文檔。這個經
    文檔已經有了,有25冊。但因為是從 CCCII轉碼過來的,品質不
    是很好。必須至少得人工校對一遍,才可以拿來應用在檔案比對
    上。
  5.QUIZ的方法固有可取之處,但也不要輕忽了它在管理方面所需付
    出的成本。到底是採取網路作業戰略,還是找一組固定的校對人
    馬(支薪的專業校對人員,或不支薪但有訓練的義工),這是佛
    研中心跟我們都還在評估的。

所以,對於這些經文圖檔,我的主意是確實把線上校對做好。

我們的整個作業流程大致如下:

 1.轉換圖檔格式:利用 PSP程式將.tif檔批次轉成.bmp。如果去點
                  程式有所改良,此步驟可省略。
  2.執行去點程式:此步驟的目的是批次的把影響 OCR辨識作業的圖
                  形圈點去除。
  3.開始 OCR作業:視記憶體狀況,一次可以讀入多頁圖檔進行辨識
                  。記得大力使用 OCR的學習字庫功能。
  4.進行線上校對:OCR 辨識完畢後,即可進行一邊看掃瞄圖、一邊
                  看辨識的文字來校對。完畢後依序一頁存成一個
                  文字檔。
  5.合併完成檔案:將每頁一個檔案,合併成每卷一個檔案。

至於作業細節,都裝在我腦袋裡,得花一點時間來斟酌。各位若有想
到什麼,也可以事先反應討論。

因為大家先後所認養的範圍可能有所重疊,我必須做一些調整。再等
幾天吧,讓有意願處理的人通通出爐,我再來做一個較好的分配。

                                               maha 11/18/97
NEWS/INFO National Sun Yat-San University Tue Nov 18 16:18:50 1997
回覆 | 轉寄 | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org