感謝大家熱情贊助。這件認養工作,截至目前有意加入者六人,若加
上原有的三位認養者,及提供技術的Heaven,跟居中協調的我,共有
十一人,就暫且名之為「佛教藏 OCR小組」。
由於剛在一起作業,這陣子可能有些事項需要溝通協調,對於較為廣
泛性的問題,往後就讓我們一起討論吧(請適當的更換標題)。若再
有新加入者,我會隨時通知各位。
底下是我對QUIZ來函的回覆。
QUIZ wrote:
>
> 我一直在想說,通通灌到大硬碟去,然後去圈點程式給他
> 24小時去執行。丹青可以的話也照辦。這樣就可以只
> 剩下校對的工作了說。而且通通轉成文字檔了。
>
> 文字校對時,網友間要分工的話,傳文字檔當然比傳圖
> 檔更有效率囉。
>
> 通通轉成文字後,那鍋校稿的義工,可以自備經本,或到圖書館
> 等去借。只傳文字檔給他就可以了。那麼會有很多人有能力共襄
> 盛舉的。
>
> 因為去圈點,使用丹青等等,這些比較技術性,可能不太好找人。
> 再加上圖檔傳遞也不是很方便(您可累了...^_^)
>
> 因此我覺得如果可以分工,多人多台電腦處理,通通先轉成文字檔
> 可能也不錯。品質也比較整齊說。
如果「通通轉成文字後,那鍋校稿的義工,可以自備經本」去校對,
這樣當然有很多的便利,檔案傳輸比較簡易,可以參與的人也會比較
多。不過,這種便利我們以後或許會用得上,但卻不是現在這個環節
。請看我以下幾點說明。
1.既已採用 OCR作業,線上校對時可以一邊看掃瞄圖、一邊看辨識
後的文字來修正,這樣的好處不可輕易放棄。
2.這次經由 OCR線上校對產生的文字檔,將不再把所去掉的圈點加
入文字中,也就是說結果是一個不含圈點的文字檔。因為這些結
果的最大用處是拿來跟另一個依大正藏格式輸入的經文檔做文字
上的比對,以此來訂正大正藏經文檔的錯誤。
3.等檔案比對完成後,必須再做一次人工校對,這時候就可以考慮
採行QUIZ的方法,讓更多的人來參與,只是所用以校對的經本必
須得是大正藏才行。
4.QUIZ的方法還可以應用在依大正藏格式所輸入的經文檔。這個經
文檔已經有了,有25冊。但因為是從 CCCII轉碼過來的,品質不
是很好。必須至少得人工校對一遍,才可以拿來應用在檔案比對
上。
5.QUIZ的方法固有可取之處,但也不要輕忽了它在管理方面所需付
出的成本。到底是採取網路作業戰略,還是找一組固定的校對人
馬(支薪的專業校對人員,或不支薪但有訓練的義工),這是佛
研中心跟我們都還在評估的。
所以,對於這些經文圖檔,我的主意是確實把線上校對做好。
我們的整個作業流程大致如下:
1.轉換圖檔格式:利用 PSP程式將.tif檔批次轉成.bmp。如果去點
程式有所改良,此步驟可省略。
2.執行去點程式:此步驟的目的是批次的把影響 OCR辨識作業的圖
形圈點去除。
3.開始 OCR作業:視記憶體狀況,一次可以讀入多頁圖檔進行辨識
。記得大力使用 OCR的學習字庫功能。
4.進行線上校對:OCR 辨識完畢後,即可進行一邊看掃瞄圖、一邊
看辨識的文字來校對。完畢後依序一頁存成一個
文字檔。
5.合併完成檔案:將每頁一個檔案,合併成每卷一個檔案。
至於作業細節,都裝在我腦袋裡,得花一點時間來斟酌。各位若有想
到什麼,也可以事先反應討論。
因為大家先後所認養的範圍可能有所重疊,我必須做一些調整。再等
幾天吧,讓有意願處理的人通通出爐,我再來做一個較好的分配。
maha 11/18/97