看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 1035/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: maha <maha@tpts1.seed.net.tw>, 信區: BudaTech 標 題: 掃瞄檔處理流程 發信站: (NEWS/INFO) National Sun Yat-San University (Tue Nov 18 16:18:50 1997) 轉信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail 來 源: buddha.nsysu.edu.tw 感謝大家熱情贊助。這件認養工作,截至目前有意加入者六人,若加 上原有的三位認養者,及提供技術的Heaven,跟居中協調的我,共有 十一人,就暫且名之為「佛教藏 OCR小組」。 由於剛在一起作業,這陣子可能有些事項需要溝通協調,對於較為廣 泛性的問題,往後就讓我們一起討論吧(請適當的更換標題)。若再 有新加入者,我會隨時通知各位。 底下是我對QUIZ來函的回覆。 QUIZ wrote: > > 我一直在想說,通通灌到大硬碟去,然後去圈點程式給他 > 24小時去執行。丹青可以的話也照辦。這樣就可以只 > 剩下校對的工作了說。而且通通轉成文字檔了。 > > 文字校對時,網友間要分工的話,傳文字檔當然比傳圖 > 檔更有效率囉。 > > 通通轉成文字後,那鍋校稿的義工,可以自備經本,或到圖書館 > 等去借。只傳文字檔給他就可以了。那麼會有很多人有能力共襄 > 盛舉的。 > > 因為去圈點,使用丹青等等,這些比較技術性,可能不太好找人。 > 再加上圖檔傳遞也不是很方便(您可累了...^_^) > > 因此我覺得如果可以分工,多人多台電腦處理,通通先轉成文字檔 > 可能也不錯。品質也比較整齊說。 如果「通通轉成文字後,那鍋校稿的義工,可以自備經本」去校對, 這樣當然有很多的便利,檔案傳輸比較簡易,可以參與的人也會比較 多。不過,這種便利我們以後或許會用得上,但卻不是現在這個環節 。請看我以下幾點說明。 1.既已採用 OCR作業,線上校對時可以一邊看掃瞄圖、一邊看辨識 後的文字來修正,這樣的好處不可輕易放棄。 2.這次經由 OCR線上校對產生的文字檔,將不再把所去掉的圈點加 入文字中,也就是說結果是一個不含圈點的文字檔。因為這些結 果的最大用處是拿來跟另一個依大正藏格式輸入的經文檔做文字 上的比對,以此來訂正大正藏經文檔的錯誤。 3.等檔案比對完成後,必須再做一次人工校對,這時候就可以考慮 採行QUIZ的方法,讓更多的人來參與,只是所用以校對的經本必 須得是大正藏才行。 4.QUIZ的方法還可以應用在依大正藏格式所輸入的經文檔。這個經 文檔已經有了,有25冊。但因為是從 CCCII轉碼過來的,品質不 是很好。必須至少得人工校對一遍,才可以拿來應用在檔案比對 上。 5.QUIZ的方法固有可取之處,但也不要輕忽了它在管理方面所需付 出的成本。到底是採取網路作業戰略,還是找一組固定的校對人 馬(支薪的專業校對人員,或不支薪但有訓練的義工),這是佛 研中心跟我們都還在評估的。 所以,對於這些經文圖檔,我的主意是確實把線上校對做好。 我們的整個作業流程大致如下: 1.轉換圖檔格式:利用 PSP程式將.tif檔批次轉成.bmp。如果去點 程式有所改良,此步驟可省略。 2.執行去點程式:此步驟的目的是批次的把影響 OCR辨識作業的圖 形圈點去除。 3.開始 OCR作業:視記憶體狀況,一次可以讀入多頁圖檔進行辨識 。記得大力使用 OCR的學習字庫功能。 4.進行線上校對:OCR 辨識完畢後,即可進行一邊看掃瞄圖、一邊 看辨識的文字來校對。完畢後依序一頁存成一個 文字檔。 5.合併完成檔案:將每頁一個檔案,合併成每卷一個檔案。 至於作業細節,都裝在我腦袋裡,得花一點時間來斟酌。各位若有想 到什麼,也可以事先反應討論。 因為大家先後所認養的範圍可能有所重疊,我必須做一些調整。再等 幾天吧,讓有意願處理的人通通出爐,我再來做一個較好的分配。 maha 11/18/97 |
閱讀文章: 第 1035/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |