> 直接將這個去點後的 BMP檔交給丹青OCR 進行自動辨識及詞庫校正【註】
> ,選擇4342字集,加上學習字庫,25秒鐘完成一頁含有 871個中文字的文
> 件。
這點我一直搞不太清楚, "學習字庫" 我懂, 但辨識完成時有個 "詞庫校正"
是在做什麼? 是否有提高辨識率的空間.
> OK,讓我們把流程釐清一下:
> 1.將已經掃瞄好的 TIF檔(徐言輝已完成的,詳見信末【附函】)
> 利用 PSP進行批次轉檔成 BMP檔。
> 2.以 mvdot將上述 BMP檔去點。(當然要再修改成能夠批次處理)
以上二點, 後學儘量將程式改好, 讓它可以直接批次處理 tif 檔 (這就要靠
QUIZ 兄的大力協助了).
並我很希望將圈點利用電腦加入文字中, 使辨識後有標點產生. 我總是覺得,
只要一頁能利用電腦少個一分鐘, 一萬頁就一萬分鐘了耶...
> 3.再以丹青 OCR讀取去點後的 BMP檔來進行自動辨識程序。(丹青
> 能夠批次處理)。
> 處理到這裡,只要辨識過程中所採用的「學習字庫」良好,那麼即
> 使不再進行「線上校對」,我預估有 95%的正確度【再註】。
我看了一下大正藏的經文, 實在很難用程式來處理使其可以有好的辨識.
但不知其它版本如何? Jimmy 兄不是有白馬精舍版的嗎? 不知其格式是
否相同? 其它藏經的情況呢? 是否就是以佛教大藏經最好辨識?
另外, 以上流程不知其它朋友有何意見, 如何處可以用電腦來節省人力, 時間,
歡迎提出供大家參考! 讓我們將這個工作做更快更好!
Heaven