看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 941/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: "Heaven" <heaven@novell.zcom.com.tw>, 信區: BudaTech 標 題: 有關藏經電子化流程 發信站: 國立中山大學網路組 Mailing List (Sun Aug 17 22:26:47 1997) 轉信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu 來 源: sccid.nsysu.edu.tw > 直接將這個去點後的 BMP檔交給丹青OCR 進行自動辨識及詞庫校正【註】 > ,選擇4342字集,加上學習字庫,25秒鐘完成一頁含有 871個中文字的文 > 件。 這點我一直搞不太清楚, "學習字庫" 我懂, 但辨識完成時有個 "詞庫校正" 是在做什麼? 是否有提高辨識率的空間. > OK,讓我們把流程釐清一下: > 1.將已經掃瞄好的 TIF檔(徐言輝已完成的,詳見信末【附函】) > 利用 PSP進行批次轉檔成 BMP檔。 > 2.以 mvdot將上述 BMP檔去點。(當然要再修改成能夠批次處理) 以上二點, 後學儘量將程式改好, 讓它可以直接批次處理 tif 檔 (這就要靠 QUIZ 兄的大力協助了). 並我很希望將圈點利用電腦加入文字中, 使辨識後有標點產生. 我總是覺得, 只要一頁能利用電腦少個一分鐘, 一萬頁就一萬分鐘了耶... > 3.再以丹青 OCR讀取去點後的 BMP檔來進行自動辨識程序。(丹青 > 能夠批次處理)。 > 處理到這裡,只要辨識過程中所採用的「學習字庫」良好,那麼即 > 使不再進行「線上校對」,我預估有 95%的正確度【再註】。 我看了一下大正藏的經文, 實在很難用程式來處理使其可以有好的辨識. 但不知其它版本如何? Jimmy 兄不是有白馬精舍版的嗎? 不知其格式是 否相同? 其它藏經的情況呢? 是否就是以佛教大藏經最好辨識? 另外, 以上流程不知其它朋友有何意見, 如何處可以用電腦來節省人力, 時間, 歡迎提出供大家參考! 讓我們將這個工作做更快更好! Heaven |
閱讀文章: 第 941/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |