看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 1363/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: Heavenchow@Lion (Heaven), 信區: BudaTech 標 題: Re: 有關經典電子化 發信站: 獅子吼站 (Mon Nov 2 13:45:42 1998) 轉信站: Lion 寄件者: 省油的燈 <evan.bbs@buddha.cbs.NTU.EDU.TW> > 小弟最近想做OCR錯字自動校正的研究, >不知道能不能請你提供一下資料。 > > 只要提供一份跑完OCR的原始資料,以及 >人工校對過的資料就可以了。資料不必多, >只要幾mega即可。 幾 mega... 這還不多啊... ^_^ 一冊大正藏也不過二, 三 mega 吧! > 類似的研究你應該做過吧!不知道成果怎 >麼樣呢?我是因為最近的研究工作好像可以應 >用到資料校對上面,所以一時手癢,想要試試 >看,不見得會有顯著的成果就是了。 當然可以給您! :) 不過我手中可能拿不到 "最原始" 的資料 (除非有圖檔再自己處理) OCR 處理後的原稿, 我們大概會有二種方式改進它的正確率. 一是利用丹青學習字庫的功能, 可以改善不少同樣的錯字. 第二是利用 "常用錯字字串" 表來進行取代, 利如 "菩" 與 "苦" 字, 因為很像, 用學習的功能不易改善, 但我們將 OCR 經文之 "苦薩" 全部取代成 "菩薩" 則對日後的校對工作大有提昇. 相關的說明在 http://ccbs.ntu.edu.tw/cbeta 的技術篇有提到. 所以我手中的原始資料大概是經過這二種處理過的了. 不知這樣是否還符合您所需求, 若合, 要怎麼給您? mail ? ftp ? 或是直接丟到 buda-tech ? (開玩笑的 :p) 另外, 其實本版版主 maha 對此有更多的研究, 他好久沒回版面照顧一下了, 看他有沒有什麼心得可以提供的. heaven -- ██【北獅南鹿】██ 您在學佛路上有疑問嗎?-----BudaHelp 版,幫助您! 您對佛教神祕事件好奇嗎?---BudaXfile版,滿足您! 一片清涼的佛法討論園地,需要您的愛護與灌溉,歡迎您的光臨: 台大佛研中心獅子吼站:telnet://cbs.ntu.edu.tw (IP:140.112.143.30) [鹿苑]佛教暨慈青專站:telnet://buddha.nsysu.edu.tw (IP:140.117.11.90) Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.189.17] |
閱讀文章: 第 1363/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |