看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 1363/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: Heavenchow@Lion (Heaven), 信區: BudaTech
標  題: Re: 有關經典電子化
發信站: 獅子吼站 (Mon Nov  2 13:45:42 1998)
轉信站: Lion

寄件者: 省油的燈 <evan.bbs@buddha.cbs.NTU.EDU.TW>
>    小弟最近想做OCR錯字自動校正的研究,
>不知道能不能請你提供一下資料。
>
>    只要提供一份跑完OCR的原始資料,以及
>人工校對過的資料就可以了。資料不必多,
>只要幾mega即可。

幾 mega... 這還不多啊... ^_^
一冊大正藏也不過二, 三 mega 吧!

>    類似的研究你應該做過吧!不知道成果怎
>麼樣呢?我是因為最近的研究工作好像可以應
>用到資料校對上面,所以一時手癢,想要試試
>看,不見得會有顯著的成果就是了。


當然可以給您! :)

不過我手中可能拿不到 "最原始" 的資料 (除非有圖檔再自己處理)
OCR 處理後的原稿, 我們大概會有二種方式改進它的正確率.

一是利用丹青學習字庫的功能, 可以改善不少同樣的錯字.

第二是利用 "常用錯字字串" 表來進行取代, 
利如 "菩" 與 "苦" 字, 因為很像, 用學習的功能不易改善, 
但我們將 OCR 經文之 "苦薩" 全部取代成 "菩薩"
則對日後的校對工作大有提昇.
相關的說明在 http://ccbs.ntu.edu.tw/cbeta 的技術篇有提到.

所以我手中的原始資料大概是經過這二種處理過的了.
不知這樣是否還符合您所需求, 若合, 要怎麼給您?
mail ? ftp ? 
或是直接丟到 buda-tech ? (開玩笑的 :p)

另外, 其實本版版主 maha 對此有更多的研究, 
他好久沒回版面照顧一下了, 看他有沒有什麼心得可以提供的.

  heaven
--
【北獅南鹿】
您在學佛路上有疑問嗎?-----BudaHelp 版,幫助您!
您對佛教神祕事件好奇嗎?---BudaXfile版,滿足您!
一片清涼的佛法討論園地,需要您的愛護與灌溉,歡迎您的光臨:
台大佛研中心獅子吼站:telnet://cbs.ntu.edu.tw       (IP:140.112.143.30)
[鹿苑]佛教暨慈青專站:telnet://buddha.nsysu.edu.tw  (IP:140.117.11.90)
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.189.17]
閱讀文章: 第 1363/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org