您有新信

 
有關經典電子化
#1
發信站: (ksts.seed.net.tw, 信區: BudaTech)
前一陣子諸位大德討論有關經典電子化,
因在下不懂,所以也沒有在意,
現想了解電子化中比較技術上的問題,
如 
1. 掃描解析度
2. 辨認軟體名稱及正確率
3.記得有去點程式的種種
4. 標點符號問題
5.文字直式轉橫式的問題.
6.其他

如果諸位大德有保留那時討論的 mail 可否forward
一份給我,或告訴我去那找.
thanks


-- 
---------------------------------------------------
http://cubic.mat.ncku.edu.tw/~cricket
mailto:cricket@ksts.seed.net.tw
---------------------------------------------------
NEWS/INFO National Sun Yat-San University Thu Oct 29 23:02:44 1998
回覆 | 轉寄 | 返回

Re: 有關經典電子化
#2
Heaven
發信站: 獅子吼站 (Lion , 信區: BudaTech)
==> 於  (cricket@ksts.seed.net.tw,) 文中述及:
>前一陣子諸位大德討論有關經典電子化,
>因在下不懂,所以也沒有在意,
>現想了解電子化中比較技術上的問題,
>如 ... <略>
>如果諸位大德有保留那時討論的 mail 可否forward
>一份給我,或告訴我去那找.

在獅子吼站的 buda-tech 討論區, 有完整的保留, 
telnet://cbs.ntu.edu.tw  [buda-tech 版]

>1. 掃描解析度

據說一般 300 dpi 就很不錯了, 但若是古文或較不清楚
的資料, 則要較高的解析度, 例如我們處理大正藏, 
就發覺 400 以上有更好的效果.

>2. 辨認軟體名稱及正確率

之前後學測試時, 覺得丹青效果不錯.
我是用大正藏為樣本, 試用丹青, 
電信研究所那一套及大陸清華那一套. (名字都忘了)
好像還有個叫新文通或什麼的, 但以丹青最為理想.
(ps. 我只是粗略測試, 各軟體或許有最佳化的調整, 我都沒處理)

>3.記得有去點程式的種種

有人寫過一支去點程式, 大概能粗略去除
大正藏, 佛教藏及續藏的雜點, 在東坡站上應該找得到.

>4. 標點符號問題

什麼問題? OCR 辨識問題嗎? 

>5.文字直式轉橫式的問題.

純文字直式文字變橫式嗎?
之前後學有想過用漢書寫些巨集來處理, 
但需求度不高就一直沒動手.
若有需要則歡迎來討論.
但因為許多經文都有橫式的了, 所以我都不管直式的那些.

>6.其他

其他就歡迎來討論了.

其實這些問題在不同情況有不同的方法來處理, 
很歡迎您以您目前要處理的現況與大家一起討論.
或許您要的東西都有現成的成品了, 就不用那麼麻煩了.

  heaven
--
【北獅南鹿】
您在學佛路上有疑問嗎?-----BudaHelp 版,幫助您!
您對佛教神祕事件好奇嗎?---BudaXfile版,滿足您!
一片清涼的佛法討論園地,需要您的愛護與灌溉,歡迎您的光臨:
台大佛研中心獅子吼站:telnet://cbs.ntu.edu.tw       (IP:140.112.143.30)
[鹿苑]佛教暨慈青專站:telnet://buddha.nsysu.edu.tw  (IP:140.117.11.90)
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.189.90]
Sun Nov 1 23:39:15 1998
回覆 | 轉寄 | 返回

Re: 有關經典電子化
#3
省油的燈
發信站: 獅子吼站 (Lion , 信區: BudaTech)
    小弟最近想做OCR錯字自動校正的研究,
不知道能不能請你提供一下資料。

    只要提供一份跑完OCR的原始資料,以及
人工校對過的資料就可以了。資料不必多,
只要幾mega即可。

    類似的研究你應該做過吧!不知道成果怎
麼樣呢?我是因為最近的研究工作好像可以應
用到資料校對上面,所以一時手癢,想要試試
看,不見得會有顯著的成果就是了。

Evan
--
      ╭╮╭╮
    ─        ─                          
  ──  ••  ──
 ──╭    ╮──
 ──│∵│∵│──
   ─╰─┴─╯─  歡迎光臨台大佛研中心獅子吼站:cbs.ntu.edu.tw[140.112.143.30]
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 140.109.19.102]
Mon Nov 2 10:10:22 1998
回覆 | 轉寄 | 返回

Re: 有關經典電子化
#4
Heaven
發信站: 獅子吼站 (Lion , 信區: BudaTech)
寄件者: 省油的燈 <evan.bbs@buddha.cbs.NTU.EDU.TW>
>    小弟最近想做OCR錯字自動校正的研究,
>不知道能不能請你提供一下資料。
>
>    只要提供一份跑完OCR的原始資料,以及
>人工校對過的資料就可以了。資料不必多,
>只要幾mega即可。

幾 mega... 這還不多啊... ^_^
一冊大正藏也不過二, 三 mega 吧!

>    類似的研究你應該做過吧!不知道成果怎
>麼樣呢?我是因為最近的研究工作好像可以應
>用到資料校對上面,所以一時手癢,想要試試
>看,不見得會有顯著的成果就是了。


當然可以給您! :)

不過我手中可能拿不到 "最原始" 的資料 (除非有圖檔再自己處理)
OCR 處理後的原稿, 我們大概會有二種方式改進它的正確率.

一是利用丹青學習字庫的功能, 可以改善不少同樣的錯字.

第二是利用 "常用錯字字串" 表來進行取代, 
利如 "菩" 與 "苦" 字, 因為很像, 用學習的功能不易改善, 
但我們將 OCR 經文之 "苦薩" 全部取代成 "菩薩"
則對日後的校對工作大有提昇.
相關的說明在 http://ccbs.ntu.edu.tw/cbeta 的技術篇有提到.

所以我手中的原始資料大概是經過這二種處理過的了.
不知這樣是否還符合您所需求, 若合, 要怎麼給您?
mail ? ftp ? 
或是直接丟到 buda-tech ? (開玩笑的 :p)

另外, 其實本版版主 maha 對此有更多的研究, 
他好久沒回版面照顧一下了, 看他有沒有什麼心得可以提供的.

  heaven
--
【北獅南鹿】
您在學佛路上有疑問嗎?-----BudaHelp 版,幫助您!
您對佛教神祕事件好奇嗎?---BudaXfile版,滿足您!
一片清涼的佛法討論園地,需要您的愛護與灌溉,歡迎您的光臨:
台大佛研中心獅子吼站:telnet://cbs.ntu.edu.tw       (IP:140.112.143.30)
[鹿苑]佛教暨慈青專站:telnet://buddha.nsysu.edu.tw  (IP:140.117.11.90)
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.189.17]
Mon Nov 2 13:45:42 1998
回覆 | 轉寄 | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org