看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 941/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: "Heaven" <heaven@novell.zcom.com.tw>, 信區: BudaTech
標  題: 有關藏經電子化流程
發信站: 國立中山大學網路組 Mailing List (Sun Aug 17 22:26:47 1997)
轉信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu
來  源: sccid.nsysu.edu.tw

> 直接將這個去點後的 BMP檔交給丹青OCR 進行自動辨識及詞庫校正【註】
> ,選擇4342字集,加上學習字庫,25秒鐘完成一頁含有 871個中文字的文
> 件。

  這點我一直搞不太清楚, "學習字庫" 我懂, 但辨識完成時有個 "詞庫校正" 
  是在做什麼? 是否有提高辨識率的空間.

>       OK,讓我們把流程釐清一下:
>       1.將已經掃瞄好的 TIF檔(徐言輝已完成的,詳見信末【附函】)
>         利用 PSP進行批次轉檔成 BMP檔。
>       2.以 mvdot將上述 BMP檔去點。(當然要再修改成能夠批次處理)

  以上二點, 後學儘量將程式改好, 讓它可以直接批次處理 tif 檔 (這就要靠
  QUIZ 兄的大力協助了).

  並我很希望將圈點利用電腦加入文字中, 使辨識後有標點產生. 我總是覺得, 
  只要一頁能利用電腦少個一分鐘, 一萬頁就一萬分鐘了耶... 

>       3.再以丹青 OCR讀取去點後的 BMP檔來進行自動辨識程序。(丹青
>         能夠批次處理)。
>       處理到這裡,只要辨識過程中所採用的「學習字庫」良好,那麼即
>       使不再進行「線上校對」,我預估有 95%的正確度【再註】。

  我看了一下大正藏的經文, 實在很難用程式來處理使其可以有好的辨識.
  但不知其它版本如何? Jimmy 兄不是有白馬精舍版的嗎? 不知其格式是
  否相同? 其它藏經的情況呢? 是否就是以佛教大藏經最好辨識?

  另外, 以上流程不知其它朋友有何意見, 如何處可以用電腦來節省人力, 時間, 
  歡迎提出供大家參考! 讓我們將這個工作做更快更好!

  Heaven






閱讀文章: 第 941/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org