您有新信

 
有關藏經電子化流程
#1
發信站: 國立中山大學網路組 Mailing List (novell.zcom.com.tw>, 信區: BudaTech)
> 直接將這個去點後的 BMP檔交給丹青OCR 進行自動辨識及詞庫校正【註】
> ,選擇4342字集,加上學習字庫,25秒鐘完成一頁含有 871個中文字的文
> 件。

  這點我一直搞不太清楚, "學習字庫" 我懂, 但辨識完成時有個 "詞庫校正" 
  是在做什麼? 是否有提高辨識率的空間.

>       OK,讓我們把流程釐清一下:
>       1.將已經掃瞄好的 TIF檔(徐言輝已完成的,詳見信末【附函】)
>         利用 PSP進行批次轉檔成 BMP檔。
>       2.以 mvdot將上述 BMP檔去點。(當然要再修改成能夠批次處理)

  以上二點, 後學儘量將程式改好, 讓它可以直接批次處理 tif 檔 (這就要靠
  QUIZ 兄的大力協助了).

  並我很希望將圈點利用電腦加入文字中, 使辨識後有標點產生. 我總是覺得, 
  只要一頁能利用電腦少個一分鐘, 一萬頁就一萬分鐘了耶... 

>       3.再以丹青 OCR讀取去點後的 BMP檔來進行自動辨識程序。(丹青
>         能夠批次處理)。
>       處理到這裡,只要辨識過程中所採用的「學習字庫」良好,那麼即
>       使不再進行「線上校對」,我預估有 95%的正確度【再註】。

  我看了一下大正藏的經文, 實在很難用程式來處理使其可以有好的辨識.
  但不知其它版本如何? Jimmy 兄不是有白馬精舍版的嗎? 不知其格式是
  否相同? 其它藏經的情況呢? 是否就是以佛教大藏經最好辨識?

  另外, 以上流程不知其它朋友有何意見, 如何處可以用電腦來節省人力, 時間, 
  歡迎提出供大家參考! 讓我們將這個工作做更快更好!

  Heaven
Sun Aug 17 22:26:47 1997
回覆 | 轉寄 | 返回

Re: 有關藏經電子化流程
#2
發信站: 國立中山大學網路組 Mailing List (m2.dj.net.tw>, 信區: BudaTech)
Heaven wrote:
> 
>   我看了一下大正藏的經文, 實在很難用程式來處理使其可以有好的辨識.
>   但不知其它版本如何? Jimmy 兄不是有白馬精舍版的嗎? 不知其格式是
> 
昨天看了新文豐版與佛陀教育基金會版, 發現新文豐版的印刷清楚多了.
Tue Aug 19 15:22:41 1997
回覆 | 轉寄 | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org