有關藏經電子化流程

看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow

閱讀文章：第 941/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

發信人: "Heaven" <heaven@novell.zcom.com.tw>, 信區: BudaTech
標  題: 有關藏經電子化流程
發信站: 國立中山大學網路組 Mailing List (Sun Aug 17 22:26:47 1997)
轉信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu
來  源: sccid.nsysu.edu.tw

> 直接將這個去點後的 BMP檔交給丹青OCR 進行自動辨識及詞庫校正【註】
> ，選擇4342字集，加上學習字庫，25秒鐘完成一頁含有 871個中文字的文
> 件。

  這點我一直搞不太清楚, "學習字庫" 我懂, 但辨識完成時有個 "詞庫校正" 
  是在做什麼? 是否有提高辨識率的空間.

>       OK，讓我們把流程釐清一下：
>       1.將已經掃瞄好的 TIF檔（徐言輝已完成的，詳見信末【附函】）
>         利用 PSP進行批次轉檔成 BMP檔。
>       2.以 mvdot將上述 BMP檔去點。（當然要再修改成能夠批次處理）

  以上二點, 後學儘量將程式改好, 讓它可以直接批次處理 tif 檔 (這就要靠
  QUIZ 兄的大力協助了).

  並我很希望將圈點利用電腦加入文字中, 使辨識後有標點產生. 我總是覺得, 
  只要一頁能利用電腦少個一分鐘, 一萬頁就一萬分鐘了耶... 

>       3.再以丹青 OCR讀取去點後的 BMP檔來進行自動辨識程序。（丹青
>         能夠批次處理）。
>       處理到這裡，只要辨識過程中所採用的「學習字庫」良好，那麼即
>       使不再進行「線上校對」，我預估有 95%的正確度【再註】。

  我看了一下大正藏的經文, 實在很難用程式來處理使其可以有好的辨識.
  但不知其它版本如何? Jimmy 兄不是有白馬精舍版的嗎? 不知其格式是
  否相同? 其它藏經的情況呢? 是否就是以佛教大藏經最好辨識?

  另外, 以上流程不知其它朋友有何意見, 如何處可以用電腦來節省人力, 時間, 
  歡迎提出供大家參考! 讓我們將這個工作做更快更好!

  Heaven

閱讀文章：第 941/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍台大獅子吼佛學專站 http://buddhaspace.org