看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 1031/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: xxx@Lion (黃上銘), 信區: BudaTech
標  題: Re: 請來認養掃瞄檔
發信站: 獅子吼站 (Mon Nov 17 17:57:22 1997)
轉信站: Lion

==> 於 網路義工 (peterwei@Lion) 文中述及:
: hello,你好:
: 我很願意幫忙服務,不過想請教一下,現在的計畫是?將經典掃成圖片,然後
: 再將圖片轉成存文字這樣嗎?
: ps我在台中.不知道有時間限制嗎?(轉成文字).
: scwei@ms1.accmail.com.tw
: bybye

        引文如下:
maha wrote ==>
歡迎加入佛典電子化整理工程。這些圖檔的整理流程大致是這樣:

  1.利用heaven所撰寫的去圈點程式將圖檔當中的圈點去除。(因
    為這些圈點會大大干擾辨識過程)
  2.利用丹青 OCR軟體將圖檔自動辨識成純文字檔。
  3.辨識過程當中適度的建立學習字庫,也就是強迫系統記住某些
    辨識不良圖形與文字的關係。
  4.利用丹青 OCR進行自動辨識後的線上校對,一邊看圖,一邊修
    正辨識後的文字。

整個流程的結果是產生一個不含圈點的經文檔。這樣的經文檔在文
字的正確度已經頗高,可以直接置於網路上。接下來是將之與由「
其它不同輸入流程所產生的同本有圈點或標點經文檔」進行檔案比
對,以此來產生正確率高且含基本圈點的電子經文檔案。

後段的檔案比對,採用Heaven所撰寫的fgfc檔案比對程式,這是以
後的事了。目前我們另有一票人正在進行的是產生「其它不同輸入
流程所產生的同本有圈點或標點經文檔」,希望這兩個比對版本早
日產生,讓我們能有一個夠水準的經文檔。

兄若有意協同整理這些圖檔,可參考上封信清單中的檔案,就你所
偏好的經目各別指明清楚。我會將您所選擇的經目圖檔,以及丹青
OCR 軟體,以及作業規則、技巧等,一併燒錄在同片光碟上寄送給
你。

--
        大士誓願不可測,運悲周遍塵剎國。
        眾生盡後誓方休,地獄空時願始息。
        受化多成無上道,自身猶示聲聞跡。
        祇緣生佛性唯一,欲令同獲究竟即。
        南無冥陽救苦大願地藏王菩薩摩訶薩..

Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.94.48]
閱讀文章: 第 1031/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org