看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 1031/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: xxx@Lion (黃上銘), 信區: BudaTech 標 題: Re: 請來認養掃瞄檔 發信站: 獅子吼站 (Mon Nov 17 17:57:22 1997) 轉信站: Lion ==> 於 網路義工 (peterwei@Lion) 文中述及: : hello,你好: : 我很願意幫忙服務,不過想請教一下,現在的計畫是?將經典掃成圖片,然後 : 再將圖片轉成存文字這樣嗎? : ps我在台中.不知道有時間限制嗎?(轉成文字). : scwei@ms1.accmail.com.tw : bybye 引文如下: maha wrote ==> 歡迎加入佛典電子化整理工程。這些圖檔的整理流程大致是這樣: 1.利用heaven所撰寫的去圈點程式將圖檔當中的圈點去除。(因 為這些圈點會大大干擾辨識過程) 2.利用丹青 OCR軟體將圖檔自動辨識成純文字檔。 3.辨識過程當中適度的建立學習字庫,也就是強迫系統記住某些 辨識不良圖形與文字的關係。 4.利用丹青 OCR進行自動辨識後的線上校對,一邊看圖,一邊修 正辨識後的文字。 整個流程的結果是產生一個不含圈點的經文檔。這樣的經文檔在文 字的正確度已經頗高,可以直接置於網路上。接下來是將之與由「 其它不同輸入流程所產生的同本有圈點或標點經文檔」進行檔案比 對,以此來產生正確率高且含基本圈點的電子經文檔案。 後段的檔案比對,採用Heaven所撰寫的fgfc檔案比對程式,這是以 後的事了。目前我們另有一票人正在進行的是產生「其它不同輸入 流程所產生的同本有圈點或標點經文檔」,希望這兩個比對版本早 日產生,讓我們能有一個夠水準的經文檔。 兄若有意協同整理這些圖檔,可參考上封信清單中的檔案,就你所 偏好的經目各別指明清楚。我會將您所選擇的經目圖檔,以及丹青 OCR 軟體,以及作業規則、技巧等,一併燒錄在同片光碟上寄送給 你。 -- 大士誓願不可測,運悲周遍塵剎國。 眾生盡後誓方休,地獄空時願始息。 受化多成無上道,自身猶示聲聞跡。 祇緣生佛性唯一,欲令同獲究竟即。 南無冥陽救苦大願地藏王菩薩摩訶薩.. Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.94.48] |
閱讀文章: 第 1031/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |