看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 936/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: maha <maha@tpts1.seed.net.tw>, 信區: BudaTech 標 題: Re: 如何快速去除經文圖檔的圈點 發信站: 國立中山大學網路組 Mailing List (Sat Aug 16 14:58:54 1997) 轉信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu 來 源: sccid.nsysu.edu.tw Heaven wrote: > > 後學寫好了一支程式, 第一次測試時, 一頁資料花了十分鐘才處理完 :p > (夠誇張吧!) , 經過一些處理, 終於在 cpu pentium -100 + 32M ram > 的機器以 30 秒處理一頁, 應該可以忍受了. 待做最後一些處理, 明天 > 應可完成. 因這個程式適用性不廣, 故不打算一一寄給各位, 除了原需 > 求者 maha 及 徐言輝後學會強迫 mail一份給他們外, 有需要的朋友請 > 讓後學知道, 後學再私下 mail 給各位. 各位覺得有用就任意散佈無妨, > 只是不想浪費各位資源才不直接送上. 我的配備是 cpu Cyrix 6x86 P-150 + 24M ram,剛在 WIN95 MS-DOS模式 測試 Heaven mail過來的 mvdot.exe。我利用 PSP將一個TIF檔轉成BMP檔 ,執行 mvdot.exe,15秒鐘就處理完,效果極佳,完美的將圈點去除,太 好了! 直接將這個去點後的 BMP檔交給丹青OCR 進行自動辨識及詞庫校正【註】 ,選擇4342字集,加上學習字庫,25秒鐘完成一頁含有 871個中文字的文 件。 所以,老毛病又犯了,我算了一下── 871/(15+25)=21.775(字/秒)。 看來,我『欠』kftseng的《梵網經》(tif圖檔22個)可以早點交稿了。 【註】丹青OCR可以直接讀取TIF、PCX、BMP檔來進行文字辨識。所以,若 PSP 程式的批次處理可以每秒鐘轉一個圖(TIF→BMP),即可以讓 丹青直接讀取 BMP檔來進行辨識。 OK,讓我們把流程釐清一下: 1.將已經掃瞄好的 TIF檔(徐言輝已完成的,詳見信末【附函】) 利用 PSP進行批次轉檔成 BMP檔。 2.以 mvdot將上述 BMP檔去點。(當然要再修改成能夠批次處理) 3.再以丹青 OCR讀取去點後的 BMP檔來進行自動辨識程序。(丹青 能夠批次處理)。 處理到這裡,只要辨識過程中所採用的「學習字庫」良好,那麼即 使不再進行「線上校對」,我預估有 95%的正確度【再註】。 【再註】為了證明我的估計,我利用fgfc程式把a.txt(經過線上校對)、 b.txt (未經線上校對,也就是上述步驟三的完成檔)兩相比對 ,確實計算出 b.txt有47個錯字。那麼 47/871=5.4%,也就是說 每 100個字裡面約有 5.4個錯字。 maha 8/16/97 【附函】此函是徐言輝兄在今年元月八日給我的報告,在那之後,徐兄應 當又掃瞄了不少經論。雖然前陣子徐兄因個人因緣而對掃瞄事務 歇手,但仍表示願意將過去所做成果提供給大家進一步利用。 Subject: 「鳩摩羅什全集」CD片 Date: Wed, 08 Jan 1997 06:20:54 +0800 From: 徐言輝 <roberhhh@ms9.hinet.net> To: 吳寶原 <maha@tpts1.seed.net.tw> 吳兄: 終於趕了出來,整整二片;因為燒錄過程出了一些狀況,致又耽擱了一些時間。 待會我就把它寄去給你。這二片接下去的工作,就麻煩你處理了。 以下是這二片的檔案列表,亦即光碟片上的 files.lst。 ==================================================================== 【佛教大藏經處理註:】 一。符號「●」,表示電腦缺字。如可以組字法(見後面附錄)表示, 當以組字法表示之,如此可知是何字。 二。除經號下方之「大正藏」欄位,指該經文在大正藏的編號,其餘 指「佛教大藏經」的相關記錄。 三。大正藏欄位為「****」,表示大正藏沒有收錄該經文。有可能是 誤判,待修正。像鳩摩羅什譯的經,應該都有收錄,只是詳細待 查。 四。所採用的「佛教大藏經總目錄、索引」,為六十八年十二月初版。 ==================================================================== □ 佛教大藏經 目錄 □ --- 經號 --- 佛教藏 大正藏 冊 頁碼 經名(卷數)【朝代 譯者或作者】 ______ ______ _ ____ __________ _________________ ==================================================================== 【CD-1】 1021 1509 39 P0001 大智度論(100卷) H391021A --> W 0010 0286 02 P0699 十住經(4卷) H020010A --> B 0029 0310 03 P0737 (十七)富樓那會(菩薩藏經三卷)(卷77-79) H030029A 0126 0426 07 P0584 佛說千佛因緣經(1卷)】 H070126 0142 0456 07 P0852 佛說彌勒大成佛經(1卷) H070142 0160 0475 08 P0271 維摩詰所說經(3卷) H080160 0177 **** 08 P0767 佛說莊嚴菩提心經(1卷) H080177 0182 0484 08 P0840 不思議光菩薩所說經(1卷) H080182 0184 0586 09 P0001 思益梵天所問經(4卷) H090184A --> B 0189 0650 09 P0193 諸法無行經(2卷) H090189 【CD-2】 0397 0223 19 P0249 摩訶般若波羅蜜經(27卷) H190397A --> K 0400 **** 20 P0090 摩訶般若波羅蜜經(10卷) H200400A --> C (此處之所以會****,因為在大正藏的目錄是記錄 1卷 ,致不能確定) 0966 1569 37 P0352 百論(2卷) H370966 0982 0201 37 P0854 大莊嚴論經(15卷) H370982A --> E 0994 0614 38 P0190 坐禪三昧經(2卷) H380994 0995 0616 38 P0216 禪法要解(2卷) H380995 0996 0617 38 P0235 思惟略要法(1卷) H380996 0997 0615 38 P0241 菩薩訶色欲法經(1卷) H380997 1003 0208 38 P0364 眾經撰雜譬喻(2卷) H381003 1008 1521 38 P0447 十住毘婆沙論(17卷) H381008A --> F 1072 1646 47 P0209 成實論(16卷) H471072A --> H 1266 **** 53 P0211 佛說彌勒下生經(1卷) H531266 0214 0625 10 P0485 大樹緊那羅王所問經(4卷)H100214A --> B 0222 0482 10 P0651 持世經(4卷) H100222A --> B 0253 0464 11 P0197 文殊師利問菩提經(1卷) H110253 0476 0123 23 P0522 佛說放牛經(1卷) H230476 0611 0389 26 P0790 佛垂般涅槃略說教誡經(1卷)H260611 0624 0613 27 P0811 禪祕要法經(3卷)】 H270624A --> B 0692 0035 28 P0265 佛說海八德經(1卷) H280692 0716 0703 28 P0373 燈指因緣經(1卷) H280716 0948 1568 36 P0854 十二門論(1卷) H360948 0951 1659 36 P0919 發菩提心經論(2卷) H360951 0961 1564 37 P0044 中論(4卷) H370961A --> c 0203 0657 09 P0711 佛說華手經(10卷) H090203A --> E 【已完成】 0159 0642 08 P0245 佛說首楞嚴三昧經(2卷)【姚秦 鳩摩羅什譯】 1170 2046 51 P0416 馬鳴菩薩傳(1卷)【後秦 鳩摩羅什譯】 1171 2047 51 P0418 龍樹菩薩傳(1卷)【姚秦 鳩摩羅什譯】 1172 2048 51 P0422 提婆菩薩傳(1卷)【姚秦 鳩摩羅什譯】 【已完成線上校對】★我就自行處理了。 另外配合何宗兄的還有《佛說地藏十輪經》, 也由我繼續進行。 0029 0310 03 P0892 (二六)善臂菩薩會(善臂菩薩經二卷)(卷93-94) 0108 0420 06 P0604 自在王菩薩經(2卷)【姚秦 鳩摩羅什譯】 0409 0235 20 P0542 金剛般若波羅蜜經(1卷)【姚秦 鳩摩羅什譯】 0415 0245 20 P0595 佛說仁王般若波羅蜜經(2卷)【姚秦 鳩摩羅什譯】 【尚未掃瞄】 0058 0335 04 P0725 佛說須摩提菩薩經(1卷)【姚秦 鳩摩羅什譯】 0079 0366 04 P0985 佛說阿彌陀經(1卷)【姚秦 鳩摩羅什譯】(已有) 0429 0262 21 P0011 妙法蓮華經(7卷)【姚秦 鳩摩羅什譯】 0433 0265 21 P0322 妙法蓮華經觀世音菩薩普門品經(1卷) 【姚秦 鳩摩羅什譯長行,隋 闍那崛多譯重頌】 0452 0382 22 P1013 集一切福德三昧經(3卷)【姚秦 鳩摩羅什譯】 【暫不處理】★凡屬咒經,及戒律,暫不輸入。 1569 0988 57 P0294 孔雀王咒經(1卷)【姚秦 鳩摩羅什譯】 0806 1484 29 P0001 梵網經(2卷)【後秦 鳩摩羅什譯】 0815 0653 29 P0199 佛藏經(3卷)【姚秦 鳩摩羅什譯】 0818 1489 29 P0310 清淨毘尼方廣經(1卷)【後秦 鳩摩羅什譯】 0855 1436 32 P0233 十誦比丘波羅提木叉戒本(1卷)【姚秦 鳩摩羅什譯】 1255 0250 53 P0132 摩訶般若波羅蜜大明咒經(1卷)(此為心經) 【註一】:延遲檔檔名依佛教大藏經(冊碼┼編號)命名, 但存成TEXT檔時,請依網路檔命名方式,例如: H370966.DFR 為百論的延遲作業處理檔, FG1569.TXT 為百論的TEXT檔。 【註二】:圖形檔掃瞄因為大量製作,故如會產生辨識錯誤,造成程 式中斷;解決之道為:針對發生問題之圖形檔作修正,可 能是擦掉一些不正確的圖像。 【註三】:圖形檔掃瞄因為大量製作,如造成辨識不良,只要在相關 文字檔記錄不良的狀態即可,例如:缺某某頁,缺二頁, 並請在前頭加上顯著標(如★),再通知我補上該文字頁。 【註四】:圖形檔掃瞄因為大量製作,如造成辨識不良,例如因二行 文字太靠近而造成誤辨識,這時畫面上只會顯示一行的亂 碼。解決之道:可先移動游標到下一行,並按ENTER 鍵增 加一行空行;爾後移動游標到亂碼的那一行,先修正後面 那一行的字(因為如果先修正前面那一行的字,第二行的 字,將會看不到參考的影像檔),接著再修正前面那一行 的字即可。或者也可參照相關經本在線上校對,或離線校 對時補上文字也可。或者在線上校對時只要記錄缺二行, 待離線校對時再補上就可。 【註五】:請將 T4342 目錄下的 train.dbs,拷貝到丹青中文OCR的 T4342 目錄(可能為 C:\UMAXOCR\T4342),然後在辨識 時,選擇要學習字庫。該檔為依佛教大藏經做辨識時,慢 慢增加的學習字庫,可提高字的辨識率。不過,你也可以 再給與修正。 【註六】:CD-1 的 H39TXT 目錄,是我已經線上校對過的 《大智度論》頁 1 到 38,即 h391021a.txt 的前38頁。 【註七】:有問題請連絡 徐言輝 roberhhh@ms9.hinet.net 最後,感謝各位的熱情贊助。 |
閱讀文章: 第 936/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |