您有新信

 
如何快速去除經文圖檔的圈點
#1
發信站: 國立中山大學網路組 Mailing List (tpts1.seed.net.tw>, 信區: BudaTech)
各位為中文資訊努力的朋友好:

請教一個問題:

當以丹青 OCR(中文印刷體文字辨識系統)處理佛教大藏經,將書面經
文掃瞄成 TIF圖檔後,若不先將圖檔裡經文右側的圈點(舊式標點)去
除,則會嚴重影響辨識效果。一般是可以用丹青 OCR裡面的橡皮擦工具
去點,但一個一個去點實在太慢,手指頭都快抽筋了。

所以有沒有哪種圖形軟體,可以自動去除固定形狀的雜點?我玩過
PaintShop Pro 及 PhotoImpact,還沒發現這樣的功能呢。

這問題很重要啊,因為我們已經掃瞄了一堆佛教經文圖檔,若能克服這
個步驟,佛經文字檔的產生就大大容易了。各位若有所知,敬請通報一
聲,或是幫忙請教一下熟悉圖形處理的專家,謝謝!

                                                   maha 8/2/97
Sat Aug 2 15:28:40 1997
回覆 | 轉寄 | 返回

Re: 如何快速去除經文圖檔的圈點
#2
發信站: 國立中山大學網路組 Mailing List (novell.zcom.com.tw>, 信區: BudaTech)
> 當以丹青 OCR(中文印刷體文字辨識系統)處理佛教大藏經,將書面經
> 文掃瞄成 TIF圖檔後,若不先將圖檔裡經文右側的圈點(舊式標點)去
> 除,則會嚴重影響辨識效果。一般是可以用丹青 OCR裡面的橡皮擦工具
> 去點,但一個一個去點實在太慢,手指頭都快抽筋了。

  後學有想寫個程式來處理, 但如何判斷尚未有頭緒, 若有網友有方法, 能否
  指點一下.

  目前想到一個可能暫時可以克服抽筋的方法. 用可編輯的繪圖程式
  來處理:

  1. 小圓點大多是在同一直排, 兄可先畫一條長直線, 並複製起來.
  2. 然後分別貼上長直線, 再將其移動至小圓點上, 有如將它們串起來.
  3. 繼續貼上長直線, 將所有的圓點串起來 (大概每一行都有吧!)
  4. 亦可畫一橫線, 跨過那些長串, 甚至連結外面的黑框.
  5. 原則就是將想去除的部份串在一起, 不要串到字.
  6. 用倒油漆的工具將白色倒在那些部份, 就全部去除了.

  這是想像, 我沒有實務經驗, 不過聽起來應該會快一點.
  您可以試試. 等我有圖檔後, 再來一起玩.

  Heaven
Sun Aug 3 04:11:00 1997
回覆 | 轉寄 | 返回

Re: 如何快速去除經文圖檔的圈點
#3
發信站: 國立中山大學網路組 Mailing List (tpts1.seed.net.tw>, 信區: BudaTech)
Heaven wrote:
> 
>   目前想到一個可能暫時可以克服抽筋的方法. 用可編輯的繪圖程式
>   來處理:
> 
>   1. 小圓點大多是在同一直排, 兄可先畫一條長直線, 並複製起來.

.....(略)

>   這是想像, 我沒有實務經驗, 不過聽起來應該會快一點.
>   您可以試試. 等我有圖檔後, 再來一起玩.

這個方法,之前 roberhhh 跟我有試過。
我們碰到的問題是:

圖檔掃瞄多少都有些歪斜現象,
甚至原來書本的印刷就有少許不規則歪斜,
還有經文右側的圈點也不是都很準確一致的排列下來。

那麼當使用圖形處理軟體拉線框時,
因為只能拉出上下垂直框,
所以常不容易一次就很準確的把只想去除的部份圈選起來。

於是我們就放棄這個方法。

                                         maha 8/3/97
Sun Aug 3 08:30:09 1997
回覆 | 轉寄 | 返回

Re: 如何快速去除經文圖檔的圈點
#4
第二代電子寶寶
發信站: 獅子吼站 (Lion , 信區: BudaTech)
==> 於  (maha) 文中述及:
: Heaven wrote:
: > 
: >   目前想到一個可能暫時可以克服抽筋的方法. 用可編輯的繪圖程式
: >   來處理:
: > 
: >   1. 小圓點大多是在同一直排, 兄可先畫一條長直線, 並複製起來.
: .....(略)
: >   這是想像, 我沒有實務經驗, 不過聽起來應該會快一點.
: >   您可以試試. 等我有圖檔後, 再來一起玩.
: 這個方法,之前 roberhhh 跟我有試過。
: 我們碰到的問題是:
: 圖檔掃瞄多少都有些歪斜現象,
: 甚至原來書本的印刷就有少許不規則歪斜,
: 還有經文右側的圈點也不是都很準確一致的排列下來。
: 那麼當使用圖形處理軟體拉線框時,
: 因為只能拉出上下垂直框,
: 所以常不容易一次就很準確的把只想去除的部份圈選起來。
: 於是我們就放棄這個方法。
:                                          maha 8/3/97

    如果歪斜寶寶是用photo iExpress中自動校正和自動去除雜點, 自動去除印刷紋路

    來克服...

    如果想除去一排點也許photoshop就很好用囉....

    嗯~~~ 如果想直接清除.....先影印再用立可白會不會好些ㄌㄟ :P

    至少影印和立可白還蠻好操作的~~~~~

    這是寶寶愚拙的建議啦~~~ :)

    否則會很累的.....
--
傷心最怕伴明月, 何苦自殘缺.
    卻教孤松也把影攤碎.
        未憔悴, 先灑斑斑淚.
聞鐘夢醒找人陪, 奈何夜已沉睡.
    但見風醉把愁吹, 道一去不回, 徒嘆傷悲!
       ~~~~~~~~ 1990中秋隨筆
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 140.114.44.131]
Mon Aug 4 10:39:49 1997
回覆 | 轉寄 | 返回

Re: 如何快速去除經文圖檔的圈點
#5
wmc
發信站: 國立中山大學網路組 Mailing List (mozart.seed.net.tw , 信區: BudaTech)
第二代電子寶寶 wrote:
> 
> 傷心最怕伴明月, 何苦自殘缺.
>     卻教孤松也把影攤碎.
>         未憔悴, 先灑斑斑淚.
> 聞鐘夢醒找人陪, 奈何夜已沉睡.
>     但見風醉把愁吹, 道一去不回, 徒嘆傷悲!
>        ~~~~~~~~ 1990中秋隨筆
如夢幻泡影, 如露亦如電, 應作如是觀.
如夢幻泡影, 如露亦如電, 應作如是觀.
如夢幻泡影, 如露亦如電, 應作如是觀.
如夢幻泡影, 如露亦如電, 應作如是觀.
如夢幻泡影, 如露亦如電, 應作如是觀.
如夢幻泡影, 如露亦如電, 應作如是觀.
Mon Aug 4 13:10:26 1997
回覆 | 轉寄 | 返回

Re: 如何快速去除經文圖檔的圈點
#6
噎雞吐寶寶
發信站: 獅子吼站 (Lion , 信區: BudaTech)
==> 於 wmc (wmc@mozart.seed.net.tw) 文中述及:
: 第二代電子寶寶 wrote:
: > 
: > 傷心最怕伴明月, 何苦自殘缺.
: >     卻教孤松也把影攤碎.
: >         未憔悴, 先灑斑斑淚.
: > 聞鐘夢醒找人陪, 奈何夜已沉睡.
: >     但見風醉把愁吹, 道一去不回, 徒嘆傷悲!
: >        ~~~~~~~~ 1990中秋隨筆
: 如夢幻泡影, 如露亦如電, 應作如是觀.
: 如夢幻泡影, 如露亦如電, 應作如是觀.
: 如夢幻泡影, 如露亦如電, 應作如是觀.
: 如夢幻泡影, 如露亦如電, 應作如是觀.
: 如夢幻泡影, 如露亦如電, 應作如是觀.
: 如夢幻泡影, 如露亦如電, 應作如是觀.

    也許這和清除雜點不太有關係, 但是呢~~~ 辨識軟體可沒這麼強喔!!!

    還是要謝謝您~~~ 只不過ㄌㄟ...都7年了~~~ 早過去了~~~ 生個小孩都上小學的說~~
--
傷心最怕伴明月, 何苦自殘缺.
    卻教孤松也把影攤碎.
        未憔悴, 先灑斑斑淚.
聞鐘夢醒找人陪, 奈何夜已沉睡.
    但見風醉把愁吹, 道一去不回, 徒嘆傷悲!
       ~~~~~~~~ 1990中秋隨筆
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 140.114.44.132]
Mon Aug 4 16:25:03 1997
回覆 | 轉寄 | 返回

Re: 如何快速去除經文圖檔的圈點
#7
噎雞吐寶寶
發信站: 獅子吼站 (Lion , 信區: BudaTech)
==> 於 第二代電子寶寶 (ag2@Lion) 文中述及:
: ==> 於  (maha) 文中述及:
: : Heaven wrote:
: : > 
: : >   目前想到一個可能暫時可以克服抽筋的方法. 用可編輯的繪圖程式
: : >   來處理:
: : > 
: : >   1. 小圓點大多是在同一直排, 兄可先畫一條長直線, 並複製起來.
: : .....(略)
: : >   這是想像, 我沒有實務經驗, 不過聽起來應該會快一點.
: : >   您可以試試. 等我有圖檔後, 再來一起玩.
: : 這個方法,之前 roberhhh 跟我有試過。
: : 我們碰到的問題是:
: : 圖檔掃瞄多少都有些歪斜現象,
: : 甚至原來書本的印刷就有少許不規則歪斜,
: : 還有經文右側的圈點也不是都很準確一致的排列下來。
: : 那麼當使用圖形處理軟體拉線框時,
: : 因為只能拉出上下垂直框,
: : 所以常不容易一次就很準確的把只想去除的部份圈選起來。
: : 於是我們就放棄這個方法。
: :                                          maha 8/3/97
:     如果歪斜寶寶是用photo iExpress中自動校正和自動去除雜點, 自動去除印刷紋路
                         ^^更正...是iPhoto Express 友立的工具 ^_^

:     來克服...
:     如果想除去一排點也許photoshop就很好用囉....
:     嗯~~~ 如果想直接清除.....先影印再用立可白會不會好些ㄌㄟ :P
:     至少影印和立可白還蠻好操作的~~~~~
:     這是寶寶愚拙的建議啦~~~ :)
:     否則會很累的.....
--
傷心最怕伴明月, 何苦自殘缺.
    卻教孤松也把影攤碎.
        未憔悴, 先灑斑斑淚.
聞鐘夢醒找人陪, 奈何夜已沉睡.
    但見風醉把愁吹, 道一去不回, 徒嘆傷悲!
       ~~~~~~~~ 1990中秋隨筆
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 203.70.181.35]
Mon Aug 4 18:41:14 1997
回覆 | 轉寄 | 返回

Re: 如何快速去除經文圖檔的圈點
#8
發信站: 國立中山大學網路組 Mailing List (tpts1.seed.net.tw>, 信區: BudaTech)
第二代電子寶寶 wrote:
> 
> 如果歪斜寶寶是用photo iExpress中自動校正和自動去除雜點, 自動去除印刷紋路
> 來克服...
> 如果想除去一排點也許photoshop就很好用囉....

謝謝AG寶寶『拔刀相助』。我已經準備好了,是個 TIF黑白圖檔,只有70KB,
待會兒就私下e-mail給您。任何肯幫忙的朋友,請通報一聲,我就把這個經文
圖檔送過去給您實驗。我的硬碟快爆了,再吃大型軟體會撐死的。所以就只好
借用各位現有的軟體環境,當然更重要的是各位對該軟體的操作經驗。
 
> 嗯~~~ 如果想直接清除.....先影印再用立可白會不會好些ㄌㄟ :P
> 至少影印和立可白還蠻好操作的~~~~~
> 這是寶寶愚拙的建議啦~~~ :)
> 否則會很累的.....

『立可白法』是有想過,只是那套書是跟人家借的,不好直接塗下去。若要以
影印本來塗,單是影印費就差不多可以買一套全新的。其實也沒多少錢啦,幾
萬塊銀兩吧!

先不考慮土法煉鋼的招式,先研究看看是否有適當軟體可以處理得來;若不行
,再讓 Heaven 來傷腦筋寫個程式吧。

這個議題,不惟針對佛教大藏經來說,很多古書以及『尊崇古法』排版的書籍
,在文字辨識處理上都有類似的困難。這個障礙若能有效排除,想那 OCR軟體
一秒鐘十幾二十來字的辨識速度,一套電子版大藏經很快就能產生了;即使是
沒有圈點或進一步校對,但總算有個最基礎的材料來讓我們好好琢磨。

                                                         maha 8/5/97
Tue Aug 5 11:26:28 1997
回覆 | 轉寄 | 返回

Re: 如何快速去除經文圖檔的圈點
#9
噎雞吐寶寶
發信站: 獅子吼站 (Lion , 信區: BudaTech)
==> 於  (maha) 文中述及:
: 『立可白法』是有想過,只是那套書是跟人家借的,不好直接塗下去。若要以
: 影印本來塗,單是影印費就差不多可以買一套全新的。其實也沒多少錢啦,幾
: 萬塊銀兩吧!
: 先不考慮土法煉鋼的招式,先研究看看是否有適當軟體可以處理得來;若不行
: ,再讓 Heaven 來傷腦筋寫個程式吧。

    寶寶是習慣用小畫家的橡皮擦啦~~~ :P 反正不會有公害說...又不用經影印說..

    等我試試在說... :P
--
傷心最怕伴明月, 何苦自殘缺.
    卻教孤松也把影攤碎.
        未憔悴, 先灑斑斑淚.
聞鐘夢醒找人陪, 奈何夜已沉睡.
    但見風醉把愁吹, 道一去不回, 徒嘆傷悲!
       ~~~~~~~~ 1990中秋隨筆
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 140.114.44.131]
Tue Aug 5 13:01:24 1997
回覆 | 轉寄 | 返回

Re: 如何快速去除經文圖檔的圈點
#10
發信站: 國立中山大學網路組 Mailing List (novell.zcom.com.tw>, 信區: BudaTech)
> 先不考慮土法煉鋼的招式,先研究看看是否有適當軟體可以處理得來;若不行
> ,再讓 Heaven 來傷腦筋寫個程式吧。

  後學寫好了一支程式, 第一次測試時, 一頁資料花了十分鐘才處理完 :p
  (夠誇張吧!) , 經過一些處理, 終於在 cpu pentium -100 + 32M ram
  的機器以 30 秒處理一頁, 應該可以忍受了. 待做最後一些處理, 明天
  應可完成. 因這個程式適用性不廣, 故不打算一一寄給各位, 除了原需
  求者 maha 及 徐言輝後學會強迫 mail 一份給他們外, 有需要的朋友請
  讓後學知道, 後學再私下 mail 給各位. 各位覺得有用就任意散佈無妨, 
  只是不想浪費各位資源才不直接送上.

  這個程式適用性不高, 只會處理 :

  1. 黑白的 bmp 圖檔格式, 因小弟對圖形沒什麼研究, 故只會這種.
     我是用 win95B 所附的 Imaging 這個程式來將 tif 轉成 bmp 的.
  2. 基本上, 我很難對雜點做定義, 故只處理 
     "約長寬各 16 個點的實心黑圈 (即半徑為 8) , 並該黑點上下皆為空白" 
     這是我的判斷方法. 而佛教大藏經的經文的圈點大概也是這樣樣子吧!

> 這個議題,不惟針對佛教大藏經來說,很多古書以及『尊崇古法』排版的書籍
> ,在文字辨識處理上都有類似的困難。這個障礙若能有效排除,想那 OCR軟體
> 一秒鐘十幾二十來字的辨識速度,一套電子版大藏經很快就能產生了;即使是
> 沒有圈點或進一步校對,但總算有個最基礎的材料來讓我們好好琢磨。

  再來的動作, 或許是找個能直接做 tif -> bmp 及 bmp -> tif 的轉換工具.
  因為用 imaging 等要不斷 opne , save as ... , 一樣很花時間, 不能
  大量批次處理. 若這點做出來, 而丹青也可以一次處理數頁文件, 這樣來做
  電子化就快很多了.

  這方面的下個動作可能是將圈點移入文字中, 及大正藏圖檔處理, 但好像比
  較難, 後學先觀望看看. 希望有這方面專長的朋友能支援.

  Heaven
Wed Aug 13 10:51:52 1997
回覆 | 轉寄 | 返回

Re: 如何快速去除經文圖檔的圈點
#11
發信站: 國立中山大學網路組 Mailing List (novell.zcom.com.tw>, 信區: BudaTech)
> 對不起,插花一下,您的原始檔案使用的掃描倍數為多少,
> 是否只使用(300dpi)同比例大小處理?如果可以,我也要
> 一份相關檔案,作為檔案處理的參考,至於轉圖格式工具
> 程式不少,我看看可不可以採用批次處理法進行轉檔。

  不清楚耶.. 不過好像是聽說 300dpi , 我手中的檔案都是
  電子佛典編輯小組所掃描的檔案, 不知有沒有其它人清楚?

  至於程式, 待後學處理完, 連程式 (用 c 寫的) 給您參考.
  若看不懂 (我寫程式習慣不好 :p) 或是有所建議, 歡迎
  指教並一起研究. :)

  Heaven
Wed Aug 13 11:58:36 1997
回覆 | 轉寄 | 返回

Re: 如何快速去除經文圖檔的圈點
#12
David Lee
發信站: 國立中山大學網路組 Mailing List (iafrica.com , 信區: BudaTech)
On Wed, 13 Aug 1997 02:58:54 GMT, you wrote:

>> 先不考慮土法煉鋼的招式,先研究看看是否有適當軟體可以處理得來;若不行
>  應可完成. 因這個程式適用性不廣, 故不打算一一寄給各位, 除了原需
>  求者 maha 及 徐言輝後學會強迫 mail 一份給他們外, 有需要的朋友請
>
>  1. 黑白的 bmp 圖檔格式, 因小弟對圖形沒什麼研究, 故只會這種.
>     我是用 win95B 所附的 Imaging 這個程式來將 tif 轉成 bmp 的.
何不嘗試Display 1.89, 這是一個台灣人寫的軟體, 
可以做批次處理(轉換檔案格式, 轉換解析度...)
(沒記錯的話, 好像還是Freeware.)
在檔名應該是disp189?.zip, ?的部份是a 或b, 一個是主程式, 
一個是顯示卡的驅動程式.
Thu Aug 14 04:08:19 1997
回覆 | 轉寄 | 返回

Re: 如何快速去除經文圖檔的圈點
#13
發信站: 國立中山大學網路組 Mailing List (tpts1.seed.net.tw>, 信區: BudaTech)
Heaven wrote:
> 
>   後學寫好了一支程式, 第一次測試時, 一頁資料花了十分鐘才處理完 :p
>   (夠誇張吧!) , 經過一些處理, 終於在 cpu pentium -100 + 32M ram
>   的機器以 30 秒處理一頁, 應該可以忍受了. 待做最後一些處理, 明天
>   應可完成. 因這個程式適用性不廣, 故不打算一一寄給各位, 除了原需
>   求者 maha 及 徐言輝後學會強迫 mail一份給他們外, 有需要的朋友請
>   讓後學知道, 後學再私下 mail 給各位. 各位覺得有用就任意散佈無妨,
>   只是不想浪費各位資源才不直接送上.

我的配備是 cpu Cyrix 6x86 P-150 + 24M ram,剛在 WIN95 MS-DOS模式
測試 Heaven mail過來的 mvdot.exe。我利用 PSP將一個TIF檔轉成BMP檔
,執行 mvdot.exe,15秒鐘就處理完,效果極佳,完美的將圈點去除,太
好了!

直接將這個去點後的 BMP檔交給丹青OCR 進行自動辨識及詞庫校正【註】
,選擇4342字集,加上學習字庫,25秒鐘完成一頁含有 871個中文字的文
件。

所以,老毛病又犯了,我算了一下── 871/(15+25)=21.775(字/秒)。

看來,我『欠』kftseng的《梵網經》(tif圖檔22個)可以早點交稿了。

【註】丹青OCR可以直接讀取TIF、PCX、BMP檔來進行文字辨識。所以,若
      PSP 程式的批次處理可以每秒鐘轉一個圖(TIF→BMP),即可以讓
      丹青直接讀取 BMP檔來進行辨識。

      OK,讓我們把流程釐清一下:
      1.將已經掃瞄好的 TIF檔(徐言輝已完成的,詳見信末【附函】)
        利用 PSP進行批次轉檔成 BMP檔。
      2.以 mvdot將上述 BMP檔去點。(當然要再修改成能夠批次處理)
      3.再以丹青 OCR讀取去點後的 BMP檔來進行自動辨識程序。(丹青
        能夠批次處理)。
      處理到這裡,只要辨識過程中所採用的「學習字庫」良好,那麼即
      使不再進行「線上校對」,我預估有 95%的正確度【再註】。

【再註】為了證明我的估計,我利用fgfc程式把a.txt(經過線上校對)、
        b.txt (未經線上校對,也就是上述步驟三的完成檔)兩相比對
        ,確實計算出 b.txt有47個錯字。那麼 47/871=5.4%,也就是說
        每 100個字裡面約有 5.4個錯字。

                                                    maha 8/16/97

【附函】此函是徐言輝兄在今年元月八日給我的報告,在那之後,徐兄應
        當又掃瞄了不少經論。雖然前陣子徐兄因個人因緣而對掃瞄事務
        歇手,但仍表示願意將過去所做成果提供給大家進一步利用。

Subject: 「鳩摩羅什全集」CD片
   Date: Wed, 08 Jan 1997 06:20:54 +0800
   From: 徐言輝 <roberhhh@ms9.hinet.net>
    To:  吳寶原 <maha@tpts1.seed.net.tw>

吳兄:

終於趕了出來,整整二片;因為燒錄過程出了一些狀況,致又耽擱了一些時間。
待會我就把它寄去給你。這二片接下去的工作,就麻煩你處理了。

以下是這二片的檔案列表,亦即光碟片上的 files.lst。

====================================================================
【佛教大藏經處理註:】
        一。符號「●」,表示電腦缺字。如可以組字法(見後面附錄)表示,
            當以組字法表示之,如此可知是何字。
        二。除經號下方之「大正藏」欄位,指該經文在大正藏的編號,其餘
            指「佛教大藏經」的相關記錄。
        三。大正藏欄位為「****」,表示大正藏沒有收錄該經文。有可能是
            誤判,待修正。像鳩摩羅什譯的經,應該都有收錄,只是詳細待
            查。
        四。所採用的「佛教大藏經總目錄、索引」,為六十八年十二月初版。
====================================================================
                   □ 佛教大藏經 目錄 □

--- 經號 ---
佛教藏 大正藏 冊 頁碼  經名(卷數)【朝代 譯者或作者】
______ ______ _  ____  __________ _________________
====================================================================
【CD-1】

1021 1509 39 P0001 大智度論(100卷)          H391021A --> W
0010 0286 02 P0699 十住經(4卷)              H020010A --> B
0029 0310 03 P0737 (十七)富樓那會(菩薩藏經三卷)(卷77-79) H030029A
0126 0426 07 P0584 佛說千佛因緣經(1卷)】    H070126
0142 0456 07 P0852 佛說彌勒大成佛經(1卷)    H070142
0160 0475 08 P0271 維摩詰所說經(3卷)        H080160
0177 **** 08 P0767 佛說莊嚴菩提心經(1卷)    H080177
0182 0484 08 P0840 不思議光菩薩所說經(1卷)  H080182
0184 0586 09 P0001 思益梵天所問經(4卷)      H090184A --> B
0189 0650 09 P0193 諸法無行經(2卷)          H090189

【CD-2】

0397 0223 19 P0249 摩訶般若波羅蜜經(27卷) H190397A --> K
0400 **** 20 P0090 摩訶般若波羅蜜經(10卷) H200400A --> C
(此處之所以會****,因為在大正藏的目錄是記錄 1卷 ,致不能確定)
0966 1569 37 P0352 百論(2卷)              H370966
0982 0201 37 P0854 大莊嚴論經(15卷)       H370982A --> E
0994 0614 38 P0190 坐禪三昧經(2卷)        H380994
0995 0616 38 P0216 禪法要解(2卷)          H380995
0996 0617 38 P0235 思惟略要法(1卷)        H380996
0997 0615 38 P0241 菩薩訶色欲法經(1卷)    H380997
1003 0208 38 P0364 眾經撰雜譬喻(2卷)      H381003
1008 1521 38 P0447 十住毘婆沙論(17卷)     H381008A --> F
1072 1646 47 P0209 成實論(16卷)           H471072A --> H
1266 **** 53 P0211 佛說彌勒下生經(1卷)    H531266
0214 0625 10 P0485 大樹緊那羅王所問經(4卷)H100214A --> B
0222 0482 10 P0651 持世經(4卷)            H100222A --> B
0253 0464 11 P0197 文殊師利問菩提經(1卷)  H110253
0476 0123 23 P0522 佛說放牛經(1卷)        H230476
0611 0389 26 P0790 佛垂般涅槃略說教誡經(1卷)H260611
0624 0613 27 P0811 禪祕要法經(3卷)】      H270624A --> B
0692 0035 28 P0265 佛說海八德經(1卷)      H280692
0716 0703 28 P0373 燈指因緣經(1卷)        H280716
0948 1568 36 P0854 十二門論(1卷)          H360948
0951 1659 36 P0919 發菩提心經論(2卷)      H360951
0961 1564 37 P0044 中論(4卷)              H370961A --> c
0203 0657 09 P0711 佛說華手經(10卷)       H090203A --> E


【已完成】

0159 0642 08 P0245 佛說首楞嚴三昧經(2卷)【姚秦 鳩摩羅什譯】
1170 2046 51 P0416 馬鳴菩薩傳(1卷)【後秦 鳩摩羅什譯】
1171 2047 51 P0418 龍樹菩薩傳(1卷)【姚秦 鳩摩羅什譯】
1172 2048 51 P0422 提婆菩薩傳(1卷)【姚秦 鳩摩羅什譯】

【已完成線上校對】★我就自行處理了。
                    另外配合何宗兄的還有《佛說地藏十輪經》,
                    也由我繼續進行。

0029 0310 03 P0892 (二六)善臂菩薩會(善臂菩薩經二卷)(卷93-94)
0108 0420 06 P0604 自在王菩薩經(2卷)【姚秦 鳩摩羅什譯】
0409 0235 20 P0542 金剛般若波羅蜜經(1卷)【姚秦 鳩摩羅什譯】
0415 0245 20 P0595 佛說仁王般若波羅蜜經(2卷)【姚秦 鳩摩羅什譯】

【尚未掃瞄】

0058 0335 04 P0725 佛說須摩提菩薩經(1卷)【姚秦 鳩摩羅什譯】
0079 0366 04 P0985 佛說阿彌陀經(1卷)【姚秦 鳩摩羅什譯】(已有)
0429 0262 21 P0011 妙法蓮華經(7卷)【姚秦 鳩摩羅什譯】
0433 0265 21 P0322 妙法蓮華經觀世音菩薩普門品經(1卷)
                  【姚秦 鳩摩羅什譯長行,隋 闍那崛多譯重頌】
0452 0382 22 P1013 集一切福德三昧經(3卷)【姚秦 鳩摩羅什譯】

【暫不處理】★凡屬咒經,及戒律,暫不輸入。

1569 0988 57 P0294 孔雀王咒經(1卷)【姚秦 鳩摩羅什譯】
0806 1484 29 P0001 梵網經(2卷)【後秦 鳩摩羅什譯】
0815 0653 29 P0199 佛藏經(3卷)【姚秦 鳩摩羅什譯】
0818 1489 29 P0310 清淨毘尼方廣經(1卷)【後秦 鳩摩羅什譯】
0855 1436 32 P0233 十誦比丘波羅提木叉戒本(1卷)【姚秦 鳩摩羅什譯】
1255 0250 53 P0132 摩訶般若波羅蜜大明咒經(1卷)(此為心經)


【註一】:延遲檔檔名依佛教大藏經(冊碼┼編號)命名,
          但存成TEXT檔時,請依網路檔命名方式,例如:
              H370966.DFR 為百論的延遲作業處理檔,      
              FG1569.TXT  為百論的TEXT檔。  

【註二】:圖形檔掃瞄因為大量製作,故如會產生辨識錯誤,造成程
          式中斷;解決之道為:針對發生問題之圖形檔作修正,可
          能是擦掉一些不正確的圖像。

【註三】:圖形檔掃瞄因為大量製作,如造成辨識不良,只要在相關
          文字檔記錄不良的狀態即可,例如:缺某某頁,缺二頁,
          並請在前頭加上顯著標(如★),再通知我補上該文字頁。
                 
【註四】:圖形檔掃瞄因為大量製作,如造成辨識不良,例如因二行
          文字太靠近而造成誤辨識,這時畫面上只會顯示一行的亂
          碼。解決之道:可先移動游標到下一行,並按ENTER 鍵增
          加一行空行;爾後移動游標到亂碼的那一行,先修正後面
          那一行的字(因為如果先修正前面那一行的字,第二行的
          字,將會看不到參考的影像檔),接著再修正前面那一行
          的字即可。或者也可參照相關經本在線上校對,或離線校
          對時補上文字也可。或者在線上校對時只要記錄缺二行,
          待離線校對時再補上就可。

【註五】:請將 T4342 目錄下的 train.dbs,拷貝到丹青中文OCR的
           T4342 目錄(可能為 C:\UMAXOCR\T4342),然後在辨識
          時,選擇要學習字庫。該檔為依佛教大藏經做辨識時,慢
          慢增加的學習字庫,可提高字的辨識率。不過,你也可以
          再給與修正。

【註六】:CD-1 的 H39TXT 目錄,是我已經線上校對過的
         《大智度論》頁 1 到 38,即 h391021a.txt 的前38頁。 

【註七】:有問題請連絡  
          徐言輝 roberhhh@ms9.hinet.net

最後,感謝各位的熱情贊助。
Sat Aug 16 14:58:54 1997
回覆 | 轉寄 | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org