您有新信

 
去雜點程式--大正藏版
#1
發信站: (buddha.nsysu.edu.tw, 信區: BudaTech)
昨天換了位置, 沒送成功, 今天再送一次

============

小弟這二天寫了一個去除大正藏雜點的程式, 
不過由於手上資料只有一頁, 就是之前 maha
整理六種藏經格式時所提供的大正藏經文.

不過由於程式對雜點的大小有指定, 故若不同
的書或是不同的 dpi 所掃描的, 可能會有不
同的結果, 故請問 maha 當時所 mail 給我的
是多少 dpi 的圖檔?

也由於大正藏中的雜點很多, 我的程式只能處
理大部份的讀音符號, 就是字下面的一, 二, v
等符號, 一些字上面的*及有圓圈的數字並沒
有處理, 由於那些比較麻煩, 因為不小心會去除
句點, 而且那些數量不多, 所以我就先不管了.
大致上80%應該沒問題, 不過和佛教藏那一版一樣
只能處理黑白 bmp 格式, tif 格式我會再找專家
幫忙 :)

小弟先 mail 給 wmc, 張憲生, maha , 蔣揚協饒
, 其餘朋友須要測試者, 請 mail 後學, 除商業行
為外, 無版權限制.

另外, 之前我寫了去除佛教大藏經圈點程式, 叫
mvdot, 這個我就叫 mvdot2 , 不知有沒有較易
分辨的名稱?

Heaven
NEWS/INFO National Sun Yat-San University Tue Sep 9 09:23:51 1997
回覆 | 轉寄 | 返回

Re: 去雜點程式--大正藏版
#2
發信站: (buddha.nsysu.edu.tw, 信區: BudaTech)
Heaven wrote:
> 
> 不過由於程式對雜點的大小有指定, 故若不同
> 的書或是不同的 dpi 所掃描的, 可能會有不
> 同的結果, 故請問 maha 當時所 mail 給我的
> 是多少 dpi 的圖檔?

300dpi。
 
> 也由於大正藏中的雜點很多, 我的程式只能處
> 理大部份的讀音符號, 就是字下面的一, 二, v
> 等符號,

除了「一」、「二」、「ˇ」外,就我手上的大正藏第九冊
p26、p27(好不容易找到這兩頁稍微複雜的),還有「三」
、「四」、「甲」、「乙」、「上」、「中」、「下」,以
及[二*│]和[三*│](組合字表示)。

以這新程式試了之前所提供的大正藏圖檔,「一」、「二」
、「ˇ」去得滿乾淨;「上」、「中」、「下」以及
[二*│] 似乎也有考慮到,但仍有少部份沒有去除掉。

我會把上面所說的幾個奇怪的日本讀音符號送過去給heaven
化驗。建議朋友們能夠的話,多送一些奇怪的給他,最好是
以300dpi局部掃瞄成小圖檔送過去。

另外,也要再詳細評估一下:到底去或不去掉這些,對整體
作業的影響大不大?因為正如heaven先前說的,若不去掉這
些符號,丹青 OCR好像也只是把它們通通辨識成 「1」而已
。

> 一些字上面的*及有圓圈的數字並沒
> 有處理, 由於那些比較麻煩, 因為不小心會去除
> 句點, 而且那些數量不多, 所以我就先不管了.

我想「*」及有圓圈的數字,這些不去掉也好,因為這些都
是非常重要的資訊,若一下子去掉了,以後很可能還是得花
時間在文字檔再補上的。

                                         maha 9/9/97
NEWS/INFO National Sun Yat-San University Tue Sep 9 13:01:28 1997
回覆 | 轉寄 | 返回

Re: 去雜點程式--大正藏版
#3
發信站: (buddha.nsysu.edu.tw, 信區: BudaTech)
> > maha 當時所 mail 給我的是多少 dpi 的圖檔?
> 
> 300dpi。
>  
> > 也由於大正藏中的雜點很多, 我的程式只能處
> > 理大部份的讀音符號, 就是字下面的一, 二, v
> > 等符號,
> 以這新程式試了之前所提供的大正藏圖檔,「一」、「二」
> 、「ˇ」去得滿乾淨;「上」、「中」、「下」以及
> [二*│] 似乎也有考慮到,但仍有少部份沒有去除掉。
> 我會把上面所說的幾個奇怪的日本讀音符號送過去給heaven
> 化驗。建議朋友們能夠的話,多送一些奇怪的給他,最好是
> 以300dpi局部掃瞄成小圖檔送過去。

  等等.. 不要用圖檔炸我 :p
  其實在程式中我並不是判斷是一還是二, 而是用個條件, 如
  下圖
  
 □
  □■□
  □

 □ 代表約 16 x 10 的空白區域
  ■ 代表約 16 x 10 的有黑點的區域, 黑點可能是一二v....

  若圖檔中有合於上面的條件, 就將■變成全白的, 如此而已 
  (卻想了許久 :p) 有少部份失敗的, 大多是■太大或是和
    上下的字相連, 程式才不好判斷, 這些數量不多, 我就不理它了.

  我比較擔心的是 maha  是 300 dpi 的圖, 若有 400 dpi 或其它的, 
  上面的■可能就不是大約 16 x 10 , 那才是要改的部份.
  故反倒是有非 300 dpi 的圖檔, 讓我試試看.

  另外, 或許可以試試那種 dpi 辨識比較好?

> 另外,也要再詳細評估一下:到底去或不去掉這些,對整體
> 作業的影響大不大?因為正如heaven先前說的,若不去掉這
> 些符號,丹青 OCR好像也只是把它們通通辨識成 「1」而已
> 。

  雖然變成 1 , 若用程式可以很快去除, 但也會去除句點.
  而這支程式的最大賣點就是可以去雜點但留下句點 :p

> > 一些字上面的*及有圓圈的數字並沒
> > 有處理, 由於那些比較麻煩, 因為不小心會去除
> > 句點, 而且那些數量不多, 所以我就先不管了.
> 我想「*」及有圓圈的數字,這些不去掉也好,因為這些都
> 是非常重要的資訊,若一下子去掉了,以後很可能還是得花
> 時間在文字檔再補上的。
  
  我的想法和您一樣, 先留下符號, 日後或有機會補上校勘資料.

  Heaven
NEWS/INFO National Sun Yat-San University Tue Sep 9 16:41:49 1997
回覆 | 轉寄 | 返回

Re: 去雜點程式--大正藏版
#4
發信站: (buddha.nsysu.edu.tw, 信區: BudaTech)
為進一步測知大正藏去過小符號後,對整體作業有何影響,試將
大正藏第九冊第二十九頁上欄(共有29行,含圈點有 490字),
以300dpi掃瞄辨識(採用繁體6142字集,無學習字庫)。去符號
前的辨識初稿為A,去符號後的辨識初稿為B,詳細校對過的文
字檔為C。

以FGFC比對A、C:忽略一般的空白、英數符號、中文標點,有
                  38個差異處。
以FGFC比對B、C:忽略一般的空白、英數符號、中文標點,有
                  26個差異處。  

以FGFC比對A、C:只忽略一般的空白,有47個差異處。
以FGFC比對B、C:只忽略一般的空白,有31個差異處。

很明顯的,去除符號後的辨識效果較好。

以下【附件】即是這29行,每行皆以A、B、C三個版本呈現出
來的樣子。C版本中的「●」號表示原經文中的校勘標號,「*」
號亦是原經文上有的。

又,私下懷疑,經過去符號後,多少會把一些原來正常的文字圖
檔削去一些。例如以下附件當中01B的「五『仃』阿雜漢」、03B
的「『目』責」、08B 的「其『八』醉臥」,其雙引號內的文字
圖檔原為清楚的「百」、「自」、「人」,但經過去符號程式處
理後,「百」、「自」的左上角被切,「人」的左下角被切,這
一來反而造成辨識錯誤。這些相關資料,我會在私下mail一份給
heaven參考。

【附件】

01A 爾峙五百阿雜漢。於ll佛前l得冇受記l巳歉喜
01B 爾峙五仃阿雜漢。於佛前得仃受記巳歉喜
01C 爾時五百阿雜漢。於佛前得●受記已歡喜

02A 蛹躍.即從.座起到ll於佛前l 頭面禮1足悔過
02B 蛹躍.即從座起到於佛前。頭面禮足悔過
02C 踊躍。即從座起到於佛前。頭面禮足悔過

03A 自責。世尊。我等常作石H念l自謂巳得.l究竟
03B 目責。世尊。我等常作是念。自謂巳得究竟
03C 自責。世尊。我等常作是念。自謂已得究竟

04A 滅度l今乃知1之如l無智者l所以者何。我等
04B 滅度。今乃知之如無智者。所以者何。我等
04C 滅度。今乃知之如無智者。所以者何。我等

05A 應。得.l如來智慧l而便自 也以.l小智.為l足l世
05B 應得如來智慧。而便自也以小智為足。世
05C 應得如來智慧。而便自●以小智為足。世

06A 尊。臂如1有.人妻親友券醉1酒而臥。長時親
06B 尊。臂如有人至親友家醉酒而臥。長時親
06C 尊。譬如有人至親友家醉酒而臥。是時親

07A 友官車當。行。以益l價寶。珠:綮.l其衣裹l與.之
07B 及官車當行。以益l價寶。珠綮其衣裹與之
07C 友官事當行。以無價寶●珠繫其衣婸P之

08A 而去。其人醉臥都丕l覺知l起。巳遊行到菸
08B 而去。其八醉臥都不覺知。起。巳遊行到於
08C 而去。其人醉臥都不覺知。起●已遊行到於

09A 他國l為.及食l故。勤力求索甚大齦難。若少
09B 他國。為衣食故。勤力求索甚大齦難。若少
09C 他國。為衣食故。勤力求索甚大艱難。若少

10A 有所符便以為,足。於1後親友會避見,之。而
10B 有所得便以為乓於後親友會避見之。而
10C 有所得便以為足。於後親友會遇見之。而

11A 作庭言l咄哉丈夫.何為表食l乃至1如.是。
11B 作是言。咄哉丈夫.何為衣食乃至如是。
11C 作是言。咄哉丈夫。何為衣食乃至如是。

12A 我昔欲.今1汝得;安樂l五欲自廿恣l於.l某年日
12B 我昔欲今汝得安樂五欲自廿恣。於某年日
12C 我昔欲令汝得安樂五欲自●恣。於某年日

13A 月l以;無價寶珠l繫.l汝衣喢 今故現在。而汝
13B 月。以無價寶珠繫汝衣堙C今故現在。而汝
13C 月。以無價寶珠繫汝衣堙C今故現在。而汝

14A 不.知.勤苦憂惱以求.l自活l甚為l癡也。汝今
14B 不知.勤苦憂惱以求自活。甚為癡也。汝今
14C 不知。勤苦憂惱以求自活。甚為癡也。汝今

15A 可.以l止寶l貿;易所頃: 常可.如1苴無1所l乏
15B 可以儿寶貿;易所頃。常可如苴無所乏
15C 可以此寶貿易所須。常可如意無所乏

16A 短:佛亦如l是.為垂:薩l時教l化我等l 令.發l一
16B 短。佛亦如是.為菩薩時教化我等。令發
16C 短。佛亦如是。為菩薩時教化我等。令發

17A 一切智心l而尋廢忘不.知不.覺。飪得.l阿羅漢
17B 一切智心。而尋廢忘不知不覺。飪得阿羅漢
17C 一切智心。而尋廢忘不知不覺。既得阿羅漢

18A 道百諍殮度l資生艱難得.少為。足。一切智
18B 道。自謂滅度。資生艱難得少為足。一切智
18C 道。自謂滅度。資生艱難得少為足。一切智

19A 廠猶在不1失。今者世尊覺l悟我等l作茹。是
19B 廠猶在不失。今者世尊覺悟我等。作如是
19C 願猶在不失。今者世尊覺悟我等。作如是

20A 一頁諸此丘。汝等所.得非.i究竟滅l我八今1汝
20B 一頁諸此丘。汝等所得非究竟滅。我八今汝
20C 言。諸此丘。汝等所得非究竟滅。我久令汝

21A 等種.l佛善根l以.l方便l故示:涅槃相l而汝謂
21B 等種佛善根。以方便故示涅槃相。而汝謂
21C 等種佛善根。以方便故示涅槃相。而汝謂

22A 為1宵得.l滅度l仕尊。我也今乃知賃是菩薩.得
22B 為宵得滅度。世尊。我也今乃知賃是菩薩.得
22C 為實得滅度。世尊。我●今乃知實是菩薩。得

23A 1牽;阿耨多羅三藐三菩提記一弘某因緣l甚
23B 受阿耨多羅三藐三菩提記。以是因緣甚
23C 受阿耨多羅三藐三菩提記。以是因緣甚

24A 大歡喜得.l未曾有l爾時阿若僑陳如等。欲1重
24B 大歡喜得未曾有。爾時阿若僑陳如等。欲1重
24C 大歡喜得未曾有。爾時阿若憍陳如等。欲重

25A 宣.此義l而說.偈言
25B 宣此義。而說偈言
25C 宣此義。而說偈言

26A   我等聞.l無上  安隱,授記聲一
26B   我等聞無上 安隱,授記聲
26C   我等聞無上 安隱*授記聲

27A   歡豈[未曾有l  禮.l無量智佛一
27B   歡喜未曾有 禮無量智佛
27C   歡喜未曾有 禮無量智佛

28A   今於征尊前l  自悔.l諸過咎一
28B   今於世尊前 自悔諸過咎
28C   今於世尊前 自悔諸過咎

29A   於社l量佛賓. 3步涅槃分l
29B   於無量佛賓. 得少涅槃分
29C   於無量佛寶 得少涅槃分
NEWS/INFO National Sun Yat-San University Tue Sep 9 18:32:03 1997
回覆 | 轉寄 | 返回

Re: 去雜點程式--大正藏版
#5
發信站: (buddha.nsysu.edu.tw, 信區: BudaTech)
> 以FGFC比對A、C:只忽略一般的空白,有47個差異處。
> 以FGFC比對B、C:只忽略一般的空白,有31個差異處。

  這樣看來差異不多嘛! ... :p
  不過我相信若考慮由修改A->C 及 由B修改成 C 的時間應相差
  一倍以上.

> 又,私下懷疑,經過去符號後,多少會把一些原來正常的文字圖
> 檔削去一些。例如以下附件當中01B的「五『仃』阿雜漢」、03B
> .... skip ....
> 一來反而造成辨識錯誤。這些相關資料,我會在私下mail一份給
> heaven參考。

  這個問題我有發現, 原因是那些符號有些會和字相接著.
  若完全沒和字連在一起才算的話, 那些連在一起的符號就去不掉了.
  若只連一點點的也考慮去除, 就會不小心去除那些字的角落.
  目前看來不易取捨, 或許日後實務面才比較好判斷何者有利.

  Heaven
NEWS/INFO National Sun Yat-San University Tue Sep 9 18:54:04 1997
回覆 | 轉寄 | 返回

Re: 去雜點程式--大正藏版
#6
wan
發信站: 獅子吼站 (Lion , 信區: BudaTech)
==> 於  (buda-tech7@buddha.nsysu.edu.tw,) 文中述及:
: > 以FGFC比對A、C:只忽略一般的空白,有47個差異處。
: > 以FGFC比對B、C:只忽略一般的空白,有31個差異處。
:   這樣看來差異不多嘛! ... :p
:   不過我相信若考慮由修改A->C 及 由B修改成 C 的時間應相差
:   一倍以上.
: > 又,私下懷疑,經過去符號後,多少會把一些原來正常的文字圖
: > 檔削去一些。例如以下附件當中01B的「五『仃』阿雜漢」、03B
: > .... skip ....
: > 一來反而造成辨識錯誤。這些相關資料,我會在私下mail一份給
: > heaven參考。
:   這個問題我有發現, 原因是那些符號有些會和字相接著.
:   若完全沒和字連在一起才算的話, 那些連在一起的符號就去不掉了.
:   若只連一點點的也考慮去除, 就會不小心去除那些字的角落.
:   目前看來不易取捨, 或許日後實務面才比較好判斷何者有利.
:   Heaven

剪一張紙,然後把有字的部份割下來,蓋到要scan的部份上去,然後是字就出來
標點就不見了這樣不知到可不可以
Mon Sep 15 21:06:59 1997
回覆 | 轉寄 | 返回

Re: 去雜點程式--大正藏版
#7
發信站: (novell.zcom.com.tw>, 信區: BudaTech)
> 剪一張紙,然後把有字的部份割下來,蓋到要scan的部份上去,然後是字就出來
> 標點就不見了這樣不知到可不可以

 以實際操作來談, 是否就如小學老師改考卷, 剪一張紙, 把答案部份剪去, 就可
 很方便的改考卷了. :)  不過這只能適用同一式考卷, 下一次月考又要重作了, 
 甚至歷史的也不能用在地理考卷上. 因為那些符號就像本文的逗點一樣, 不但位
 置不同, 也會影響下一個字的位置.

 若以程式面來談, 我是有想過這個方法, 但將字挑出來似乎不很容易, 想了一陣
 子就放棄了. :p

  Heaven
NEWS/INFO National Sun Yat-San University Wed Sep 17 09:05:22 1997
回覆 | 轉寄 | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org