看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 1187/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: maha <maha@tpts1.seed.net.tw>, 信區: BudaTech
標  題: 一個讓OCR如虎添翼的程式──PlusOcr
發信站: (NEWS/INFO) National Sun Yat-San University (Wed Feb 25 11:02:26 1998)
轉信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail
來  源: buddha.nsysu.edu.tw

以下15封信件,是 Quiz(又名:天才的隔壁)與 maha 的對談,讓你一次
看個夠!

若對 PlusOcr 有興趣,可去函跟 Quiz 索取最新版本。

*****************************************************************

Subject: PlusOcr
   Date: Tue, 10 Feb 1998 00:54:14 +0800
   From: "Quiz" <ycc18@tcts.seed.net.tw>

您好:

末學寫了一個用來加強丹青的校對功能的程式。
可以用來在文稿校對時進行預校的功能。
此外可將丹青的影像區的字顯示到游標附近,以方便校對。
另外增加了兩個HotKey
[+] 鍵等於 4 個 [Down] 按鍵
[/] 鍵等於 [End]按鍵加上17個 [Up] 按鍵

所附的檔案中的參數適用於 800 * 600 下的丹青放到最大。
以及必須是直行的文件。

先寄給兩位玩玩。詳細的說明下次補上。

*****************************************************************

Subject: Re: PlusOcr
   Date: Tue, 10 Feb 1998 15:58:38 +0800
   From: maha <maha@tpts1.seed.net.tw>

Quiz wrote:
> 
> 您好:
> 
> 末學寫了一個用來加強丹青的校對功能的程式。
> 可以用來在文稿校對時進行預校的功能。
> 此外可將丹青的影像區的字顯示到游標附近,以方便校對。
> 另外增加了兩個HotKey
> [+] 鍵等於 4 個 [Down] 按鍵
> [/] 鍵等於 [End]按鍵加上17個 [Up] 按鍵
> 
> 所附的檔案中的參數適用於 800 * 600 下的丹青放到最大。
> 以及必須是直行的文件。
> 
> 先寄給兩位玩玩。詳細的說明下次補上。

玩了一下,不太好弄。暫且罷手,等你下回的詳細說明。

*****************************************************************

Subject: Re: PlusOcr
   Date: Wed, 11 Feb 1998 09:38:24 +0800
   From: "Quiz" <ycc18@tcts.seed.net.tw>

您好:

>玩了一下,不太好弄。暫且罷手,等你下回的詳細說明。

這個程式只適用於V3.2版。2.0版我還沒測。
我的硬碟準備重新規劃。敬請稍待。

*****************************************************************

Subject: Re: PlusOcr
   Date: Wed, 11 Feb 1998 11:00:28 +0800
   From: maha <maha@tpts1.seed.net.tw>

Quiz wrote:
> 
> 您好:
> 
> >玩了一下,不太好弄。暫且罷手,等你下回的詳細說明。
> 
> 這個程式只適用於V3.2版。2.0版我還沒測。
> 我的硬碟準備重新規劃。敬請稍待。

我正是用2.0版測的,難怪....

*****************************************************************

Subject: Re: PlusOcr
   Date: Wed, 11 Feb 1998 15:03:56 +0800
   From: "Quiz" <ycc18@tcts.seed.net.tw>

Maha您好:

>我正是用2.0版測的,難怪....

適用丹青2.0版要等我裝好硬碟了。自從裝了IE4.0後。
我的丹青2.0版就失效了,重新安裝也沒用。

附上說明檔 ReadMe.arj 解壓後 ReadMe.doc 有將近9MB。
可在WordPad下觀看。

此外〔開始預校〕的功能,有時候要多按一次才會作用。
這個Bug我已改好,等2.0版的測好在一起寄。

此外在第一次您給的影像光碟中025目錄中的F430217.tif。
只掃描了一半。

關於這類的原始資料問題是要隨時跟您說還是,批次處理?

Quiz...〔佳節愉快〕

*****************************************************************

Subject: Re: PlusOcr
   Date: Wed, 11 Feb 1998 17:01:53 +0800
   From: maha <maha@tpts1.seed.net.tw>

Quiz wrote:
> 
> Maha您好:
> 
> >我正是用2.0版測的,難怪....
> 
> 適用丹青2.0版要等我裝好硬碟了。自從裝了IE4.0後。
> 我的丹青2.0版就失效了,重新安裝也沒用。
> 
> 附上說明檔 ReadMe.arj 解壓後 ReadMe.doc 有將近9MB。
> 可在WordPad下觀看。

哇!是什麼好康的,這麼大。
 
> 此外〔開始預校〕的功能,有時候要多按一次才會作用。
> 這個Bug我已改好,等2.0版的測好在一起寄。

*****************************************************************

Subject: Re: PlusOcr
   Date: Fri, 13 Feb 1998 06:03:29 +0800
   From: maha <maha@tpts1.seed.net.tw>

Quiz wrote:

>   此外您覺得PLUSOCR要支援丹青2.0版嗎?

被您這麼一盯,趕快看過您精采的使用說明,再把丹青黃金
版安裝上,完完整整的玩了一遍 PLUSOCR。

底下幾個心得:

  1.你說有七個按鈕,我只看到六個,沒看到「存檔鈕」。

  2.在顯現圖形方面,我看在 2.0或黃金版都沒問題。但在
    取代字串上,2.0 版會出一些狀況,你在這裡稍微改一
    下應該就可以了。也就是說,for 2.0 專業版最好是弄
    出來給大家用。2.0 版的好處是可以一次處理多頁,這
    黃金版一次只能處理一頁。

  3.你這是為直行辨識量身訂做的,橫列辨識不能玩,對吧?

  4.最後告訴你,PLUSOCR 是一個非常非常棒的設計。我要
    儘快推銷給黃郁婷,她正在處理30冊大正藏;如果 for
    2.0 版的出來,也要推銷給「佛教藏OCR小組」使用。

*****************************************************************

Subject: Re: PlusOcr
   Date: Mon, 16 Feb 1998 20:00:53 +0800
   From: "天才的隔壁" <ycc18@tcts.seed.net.tw>

  ....

 此外,並附上剛改好的PLUSOCR.arj,可以支援丹青2.0版。
 並改正當丹青最小化時,PlusOcr沒辦法正確作動。

 記得要去設定丹青的版本,選〔不具有剪貼功能〕。

 也就是丹青2.0版時,設定要選〔不具有剪貼功能〕。
 丹青3.2版時,設定要選〔具有剪貼功能〕。

 不過支援丹青2.0版的文稿預校速度不若支援3.2版時好。
 這也是莫可奈何囉。

 當要支援2.0版時,PlusOcr的〔存檔〕按鈕,不會顯示。
 所以只有六個按鈕。

 因為這個按鈕是為了丹青3.2版預設的存檔格式不是我們
 所要的格式。所以用這個按鈕來存檔。

 丹青2.0版直接就用它原來的存檔功能就行了。

 Quiz...〔我覺得還是3.2的好。如果有PlusOcr的話。:P〕

*****************************************************************

Subject: Re: PlusOcr
   Date: Tue, 17 Feb 1998 15:34:45 +0800
   From: maha <maha@tpts1.seed.net.tw>

天才的隔壁 wrote:
> 
>  此外,並附上剛改好的PLUSOCR.arj,可以支援丹青2.0版。
>  並改正當丹青最小化時,PlusOcr沒辦法正確作動。
> 
>  記得要去設定丹青的版本,選〔不具有剪貼功能〕。

剛剛在丹青2.0發現「字串取代」的一些問題:

  1.第一次沒問題,但若再次設定新的替代字,再執行會出現問題。
  2.怎麼會自動存成文字檔呢?照道理不應該這樣。
  3.到最後,Plusocr 程式關不掉,得要強迫結束才行。

我覺得似乎是「鍵盤巨集」的設想有漏洞。

*****************************************************************

Subject: Re: PlusOcr
   Date: Tue, 17 Feb 1998 18:53:11 +0800
   From: "天才的隔壁" <ycc18@tcts.seed.net.tw>

您好:

>剛剛在丹青2.0發現「字串取代」的一些問題:
>  1.第一次沒問題,但若再次設定新的替代字,再執行會出現問題。

可能要請您說明詳細一點。最好舉例一下。
因為末學在使用自己寫的軟體時,可能會〔不知不覺〕地避開一些軟體
有Bug的地方。

>  2.怎麼會自動存成文字檔呢?照道理不應該這樣。

Sorry!這是在講哪裡ㄋㄟ??!!

>  3.到最後,Plusocr 程式關不掉,得要強迫結束才行。

呵...這就是多工作業的好處。

>我覺得似乎是「鍵盤巨集」的設想有漏洞。

基本上,「鍵盤巨集」只能拿來當〔工具〕。

此外末學只寫了三個程式。各有其適用的特殊地方。
所以目前沒想說要整合起來。

這些是〔工具程式〕。用完就可以都丟了。

*****************************************************************

Subject: Re: PlusOcr
   Date: Wed, 18 Feb 1998 08:20:28 +0800
   From: maha <maha@tpts1.seed.net.tw>

天才的隔壁 wrote:
> 
> 您好:
> 
> >剛剛在丹青2.0發現「字串取代」的一些問題:
> >  1.第一次沒問題,但若再次設定新的替代字,再執行會出現問題。
> 
> 可能要請您說明詳細一點。最好舉例一下。
> 因為末學在使用自己寫的軟體時,可能會〔不知不覺〕地避開一些軟體
> 有Bug的地方。
> 
> >  2.怎麼會自動存成文字檔呢?照道理不應該這樣。
> 
> Sorry!這是在講哪裡ㄋㄟ??!!

附件test.tif,你試試看。

我在「字串設定」,第一次只設:@一=QQQ,跑下來沒問題;
第二次再多設:@二=WWW,它沒有去做預定的取代動作,卻問
我是否要取代原有的test.txt檔。

我是覺得它的鍵盤巨集,不知道是在哪個時候執行了丹青 2.0
的[檔案]/[儲存文字檔] ,所以才會產生一個test.txt檔。
 
> >  3.到最後,Plusocr 程式關不掉,得要強迫結束才行。
> 
> 呵...這就是多工作業的好處。
>
> >我覺得似乎是「鍵盤巨集」的設想有漏洞。
> 
> 基本上,「鍵盤巨集」只能拿來當〔工具〕。
> 
> 此外末學只寫了三個程式。各有其適用的特殊地方。
> 所以目前沒想說要整合起來。
> 
> 這些是〔工具程式〕。用完就可以都丟了。

這些都是你的智慧結晶,我們會用好久好久。

*****************************************************************

Subject: Re: PlusOcr
   Date: Wed, 18 Feb 1998 20:37:37 +0800
   From: "天才的隔壁" <ycc18@tcts.seed.net.tw>

您好:

>附件test.tif,你試試看。
>
>我在「字串設定」,第一次只設:@一=QQQ,跑下來沒問題;
>第二次再多設:@二=WWW,它沒有去做預定的取代動作,卻問
>我是否要取代原有的test.txt檔。
>
>我是覺得它的鍵盤巨集,不知道是在哪個時候執行了丹青 2.0
>的[檔案]/[儲存文字檔] ,所以才會產生一個test.txt檔。

您的觀察很正確。對於支援丹青2.0版時。PlusOcr必須透過存檔案
的方式來取得丹青目前正在校對的文字資料。

不過它是存到PlusOcr所在目錄,檔名為PreCheck.txt。
而且載入檔案後就馬上刪掉了。

由於末學實際跑了一下您說的狀況,好像沒問題。...^_^

開始預校的動作是這樣的。
0.鍵盤巨集 Alt+O  I  O 將丹青切換成〔覆寫〕的狀態
1.拷貝 "PreCheck.txt" 的名稱到剪貼簿(有另加上PlusOcr的路徑名稱)
2.鍵盤巨集 Alt+F   A  (另存新檔)
3.鍵盤巨集 Shift+Ins (把"PreCheck.Txt"輸入到對話盒中的檔名)
4.鍵盤巨集 Enter (把"PreCheck.Txt"執行另存新檔的動作)
5.把PreCheck.txt讀進來。

看了以上這鍋,您有沒有發現是哪裡會出問題。
(Sorry因為我這邊模擬不出您那裡的狀況)
(在上述的 0 2 3 4 的動作中不可以有任何人為的按鍵或滑鼠的按鈕動作。)

麻煩您想一下,假如沒發現問題點的話,請再把
1.PlusOcr所在目錄名稱
2.丹青所讀入的檔案名稱(含路徑的完整名稱)
3.丹青是2.0還是3.2
跟我說,我再模擬看看。

呵...這時候真希望有天眼通。

>這些都是你的智慧結晶,我們會用好久好久。

這樣講偶會不好意思啦。
不過您有沒有想過,用好久好久是否代表電子大藏經的生日???
我倒是希望不用太久。

*****************************************************************

Subject: Re: PlusOcr
   Date: Thu, 19 Feb 1998 02:40:00 +0800
   From: maha <maha@tpts1.seed.net.tw>

天才的隔壁 wrote:
> 
> 麻煩您想一下,假如沒發現問題點的話,請再把
> 1.PlusOcr所在目錄名稱
> 2.丹青所讀入的檔案名稱(含路徑的完整名稱)
> 3.丹青是2.0還是3.2
> 跟我說,我再模擬看看。
> 
> 呵...這時候真希望有天眼通。

1.將PlusOcr目錄置於 c:\windows\desktop 桌面上。
2.TEST.TIF 則放在 PlusOcr 目錄裡。
3.開啟丹青2.0專業版,讀入TEST.TIF,然後自動辨識,不使用學習字庫。
4.進入文稿校對時,執行PlusOcr,設定丹青版本為「不具有剪貼功能」。
5.按「字串設定」,清除原有設定,新設取代字串 @一=QQQ,然後按「開
  始預校」。
6.我原先並沒有按「連接」鈕,但「開始預校」動作時,自動把「連接」
  鈕按了下去。
7.取代動作完成,確實把 @一=QQQ 做好了。
8.這時查看PlusOcr目錄,尚未產生TEST.TXT文字檔。
9.再按「字串設定」,增加 @二=WWW,然後按「開始預校」,沒反應。
10.這時查看PlusOcr目錄,已經產生TEST.TXT文字檔。
11.再按「開始預校」,系統問我是否取代既有之TEST.TXT文字檔。
12.若按「繼續預校」,系統也是問我是否取代既有之TEST.TXT檔案。
13.無法以結束鈕「X」關閉PlusOcr程式。

所以,問題是從第九步驟發生。這種情況,是不是說我們不能臨時增減字
串設定?步驟六似乎沒有必要,這樣會產生螢幕殘影。

再以3.2黃金版來試同樣情況,發現TEST.TIF被讀成黑底白字,轉換一下
TIF格式就可以辨識了。

黃金版的問題也發生在步驟九,當增加 @二=WWW,然後按「開始預校」
,它掛住了,丹青「編輯」功能被拉了下來,掛在那裡動也不動。
這時查看PlusOcr目錄,並無產生任何新文字檔。
倒是,可以以結束鈕「X」關閉PlusOcr程式。

會不會是這樣,你說鍵盤巨集有一步驟是:

  拷貝 "PreCheck.txt" 的名稱到剪貼簿(有另加上PlusOcr的路徑名稱)
 
我在上述第五步驟有進行「複製、貼上」的動作,也就是說把「@一=QQQ」
複製貼到下行,然後再修改成「@二=WWW」,該不會是我這個動作干擾到
巨集的執行吧?

> >這些都是你的智慧結晶,我們會用好久好久。
> 
> 這樣講偶會不好意思啦。
> 不過您有沒有想過,用好久好久是否代表電子大藏經的生日???
> 我倒是希望不用太久。

電子大藏經,也許三、五年可以小成,但要玩它個十年、二十年
也是極有可能的。弄完了大正藏,還有續藏,還有....,誰叫佛
陀的智慧如此廣大深遠呢:)
 
*****************************************************************

Subject: Re: PlusOcr
   Date: Thu, 19 Feb 1998 14:54:32 +0800
   From: "天才的隔壁" <ycc18@tcts.seed.net.tw>

您好:

>1.將PlusOcr目錄置於 c:\windows\desktop 桌面上。
>2.TEST.TIF 則放在 PlusOcr 目錄裡。
>3.開啟丹青2.0專業版,讀入TEST.TIF,然後自動辨識,不使用學習字庫。
>4.進入文稿校對時,執行PlusOcr,設定丹青版本為「不具有剪貼功能」。
>5.按「字串設定」,清除原有設定,新設取代字串 @一=QQQ,然後按「開
>  始預校」。
>6.我原先並沒有按「連接」鈕,但「開始預校」動作時,自動把「連接」
>  鈕按了下去。
>7.取代動作完成,確實把 @一=QQQ 做好了。
>8.這時查看PlusOcr目錄,尚未產生TEST.TXT文字檔。
>9.再按「字串設定」,增加 @二=WWW,然後按「開始預校」,沒反應。
>10.這時查看PlusOcr目錄,已經產生TEST.TXT文字檔。
>11.再按「開始預校」,系統問我是否取代既有之TEST.TXT文字檔。
>12.若按「繼續預校」,系統也是問我是否取代既有之TEST.TXT檔案。

這的確很奇怪。有可能是 Alt+F  A  的鍵盤巨集,本來是要〔另存新檔〕
結果第一次正常。
第二次變成〔儲存文字檔(Alt+F S)〕。---因此會儲存成 TEST.TXT。
   這時候PlusOcr一直在等著要開PreCheck.Txt但是根本沒有這檔案。
第三次還是變成〔儲存文字檔(Alt+F S)〕。因為先前已經有 TEST.TXT。
   所以丹青會問要不要取代現有的 TEST.TXT。

不過我這邊不會ㄚ。

>13.無法以結束鈕「X」關閉PlusOcr程式。

PlusOcr 一直在等著要開PreCheck.txt檔案。所以沒法結束。

>所以,問題是從第九步驟發生。這種情況,是不是說我們不能臨時增減字
>串設定?

設計上並沒有這種限制。事實上我這邊常常在〔臨時增減字串〕。

>步驟六似乎沒有必要,這樣會產生螢幕殘影。

殘影是沒辦法完全避免的。...因為丹青和PlusOcr有些動作要靠
計時的方式彼此配合。但是計時沒辦法很精確。還好這不會影響實際的資料。

>再以3.2黃金版來試同樣情況,發現TEST.TIF被讀成黑底白字,轉換一下
>TIF格式就可以辨識了。
>
>黃金版的問題也發生在步驟九,當增加 @二=WWW,然後按「開始預校」
>,它掛住了,丹青「編輯」功能被拉了下來,掛在那裡動也不動。
>這時查看PlusOcr目錄,並無產生任何新文字檔。
>倒是,可以以結束鈕「X」關閉PlusOcr程式。
>
>會不會是這樣,你說鍵盤巨集有一步驟是:
>
>  拷貝 "PreCheck.txt" 的名稱到剪貼簿(有另加上PlusOcr的路徑名稱)
>
>我在上述第五步驟有進行「複製、貼上」的動作,也就是說把「@一=QQQ」
>複製貼到下行,然後再修改成「@二=WWW」,該不會是我這個動作干擾到
>巨集的執行吧?

不會的。看來問題是出在WINDOWS作業系統上面。
可能您的WINDOWS有另外掛了一些其他驅動程式。
這些驅動程式也跟鍵盤Hook。

我會試著把這個地方改成儘量不用鍵盤巨集。

請再等一下。目前先克難只用游標影像的功能吧。

>電子大藏經,也許三、五年可以小成,但要玩它個十年、二十年
>也是極有可能的。弄完了大正藏,還有續藏,還有....,誰叫佛
>陀的智慧如此廣大深遠呢:)

呵...別玩過頭了。

Quiz...〔我再改改看囉。有點像是在猜謎。〕

*****************************************************************

Subject: Re: PlusOcr
   Date: Sun, 22 Feb 1998 15:04:18 +0800
   From: "天才的隔壁" <ycc18@tcts.seed.net.tw>

您好:

>能否告訴我,你在使用Plusocr之後,對整個作業效率大約提昇若干?


我沒仔細評估,不過基本上我覺得在〔游標顯示影像字〕方面,對於
校對是蠻方便的,尤其對於校對的正確性。

〔預校〕的功能則大概每頁平均會幫我自動更正 7 個地方。

假如綜合起來看,丹青3.2的正確辨識,學習字庫,PlusOcr,掃描文件
的〔清潔度〕,去圈點程式。那麼目前的整體工作環境,我個人覺得
已經是很好很好了。

每頁平均約只有十多個地方需要人工更正,而且隨著預校的自動更正
字串設定增加,不久將來,對於大堆頭的經文,每頁需要人工更正的
地方會越來越少。

目前以我正在校對的大毗婆娑論來說,一卷(約7500字)平均大概要
一小時又20分鐘。

*****************************************************************

閱讀文章: 第 1187/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org