看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 1187/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: maha <maha@tpts1.seed.net.tw>, 信區: BudaTech 標 題: 一個讓OCR如虎添翼的程式──PlusOcr 發信站: (NEWS/INFO) National Sun Yat-San University (Wed Feb 25 11:02:26 1998) 轉信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail 來 源: buddha.nsysu.edu.tw 以下15封信件,是 Quiz(又名:天才的隔壁)與 maha 的對談,讓你一次 看個夠! 若對 PlusOcr 有興趣,可去函跟 Quiz 索取最新版本。 ***************************************************************** Subject: PlusOcr Date: Tue, 10 Feb 1998 00:54:14 +0800 From: "Quiz" <ycc18@tcts.seed.net.tw> 您好: 末學寫了一個用來加強丹青的校對功能的程式。 可以用來在文稿校對時進行預校的功能。 此外可將丹青的影像區的字顯示到游標附近,以方便校對。 另外增加了兩個HotKey [+] 鍵等於 4 個 [Down] 按鍵 [/] 鍵等於 [End]按鍵加上17個 [Up] 按鍵 所附的檔案中的參數適用於 800 * 600 下的丹青放到最大。 以及必須是直行的文件。 先寄給兩位玩玩。詳細的說明下次補上。 ***************************************************************** Subject: Re: PlusOcr Date: Tue, 10 Feb 1998 15:58:38 +0800 From: maha <maha@tpts1.seed.net.tw> Quiz wrote: > > 您好: > > 末學寫了一個用來加強丹青的校對功能的程式。 > 可以用來在文稿校對時進行預校的功能。 > 此外可將丹青的影像區的字顯示到游標附近,以方便校對。 > 另外增加了兩個HotKey > [+] 鍵等於 4 個 [Down] 按鍵 > [/] 鍵等於 [End]按鍵加上17個 [Up] 按鍵 > > 所附的檔案中的參數適用於 800 * 600 下的丹青放到最大。 > 以及必須是直行的文件。 > > 先寄給兩位玩玩。詳細的說明下次補上。 玩了一下,不太好弄。暫且罷手,等你下回的詳細說明。 ***************************************************************** Subject: Re: PlusOcr Date: Wed, 11 Feb 1998 09:38:24 +0800 From: "Quiz" <ycc18@tcts.seed.net.tw> 您好: >玩了一下,不太好弄。暫且罷手,等你下回的詳細說明。 這個程式只適用於V3.2版。2.0版我還沒測。 我的硬碟準備重新規劃。敬請稍待。 ***************************************************************** Subject: Re: PlusOcr Date: Wed, 11 Feb 1998 11:00:28 +0800 From: maha <maha@tpts1.seed.net.tw> Quiz wrote: > > 您好: > > >玩了一下,不太好弄。暫且罷手,等你下回的詳細說明。 > > 這個程式只適用於V3.2版。2.0版我還沒測。 > 我的硬碟準備重新規劃。敬請稍待。 我正是用2.0版測的,難怪.... ***************************************************************** Subject: Re: PlusOcr Date: Wed, 11 Feb 1998 15:03:56 +0800 From: "Quiz" <ycc18@tcts.seed.net.tw> Maha您好: >我正是用2.0版測的,難怪.... 適用丹青2.0版要等我裝好硬碟了。自從裝了IE4.0後。 我的丹青2.0版就失效了,重新安裝也沒用。 附上說明檔 ReadMe.arj 解壓後 ReadMe.doc 有將近9MB。 可在WordPad下觀看。 此外〔開始預校〕的功能,有時候要多按一次才會作用。 這個Bug我已改好,等2.0版的測好在一起寄。 此外在第一次您給的影像光碟中025目錄中的F430217.tif。 只掃描了一半。 關於這類的原始資料問題是要隨時跟您說還是,批次處理? Quiz...〔佳節愉快〕 ***************************************************************** Subject: Re: PlusOcr Date: Wed, 11 Feb 1998 17:01:53 +0800 From: maha <maha@tpts1.seed.net.tw> Quiz wrote: > > Maha您好: > > >我正是用2.0版測的,難怪.... > > 適用丹青2.0版要等我裝好硬碟了。自從裝了IE4.0後。 > 我的丹青2.0版就失效了,重新安裝也沒用。 > > 附上說明檔 ReadMe.arj 解壓後 ReadMe.doc 有將近9MB。 > 可在WordPad下觀看。 哇!是什麼好康的,這麼大。 > 此外〔開始預校〕的功能,有時候要多按一次才會作用。 > 這個Bug我已改好,等2.0版的測好在一起寄。 ***************************************************************** Subject: Re: PlusOcr Date: Fri, 13 Feb 1998 06:03:29 +0800 From: maha <maha@tpts1.seed.net.tw> Quiz wrote: > 此外您覺得PLUSOCR要支援丹青2.0版嗎? 被您這麼一盯,趕快看過您精采的使用說明,再把丹青黃金 版安裝上,完完整整的玩了一遍 PLUSOCR。 底下幾個心得: 1.你說有七個按鈕,我只看到六個,沒看到「存檔鈕」。 2.在顯現圖形方面,我看在 2.0或黃金版都沒問題。但在 取代字串上,2.0 版會出一些狀況,你在這裡稍微改一 下應該就可以了。也就是說,for 2.0 專業版最好是弄 出來給大家用。2.0 版的好處是可以一次處理多頁,這 黃金版一次只能處理一頁。 3.你這是為直行辨識量身訂做的,橫列辨識不能玩,對吧? 4.最後告訴你,PLUSOCR 是一個非常非常棒的設計。我要 儘快推銷給黃郁婷,她正在處理30冊大正藏;如果 for 2.0 版的出來,也要推銷給「佛教藏OCR小組」使用。 ***************************************************************** Subject: Re: PlusOcr Date: Mon, 16 Feb 1998 20:00:53 +0800 From: "天才的隔壁" <ycc18@tcts.seed.net.tw> .... 此外,並附上剛改好的PLUSOCR.arj,可以支援丹青2.0版。 並改正當丹青最小化時,PlusOcr沒辦法正確作動。 記得要去設定丹青的版本,選〔不具有剪貼功能〕。 也就是丹青2.0版時,設定要選〔不具有剪貼功能〕。 丹青3.2版時,設定要選〔具有剪貼功能〕。 不過支援丹青2.0版的文稿預校速度不若支援3.2版時好。 這也是莫可奈何囉。 當要支援2.0版時,PlusOcr的〔存檔〕按鈕,不會顯示。 所以只有六個按鈕。 因為這個按鈕是為了丹青3.2版預設的存檔格式不是我們 所要的格式。所以用這個按鈕來存檔。 丹青2.0版直接就用它原來的存檔功能就行了。 Quiz...〔我覺得還是3.2的好。如果有PlusOcr的話。:P〕 ***************************************************************** Subject: Re: PlusOcr Date: Tue, 17 Feb 1998 15:34:45 +0800 From: maha <maha@tpts1.seed.net.tw> 天才的隔壁 wrote: > > 此外,並附上剛改好的PLUSOCR.arj,可以支援丹青2.0版。 > 並改正當丹青最小化時,PlusOcr沒辦法正確作動。 > > 記得要去設定丹青的版本,選〔不具有剪貼功能〕。 剛剛在丹青2.0發現「字串取代」的一些問題: 1.第一次沒問題,但若再次設定新的替代字,再執行會出現問題。 2.怎麼會自動存成文字檔呢?照道理不應該這樣。 3.到最後,Plusocr 程式關不掉,得要強迫結束才行。 我覺得似乎是「鍵盤巨集」的設想有漏洞。 ***************************************************************** Subject: Re: PlusOcr Date: Tue, 17 Feb 1998 18:53:11 +0800 From: "天才的隔壁" <ycc18@tcts.seed.net.tw> 您好: >剛剛在丹青2.0發現「字串取代」的一些問題: > 1.第一次沒問題,但若再次設定新的替代字,再執行會出現問題。 可能要請您說明詳細一點。最好舉例一下。 因為末學在使用自己寫的軟體時,可能會〔不知不覺〕地避開一些軟體 有Bug的地方。 > 2.怎麼會自動存成文字檔呢?照道理不應該這樣。 Sorry!這是在講哪裡ㄋㄟ??!! > 3.到最後,Plusocr 程式關不掉,得要強迫結束才行。 呵...這就是多工作業的好處。 >我覺得似乎是「鍵盤巨集」的設想有漏洞。 基本上,「鍵盤巨集」只能拿來當〔工具〕。 此外末學只寫了三個程式。各有其適用的特殊地方。 所以目前沒想說要整合起來。 這些是〔工具程式〕。用完就可以都丟了。 ***************************************************************** Subject: Re: PlusOcr Date: Wed, 18 Feb 1998 08:20:28 +0800 From: maha <maha@tpts1.seed.net.tw> 天才的隔壁 wrote: > > 您好: > > >剛剛在丹青2.0發現「字串取代」的一些問題: > > 1.第一次沒問題,但若再次設定新的替代字,再執行會出現問題。 > > 可能要請您說明詳細一點。最好舉例一下。 > 因為末學在使用自己寫的軟體時,可能會〔不知不覺〕地避開一些軟體 > 有Bug的地方。 > > > 2.怎麼會自動存成文字檔呢?照道理不應該這樣。 > > Sorry!這是在講哪裡ㄋㄟ??!! 附件test.tif,你試試看。 我在「字串設定」,第一次只設:@一=QQQ,跑下來沒問題; 第二次再多設:@二=WWW,它沒有去做預定的取代動作,卻問 我是否要取代原有的test.txt檔。 我是覺得它的鍵盤巨集,不知道是在哪個時候執行了丹青 2.0 的[檔案]/[儲存文字檔] ,所以才會產生一個test.txt檔。 > > 3.到最後,Plusocr 程式關不掉,得要強迫結束才行。 > > 呵...這就是多工作業的好處。 > > >我覺得似乎是「鍵盤巨集」的設想有漏洞。 > > 基本上,「鍵盤巨集」只能拿來當〔工具〕。 > > 此外末學只寫了三個程式。各有其適用的特殊地方。 > 所以目前沒想說要整合起來。 > > 這些是〔工具程式〕。用完就可以都丟了。 這些都是你的智慧結晶,我們會用好久好久。 ***************************************************************** Subject: Re: PlusOcr Date: Wed, 18 Feb 1998 20:37:37 +0800 From: "天才的隔壁" <ycc18@tcts.seed.net.tw> 您好: >附件test.tif,你試試看。 > >我在「字串設定」,第一次只設:@一=QQQ,跑下來沒問題; >第二次再多設:@二=WWW,它沒有去做預定的取代動作,卻問 >我是否要取代原有的test.txt檔。 > >我是覺得它的鍵盤巨集,不知道是在哪個時候執行了丹青 2.0 >的[檔案]/[儲存文字檔] ,所以才會產生一個test.txt檔。 您的觀察很正確。對於支援丹青2.0版時。PlusOcr必須透過存檔案 的方式來取得丹青目前正在校對的文字資料。 不過它是存到PlusOcr所在目錄,檔名為PreCheck.txt。 而且載入檔案後就馬上刪掉了。 由於末學實際跑了一下您說的狀況,好像沒問題。...^_^ 開始預校的動作是這樣的。 0.鍵盤巨集 Alt+O I O 將丹青切換成〔覆寫〕的狀態 1.拷貝 "PreCheck.txt" 的名稱到剪貼簿(有另加上PlusOcr的路徑名稱) 2.鍵盤巨集 Alt+F A (另存新檔) 3.鍵盤巨集 Shift+Ins (把"PreCheck.Txt"輸入到對話盒中的檔名) 4.鍵盤巨集 Enter (把"PreCheck.Txt"執行另存新檔的動作) 5.把PreCheck.txt讀進來。 看了以上這鍋,您有沒有發現是哪裡會出問題。 (Sorry因為我這邊模擬不出您那裡的狀況) (在上述的 0 2 3 4 的動作中不可以有任何人為的按鍵或滑鼠的按鈕動作。) 麻煩您想一下,假如沒發現問題點的話,請再把 1.PlusOcr所在目錄名稱 2.丹青所讀入的檔案名稱(含路徑的完整名稱) 3.丹青是2.0還是3.2 跟我說,我再模擬看看。 呵...這時候真希望有天眼通。 >這些都是你的智慧結晶,我們會用好久好久。 這樣講偶會不好意思啦。 不過您有沒有想過,用好久好久是否代表電子大藏經的生日??? 我倒是希望不用太久。 ***************************************************************** Subject: Re: PlusOcr Date: Thu, 19 Feb 1998 02:40:00 +0800 From: maha <maha@tpts1.seed.net.tw> 天才的隔壁 wrote: > > 麻煩您想一下,假如沒發現問題點的話,請再把 > 1.PlusOcr所在目錄名稱 > 2.丹青所讀入的檔案名稱(含路徑的完整名稱) > 3.丹青是2.0還是3.2 > 跟我說,我再模擬看看。 > > 呵...這時候真希望有天眼通。 1.將PlusOcr目錄置於 c:\windows\desktop 桌面上。 2.TEST.TIF 則放在 PlusOcr 目錄裡。 3.開啟丹青2.0專業版,讀入TEST.TIF,然後自動辨識,不使用學習字庫。 4.進入文稿校對時,執行PlusOcr,設定丹青版本為「不具有剪貼功能」。 5.按「字串設定」,清除原有設定,新設取代字串 @一=QQQ,然後按「開 始預校」。 6.我原先並沒有按「連接」鈕,但「開始預校」動作時,自動把「連接」 鈕按了下去。 7.取代動作完成,確實把 @一=QQQ 做好了。 8.這時查看PlusOcr目錄,尚未產生TEST.TXT文字檔。 9.再按「字串設定」,增加 @二=WWW,然後按「開始預校」,沒反應。 10.這時查看PlusOcr目錄,已經產生TEST.TXT文字檔。 11.再按「開始預校」,系統問我是否取代既有之TEST.TXT文字檔。 12.若按「繼續預校」,系統也是問我是否取代既有之TEST.TXT檔案。 13.無法以結束鈕「X」關閉PlusOcr程式。 所以,問題是從第九步驟發生。這種情況,是不是說我們不能臨時增減字 串設定?步驟六似乎沒有必要,這樣會產生螢幕殘影。 再以3.2黃金版來試同樣情況,發現TEST.TIF被讀成黑底白字,轉換一下 TIF格式就可以辨識了。 黃金版的問題也發生在步驟九,當增加 @二=WWW,然後按「開始預校」 ,它掛住了,丹青「編輯」功能被拉了下來,掛在那裡動也不動。 這時查看PlusOcr目錄,並無產生任何新文字檔。 倒是,可以以結束鈕「X」關閉PlusOcr程式。 會不會是這樣,你說鍵盤巨集有一步驟是: 拷貝 "PreCheck.txt" 的名稱到剪貼簿(有另加上PlusOcr的路徑名稱) 我在上述第五步驟有進行「複製、貼上」的動作,也就是說把「@一=QQQ」 複製貼到下行,然後再修改成「@二=WWW」,該不會是我這個動作干擾到 巨集的執行吧? > >這些都是你的智慧結晶,我們會用好久好久。 > > 這樣講偶會不好意思啦。 > 不過您有沒有想過,用好久好久是否代表電子大藏經的生日??? > 我倒是希望不用太久。 電子大藏經,也許三、五年可以小成,但要玩它個十年、二十年 也是極有可能的。弄完了大正藏,還有續藏,還有....,誰叫佛 陀的智慧如此廣大深遠呢:) ***************************************************************** Subject: Re: PlusOcr Date: Thu, 19 Feb 1998 14:54:32 +0800 From: "天才的隔壁" <ycc18@tcts.seed.net.tw> 您好: >1.將PlusOcr目錄置於 c:\windows\desktop 桌面上。 >2.TEST.TIF 則放在 PlusOcr 目錄裡。 >3.開啟丹青2.0專業版,讀入TEST.TIF,然後自動辨識,不使用學習字庫。 >4.進入文稿校對時,執行PlusOcr,設定丹青版本為「不具有剪貼功能」。 >5.按「字串設定」,清除原有設定,新設取代字串 @一=QQQ,然後按「開 > 始預校」。 >6.我原先並沒有按「連接」鈕,但「開始預校」動作時,自動把「連接」 > 鈕按了下去。 >7.取代動作完成,確實把 @一=QQQ 做好了。 >8.這時查看PlusOcr目錄,尚未產生TEST.TXT文字檔。 >9.再按「字串設定」,增加 @二=WWW,然後按「開始預校」,沒反應。 >10.這時查看PlusOcr目錄,已經產生TEST.TXT文字檔。 >11.再按「開始預校」,系統問我是否取代既有之TEST.TXT文字檔。 >12.若按「繼續預校」,系統也是問我是否取代既有之TEST.TXT檔案。 這的確很奇怪。有可能是 Alt+F A 的鍵盤巨集,本來是要〔另存新檔〕 結果第一次正常。 第二次變成〔儲存文字檔(Alt+F S)〕。---因此會儲存成 TEST.TXT。 這時候PlusOcr一直在等著要開PreCheck.Txt但是根本沒有這檔案。 第三次還是變成〔儲存文字檔(Alt+F S)〕。因為先前已經有 TEST.TXT。 所以丹青會問要不要取代現有的 TEST.TXT。 不過我這邊不會ㄚ。 >13.無法以結束鈕「X」關閉PlusOcr程式。 PlusOcr 一直在等著要開PreCheck.txt檔案。所以沒法結束。 >所以,問題是從第九步驟發生。這種情況,是不是說我們不能臨時增減字 >串設定? 設計上並沒有這種限制。事實上我這邊常常在〔臨時增減字串〕。 >步驟六似乎沒有必要,這樣會產生螢幕殘影。 殘影是沒辦法完全避免的。...因為丹青和PlusOcr有些動作要靠 計時的方式彼此配合。但是計時沒辦法很精確。還好這不會影響實際的資料。 >再以3.2黃金版來試同樣情況,發現TEST.TIF被讀成黑底白字,轉換一下 >TIF格式就可以辨識了。 > >黃金版的問題也發生在步驟九,當增加 @二=WWW,然後按「開始預校」 >,它掛住了,丹青「編輯」功能被拉了下來,掛在那裡動也不動。 >這時查看PlusOcr目錄,並無產生任何新文字檔。 >倒是,可以以結束鈕「X」關閉PlusOcr程式。 > >會不會是這樣,你說鍵盤巨集有一步驟是: > > 拷貝 "PreCheck.txt" 的名稱到剪貼簿(有另加上PlusOcr的路徑名稱) > >我在上述第五步驟有進行「複製、貼上」的動作,也就是說把「@一=QQQ」 >複製貼到下行,然後再修改成「@二=WWW」,該不會是我這個動作干擾到 >巨集的執行吧? 不會的。看來問題是出在WINDOWS作業系統上面。 可能您的WINDOWS有另外掛了一些其他驅動程式。 這些驅動程式也跟鍵盤Hook。 我會試著把這個地方改成儘量不用鍵盤巨集。 請再等一下。目前先克難只用游標影像的功能吧。 >電子大藏經,也許三、五年可以小成,但要玩它個十年、二十年 >也是極有可能的。弄完了大正藏,還有續藏,還有....,誰叫佛 >陀的智慧如此廣大深遠呢:) 呵...別玩過頭了。 Quiz...〔我再改改看囉。有點像是在猜謎。〕 ***************************************************************** Subject: Re: PlusOcr Date: Sun, 22 Feb 1998 15:04:18 +0800 From: "天才的隔壁" <ycc18@tcts.seed.net.tw> 您好: >能否告訴我,你在使用Plusocr之後,對整個作業效率大約提昇若干? 我沒仔細評估,不過基本上我覺得在〔游標顯示影像字〕方面,對於 校對是蠻方便的,尤其對於校對的正確性。 〔預校〕的功能則大概每頁平均會幫我自動更正 7 個地方。 假如綜合起來看,丹青3.2的正確辨識,學習字庫,PlusOcr,掃描文件 的〔清潔度〕,去圈點程式。那麼目前的整體工作環境,我個人覺得 已經是很好很好了。 每頁平均約只有十多個地方需要人工更正,而且隨著預校的自動更正 字串設定增加,不久將來,對於大堆頭的經文,每頁需要人工更正的 地方會越來越少。 目前以我正在校對的大毗婆娑論來說,一卷(約7500字)平均大概要 一小時又20分鐘。 ***************************************************************** |
閱讀文章: 第 1187/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |