您有新信

 
Re: [Fwd: 丹青OCR“學習字庫功能”使用心得報告]
#1
發信站: (tpts1.seed.net.tw>, 信區: BudaTech)
maha wrote:
> 
> ★★到底可以建立多少學習字?待考。

這下子好像『考』出來了→最好不要超過 330個字。

今天一開機玩丹青 OCR,奇怪!只要有掛上 T6142學習字,系統每次都當得
死死的。本還搞不清楚怎麼回事,直到換另一台電腦再試,我才確定是學習
字檔 train.dbs 長度過大所致。

我目前正在處理的《八十華嚴》有1430頁,昨天辨識到 472頁時,6142字集
的  train.dbs 長度為 76330 bytes。裡頭學習了多少字呢?讓我們稍微實
驗計算一下:

  字數  長度(bytes)
  ------------------
   1     394
   2     618
   3     842
   4    1066
  ------------------

  (76330-394)/224=339

有 339字,我懷疑這樣多的學習字數會造成系統嚴重當機。所以建議有使用
丹青 OCR的各位,請隨時留意您的 train.dbs  長度,大概超過 330字,也
就是長度超過  74314 bytes 時,就該適可而止了。若再增加下去,下場可
能很慘,整個學習字庫得重零開始建立。還好,我在 22122 bytes(97字)
時做過一次備份,現在正可以利用這個備份檔重新建立。

為了進一步確認,我將這個含有 339個學習字的T6142字集 train.dbs 私下
各寄一份給以下四人:

  tsungwu@email.gcn.net.tw
  benchu@mail.wicl.com.tw
  guby@cris.com
  wangtel@tpts5.seed.net.tw

希望他們撥空診斷一下。

PS. 不勞煩 heaven,他正忙著 CCCII→BIG5 轉碼程式。

                                                     maha 10/15/97
NEWS/INFO National Sun Yat-San University Wed Oct 15 10:05:50 1997
回覆 | 轉寄 | 返回

Re: [Fwd: 丹青OCR“學習字庫功能”使用心得報告]
#2
發信站: (tpts1.seed.net.tw>, 信區: BudaTech)
Ruby G. wrote:
> 
> 吳居士﹕
> 
>     試了多次,我是沒有辦法。
>     在T6142中當機,其他數字中不WORK。
>     能否在DOS中EDIT TRAIN,拿掉一些什麼,減少些字數,
> 救活這個FILE。

我可沒這個能耐,我找童闓運試試。

這個測試的重點是:

  1.丹青學習字的數量是否真有限制?
  2.若有,那麼臨界值在哪裡?
  3.若有,如何突破?
            
                                         maha 10/16/97
NEWS/INFO National Sun Yat-San University Thu Oct 16 07:56:00 1997
回覆 | 轉寄 | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org