看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 1012/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: maha <maha@tpts1.seed.net.tw>, 信區: BudaTech 標 題: Re: [Fwd: 丹青OCR“學習字庫功能”使用心得報告] 發信站: (NEWS/INFO) National Sun Yat-San University (Wed Oct 15 10:05:50 1997) 轉信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail 來 源: buddha.nsysu.edu.tw maha wrote: > > ★★到底可以建立多少學習字?待考。 這下子好像『考』出來了→最好不要超過 330個字。 今天一開機玩丹青 OCR,奇怪!只要有掛上 T6142學習字,系統每次都當得 死死的。本還搞不清楚怎麼回事,直到換另一台電腦再試,我才確定是學習 字檔 train.dbs 長度過大所致。 我目前正在處理的《八十華嚴》有1430頁,昨天辨識到 472頁時,6142字集 的 train.dbs 長度為 76330 bytes。裡頭學習了多少字呢?讓我們稍微實 驗計算一下: 字數 長度(bytes) ------------------ 1 394 2 618 3 842 4 1066 ------------------ (76330-394)/224=339 有 339字,我懷疑這樣多的學習字數會造成系統嚴重當機。所以建議有使用 丹青 OCR的各位,請隨時留意您的 train.dbs 長度,大概超過 330字,也 就是長度超過 74314 bytes 時,就該適可而止了。若再增加下去,下場可 能很慘,整個學習字庫得重零開始建立。還好,我在 22122 bytes(97字) 時做過一次備份,現在正可以利用這個備份檔重新建立。 為了進一步確認,我將這個含有 339個學習字的T6142字集 train.dbs 私下 各寄一份給以下四人: tsungwu@email.gcn.net.tw benchu@mail.wicl.com.tw guby@cris.com wangtel@tpts5.seed.net.tw 希望他們撥空診斷一下。 PS. 不勞煩 heaven,他正忙著 CCCII→BIG5 轉碼程式。 maha 10/15/97 |
閱讀文章: 第 1012/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |