一)新版目前只能查中文,英文及中英混雜還沒完全做好。
因為英文建索引的方式比中文複雜,如果不考慮大小寫,
時態、變形等會比較簡單。
二)缺字部份只能用wildcard 來查,即「阿?佛」表示
阿[門人人人]佛。有通用字就用通用字來查。
如「脅」代表「月劦」。
三)新版的索引方式和以住不同,是先用「猜」的,
再進行一次double check 精確比對,
所以速度的關鍵在於「猜中率」,比方說佛光大辭典
有二萬條,如果第一步檢索只找出50條之內,
那麼一般都可以在一秒之內回應,
但是如果猜到一萬筆,那麼速度就會變得很慢很慢。
所以我用「一次最多顯示幾筆」來控制,
請大家盡量設十筆左右,如果讓我發現那個人
惡意的檢索全部文字出來,把server 搞當,
我將把他的 IP 列入黑名單。
大家再等一會兒,佛光大辭典文字部份很快
就會是 PD了。不要急著從網路download.
四)還有二個模組沒有 optimize,完成後會更快,更準。
頻次統計也還沒做好。
五)佛光大辭典原始資料梵文很多漏標了梵文標記,
導致字型沒有顯示出來,我會寫一支小程式來補上,
不過不是這幾天。另外,因為要與導師全集的資料相容,
所以程式要同時能解讀更多的標記,錯誤率難免升高。
六)我預設URL打開 normalize=true 的選項,
這樣缺字頻次會降到百萬分之1.3。如果不加 normalize 選項,
則缺字會很多,和上一版一樣,[缽]會變[金*本]
七)OPEN 98真正的重頭戲在完整的漢字庫,可以一並解決缺字的
顯示,查詢及索引問題,並且直接跨平台,線上可轉碼(JIS,GB)
,轉不過去的字會直接用漢字庫來顯示。所以在網路上
只要安裝漢字庫,就可以在任何平台(包括英文)
上完整,一字不差地顯示中文缺字。(當然也包括系統字)
導師全集出版後,最近要忙的雜事多了,
所以研發的進度會慢一些,
另外,在這裡徵求有沒有懂 C++ 或 ANSI C
的朋友,願意加入 OPEN 98 的研發行列,
目前 OPEN 98 所有模組都是用 Pascal 寫成的,
少部份用組合語言,但是我想把它全部porting
到 unix 的機器,所以想用C來重寫,
有人願意幫忙嗎?(純發心,無酬)
lyyen
--
=====================================
Abhasvara, OPEN 98 小組
佛典數位化永久義工
Email:lyyen@ms1.hinet.net
=====================================
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: cbs.ntu.edu.tw]