您有新信

 
關於新版
#1
光音天
發信站: 獅子吼站 (Lion , 信區: BudaTech)
一)新版目前只能查中文,英文及中英混雜還沒完全做好。
因為英文建索引的方式比中文複雜,如果不考慮大小寫,
時態、變形等會比較簡單。

二)缺字部份只能用wildcard 來查,即「阿?佛」表示
阿[門人人人]佛。有通用字就用通用字來查。
如「脅」代表「月劦」。

三)新版的索引方式和以住不同,是先用「猜」的,
再進行一次double check 精確比對,
所以速度的關鍵在於「猜中率」,比方說佛光大辭典
有二萬條,如果第一步檢索只找出50條之內,
那麼一般都可以在一秒之內回應,
但是如果猜到一萬筆,那麼速度就會變得很慢很慢。
所以我用「一次最多顯示幾筆」來控制,
請大家盡量設十筆左右,如果讓我發現那個人
惡意的檢索全部文字出來,把server 搞當,
我將把他的 IP 列入黑名單。
大家再等一會兒,佛光大辭典文字部份很快
就會是 PD了。不要急著從網路download.


四)還有二個模組沒有 optimize,完成後會更快,更準。
頻次統計也還沒做好。

五)佛光大辭典原始資料梵文很多漏標了梵文標記,
導致字型沒有顯示出來,我會寫一支小程式來補上,
不過不是這幾天。另外,因為要與導師全集的資料相容,
所以程式要同時能解讀更多的標記,錯誤率難免升高。

六)我預設URL打開 normalize=true 的選項,
這樣缺字頻次會降到百萬分之1.3。如果不加 normalize 選項,
則缺字會很多,和上一版一樣,[缽]會變[金*本]

七)OPEN 98真正的重頭戲在完整的漢字庫,可以一並解決缺字的
顯示,查詢及索引問題,並且直接跨平台,線上可轉碼(JIS,GB)
,轉不過去的字會直接用漢字庫來顯示。所以在網路上
只要安裝漢字庫,就可以在任何平台(包括英文)
上完整,一字不差地顯示中文缺字。(當然也包括系統字)

導師全集出版後,最近要忙的雜事多了,
所以研發的進度會慢一些,
另外,在這裡徵求有沒有懂  C++ 或 ANSI C
的朋友,願意加入 OPEN 98 的研發行列,
目前 OPEN 98 所有模組都是用 Pascal 寫成的,
少部份用組合語言,但是我想把它全部porting 
到 unix 的機器,所以想用C來重寫,
有人願意幫忙嗎?(純發心,無酬)

lyyen
--
=====================================
 Abhasvara, OPEN 98 小組
 佛典數位化永久義工
 Email:lyyen@ms1.hinet.net
=====================================
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: cbs.ntu.edu.tw]
Thu Apr 16 13:40:38 1998
回覆 | 轉寄 | 返回

Re: 關於新版
#2
省油的燈
發信站: 獅子吼站 (Lion , 信區: BudaTech)
==> 於 光音天 (open98@Lion) 文中述及:
: 另外,在這裡徵求有沒有懂  C++ 或 ANSI C
: 的朋友,願意加入 OPEN 98 的研發行列,
: 目前 OPEN 98 所有模組都是用 Pascal 寫成的,
: 少部份用組合語言,但是我想把它全部porting 
: 到 unix 的機器,所以想用C來重寫,
: 有人願意幫忙嗎?(純發心,無酬)

   我使用C 已經有兩年的時間了,功力應該
還馬馬虎虎。最近改用C++,稍嫌生澀。至於
cgi,我肉腳的很。

   需要我的話,我到很樂意參一腳。
Thu Apr 16 16:43:27 1998
回覆 | 轉寄 | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org