看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 1259/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: open98@Lion (光音天), 信區: BudaTech
標  題: 關於新版
發信站: 獅子吼站 (Thu Apr 16 13:40:38 1998)
轉信站: Lion

回響似乎不少,在這裡一起回答。

一)新版目前只能查中文,英文及中英混雜還沒完全做好。
因為英文建索引的方式比中文複雜,如果不考慮大小寫,
時態、變形等會比較簡單。

二)缺字部份只能用wildcard 來查,即「阿?佛」表示
阿[門人人人]佛。有通用字就用通用字來查。
如「脅」代表「月劦」。

三)新版的索引方式和以住不同,是先用「猜」的,
再進行一次double check 精確比對,
所以速度的關鍵在於「猜中率」,比方說佛光大辭典
有二萬條,如果第一步檢索只找出50條之內,
那麼一般都可以在一秒之內回應,
但是如果猜到一萬筆,那麼速度就會變得很慢很慢。
所以我用「一次最多顯示幾筆」來控制,
請大家盡量設十筆左右,如果讓我發現那個人
惡意的檢索全部文字出來,把server 搞當,
我將把他的 IP 列入黑名單。
大家再等一會兒,佛光大辭典文字部份很快
就會是 PD了。不要急著從網路download.


四)還有二個模組沒有 optimize,完成後會更快,更準。
頻次統計也還沒做好。

五)佛光大辭典原始資料梵文很多漏標了梵文標記,
導致字型沒有顯示出來,我會寫一支小程式來補上,
不過不是這幾天。另外,因為要與導師全集的資料相容,
所以程式要同時能解讀更多的標記,錯誤率難免升高。

六)我預設URL打開 normalize=true 的選項,
這樣缺字頻次會降到百萬分之1.3。如果不加 normalize 選項,
則缺字會很多,和上一版一樣,[缽]會變[金*本]

七)OPEN 98真正的重頭戲在完整的漢字庫,可以一並解決缺字的
顯示,查詢及索引問題,並且直接跨平台,線上可轉碼(JIS,GB)
,轉不過去的字會直接用漢字庫來顯示。所以在網路上
只要安裝漢字庫,就可以在任何平台(包括英文)
上完整,一字不差地顯示中文缺字。(當然也包括系統字)

導師全集出版後,最近要忙的雜事多了,
所以研發的進度會慢一些,
另外,在這裡徵求有沒有懂  C++ 或 ANSI C
的朋友,願意加入 OPEN 98 的研發行列,
目前 OPEN 98 所有模組都是用 Pascal 寫成的,
少部份用組合語言,但是我想把它全部porting 
到 unix 的機器,所以想用C來重寫,
有人願意幫忙嗎?(純發心,無酬)

lyyen
--
=====================================
 Abhasvara, OPEN 98 小組
 佛典數位化永久義工
 Email:lyyen@ms1.hinet.net
=====================================
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: cbs.ntu.edu.tw]
閱讀文章: 第 1259/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org