看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 1259/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: open98@Lion (光音天), 信區: BudaTech 標 題: 關於新版 發信站: 獅子吼站 (Thu Apr 16 13:40:38 1998) 轉信站: Lion 回響似乎不少,在這裡一起回答。 一)新版目前只能查中文,英文及中英混雜還沒完全做好。 因為英文建索引的方式比中文複雜,如果不考慮大小寫, 時態、變形等會比較簡單。 二)缺字部份只能用wildcard 來查,即「阿?佛」表示 阿[門人人人]佛。有通用字就用通用字來查。 如「脅」代表「月劦」。 三)新版的索引方式和以住不同,是先用「猜」的, 再進行一次double check 精確比對, 所以速度的關鍵在於「猜中率」,比方說佛光大辭典 有二萬條,如果第一步檢索只找出50條之內, 那麼一般都可以在一秒之內回應, 但是如果猜到一萬筆,那麼速度就會變得很慢很慢。 所以我用「一次最多顯示幾筆」來控制, 請大家盡量設十筆左右,如果讓我發現那個人 惡意的檢索全部文字出來,把server 搞當, 我將把他的 IP 列入黑名單。 大家再等一會兒,佛光大辭典文字部份很快 就會是 PD了。不要急著從網路download. 四)還有二個模組沒有 optimize,完成後會更快,更準。 頻次統計也還沒做好。 五)佛光大辭典原始資料梵文很多漏標了梵文標記, 導致字型沒有顯示出來,我會寫一支小程式來補上, 不過不是這幾天。另外,因為要與導師全集的資料相容, 所以程式要同時能解讀更多的標記,錯誤率難免升高。 六)我預設URL打開 normalize=true 的選項, 這樣缺字頻次會降到百萬分之1.3。如果不加 normalize 選項, 則缺字會很多,和上一版一樣,[缽]會變[金*本] 七)OPEN 98真正的重頭戲在完整的漢字庫,可以一並解決缺字的 顯示,查詢及索引問題,並且直接跨平台,線上可轉碼(JIS,GB) ,轉不過去的字會直接用漢字庫來顯示。所以在網路上 只要安裝漢字庫,就可以在任何平台(包括英文) 上完整,一字不差地顯示中文缺字。(當然也包括系統字) 導師全集出版後,最近要忙的雜事多了, 所以研發的進度會慢一些, 另外,在這裡徵求有沒有懂 C++ 或 ANSI C 的朋友,願意加入 OPEN 98 的研發行列, 目前 OPEN 98 所有模組都是用 Pascal 寫成的, 少部份用組合語言,但是我想把它全部porting 到 unix 的機器,所以想用C來重寫, 有人願意幫忙嗎?(純發心,無酬) lyyen -- ===================================== Abhasvara, OPEN 98 小組 佛典數位化永久義工 Email:lyyen@ms1.hinet.net ===================================== Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: cbs.ntu.edu.tw] |
閱讀文章: 第 1259/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |