看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 1096/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: Heavenchow@Lion (Heaven), 信區: BudaTech 標 題: Re: 一些說明 發信站: 獅子吼站 (Sun Dec 28 11:19:22 1997) 轉信站: Lion ==> 於 ray (huiray@Lion) 文中述及: : 還我幾件事想和大家說明一下: : 1)目前真有實際能用的造換檔轉換工具嗎?如果沒有,只要自己來發展一個, : 我稍微想了一下,關鍵是要能辨別字串中的特定字是Big5中文文還是前一個 : 中文字的ending byte加後一個中文字的Leading byte 所形成的"虛"字(不 : 會顯示出來),不會太難也不太容易,但我肯定我半天之內做不出來(否則 : 早就有了)。 在這方面後學以前有一些粗糙的經驗, 供各位參考! 1.整篇文章從第一個字元開始尋找. 2.若字元大於 128 , 則此字元及下一個字元屬於中文. 檢查此中文是否是需要的. 3.若是小於 128 , 以英文及符號看待. (包括換行碼) 4.處理完這個中文或英文, 再換下一個字. 後學寫的很簡略, 但有處理過的人應該很容易了解, 我在中文上的處理都是 這樣做. 但有些事要注意: 1.上述判斷中文的方法很簡略 (大於 128 就算) . 但有較精確的判斷 big5 法. 2.若要轉換的檔案非純文字, 如佛光大辭典的 .dat 檔, 因為有些檔中有控制 碼或索引符號, 則要看看是否大於 128 , 及是否會和中文判斷相沖, 這就要 看到檔案才知道了. 若是文字檔, 則上述方法應可以用. : 2)我希望有人可以幫忙參與我們的工作,不是我們自己做不出來,而是因為有 : 大眾的幫忙,最終的成品(軟體、字庫、資訊表、相關工具)才有希望成為 : Public domain。 若有需要, 可在此版上提, 後學已在此版獲益良多, 大家都是很熱心的. : 3)Huiqun兄在Access 上完成了一些初步的成果,我覺得蠻不錯,可惜最近一 : 直連絡不上他,有機會踫到他的朋友請轉告他:謝謝。 他有改過 email , huiqun@ms14.hinet.net 後學會代轉此信給他. : 4)佛光山及妙雲蘭若如今決定正式大規模地投注資源在電子佛典方面, : 這是難得的好因緣,希望大家好好珍惜,在不違背僧團利益的情形下盡 : 可能提供幫助,也希望大家用同等的心來支持我們。 : 本工作小組的網址在 http://210.61.183.71 歡迎大家來訪賜教。 相信不少人看到了, 實在是大家的福份. 望現在佛子珍惜! heaven -- Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 140.114.61.172] |
閱讀文章: 第 1096/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |