看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 1096/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: Heavenchow@Lion (Heaven), 信區: BudaTech
標  題: Re: 一些說明
發信站: 獅子吼站 (Sun Dec 28 11:19:22 1997)
轉信站: Lion

==> 於 ray (huiray@Lion) 文中述及:
: 還我幾件事想和大家說明一下:
: 1)目前真有實際能用的造換檔轉換工具嗎?如果沒有,只要自己來發展一個,
: 我稍微想了一下,關鍵是要能辨別字串中的特定字是Big5中文文還是前一個
: 中文字的ending byte加後一個中文字的Leading byte 所形成的"虛"字(不
: 會顯示出來),不會太難也不太容易,但我肯定我半天之內做不出來(否則
: 早就有了)。

  在這方面後學以前有一些粗糙的經驗, 供各位參考!
  1.整篇文章從第一個字元開始尋找.
  2.若字元大於 128 , 則此字元及下一個字元屬於中文. 檢查此中文是否是需要的.
  3.若是小於 128 , 以英文及符號看待. (包括換行碼)
  4.處理完這個中文或英文, 再換下一個字.

  後學寫的很簡略, 但有處理過的人應該很容易了解, 我在中文上的處理都是
  這樣做. 但有些事要注意:

  1.上述判斷中文的方法很簡略 (大於 128 就算) . 但有較精確的判斷 big5 法.
  2.若要轉換的檔案非純文字, 如佛光大辭典的 .dat 檔, 因為有些檔中有控制
    碼或索引符號, 則要看看是否大於 128 , 及是否會和中文判斷相沖, 這就要
    看到檔案才知道了. 若是文字檔, 則上述方法應可以用.

: 2)我希望有人可以幫忙參與我們的工作,不是我們自己做不出來,而是因為有
: 大眾的幫忙,最終的成品(軟體、字庫、資訊表、相關工具)才有希望成為
:  Public domain。

  若有需要, 可在此版上提, 後學已在此版獲益良多, 大家都是很熱心的.

: 3)Huiqun兄在Access 上完成了一些初步的成果,我覺得蠻不錯,可惜最近一
: 直連絡不上他,有機會踫到他的朋友請轉告他:謝謝。

  他有改過 email , huiqun@ms14.hinet.net
  後學會代轉此信給他.

: 4)佛光山及妙雲蘭若如今決定正式大規模地投注資源在電子佛典方面,
: 這是難得的好因緣,希望大家好好珍惜,在不違背僧團利益的情形下盡
: 可能提供幫助,也希望大家用同等的心來支持我們。
: 本工作小組的網址在 http://210.61.183.71 歡迎大家來訪賜教。

  相信不少人看到了, 實在是大家的福份. 望現在佛子珍惜!

  heaven
--
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 140.114.61.172]
閱讀文章: 第 1096/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org