您有新信

 
一些說明
#1
ray
發信站: 獅子吼站 (Lion , 信區: BudaTech)
大家好,很少在這個版上發言,剛剛回顧了一下這版過去的一些POST
有些話想和大家說。

Huiqun網友提出的造字中心的構想,我很早就想做了,但考慮
到如果以佛光山的名義發起設立,可能會造成佛光山要「統一」各家
的不良印像而引起排斥,所以內心一直對這個問題迴避,不想多談,
但日前接獲上層指示,決定要將所有的藏經類出版品,全數製成光碟
及網路版本,在這種情形之下,資訊部門相關人員面臨了極大的壓力,
不得不正視存在已久缺字的問題。另一方面是佛光山網站的站務,
已漸上軌道,我也有比較充裕的時間和精力來從事電子佛典的工作,
於是找了幾位教界的好朋友,成立一個工作小組,是為OPEN 98的開
發緣起。

根據目前比較方便取得的三套造字檔:佛光大辭典所付的、中研院的
BUDAFONT及資功會金剛經中的造字檔,(以下簡稱「佛光版」「中研版」
及「資功版」)其中「佛光版」可說是活的版本,因為在我撰寫及您閱讀
本文時,隨著總本山編修大藏的進行,「佛光版」不斷有新的缺字被加入,
我手頭上最新的版本是今年12月2日,計有2600餘個造字,此外,我們
還有一份信徒資料庫系統用的人名地名缺字的造字檔,也有近600餘字,
所以,「佛光版」本身就有很多個版本。而中研院除了德明外,並沒有
編制專人來幫大家造字,所以造字中心的理想,我想德明是很想發心
,可是囿於現實環境和時間一直未能做出承諾。

為此,我們小組決定聘請專人來負責造字,是支薪的,所以就沒有
發心與不發心的問題,一但有新字,他就一定要造。這樣一來,我也
比較安心了。

還我幾件事想和大家說明一下:

1)目前真有實際能用的造換檔轉換工具嗎?如果沒有,只要自己來發展一個,
我稍微想了一下,關鍵是要能辨別字串中的特定字是Big5中文文還是前一個
中文字的ending byte加後一個中文字的Leading byte 所形成的"虛"字(不
會顯示出來),不會太難也不太容易,但我肯定我半天之內做不出來(否則
早就有了)。

2)我希望有人可以幫忙參與我們的工作,不是我們自己做不出來,而是因為有
大眾的幫忙,最終的成品(軟體、字庫、資訊表、相關工具)才有希望成為
 Public domain。

3)Huiqun兄在Access 上完成了一些初步的成果,我覺得蠻不錯,可惜最近一
直連絡不上他,有機會踫到他的朋友請轉告他:謝謝。

4)佛光山及妙雲蘭若如今決定正式大規模地投注資源在電子佛典方面,
這是難得的好因緣,希望大家好好珍惜,在不違背僧團利益的情形下盡
可能提供幫助,也希望大家用同等的心來支持我們。

本工作小組的網址在 http://210.61.183.71 歡迎大家來訪賜教。

釋慧瑞
Sat Dec 27 18:30:46 1997
回覆 | 轉寄 | 返回

Re: 一些說明
#2
Heaven
發信站: 獅子吼站 (Lion , 信區: BudaTech)
==> 於 ray (huiray@Lion) 文中述及:
: Huiqun網友提出的造字中心的構想,我很早就想做了,但考慮
: 到如果以佛光山的名義發起設立,可能會造成佛光山要「統一」各家
: 的不良印像而引起排斥,所以內心一直對這個問題迴避,不想多談,

  法師千萬不要顧慮到這一方面. 總是有某一個東西會統一各家, 
  但統一的原因不是因為它是中研院或佛光山就能純一, 若是 maha 
  或是某某, 就無法純一, 而是它是真的好用, 對大家有實用的價值.
  自然會有人去用. 因此建議和大家取得基本共識後, 就放手去做, 
  我想沒有人會因為是佛光山做的就委屈被統一, 更不會是因為佛光
  山做的就不肯使用. :p

  若真有別有用的人士.... 那實在是他們的事了.

: 根據目前比較方便取得的三套造字檔:佛光大辭典所付的、中研院的
: BUDAFONT及資功會金剛經中的造字檔,(以下簡稱「佛光版」「中研版」
: 及「資功版」)其中「佛光版」可說是活的版本,因為在我撰寫及您閱讀

  個人覺得先協調好諸大家, 再進行會比較好, 而且這一定是大家樂於見到
  的. 小弟總是擔心每個人都正在做好東西, 到時大家都做的不錯, 又各有
  優點, 反而可惜. 總希望大家將優點想好, 再一起動手努力.

  heaven
Sun Dec 28 11:08:09 1997
回覆 | 轉寄 | 返回

Re: 一些說明
#3
Heaven
發信站: 獅子吼站 (Lion , 信區: BudaTech)
==> 於 ray (huiray@Lion) 文中述及:
: 還我幾件事想和大家說明一下:
: 1)目前真有實際能用的造換檔轉換工具嗎?如果沒有,只要自己來發展一個,
: 我稍微想了一下,關鍵是要能辨別字串中的特定字是Big5中文文還是前一個
: 中文字的ending byte加後一個中文字的Leading byte 所形成的"虛"字(不
: 會顯示出來),不會太難也不太容易,但我肯定我半天之內做不出來(否則
: 早就有了)。

  在這方面後學以前有一些粗糙的經驗, 供各位參考!
  1.整篇文章從第一個字元開始尋找.
  2.若字元大於 128 , 則此字元及下一個字元屬於中文. 檢查此中文是否是需要的.
  3.若是小於 128 , 以英文及符號看待. (包括換行碼)
  4.處理完這個中文或英文, 再換下一個字.

  後學寫的很簡略, 但有處理過的人應該很容易了解, 我在中文上的處理都是
  這樣做. 但有些事要注意:

  1.上述判斷中文的方法很簡略 (大於 128 就算) . 但有較精確的判斷 big5 法.
  2.若要轉換的檔案非純文字, 如佛光大辭典的 .dat 檔, 因為有些檔中有控制
    碼或索引符號, 則要看看是否大於 128 , 及是否會和中文判斷相沖, 這就要
    看到檔案才知道了. 若是文字檔, 則上述方法應可以用.

: 2)我希望有人可以幫忙參與我們的工作,不是我們自己做不出來,而是因為有
: 大眾的幫忙,最終的成品(軟體、字庫、資訊表、相關工具)才有希望成為
:  Public domain。

  若有需要, 可在此版上提, 後學已在此版獲益良多, 大家都是很熱心的.

: 3)Huiqun兄在Access 上完成了一些初步的成果,我覺得蠻不錯,可惜最近一
: 直連絡不上他,有機會踫到他的朋友請轉告他:謝謝。

  他有改過 email , huiqun@ms14.hinet.net
  後學會代轉此信給他.

: 4)佛光山及妙雲蘭若如今決定正式大規模地投注資源在電子佛典方面,
: 這是難得的好因緣,希望大家好好珍惜,在不違背僧團利益的情形下盡
: 可能提供幫助,也希望大家用同等的心來支持我們。
: 本工作小組的網址在 http://210.61.183.71 歡迎大家來訪賜教。

  相信不少人看到了, 實在是大家的福份. 望現在佛子珍惜!

  heaven
Sun Dec 28 11:19:22 1997
回覆 | 轉寄 | 返回

Re: 一些說明
#4
邱大剛
發信站: 獅子吼站 (Lion , 信區: BudaTech)
==> 於 Heaven (Heavenchow@Lion) 文中述及:
:   2.若字元大於 128 , 則此字元及下一個字元屬於中文. 檢查此中文是否是需要的.
:   3.若是小於 128 , 以英文及符號看待. (包括換行碼)
:   4.處理完這個中文或英文, 再換下一個字.

    這塈畯茪H有些小經驗, 或許可以提升搜尋速率(如果要搜尋
的文件相當多, 而使用的程式語言較高階的話):

    "可試著先不管中英文, 全部用英文的搜尋方式. 找出的結果再以中文
     filter 來除去誤判的即可. "

    另外, 對於較短篇的比對(所以佛典搜尋的 case 或許不適用),
有時若使用較高階的語言(ex: Perl), 或許可先將所有的中文字間以空
白隔開, 然後再以空白為字元的間隔單位. 這個好處是英文及中文的比對
可一次解決掉, 而且是依照中英的相對順序. 不過效率如何我沒有仔細評
估過, 僅供參考.

    附帶一提的是, 在單教授以前發展的 cgrep 上, 有 "換行搜尋" 的
功能. 例如說以下文件:
"觀自在菩薩行深般
 若波羅蜜多時照見"
    要找出 "般若" 的話, 就必須具有換行搜尋的功能(這在 maha 
的測試也有指出), 因此可以考慮未來加入此一功能(據我所知,
單教授 cgrep 的作法好像是 define 一個某大小的 buffer, 能將
前一行的最後面 n 個字元和這一行接起來, 一同進行比對?)

謝謝!!
--
﹉﹊﹉﹊  ﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊﹉﹊
             幻                  陽焰          化城                 水月
           浮泡                   眼花               旋火輪
﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍﹎﹍  ﹎﹍﹎﹍
 
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.103.135]
Sun Dec 28 12:46:54 1997
回覆 | 轉寄 | 返回

Re: 一些說明
#5
ray
發信站: 獅子吼站 (Lion , 信區: BudaTech)
謝謝大剛的回覆,OPEN 98 目前已可以折行檢索
是用token的方法,即把/n 與空白當作空字元
自動略過不檢,因為當初就有考慮到
<> 內的東西不檢索(以便和HTML相容)
所以在maha 兄提出這個問題之後,大約
只花了10分鐘就把折行檢索做好,
事實上只要把 \n 字元加入要略過的token 串列就可以了。
研發部
Sun Dec 28 14:07:08 1997
回覆 | 轉寄 | 返回

Re: 一些說明
#6
Post Gateway
發信站: 由 獅子吼站 收信 (cbs.ntu.edu.tw , 信區: BudaTech)
寄件人: dnstudio@m2.dj.net.tw [=InterNet E-mail=]

邱大剛 寫道:
> 
> ==> 於 Heaven (Heavenchow@Lion) 文中述及:
> :   2.若字元大於 128 , 則此字元及下一個字元屬於中文. 檢查此中文是否是需要的.
> :   3.若是小於 128 , 以英文及符號看待. (包括換行碼)
> :   4.處理完這個中文或英文, 再換下一個字.
> 
>     這塈畯茪H有些小經驗, 或許可以提升搜尋速率(如果要搜尋
> 的文件相當多, 而使用的程式語言較高階的話):
> 
>     "可試著先不管中英文, 全部用英文的搜尋方式. 找出的結果再以中文
>      filter 來除去誤判的即可. "
> 
這是 cbs 上的做法?
真要提高速度, 則須要建立 index table, 而且利用如 hashing table 的
資料結構, search 時先 search 此 table 再根據其 index 找到 which file
which line in the file, the string position within the line.

>     另外, 對於較短篇的比對(所以佛典搜尋 case 或許不適用),
> 有時若使用較高階的語言(ex: Perl), 或許可先將所有的中文字間以空
> 白隔開, 然後再以空白為字元的間隔單位. 這個好處是英文及中文的比對
> 可一次解決掉, 而且是依照中英的相對順序. 不過效率如何我沒有仔細評
> 估過, 僅供參考.
> 
如果用的是英文版的 search engine, 被 search 的中文file用這個處理
應是個好方法(如早期的 netscape 顯示中文的問題), 如果自己寫程式, 
還是用 128 來區別就可以了, 不過其他的 string manupitation 就
都可能自己要動手寫了.

>     附帶一提的是, 在單教授以前發展的 cgrep 上, 有 "換行搜尋" 的
> 功能. 例如說以下文件:
> "觀自在菩薩行深般
>  若波羅蜜多時照見"
>     要找出 "般若" 的話, 就必須具有換行搜尋的功能(這在 maha
> 的測試也有指出), 因此可以考慮未來加入此一功能(據我所知,
> 單教授 cgrep 的作法好像是 define 一個某大小的 buffer, 能將
> 前一行的最後面 n 個字元和這一行接起來, 一同進行比對?)
> 
末學上個月發表的 fts (中文全文檢索程式)也做了 "換行搜尋"的功能,
不過是用前一行的尾與後一行的頭來控制, 當初思考的時間不少但最後的 
algorithm 卻不是很複雜.

ps: fts 在如來網上面 http://www.dharma.org.tw/tool/fts95.zip
Wed Dec 31 12:52:31 1997
回覆 | 轉寄 | 返回

Re: 一些說明
#7
邱大剛
發信站: 獅子吼站 (Lion , 信區: BudaTech)
==> 於  (dnstudio@m2.dj.net.tw) 文中述及:
: >     "可試著先不管中英文, 全部用英文的搜尋方式. 找出的結果再以中文
: >      filter 來除去誤判的即可. "
: 這是 ccbs 上的做法?

    不是 :) ccbs 是用單教授發展的 cgrep, 核心就是中文的 grep 程式。
小弟講的是應急的偷吃步 :) (其實用這種偷吃步效率不見得較差,或許
在有的程式語言寫起來還快許多喔 :))

: 真要提高速度, 則須要建立 index table, 而且利用如 hashing table 的
: 資料結構, search 時先 search 此 table 再根據其 index 找到 which file
: which line in the file, the string position within the line.

    嗯! 這就是您們專業人員的方式了 :)


謝謝!!
--

悠哉賢故友, 抱道樂林泉, 坐到無疑地, 參窮有象天.
胸中消塊壘, 筆底走雲煙, 更笑忘機鳥, 常窺定後禪.
                                    ∼訪古月師•娥嵋道人

☆歡迎光臨:
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 140.112.8.224]
Wed Dec 31 20:54:45 1997
回覆 | 轉寄 | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org