看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 181/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: b83050@ccstudent.ee.ntu.edu.tw (Post Gateway), 信區: BudaTech
標  題: 中文字串搜尋軟體
發信站: 由 獅子吼站 收信 (Fri Aug  9 16:56:40 1996)


以下是中央數學系單維彰教授在研發的 cgrep 程式,
能在 UNIX 平台上將中文內文的搜尋[的換行問題等]解決, 
而且應該是免費提供大家的.

現在市面上這類的資料庫軟體都相當昂貴, 動輒上百萬,
(例如據說中正大學找了幾個研究生, 花了二百萬才做出來,
  而且並不免費提供給其他人的樣子? )
單教授及童先生的這項義舉不啻是一項好消息, 也為佛典
文件檔的應用帶來另一片天地.

台大佛研中心可能要請 kftseng 來寫各平台的支援程式,
以便將來佛典出 CD 時能夠應用於其上, 並畢免被商家
從中抽取利益的情形, 降低光碟片的成本.



---------- Forwarded message ----------
Date: Fri, 9 Aug 1996 16:04:33 +0800
From: Shann Wei-Chang <shann@math.ncu.edu.tw>
To: b83050@cctwin.ee.ntu.edu.tw
Cc: kftseng.bbs@cctwin.ee.ntu.edu.tw, tone@cctwin.ee.ntu.edu.tw
Subject: Re: cgrep

>     那就是說可以任意搜尋含有換行的字詞囉?

是的.

愷運在 PC 上測試後有幾個問題要在次一版修改, 其中一個讀入多檔案的問題已經在
我的學生那兒寫好了.  但是目前只有在 UNIX 上才能用 * 這個符號, 因為 UNIX
的 shell 會幫我們把 * 展開成一序列的檔案名.  而在 DOS 下, 這個展開 wild card
的功能好像要自己寫.  有沒有人已經有現成的 C subroutine 可以給我們用呢?

而且愷運嫌 cgrep 的速度太慢了.  這是因為我的程式把所有的輸入文字都先轉成
CNS 內碼, 這是為了容許多種不同的編碼系統的中文.  但是如果我們假設 PC 版的
cgrep (和其他應用程式) 都是讀 ET-Big-5 的編碼系統, 則此轉換可以寫得比較
不一般性.  我寫了這樣一個替代 subroutine, 測試後比原來的 general routine
快了一倍還多一點.  所以下一版的 cgrep 應該會比愷運測試的快一倍.  但是就只能
對 ET-Big-5 碼做輸出入.

我的學生在台南寫程式, 我在中大.  等開學的時候才整合.

-Shann

閱讀文章: 第 181/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org