看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 1540/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: Heavenchow@Lion (Heaven), 信區: BudaTech
標  題: Re: 大正藏共 28 冊全文檢索上網
發信站: 獅子吼站 (Sun Dec 26 12:14:39 1999)
轉信站: Lion

==> 於 自了 (tyuan@Lion) 文中述及:
: 我記得 cbeta 曾經 released 一份 XML 的 dtd 還是什麼的?
: 剛問過林晰(負責全文檢索計畫)他說你們去年有一位德國先生早用 sgml 
: 定義一些 tag 了。
: 因為我的確不清楚大家目前進行的如何了。所以,請耐心回答我一下:)謝謝。
: 目前,看來 XML 的部分是沒問題了。不知道你們有沒有定義好標記的部分。
: 如果用 ie5 來看經文應該就可以有 outline 的架構出來。
: 應該也可以 bookmark 起來。(不過,我沒試過。)

早期我們的確是用 SGML 做為原始經文資料庫的標記格式, 
但現在已經改用 XML 了, 畢竟 SGML 實在太複雜, 我們只用到其中
一小部份標記, 而這部份使用 XML 就已經足夠了, 再者未來二大瀏覽器
都號稱會直接支援 XML , 這對使用 XML 而言, 無疑是利多的消息, 
至少使用者不用再花一道轉換的手續, 即可直接利用最原始的檔案.

我在 CBETA 網頁上放了一份 Word 格式的《悲華經》(大正藏第三冊 157 經)
http://ccbs.ntu.edu.tw/cbeta/step/cd121999/index.htm
的最底下即可看到, 另外有一個專用的 CBETA 工具列亦可在 "問題一" 中取得, 
上網即可了解我在說啥! :)

只放一個檔案是因為 Word 部份還在測試, 不打算全數提供, 目的僅在提供
未取得 CBETA 測試光碟者一個測試的範例, 若將 Word 格式經文的隱藏文字
全部呈現, 即是一份 XML 標記, 有興趣的人可以參考研究, 並且隨經文
附上 dtd 以供參考, 唯一可惜是今昔文字鏡字型太大, 無法上傳供大家下載.

: 至於,搜尋部分大概用 java 寫是比較 portable。如此,將來可以有 unicode 
: 的環境一起看到各國語文。另外,一個問題是怎麼讓 java plugin 在 web browser
: 或是說乾脆寫 java 版的 browser。
: 簡單講就是想問說你們是不是有對經文的 markup 做過什麼處理。
: 這樣我們將來可以拿來配合 XML 來 reuse。
: 還有 browsing, searching, ... 甚至多國語言的顯示有過什麼計畫沒有。

不知多國是指哪些國? ^_^
因為 Word 本身是支援 Unicode , 一些 Big5 缺字在 Word 中會轉成 Unicode , 
而 Unicode 也缺字的, 則使用今昔文字鏡向量字, 所以在中英文的環境中, 
都可以看到中文, 要轉成簡體字 (GBK) 也是很簡單的事了.

: 目前我手邊有 acrobat PDF writer, dreamweaver,GoLive 等軟體。
: 所以,你們如果需要一些與這些軟體有關的工作我可以幫忙。
: -- Tein

CBETA 經文公開之後, 只要保留出處及版本, 讓使用者能知道來源
並找到最新版本, 其它任何呈現的實作, 都是歡迎大家來試作的, 
看看 Tein 兄能不能找出許多好的方式, 讓大家有更好的電子經典可以用. :)

  heaven
--
◇   若言下相應   即共論佛義     若實不相應   合掌令歡喜   ◇
◇   此宗本無諍   諍即失道意     執逆諍法門   自性入生死   ◇
◇   南無 本師釋迦牟尼佛          南無 護法韋馱尊天菩薩    ◇
卍 歡迎光臨 [鹿苑] 五明學館 : buddha.nsysu.edu.tw          卍
卍 歡迎光臨中華電子佛典協會 : http://ccbs.ntu.edultw/cbeta 卍
Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw>         ◎ 慈悲沒有敵人.智慧不起煩惱 ◎
閱讀文章: 第 1540/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org