看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 1076/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: wiskey@Lion (大 師), 信區: BudaTech 標 題: Re: 答佛經電子化之問 發信站: 獅子吼站 (Fri Dec 19 02:08:18 1997) 轉信站: Lion 答Heaven 之問: 以下為敝人去年放置此板之資料,就可能之問題,再次重置一次。 有關敝人讀經器撰寫沒革,從84年03月始著手軟體撰寫相關事項。 1) 第一次以CCCII內碼為主,該年主要在資料收集及內碼問題解決,後以其認可者 狹隘故,始棄之! 此為第一階段 2) 次以85年04月份,開始以嘗試以JAVA語言撰寫,但以顯現速度過慢,及瀏覽器 中文無法正常顯現故,亦中輟! 此為第二階段 3) 再次以Pascal續撰寫,時值生活變遷過鉅,及為解決中文無法顯現與中文輸入 法之問題,曠日費時,雖已制定中文輸法格式,但考量無法在各平台皆能顯現 故,又因藏經「資料庫系統」過於龐大,以致撰寫日少,規格制定日增。且應 佛教單位所求,撰寫軟體以供使用,約至86年05月,又中輟。此為第三階段。 此時內碼系統已改為ISO 10646-1。 4) 由於過去已寫就若干程式,若不續作實為可惜! 在86年06月以後仍續作讀經器。 但已改為C++之語法重新撰寫,目前資料庫系統大致就緒。內碼仍以ISO 10646-1 為主。但為早日面市,首版則以 Big-5內碼為主。 此為目前第二階段。 以下為去年一封覆信,在本版編號 229 可見及: ==> 於 大 師 (wiskey@Lion) 文中述及: : : : : >想必您正創作此一軟體中....阿彌陀佛! : : >建議功能: : : >表列佛經選單 ( 並可自由新增佛經 ) : : >由作者(譯者)、經書名稱、分類(比方說:一般課誦、往生課誦、密宗心法、....) : : >都能查詢經書名稱及內容 : : >全文檢索 (那一部或那幾部經書提過 "某字串" 可由"某字串"查出 並立即原文顯示 : : >最好有注音(方法請您規劃)因為佛經很多讀音較常用法不同 : : >如能結合語音或多媒體系統自動發音或課誦就更完美了! : : >阿彌陀佛! 謹代表我佛弟子先感謝您了! : : > : : > 釋智信 (ASSEM) : : : : : : 信和尚道次: : : 向所建言已知悉! 茲回答如下,並於此同時週知有意眾生: : : : : 一、書 目 處 理 :該軟體收經時,是以”藏”為單位,所以該xx藏(例大正藏) : : 內之所有經典名稱將一體通收入選單目錄內,不論所收之經典 : : (表列佛經 是否已入藏(但會另行標示該經典是否已入藏)所以經名是可 : : 選單) 以檢索而得。 : : 又,同時也有新增、刪除、修改等之基本功能。 : : : : 二、繪 圖 處 理 :在出文字時同時出注音之技術,可以實作出來。但,麻煩的是 : : (注 音) 目前之注音都是各別分開的,如ㄈㄣ ㄎㄞ ㄉ,要打出合在一 : : 起之上下形,須先作TTF 規格之規劃,才能再將字形特徵load : : 上去(這涉及到字形之放大縮小功能),由於這部分是瑣碎長 : : 時的工夫,所以二版以後才打算實作。不過,單一字注音之功 : : 能會較快出來。實作中凡有字之音唸不出時,原則以康熙字典 : : 之切韻為準。 : : : : 三、語音與多媒體:語音的功能可以實作出來,其中關鍵處計分-- : : 1)純語音檔放出功能--這部分可以實作,可用在誦唱佛經之上 : : ,但須事前即已錄好語音檔才可。 : : 2)出字發音(Text To Speech)--這部份定義在「出字發音」上 : : ,其中有兩種作法-- : : 1>方法同上,整部佛經事前即須以語音檔方式存檔,要聽時 : : 再放出,這方法優點是語音連貫自然,缺點是非常佔記憶 : : 體,以每秒4k的取樣率,就可算出所耗的記憶體了。在實 : : 作上,可以MIDI的規格做出,配合語音,文字可依序出現 : : 在螢幕上,就如KTV 、卡拉OK之功能一般。 : : : : 2>先錄基本單字語音檔;在發音時隨文字播放,但這不是輕 : : 易就能做的!其中涉及發音人之咬字問題,須有人發心出 : : 資請專業的廣播人來發音錄檔才可。技術上則同上,可以 : : 實作出來。 : : : : 3)多媒體方面--則就須視是否尚有餘力而定!由於多媒體所涉 : : 及之技術較複雜,尤其是動畫與音效的配合方 : : 面。如果只是單純放影片而已,這功能也可以 : : 實作。 : : : : 四、索 引 部 分 :計規劃有目錄檢索、內文檢索及全文檢索三種 : : 1)目錄檢索--即上述第一項功能;而作者...等之功能亦有,只是所提出事項 : : 仍不夠詳細,未來將隨作隨改。 : : 2)內文檢索--搜尋一檔內所給定之字串或所指定數檔中之內文。 : : 3)全文檢索--做這個功能是一個大學問!實在很難用三言兩語說得清楚!但 : : 目前所規劃之規格,已能做出所建議的功能! : : 不過,單只其中的一個「全文檢索表」即已佔1.2GM 左右,此 : : 中尚且未包括「目錄檢索表」等其他各種對照表格!這實在太 : : 傷記憶體! : : 之所以大吃記憶體之原因是:本軟體預計要讀的內碼太多(內 : : 碼預計可讀Big5,JIS,KSC,CNS 11643,UNICode,ISO 10646, : : UNICode,差不多市面上所有的碼都收了進來),以及欲迅速的 : : 檢索字串,因此所導致的檢索表內容過於龐大之故(主要原因 : : )!所以,也曾想過以市面套裝之Database Server 來取代, : : 但考慮使用者所能負擔之費用故,也放棄了這個想法!最後, : : 仍然還是決定老牛伏驥--還是自己來寫。 : : : : 五、軟 體 規 劃 : : : : 因於檢索而衍生的一些其他影響之故,目前為便利軟體能真正地實際被使用, : : 於是再次修正並規劃該軟體之新方向,謹此順緣大略介紹一下: : : : : 1)擬將軟體分為單機版與Client/Server版。 : : : : 2)單機版之概況為-- : : 1>操 作 系 統 :初步建立在MS Windows95 之上,未來再視狀況支援其他OS。 : : 2>內 碼 系 統 -- : : ヾ初 版 :收Big5內碼與市面資料檔案相容,收EUNI(expanded UNICode)交換碼 : : (由筆者自行制定之四碼規格,字集量目前規劃可收約CCCII+ 128^3) : : , 以便與未來之各類內碼交換。 : : ゝ再 版 :視使用者之反應再作調整。但原則以收CCCII Code以與國家圖書館現 : : 用之內碼相容;收UNICode 以與使用32位元系統之檔案相容。 : : 3>網 路 系 統 :可作E-Mail 、語音之收發,視狀況再決定是否做BBS之「終端 : : 模擬」功能。 : : 4>資料庫系統 -- : : 1.全文檢索功能:可找出所有大藏經內的所有字辭(辭句有長度限制!若不限 : : 制,以採內文檢索方式,那可要找個一天一夜了!),設檢 : : 索表之檢索技術若無法有效突破,則預計要作壓縮處理,以 : : 減少所佔記憶體。 : : 2.機讀編目功能:採用國家圖書館之規格,以用於圖書管理,及與國家圖書館 : : 檔案管理系統一致,以便未來與之網路溝通或讀檔相容用。 : : 3.檔案格式與存取語法 -- : : a)存檔格式:檔案格式除檔頭有特殊標示外,餘皆以一般text檔存檔,使用 : : 者若為節省硬碟空間可利用系統所提供之工具先行作硬碟壓縮 : : 工作。 : : b)存取方式:a.當檔案自外讀入記憶體時,一律以EUNI 碼讀入。 : : b.當檔案傳出電腦,或存入軟碟時,檔頭若無標示時,內定以 : : big5傳出。 : : c.當檔案存入硬碟時,檔頭若無標示,內定以EUNI碼存檔。 : : c)網路支援:為支援網路之功能,檔案經轉檔後可以HTML格式存檔。 : : : : 所以,只有傳出時是Big5,其他一律以EUNI碼運作。雖然內部處理時較 : : 複雜,但為了與市面上所有碼相容(如ASCII、Big5、CCCII、CNS 11643 、 : : UNICode及ISO 10646 碼),亦不得不如此。 : : 另,為增快索引之速度,將不擬作任何語法制定索求,直接程式內部控制。 : : : : 4.資料庫規模:初版建立在單機多工作業系統之下,不作Client/Server 功能 : : 。但,若Client/Server 版不作時,則會在再版時加入區域網 : : 路,廣域網路之SQL 語法功能,以供一般圖書館管理用。 : : : : 5.特 殊 功 能 -- : : a)擬提供HTML之檔案編輯功能。 : : b)轉碼功能:由於相容性之考慮之故,可能須常作讀寫之轉碼工作,此故, : : 提供轉碼功能。 : : c)外掛元件功能:擬提供類似windows之檔案管理員功能表可外掛元件的方式 : : 。使用者未來可依該軟體說明書指示設計所需功能元件,外 : : 掛入該軟體。 : : d)其他功能細節:由於筆者無法預測檢索時的微細需求,所以,其他的一些 : : 使用上之細節功能則須由使用者提示才知道。 : : : : 6.其 他 功 能 :初版時以檢索與編輯功能為優先,其他一些基本功能也將具有 : : ,不過是何類及何時出來則將視其需求性而定,這些功能計有 : : 語音、影片、傳輸、列印、繪圖、掃瞄(OCR)等。 : : : : 7.版 權 問 題 :相信此問題遲早將有人相問,在此一併告知! : : 若是軟體果然完成,則須視此軟體是否需要永續維修而定收費 : : 標準,筆者大事未了,大概是無法一直維護之!若有人維修, : : 則原則以收若干工本費+維修人員生活費=大約NT.400元左右 : : 吧! : : 若是無意永續之,則大約只收工本費 NT.100∼200元左右 ( : : 含大藏經及一些光碟片),未來則不放在心上,本無來去,就 : : 隨緣吧! : : : : 3)Client/Server版 -- : : Client/Server 版與單機版最大的差別是有較完整的資料庫系統,所以所用之系統, : : 將不限制一定是筆者自己所設計之規格,也許用MS SQL Server 或 Informix等軟體 : : 亦不一定,目前尚未定案。 : : 以上所述即是近年所規劃從事的概況! 耑此 : : 敬祝 法喜充滿! : : 楊 毅(wiskey) 合十 10/08/'96 : : PS: 1)wiskey: wiskey isn't whiskey ! it means: : : almost half of buddha's wisdom but had got the key can in. : : and : : the way could make everyone drunk like a liquor whiskey ! : : 2)如果,有其他使用者想告知所欲之新功能,可將訊息寄來 : : wiskey@ms10.hinet.net( 較佳 ) : : 或在「台大椰林之"生活佛教板"」上發表 (telnet ->open bbs.ntu.edu.tw) : 一、前一篇所主題,所以於此篇補上。 : 二、自10/13/'96 以後,凡所有意見以「獅子吼之"佛經電子化板"」為主。 : (telnet => open cbs.ntu.edu.tw) : wiskey 10/13/'96 以上已更改之項目有二: 一為「再版」時以收ISO 10646-1 碼為主,而不再是CCCII 內碼。 一為本人信箱位址,已更改為wiskey@ms17.hinet.net 耑此 並祝大眾 深入經藏,智慧如海! 楊 毅 合十 12/19/'97 -- Ξ Origin: 獅子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.104.222] |
閱讀文章: 第 1076/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |