看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 1708/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: "maha" <maha@tpts1.seed.net.tw>, 信區: BudaTech
標  題: RE: 為大藏經盡一頁心力
發信站: "maha"  (Wed Apr  3 06:23:34 2002)
轉信站: Lion!news.nsysu!mlist.iyard.org!not-for-mail
來  源: mlist.iyard.org

目前最新進度是:發出143,收回40。
這讓人很興奮,也很緊張,
隨著參與校對人數越來越多,看來要趕快再準備一冊,免得開天窗。

在我個人心裡,CBETA發源於buda_tech。
想幾年前,我們在buda_tech有許多熱烈討論,
大家一邊想,也一邊努力的做;
所有理論性的思考,如今都一步步化為腳踏實地的履行。

CBETA已經邁入第五個年頭,《大正藏》電子化工程第一階段完成,
其成果也就是目前大家看到的普及版光碟。
接下來,我們有兩項工程正在用力進行:
一是「大正藏校勘版」(學術版),一是「《卍續藏》電子化」。

早在2000年6月,CBETA已經開始《卍續藏》初步作業規畫。
那時候,成立大陸人工輸入團隊,廣泛收集各方經文檔資源,
並針對不良的OCR環境研究可能的補救之道。

2001年4月,《卍續藏》正式運作。但,進度緩慢。
OCR的錯誤率高得嚇人,當跟大陸品質不錯的人工輸入檔兩相比對,
平均每冊差異量約10萬個,這相當於我們當初做《大正藏》的5倍多。

OCR問題困擾我們許久。
雖然我們已利用程式化解掃瞄圖的雜點(文字以外的不重要符號),
並將圈點移位(續藏的圈點是在文字側邊,不在文字下方),
可是原書文字印刷不夠清晰,仍讓整體辨識效果不佳。
即使我們試圖從辨識結果中去找尋規則性的錯誤字串,
做一個「OCR取代表」去對OCR檔做取代動作,
大概也只能達到減少1/10差異的效能。

因此,回到原點,
heaven重拾當年「一人一頁」的想法,
發起這個「為大藏經盡一頁心力」的網路活動,
讓大家一起來參與藏經電子化工作,
也讓彼此來分享每個人的工作成果。
相信只要我們群策群力,《卍續藏》電子化的結果指日可待。

ps1.
《卍續藏》電子化,並非指整套《卍續藏》都處理。
《卍續藏》中有少數經文是與《大正藏》相同的,我們就不重複作業了。

ps2.
《卍續藏》第一階段目標是與禪宗相關的典籍,有20冊左右吧。

maha

> -----Original Message-----
> From: 一葉佛心 [mailto:onepage.bbs@buddha.cbs.ntu.edu.tw]
> Sent: Friday, March 29, 2002 5:22 PM
> To: buda_tech@mlist.iyard.org
> Subject: 為大藏經盡一頁心力
>
>           卍卍卍卍卍卍卍卍卍卍卍卍卍卍卍
>           卍             卍
>           卍  為大藏經盡一頁心力  卍
>           卍             卍
>           卍卍卍卍卍卍卍卍卍卍卍卍卍卍卍
>
>   在數年之前,網際網路上有一群佛弟子曾經進行大規模的佛典經文數位化行動
> ,而有了「佛教經典系列」的成品。大約在四年前,原本就有一個「《大正藏》(
> 《大正新脩大藏經》)佛典經文數位化」的計畫正在密切進行中,但是另一個機緣
> ,促成了CBETA(中華電子佛典協會)的誕生,所以原《大正藏》數位化的部
> 份人力,就順勢轉移到CBETA繼續進行佛典經文數位化的工作。
>
>   從CBETA肇建伊始至今,四年時間彈指過去,在諸多大德的支持下,
> CBETA《大正藏》佛典經文數位化有了初步的成果--CBETA電子佛典系
> 列(《大正新脩大藏經》第一冊至第五十五冊暨第八十五冊)光碟的完成。
>
>   現在,CBETA第二個計畫已如火如荼開展,那就是《卍續藏》的佛典經文
> 數位化。然而和《大正藏》佛典經文數位化的計畫比較起來,《卍續藏》佛典經文
> 數位化計畫有許多先天上不足的地方。例如,現成的《卍續藏》佛典經文電子檔不
> 多、《卍續藏》佛典經文圖檔不利文字辨識 (OCR) 處理……,單就這兩點來說,
> 一方面是經文電子檔取得不易,另一方面就是粗糙的文字辨識品質加重校對的龐大
> 人力負擔。而這些因素都是《卍續藏》佛典經文數位化計畫之初所面臨的考驗。
>
>   於是回憶起四年前「為大藏經盡一頁心力」的計畫,仍然希望仰仗眾多佛弟子
> 的力量,以一人一頁的方式,每人協助校對一頁《卍續藏》佛典經文電子檔,初步
> 將經文電子檔品質提昇到一定的水準,CBETA再利用精細的校對程式和經驗,
> 嚴格地對電子檔經文做最精緻的處理,相信可以在更短的時間內,完成《卍續藏》
> 佛典經文數位化的目標。
>
>   這個計畫--《卍續藏》佛典經文數位化--目標,一如當初的理想:
>
>   「這個行動的成品將是全然免費的,必然地依照佛陀的教誨,以弘
>    傳佛陀法身慧命為唯一目標,而讓任何人不論貧富貴賤,皆能方
>    便的免費閱讀經文,以避免諸如販賣經典等違佛遺教的情況發生。」
>
>   只要您有電腦,可以連上網際網路,我們都誠摯地邀請您來參與「為大藏經盡
> 一頁心力」的活動,更歡迎您將此訊息告知您的好友,相信他們也很樂意有這個機
> 會共同參與,在此佛教歷史的關鍵時刻中,也讓我們留下屬於自己的足跡。
>
> ------------------------------------------------------------------------
>
> 【參加方法】
>
>   寄一封 email 至 onepage@ccbs.ntu.edu.tw
>
>   在主旨或內文註明要參與「為大藏經盡一頁心力」計畫
>
> ------------------------------------------------------------------------
>
> 【說明】
>
>   參加者會收到一份電子檔,內含一頁《卍續藏》圖檔及經過文字辨識的初稿,
> 只要您對照圖檔,將錯誤的文字直接修正,完成後再寄回給
> onepage@ccbs.ntu.edu.tw
> 即可。
>
>   據估計,一般品質的經文可以在半小時至一小時完成校對,為了維護進度的順
> 利,我們希望參與者能在七天內傳回檔案,若超過七天,同一份經文可能會再交給
> 其它參與的朋友。
>
>   若您是第一次參與本活動,可至底下網址下載或線上閱讀注意事項:
>   http://www.cbeta.org/cbeta/onepage
>
>
>   感謝您的熱心參與!
>
>
>   一葉佛心 合十
>
>
> 【相關網址】
>
>  中華電子佛典協會(CBETA)  http://www.cbeta.org
>  佛教經典系列  http://ccbs.ntu.edu.tw/canon
> --
>   卍卍卍卍卍卍卍卍卍卍卍卍卍卍卍卍卍卍卍卍卍
>   卍                   卍
>   卍     為大藏經盡一頁心力     卍
>   卍 http://www.cbeta.org/cbeta/onepage 卍
>   卍                   卍
>   卍卍卍卍卍卍卍卍卍卍卍卍卍卍卍卍卍卍卍卍卍
> Ξ 獅子吼站 版面介紹:
>                   cbs.ntu.edu.tw
>  佛法求助哇啦啦版 - 您的問題就是大家的問題!
>                    BudaHelp
>


閱讀文章: 第 1708/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org