看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 282/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: b83050@ccstudent.ee.ntu.edu.tw (Post Gateway), 信區: BudaTech 標 題: Re: 組字法 (fwd) 發信站: 由 獅子吼站 收信 (Mon Nov 18 08:37:01 1996) 以下是吳寶原居士的回信: ---------- Forwarded message ---------- Date: Sun, 17 Nov 1996 17:16:52 +0800 From: Maha Wu <maha@tpts1.seed.net.tw> > > 一個有結構性的組字法是有必要的,當你編輯大量的佛典資料,總不能還在左 > > 邊是什麼、右邊是什麼。當你碰多了,你就知道有太多電腦缺字不是你用一般 > > 文字可以描述清楚的。而且一個有結構性的組字法,才可方便你對資料內容的 > > 管理。 > > 我的認知經驗與行為可能是不太對, 我總是不能體會組字法的妙用. 比如說, > 爽, 是上面一個點橫頭, 加四個叉叉, 再加一個人字, 還是一個大字, 左右各加四 > 個叉叉呢? 而爽這個字是要左右拆, 還是上下拆, 還是裡外拆呢? 還有比如由字, > 應該是上下拆成一個直豎加上一個田字吧. 但是我就是無法釋懷, 中國字本非如此, > 一個由字應該拆成一個曰字加一個豎才對嘛. 但是一個曰加一豎又不夠精確, 因為 > 你無法說明這一豎有多長, 造成的字是由呢, 還是申呢, 還是甲呢? > > 但是我同意中研院謝教授說的, 組字法可以解決大部分的問題 (95%?). > 只是我的數學訓練使得我感到很不自在. 但是, 我又提不出更完備的意見, > 所以, 看來, 即將要接受這種組字的做法了. > > 但是我不認為省掉組字符號的簡化部件式可以拿來代表中國字. 週一我當面 > 問他這個問題, 他說那種混淆的情形很少. 當時我想不出例子, 後來想到 > 很多組. 例如君羊, 如果去掉了組字符號, 電腦如何知道是左君右羊的群 > 字, 還是上君下羊的另一個群字? 同理還有口貝, 山夆這些例子. 所以, > 我想, 組字符號和字根 (或部件) 是必須完整的寫出來的. 但是, 組字 > 運算卻沒有結合律, 也就是說 a*(b*c) 未必等於 (a*b)*c. 因此又必須嚴格 > 寫下括號. 如果討厭看到括號, 或是必須沒有括號, 那就必須為每個組字運算 > 符號定義其優先律 (precedence), 或是把組字運算符號定義成後運算表達式 > (postfix expression). 例如 a+((b*c)-d) 改寫成 abc*d-+. 但是這又太 > 技術了, 電腦內部可以這樣處理, 對一般使用者, 可不能這麼幹. > > > 最近看了幾封信,有個感慨:雖然我們是以電腦科技在做事,但不要忘了我們 > > 是在做一項文化的工作,是我們以科技不斷創新的能力去保存、重現、發揮文 > > 化內容,而不是將文化內容削足適履的來配合我們不求進步的科技。 > > 這是我們常常會忘掉的, 的確, 要常常提醒自己, 什麼是目的, 什麼是手段. > (三年前我在 CCNET-L 上寫過幾乎完全一樣的話, 當時是和一位旅英的華人 > 學者辯論. 寶原果然有默契 8-) > > -Shann 很遺憾的,11月11日中研院資訊所的座談會我沒能去參加(從三峽到南港,好長的 一段路,且早上九點開始開會;我一早七點半騎著摩托車直飆去,但在中和被雨淋 成落湯雞,只好作罷),所以對於維彰兄上文的意見我只能在底下表示部份的或者 不成熟的看法。 關於組字法的妙用,之於我,以及之於中研院資訊所,其意義是不一樣的。在我而 言,為了電子佛典的傳播,在目前這個無法快速改變的現況下,組字法可以讓從事 電子佛典工作者方便的輸入,而使用者也可方便的解讀電腦缺字的字形。而對中研 院資訊所來說,以我的了解,他們是要透過對字形結構的合理拆解來建立一個中文 字形資料庫,並且利用這個字形資料庫來組合成字(類似某些體積較小、字形較醜 的向量字形所採用的部件組字法)。所以我才會在之前的信件中表示說:「中研院 資訊所的東西才是可長可久的,而我們目前私底下所運用的組字法只是一個暫時的 方便。」 因為中研院資訊所對於組字的要求很嚴謹,他們拆字拆到電腦沒有的字根或部件時 ,就不得不造個新字,他們大概造了一千個左右的這種字。所以若要運用他們的組 字法來嚴謹的表示電腦缺字,變成是以電腦缺字來表示電腦缺字;這樣子,我覺得 在目前的一般用途上並不大,尤其是在網路上頭。 我們現在所暫時採用的組字法,若考慮與中研院資訊在符號上相容的話,主要的表 示符號將會是:∞(橫連)、%(直連)、◎(包含),以及新加入-+?三個符 號。後面這三個新加入的符號,其定義如下: - 表去掉某部份 如:青=〔請-言〕 -+若前後配合,表示去掉某部份而改以另一部份代替 如:閒=〔間-日+月〕 ? 表字根特別,尚未找到足以表示者 如:背=〔(?∞匕)%月〕 以維彰兄上文所提的「爽」字,此字目前在中研院資訊所的中文字形資料庫中乃一 字根,假設它真是一個缺字的話,那麼中研院資訊所可能會利用所造的部件來表示 這個字吧!但在我而言,這個缺字的組合表示式可以「勉強」簡便的用〔塽-土〕 表示;說「勉強」是因為那個「土」字的最後一筆有點不一樣,若要更精準些應該 是〔塽-(坎-欠)〕。 「-+?」這三個新加入的符號,減號及加號是試圖突破原先組字符號概念中只有 ∞(橫連)、%(直連)、◎(包含)的限制,因為以「爽」字來講,說什麼上下 、左右、包含呢?所以用個減號就解決了,雖然表示出來的「爽」字在符號意義上 好像比原來的「爽」字瘦一些,但那意思已經明白的達到了。而問號則是我們自知 在不對部件造字的情況下,總有少部份無法表示的部件;我們這只是一個便利的手 法,絕不是萬能的。 我在前文末後的那段話,是某年某月某時維彰兄托夢付囑給我的(開個玩笑!)。 ---------- 摩訶工作室 吳寶原 Tel:(02)6741715 E-mail:maha@tpts1.seed.net.tw |
閱讀文章: 第 282/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |