看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 282/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: b83050@ccstudent.ee.ntu.edu.tw (Post Gateway), 信區: BudaTech
標  題: Re: 組字法 (fwd)
發信站: 由 獅子吼站 收信 (Mon Nov 18 08:37:01 1996)


以下是吳寶原居士的回信:
---------- Forwarded message ----------
Date: Sun, 17 Nov 1996 17:16:52 +0800
From: Maha Wu <maha@tpts1.seed.net.tw>
> > 一個有結構性的組字法是有必要的,當你編輯大量的佛典資料,總不能還在左
> > 邊是什麼、右邊是什麼。當你碰多了,你就知道有太多電腦缺字不是你用一般
> > 文字可以描述清楚的。而且一個有結構性的組字法,才可方便你對資料內容的
> > 管理。
> 
> 我的認知經驗與行為可能是不太對, 我總是不能體會組字法的妙用.  比如說,
> 爽, 是上面一個點橫頭, 加四個叉叉, 再加一個人字, 還是一個大字, 左右各加四
> 個叉叉呢?  而爽這個字是要左右拆, 還是上下拆, 還是裡外拆呢?  還有比如由字,
> 應該是上下拆成一個直豎加上一個田字吧.  但是我就是無法釋懷, 中國字本非如此,
> 一個由字應該拆成一個曰字加一個豎才對嘛.  但是一個曰加一豎又不夠精確, 因為
> 你無法說明這一豎有多長, 造成的字是由呢, 還是申呢, 還是甲呢?
> 
> 但是我同意中研院謝教授說的, 組字法可以解決大部分的問題 (95%?).
> 只是我的數學訓練使得我感到很不自在.  但是, 我又提不出更完備的意見,
> 所以, 看來, 即將要接受這種組字的做法了.
> 
> 但是我不認為省掉組字符號的簡化部件式可以拿來代表中國字.  週一我當面
> 問他這個問題, 他說那種混淆的情形很少.  當時我想不出例子, 後來想到
> 很多組.  例如君羊, 如果去掉了組字符號, 電腦如何知道是左君右羊的群
> 字, 還是上君下羊的另一個群字?  同理還有口貝, 山夆這些例子.  所以,
> 我想, 組字符號和字根 (或部件) 是必須完整的寫出來的.  但是, 組字
> 運算卻沒有結合律, 也就是說 a*(b*c) 未必等於 (a*b)*c.  因此又必須嚴格
> 寫下括號.  如果討厭看到括號, 或是必須沒有括號, 那就必須為每個組字運算
> 符號定義其優先律 (precedence), 或是把組字運算符號定義成後運算表達式
> (postfix expression).  例如 a+((b*c)-d)  改寫成 abc*d-+.  但是這又太
> 技術了, 電腦內部可以這樣處理, 對一般使用者, 可不能這麼幹.
> 
> > 最近看了幾封信,有個感慨:雖然我們是以電腦科技在做事,但不要忘了我們
> > 是在做一項文化的工作,是我們以科技不斷創新的能力去保存、重現、發揮文
> > 化內容,而不是將文化內容削足適履的來配合我們不求進步的科技。
> 
> 這是我們常常會忘掉的, 的確, 要常常提醒自己, 什麼是目的, 什麼是手段.
> (三年前我在 CCNET-L 上寫過幾乎完全一樣的話, 當時是和一位旅英的華人
> 學者辯論.  寶原果然有默契 8-)
> 
> -Shann

很遺憾的,11月11日中研院資訊所的座談會我沒能去參加(從三峽到南港,好長的
一段路,且早上九點開始開會;我一早七點半騎著摩托車直飆去,但在中和被雨淋
成落湯雞,只好作罷),所以對於維彰兄上文的意見我只能在底下表示部份的或者
不成熟的看法。

關於組字法的妙用,之於我,以及之於中研院資訊所,其意義是不一樣的。在我而
言,為了電子佛典的傳播,在目前這個無法快速改變的現況下,組字法可以讓從事
電子佛典工作者方便的輸入,而使用者也可方便的解讀電腦缺字的字形。而對中研
院資訊所來說,以我的了解,他們是要透過對字形結構的合理拆解來建立一個中文
字形資料庫,並且利用這個字形資料庫來組合成字(類似某些體積較小、字形較醜
的向量字形所採用的部件組字法)。所以我才會在之前的信件中表示說:「中研院
資訊所的東西才是可長可久的,而我們目前私底下所運用的組字法只是一個暫時的
方便。」

因為中研院資訊所對於組字的要求很嚴謹,他們拆字拆到電腦沒有的字根或部件時
,就不得不造個新字,他們大概造了一千個左右的這種字。所以若要運用他們的組
字法來嚴謹的表示電腦缺字,變成是以電腦缺字來表示電腦缺字;這樣子,我覺得
在目前的一般用途上並不大,尤其是在網路上頭。

我們現在所暫時採用的組字法,若考慮與中研院資訊在符號上相容的話,主要的表
示符號將會是:∞(橫連)、%(直連)、◎(包含),以及新加入-+?三個符
號。後面這三個新加入的符號,其定義如下:

-  表去掉某部份                                  如:青=〔請-言〕
-+若前後配合,表示去掉某部份而改以另一部份代替  如:閒=〔間-日+月〕
?  表字根特別,尚未找到足以表示者                如:背=〔(?∞匕)%月〕

以維彰兄上文所提的「爽」字,此字目前在中研院資訊所的中文字形資料庫中乃一
字根,假設它真是一個缺字的話,那麼中研院資訊所可能會利用所造的部件來表示
這個字吧!但在我而言,這個缺字的組合表示式可以「勉強」簡便的用〔塽-土〕
表示;說「勉強」是因為那個「土」字的最後一筆有點不一樣,若要更精準些應該
是〔塽-(坎-欠)〕。

「-+?」這三個新加入的符號,減號及加號是試圖突破原先組字符號概念中只有
∞(橫連)、%(直連)、◎(包含)的限制,因為以「爽」字來講,說什麼上下
、左右、包含呢?所以用個減號就解決了,雖然表示出來的「爽」字在符號意義上
好像比原來的「爽」字瘦一些,但那意思已經明白的達到了。而問號則是我們自知
在不對部件造字的情況下,總有少部份無法表示的部件;我們這只是一個便利的手
法,絕不是萬能的。

我在前文末後的那段話,是某年某月某時維彰兄托夢付囑給我的(開個玩笑!)。

----------
摩訶工作室
吳寶原
Tel:(02)6741715
E-mail:maha@tpts1.seed.net.tw


閱讀文章: 第 282/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org