中文 BIG5 碼 vs CCITT 碼?

~---------- Forwarded message ----------
Date: Fri, 8 Sep 1995 17:35:26 +0800 (CST)
From: David Chiou <b83050@cctwin.ee.ntu.edu.tw>

以下是以前關於 BIG5 vs CCCII 內碼的一些討論。

須注意的事： CCCII 在國內圖書館界已行之有年，不過若就佛典
             完全電子化的考量，問題如同上次花園大學的調查
             所顯示的，仍有待商確。

不過最大的問題是：好的東東，不見得是人們通用的東東。
                  不通用的好東東，只能自己收著，對大眾就沒有用了。

所以不論最後是採何種交換碼（ CCCII? BIG5 改良版? CNS 中央標準碼? ），
最後都得再轉出一份通用的 BIG-5 格式。


聖性法師正打算推動使用 BIG-5 改良版，不過這個版本的最大問題，
就是不能公開出售，因為是由倚天內部的學佛者所更改的，而不是
倚天公司所發佈（況且這套改良版只是個構想，尚未正式著手進行）。
所以，對於一般的倚天使用者，這套 BIG-5 改良版有跟沒有一樣，
而且還無法提供非常龐大的造字數（只是比起標準的 BIG-5
大得多，多到多少我就不知道了。） 

花園大學的心得，是分為 master date 及 user date 。
他們現在是以 BIG-5 輸入為準，透過其 ZenBase CD
上所附的「中文碼轉譯器」來進行加字的工作，理論上可以很快的
轉換至各種內碼。

中央數學系單教授則是建議我們使用 CNS 內碼作為 master date。
以單教授在國內外此類相關討論區的多年資歷，是值得我們列入參考的。


這一切，我也不大清楚，就等看看哪位學長取得花園大學那套
「中文碼轉譯器」，大家用過了後才能見真章。

否則，聖性法師應該將繼續推動改良版 BIG-5 （在沒有證明
花園大學那套有實用價值前），有的人甚至還打算設計新的內碼
系統（這種人先不理他），還有使用 CCCII ，還有使用 CCCII
很久後碰到問題的，還有人使用 CNS, etc.   唯一的交集仍然
只有「最後要轉出一份 BIG-5 的檔案」，其餘仍舊是在戰國時代。



"'*-._,_.-*'"'*-._,_.-*'"'*-._,_.-*'"'*-._,_.-*'"'*-._,_.-*'"'*-._,_.-*'" 

      URL:  http://www.ee.ntu.edu.tw/~b83050
   E-mail:  b83050@cctwin.ee.ntu.edu.tw ; david@math.ncu.edu.tw
   邱大剛,  Sophomore of Electrical Engineering Department,NTU.





==> Rollaned.bbs@bbs.ee.nthu. (風のように) 提到:
:    那我想請教您一下, 上次我做通訊錄時, 有個字打不出來, 就是
:    " 薀 " 然後把水字邊去掉, 這個字不論我怎麼弄都出不來 !
:    可否請教您如何打出來 ? 謝謝....
:    ps : 到現在才發現倚天中文是如何的不完整, 害我同學不能用她自己的名字 !
:    告訴各位 ! 連她學生證上的名字都是用 "薀" 來代替原來的字說, 好可憐 !

  說到某人的名字「電腦打不出來」，心中又開始感慨。

  半年前，台大的  BBS 在討論為什麼台大沒有電子榜。後來演變到有人的名字
在 Big5 中找不到，我一時「激憤」回了一帖，如下所示第一篇。後來，許多帖
子也跟著一起討論，不過大概可分成兩個方向：一是討論中文內碼；另一是題目
是 Ungian 君牽出來的，討論國字本身。

  以下，我將討論中文內碼的部份整理出來，提供各位參考。希望能讓更多人了
解及重視這個問題。語言是活的，會隨著使用者而逐漸發展；最有影響力的中文
使用者是──如果現在不是，那不久的將來必定是──電腦。如果中文不能在電
腦上妥善的處理，對於中華文化的發展，必定是一大阻礙。

  為了不跟本版的主題脫節，請問是否有人願意另開話題，來討論中文內碼使用
兩位元以上時，對程式設計有多大影響？

亦驢候教

=========================================================================
Newsgroups: tw.bbs.campus.ntu
Subject: Re: 臺大不願意公布電子榜的原因
=========================================================================
From: rux@eembox.ncku.edu.tw (RUX)

   若有人因名字不在 Big5 中, 而造成任何困擾, 建議你可以把帳算在"何x慈"
 這個人身上. 各位可知, 六七萬個中國字當中有多少字不在 Big5 中? 而 Big5
 中又有多少字不是中國字 (特殊符號除外)?  各位可曾聽說過 CCCII 這個完整
 且考慮周詳的中文交換碼, 是如何被何x慈用卑劣的手段將之排擠於國家標準之
 外? 卻用從日本抄來的字碼當國家標準. Big5 脫胎於此, 當然問題叢生....

   中文在電腦上的應用越廣, Big5 的遺毒就愈深. 自從看了 CCCII 的發展歷程
 之後, 看到 Big5 的毛病, 就有一股無名之火.....
=========================================================================
From: rux@eembox.ncku.edu.tw (RUX)

Iunn Ungian (iug@ccms.ntu.edu.tw) wrote:

>據我所知, Unicode雖然保留漢字空間有一萬多字, 但是問題可能跟
>Big-5一樣, 反正制定標準的人最大, 一切以他(她)的意見為意見。

  Unicode 把中日韓的漢字通通混在一起，問題確實很大。

>但是, CCCII的問題也是很大, 不是嗎 ? 異體字是很麻煩的東西, 只要
>有轉碼的機會, 總是會漏東漏西。

  CCCII 有考慮到異體字。異體字皆在不同字面的相同位置。

>另外想起一件較不相關的事, 「和」可以讀ㄏㄢˋ 也可以讀 ㄏㄜˊ,
>白話文運動時, 利用「和」這字做and 的意思, 使用這字的人要讀 後者,
>但是總要訂個標準, 當初選擇齊鐵恨的腔口做標準, 在北京, 有少數人
>(如齊鐵恨)"and" 是讀 前者, 於是, 「和」這字就多了一個音了。
>我想, 只要你想使用漢字、使用中文, 許多麻煩的問題都逃不掉的。
>我一直覺得漢字是進步的包袱, 不過要改變, 談何容易 ?

    我不敢說漢字是進步的動力，但漢字絕不是進步的包袱。至少幾千年來
  所造就的，曾是世界上數一數二的高度文明。她的包袱在於：改變時代的
  利器，計算機，經常忽略她的存在。這一點，你我都難辭其疚。

    漢字在計算機上的麻煩其實不大：對使用者來說，輸入似乎是最大的麻
  煩，但我覺得除了中英混合輸入比較傷腦筋外，輸入中文和輸入英文並沒
  兩樣（何況，現今的輸入法非常進步。如許聞廉博士開發的「國音」好學
  易用）；對於程式設計師來說，只要有標準可循就沒有太大的困難。難就
  難在這裡，標準不可閉門自訂，需符合現行國際標準。這一點，國字整理
  小組已經為我們邁出成功的一步（CCCII 已經在美圖書館界使用十多年，
  中日韓的資料據以歸檔）；但仍有艱苦的路要走。ISO 10646 及 UniCode
  這兩個世界性的多國語言交換碼標準正在制訂中，可悲的是它們都是以西
  方人的觀點來看方塊字。這還不算什麼，更可悲的是自家人扯自家人的後
  腿。國字整理小組的成功使某些黑官眼紅，遂拿出辭海「亂點鴛鴦普」也
  跟著編了一套叫什麼東東的中文碼，並仗權勢推廣，壓抑 CCCII。當然，
  外行充內行，牛皮很快就吹破了。可是，此票人卻也發揮百折不撓的精神
  ，自此國家標準一年一變，開始為禍千年的「五碼亂華」。Big 5 便是這
  混亂下的產品。並不是它有什麼強處，在急迫的需求下，錯的最少的也能
  出頭。而考慮周延、有學理根據的 CCCII 卻在美國流浪。
=========================================================================
From: syc@cc.ntu.edu.tw (Shiau Yong-Ching)

RUX (rux@eembox.ncku.edu.tw) wrote:

:     我不敢說漢字是進步的動力，但漢字絕不是進步的包袱。至少幾千年來
:   所造就的，曾是世界上數一數二的高度文明。她的包袱在於：改變時代的
:   利器，計算機，經常忽略她的存在。這一點，你我都難辭其疚。

是啊,只怪中國人太不爭氣了....曾經看過朱邦復先生的'組合語言的藝術'
一書,雖然沒有學到什麼組合語言,但是對於電腦中文化的歷史感受良多,貢獻的
人少,破壞的人多......Internet在台灣越來越普及,Big5碼的地位也越來越無法動
搖,中文電腦的夢想也越來越希望渺茫了..
=========================================================================
From: iug@ccms.ntu.edu.tw (Iunn Ungian)

我個人贊成拼音文字是根據自己的經驗, 我沒有學過速記, 有一次
我在記一場會議的談話, 那次是台語, 因為我會羅馬拼音, 所以我
是用羅馬拼音來記錄的, 發現速度跟得上, 但是, 若使用漢字顯然
沒有辦法。

我並沒有主張廢漢字, 前面有些網友的討論顯然已經把我的想法等同
於廢漢字了。 其實, 我們現在沒有在使用篆體寫字, 平常沒有用毛筆
寫字, 不是嗎? 但是漢字還是在。

研究生時期, 連同擔任助理的時期, 我接觸中文自然語言處理有
三年半的時間, 有許多事情並非因為我很有興趣而去探索, 而是側面
聽來而漸漸得到的一些概念。

我們現在來想一件事, 假設我是一個文字創作者, 今天, 我靈感來了,
腦子裡有一個概念, 當我想把這個概念轉成文字記錄下來是, 那麼,
我們是怎麼做轉換 ? 轉成音(注音輸入法的概念) ? 轉成字素(倉頡
輸入法的概念) ? 轉成漢字的字形 (沒辦法輸入) ? 

第三種方法可能最自然, 但是得用手寫, 速度慢, 修改麻煩;
其次可能是第一種, 但是這已經不是自然的反應, 其實也是拆
音素的方式, 注音雖然慢, 新的輸入法(如漢音、國音……等)
可以解決一些問題; 第二種方式最不自然, 但是輸入速度最快。
這點,朱邦復的貢獻確實很大。

當初中文電腦剛起步, 有大鍵盤, 也許以人的習慣而言,這種方式
並不利便, 漸漸消失了 。 另外一種觀念, 各種筆劃存在電腦裡,
用這些筆劃結合成一個字, 這個方法其實很有用, 試想, 我們
一般用的漢字可能頂多三千個, 而我們為了成就這三千個字, 每次
進中文系統, 就是load 13053 字, 老實說似乎有點不值得, 現在的
電腦可能好多了, 再幾年前, 一進中文, 很多應用軟體不能使用。
筆劃結合成字還可省造字的問題, 聽說技術上也不是問題, 為什麼
會沒了下文, 我自己並為著清楚, 希望知情的人告知。

CCCII 我詳細情形不清楚, 我只知道他們一直在收集字, 看到就收,
因此它的set 有多大, 現在沒人知道, 而且聽說有 2-byte/3-byte/
4-byte, 而且只要set 存在, sequence(字序)就是一個逃避不了的
問題, CCCII 的方式, 我猜想字序會很亂, 另外一個問題是, 可能
一個無心的錯誤, 就多了一個異體字, 然後CCCII就多了一個原本是
錯誤的字, 這個情形真的有發生過。

異體字的問題, 也許沒有各位想的簡單, 舉個例子, "甚麼"=="什麼",
這個時候 "甚"=="什", 但是 "甚至"<>"什至", 所以這個時候 "什"<>"甚",
語境(context)的問題。

CCCII的觀念與大部分使用漢字者心中, 並沒有詞的觀念, 有的只是
字的觀念, 中文在做自然語言處理時, 一定得用詞做單位來存
Information, 例如"台"=="臺"(這是BIG-5可以找到的少數例子, CCCII
就多了), 所以我們要做的link 其實很多, 當然, 技術上還是可以克服,
但是牽涉語境時, 這link 遠比想像中複雜。

還有很多東西值得談談, 不過我還有其它事情, 下禮拜禮拜二起要請假
(......不可說), 有空再談了。 有件事倒想先說說, 國音輸入法, 個人
覺得許聞廉貢獻不大, 這牽涉到一些人與人之間的恩怨, 以後再說了。

        Ungian 94'0617
=========================================================================
From: r2701017@hp850s.ntu.edu.tw (Koan-Chiu Jim 3821653)

CCCII 不被採用干 Big5 何事？
有中文電腦基礎的人就知道，CCCII 是交換碼 ， BIG5 是內碼，交換碼和內碼
是不同的東西，各有各的用途。BIG5 從來就不受官方支持，它的地位是靠倚天
國喬打出市場佔有率的。而當年擠掉 CCCII 的那套 2 bytes 國家交換碼，也沒
有人把電子榜單不存在原先討論的問題,我只能說NTU CC太爛了。
:         ****所以,不要因電子榜單做不好將問題歸究於中文碼;
:         ****也不要因中文碼設計不好將問題歸究於漢字。
:         實際上,中文碼及漢字都有其需要再檢討,但決不是因為中文榜單及中文
:         碼。
=========================================================================
From: rux@eembox.ncku.edu.tw (RUX)

Koan-Chiu Jim (r2701017@hp850s.ntu.edu.tw) wrote:

>CCCII 不被採用干 Big5 何事？

  一、 CCCII、Big5 和「那套 2 bytes 國家交換碼」之間的關連，我都是從以下
      兩本書看來的：「國字整理小組十年」、「萬碼奔騰、一碼當先」。從這兩
      本書，CCCII 和 Big5 確是有間接的關係。不過，話說回來，只看了兩本書
      就來這邊大吹大擂，可能犯了以偏蓋全的錯。若有任何錯誤，請各位先進告
      訴我，我願意更正及道歉。我也想多找一些這一方面的資料，希望知道的人
      能給我 mail。

  二、交換碼和內碼的意義確實不同，但內容可以是相同的。兩者相同應該只有好
      處吧？（我需要研究研究 :->）另外，如果你承認  CCCII 是好的交換碼，
      那我說 Big5 不是一套好的內碼，也不算錯得很嚴重。因為內碼不應該和交
      換碼沒辦法一一對應。
      
  三、2 bytes 的內碼在當時的環境下，確實比較容易裝在 PC 上。至少螢幕佔兩
     個位置就表示兩個 byte，是很吸引人的。但在現今的圖形介面下，我不認為
     3 bytes 會造成任何問題。 3 bytes 的中文電腦不是沒有，王安即是一個最
     有名的例子（王安倒了，像是反例，有沒有人幫我舉個好例子？:-(）

  四、我確實想題應該是想換一套更好的內碼吧。謝謝你幫我釐清邏輯。 :-)

  五、ＴＣＡ？我可孤陋寡聞了，能不能告訴我那邊可找到資料呢？
=========================================================================
From: u8113002@csie.nctu.edu.tw (Brian_H.S.Chen)

    朱邦復是倉頡的發明人，現在正在花蓮清修，不知道他下一部要做啥
    至於 big-5 這個「不良內碼」跟 CCCII 之間的糾纏不清我們在 Linux
    中文系統 chdrv 的製造當中就大吃苦頭，姑且不論 CCCII 怎樣，國
    外目前的解決方案也不會太爛：4 byte 字碼 unicode，在 Windows NT
    上已經配備，希望吃下全世界文字。各位以為中文在 unicode 當中會
    找到新的希望嗎？
=========================================================================