看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 591/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: "Heaven" <j120006632@mail.chinatrust.com.tw>, 信區: BudaTech
標  題: Re: fgfc 第三次改版, 請幫忙測試並提供意見.
發信站: 國立中山大學網路組 Mailing List (Mon May 19 13:38:50 1997)
轉信站: Lion!ccnews.nsysu!buda-tech@sccid.nsysu
來  源: sccid.nsysu.edu.tw

各位好:

寫一下前因後果, 也希望大家能一起幫忙.
若您能花點時間看這一篇, 或許可以省下不少時間參考舊信  :)

> 還有,很重要的一個題外話,不知道你看到公告沒有,我們這   mailing 
> list 的信件已經自動轉上 tw.bbs.soc.religion.buddhism。對於這fgfc
> 程式的討論,我想 tw.bbs.soc.religion.buddhism 的參與者一定看得滿
> 頭霧水,因為他們看不到我們之前的一堆討論。所以,您看怎麼辦?

因有不少朋友在做佛典電子化的工作, 因鑑於有些文章已由不同的朋友重覆輸入, 
故有人想到一個好點子 (後學覺得想這個點子的人很天才耶) 將不同人輸入的文章
拿來做比較, 找出其中的差異, 如此就很快能找出輸入的錯誤或版本不同的地方.
由比較結果再來參照原始輸入的版本, 如此就能很快校對出大部份的錯誤, 除非二
人都在同一個地方輸入錯誤, 但這實在是太巧了吧  ...

後學不才, 略懂程式設計, 故動手寫了一支小程式叫 FGFC ,
工作原理大概是將二篇文
章讀入, 略去一切半形英文符號及部份全形中文符號 (中文符號以第一個 BYTE > 127

為判斷方法) , 比較後產生三個檔, 二個為依原輸入格式, 一個為差異比較表.
舉例如下:
(底下為執行 "FGFC A B AA BB XX 5 2" 的結果)

=======文章A===========
床前明月光, 疑是天上霜.
舉頭望月亮, 低頭思故鄉.

=======文章B===========
窗前明月光,
疑是地上霜。
舉頭望明月,
低頭想故鄉。

======比較結果 AA======
<<床||窗>>前明月光, 疑是<<天||地>>上霜.
舉頭望<<月亮||明月>>, 低頭<<思||想>>故鄉.

======比較結果 BB======
<<窗||床>>前明月光,
疑是<<地||天>>上霜。
舉頭望<<明月||月亮>>,
低頭<<想||思>>故鄉。

====== 比較結果差異表 XX======
******* A
     1: 床
******* B
     1: 窗
*******

******* A
     1: 天
******* B
     2: 地
*******

******* A
     2: 月亮
******* B
     3: 明月
*******

******* A
     2: 思
******* B
     4: 想
*******

====== 檔案比對結束 ======

看了累嗎? 希望您加油  :)

第一版的 FGFC 只產生了比較檔, 後來因為有了比較檔後, 修改的人還要看原稿, 
看比較檔, 再看電子檔, 然後查行數, 找相異處, 後學只做了一次,
才知道前人的辛苦.
故在第二版之後又產生了二份結果檔 (上例的檔 AA 及檔 BB) ,
可以看到下面這種符號.

<< (本篇文章所用的字) || (另一篇文章所用的字) >>

後學又寫了一個非常簡陃的漢書巨集指令, 用來尋找 <<||>> 符號處,
並由使用者決定
要使用第一組或第二組. 以減少尋找某行某字的時間.

問題來囉! 因為一些程式上的缺陷, 有些功能尚未解決,
希望各種專長的網友能提供意見.

1.比較邏輯的問題, 題目如下 (假設連續兩字相同則判斷為相同) :

 色空空不異色色即是空空即是色
 色不異空空不異色色即是空空即是色

 程式會比較成(好的結果)

 色  空空不異色色即是空空即是色
 色不異空空不異色色即是空空即是色

 但反過來有時會比較成(這樣就亂了)

 色  不異    空空...不異色色即是空空即是色
 色空空不異色色即是空空...即是色

 就是類似下列二組字串, OO 代表相同的,XX 代表不同的,我們要如何找出來
 而不誤判.

 OOXXXOOOO
 OOXXXXXOOOO

2. 半形符號的影響:

羅侯羅
羅[目*侯]羅

上二段比較後產生:

羅<<||目>>侯羅
羅[<<目||>>*侯]羅

如果都要使用第一組 (自己的那組) 則沒問題, 但若要用第二組, 就分別變成

羅目侯羅
羅[*侯]羅

造成半形符號有的多, 有的少, 這點是因為程式本來不處理任何半形, 結果不理想.
這點有待後學再想想, 當然也希望有人能完全不依後學原來的想法, 重新想看看, 是
否有較好的方法來比較二篇文章.

3.這點比較不重要, 因為在產生二篇有比較符號 <<||>> 的文章後, 須要用些好方法
 來快速找到差異並改成我們要的版本, 之前後學是用漢書的巨集寫了一個, 但不夠好
, 而且有加上第二個問題半形造成的困擾, 所以目前並沒有打算這方面改良, 直到前
  面的問題解決, 有了較正確的結果檔後, 才能依結果檔來做進一步的處理.
  當初有想到用  Word Basic 來處理, 想像中的畫面是讀入二篇文章後,
出現一個對話
  框, 並有下列的按鈕, 計功能有: 

  找到下一個 <<||>> 處 (還有不同的顏色來表示) , 
  取用第一組, 
  取用第二組, 
  皆取用第一組 (表示二者都可以, 尊重原輸入者或原版本), 
  二皆皆有錯, 並由使用者輸入正確的文字.
  
  並且在取用前還先預視取用後的結果, 嗯... 想起來就不錯,   

> 送件者: wmc <wmc@mozart.seed.net.tw>
> 漢書實在不熟幫不上忙, word 我還可以, 不過不知要判斷?

  文明兄, 您大概了解了嗎?  :p  

  大概就這三個問題, 不過第三個要等第二個解決後才能進行, 故可稍緩, 
  目前既然接上 news , 各路好手應有不少, 待收集多點意見, 再來改進, 
  後學也可稍緩改版  :p

  至於最新版的 fgfc 及漢書巨集, 待後學放上東坡站後再通知大家, 
  通常後學都放不上去, 可能又要麻煩大剛兄了 :)

  其實, 真正辛苦的, 還是那些埋首佛典輸入的朋友, 沒有他們, 這一切
  都沒有意義了.

  Heaven


閱讀文章: 第 591/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org