看板: BudaTech ◎ 佛典電子化討論    板主: HeavenChow
閱讀文章: 第 590/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回
發信人: "Heaven" <j120006632@mail.chinatrust.com.tw>, 信區: BudaTech
標  題: Re: fgfc 第三次改版, 請幫忙測試並提供意見.
發信站: 國立中山大學網路組 Mailing List (Mon May 19 13:06:42 1997)
轉信站: Lion!ccnews.nsysu!buda-tech@sccid.nsysu
來  源: sccid.nsysu.edu.tw

各位好:

寫一下前因後果, 也希望大家能一起幫忙.
若您能花點時間看這一篇, 或許可以省下不少時間參考舊信  :)

> 還有,很重要的一個題外話,不知道你看到公告沒有,我們這   mailing 
> list 的信件已經自動轉上 tw.bbs.soc.religion.buddhism。對於這fgfc
> 程式的討論,我想 tw.bbs.soc.religion.buddhism 的參與者一定看得滿
> 頭霧水,因為他們看不到我們之前的一堆討論。所以,您看怎麼辦?

因有不少朋友在做佛典電子化的工作, 因鑑於有些文章已由不同的朋友重覆輸入, 
故有人想到一個好點子 (後學覺得想這個點子的人很天才耶) 將不同人輸入的文章
拿來做比較, 找出其中的差異, 如此就很快能找出輸入的錯誤或版本不同的地方.
由比較結果再來參照原始輸入的版本, 如此就能很快校對出大部份的錯誤, 除非二
人都在同一個地方輸入錯誤, 但這實在是太巧了吧  ...

後學不才, 略懂程式設計, 故動手寫了一支小程式叫 FGFC ,
工作原理大概是將二篇文
章讀入, 略去一切半形英文符號及部份全形中文符號 (中文符號以第一個 BYTE > 127

為判斷方法) , 比較後產生三個檔, 二個為依原輸入格式, 一個為差異比較表.
舉例如下:
(底下為執行 "FGFC A B AA BB XX 5 2" 的結果)

=======文章A===========
床前明月光, 疑是天上霜.
舉頭望月亮, 低頭思故鄉.

=======文章B===========
窗前明月光,
疑是地上霜。
舉頭望明月,
低頭想故鄉。

======比較結果 AA======
<<床||窗>>前明月光, 疑是<<天||地>>上霜.
舉頭望<<月亮||明月>>, 低頭<<思||想>>故鄉.

======比較結果 BB======
<<窗||床>>前明月光,
疑是<<地||天>>上霜。
舉頭望<<明月||月亮>>,
低頭<<想||思>>故鄉。

====== 比較結果差異表 XX======
******* A
     1: 床
******* B
     1: 窗
*******

******* A
     1: 天
******* B
     2: 地
*******

******* A
     2: 月亮
******* B
     3: 明月
*******

******* A
     2: 思
******* B
     4: 想
*******

====== 檔案比對結束 ======

看了累嗎? 希望您加油  :)

第一版的 FGFC 只產生了比較檔, 後來因為有了比較檔後, 修改的人還要看原稿, 
看比較檔, 再看電子檔, 然後查行數, 找相異處, 後學只做了一次,
才知道前人的辛苦.
故在第二版之後又產生了二份結果檔 (上例的檔 AA 及檔 BB) ,
可以看到下面這種符號.

<< (本篇文章所用的字) || (另一篇文章所用的字) >>

後學又寫了一個非常簡陃的漢書巨集指令, 用來尋找 <<||>> 符號處,
並由使用者決定
要使用第一組或第二組. 以減少尋找某行某字的時間.

問題來囉! 因為一些程式上的缺陷, 有些功能尚未解決,
希望各種專長的網友能提供意見.

1.比較邏輯的問題, 題目如下 (假設連續兩字相同則判斷為相同) :

 色空空不異色色即是空空即是色
 色不異空空不異色色即是空空即是色

 程式會比較成(好的結果)

 色  空空不異色色即是空空即是色
 色不異空空不異色色即是空空即是色

 但反過來有時會比較成(這樣就亂了)

 色  不異    空空...不異色色即是空空即是色
 色空空不異色色即是空空...即是色

 就是類似下列二組字串, OO 代表相同的,XX 代表不同的,我們要如何找出來
 而不誤判.

 OOXXXOOOO
 OOXXXXXOOOO

2. 半形符號的影響:

羅侯羅
羅[目*侯]羅

上二段比較後產生:

羅<<||目>>侯羅
羅[<<目||>>*侯]羅

如果都要使用第一組 (自己的那組) 則沒問題, 但若要用第二組, 就分別變成

閱讀文章: 第 590/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回

卍 台大獅子吼佛學專站  http://buddhaspace.org