看板: BudaTech ◎ 佛典電子化討論 板主: HeavenChow |
閱讀文章: 第 591/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
發信人: "Heaven" <j120006632@mail.chinatrust.com.tw>, 信區: BudaTech 標 題: Re: fgfc 第三次改版, 請幫忙測試並提供意見. 發信站: 國立中山大學網路組 Mailing List (Mon May 19 13:38:50 1997) 轉信站: Lion!ccnews.nsysu!buda-tech@sccid.nsysu 來 源: sccid.nsysu.edu.tw 各位好: 寫一下前因後果, 也希望大家能一起幫忙. 若您能花點時間看這一篇, 或許可以省下不少時間參考舊信 :) > 還有,很重要的一個題外話,不知道你看到公告沒有,我們這 mailing > list 的信件已經自動轉上 tw.bbs.soc.religion.buddhism。對於這fgfc > 程式的討論,我想 tw.bbs.soc.religion.buddhism 的參與者一定看得滿 > 頭霧水,因為他們看不到我們之前的一堆討論。所以,您看怎麼辦? 因有不少朋友在做佛典電子化的工作, 因鑑於有些文章已由不同的朋友重覆輸入, 故有人想到一個好點子 (後學覺得想這個點子的人很天才耶) 將不同人輸入的文章 拿來做比較, 找出其中的差異, 如此就很快能找出輸入的錯誤或版本不同的地方. 由比較結果再來參照原始輸入的版本, 如此就能很快校對出大部份的錯誤, 除非二 人都在同一個地方輸入錯誤, 但這實在是太巧了吧 ... 後學不才, 略懂程式設計, 故動手寫了一支小程式叫 FGFC , 工作原理大概是將二篇文 章讀入, 略去一切半形英文符號及部份全形中文符號 (中文符號以第一個 BYTE > 127 為判斷方法) , 比較後產生三個檔, 二個為依原輸入格式, 一個為差異比較表. 舉例如下: (底下為執行 "FGFC A B AA BB XX 5 2" 的結果) =======文章A=========== 床前明月光, 疑是天上霜. 舉頭望月亮, 低頭思故鄉. =======文章B=========== 窗前明月光, 疑是地上霜。 舉頭望明月, 低頭想故鄉。 ======比較結果 AA====== <<床||窗>>前明月光, 疑是<<天||地>>上霜. 舉頭望<<月亮||明月>>, 低頭<<思||想>>故鄉. ======比較結果 BB====== <<窗||床>>前明月光, 疑是<<地||天>>上霜。 舉頭望<<明月||月亮>>, 低頭<<想||思>>故鄉。 ====== 比較結果差異表 XX====== ******* A 1: 床 ******* B 1: 窗 ******* ******* A 1: 天 ******* B 2: 地 ******* ******* A 2: 月亮 ******* B 3: 明月 ******* ******* A 2: 思 ******* B 4: 想 ******* ====== 檔案比對結束 ====== 看了累嗎? 希望您加油 :) 第一版的 FGFC 只產生了比較檔, 後來因為有了比較檔後, 修改的人還要看原稿, 看比較檔, 再看電子檔, 然後查行數, 找相異處, 後學只做了一次, 才知道前人的辛苦. 故在第二版之後又產生了二份結果檔 (上例的檔 AA 及檔 BB) , 可以看到下面這種符號. << (本篇文章所用的字) || (另一篇文章所用的字) >> 後學又寫了一個非常簡陃的漢書巨集指令, 用來尋找 <<||>> 符號處, 並由使用者決定 要使用第一組或第二組. 以減少尋找某行某字的時間. 問題來囉! 因為一些程式上的缺陷, 有些功能尚未解決, 希望各種專長的網友能提供意見. 1.比較邏輯的問題, 題目如下 (假設連續兩字相同則判斷為相同) : 色空空不異色色即是空空即是色 色不異空空不異色色即是空空即是色 程式會比較成(好的結果) 色 空空不異色色即是空空即是色 色不異空空不異色色即是空空即是色 但反過來有時會比較成(這樣就亂了) 色 不異 空空...不異色色即是空空即是色 色空空不異色色即是空空...即是色 就是類似下列二組字串, OO 代表相同的,XX 代表不同的,我們要如何找出來 而不誤判. OOXXXOOOO OOXXXXXOOOO 2. 半形符號的影響: 羅侯羅 羅[目*侯]羅 上二段比較後產生: 羅<<||目>>侯羅 羅[<<目||>>*侯]羅 如果都要使用第一組 (自己的那組) 則沒問題, 但若要用第二組, 就分別變成 羅目侯羅 羅[*侯]羅 造成半形符號有的多, 有的少, 這點是因為程式本來不處理任何半形, 結果不理想. 這點有待後學再想想, 當然也希望有人能完全不依後學原來的想法, 重新想看看, 是 否有較好的方法來比較二篇文章. 3.這點比較不重要, 因為在產生二篇有比較符號 <<||>> 的文章後, 須要用些好方法 來快速找到差異並改成我們要的版本, 之前後學是用漢書的巨集寫了一個, 但不夠好 , 而且有加上第二個問題半形造成的困擾, 所以目前並沒有打算這方面改良, 直到前 面的問題解決, 有了較正確的結果檔後, 才能依結果檔來做進一步的處理. 當初有想到用 Word Basic 來處理, 想像中的畫面是讀入二篇文章後, 出現一個對話 框, 並有下列的按鈕, 計功能有: 找到下一個 <<||>> 處 (還有不同的顏色來表示) , 取用第一組, 取用第二組, 皆取用第一組 (表示二者都可以, 尊重原輸入者或原版本), 二皆皆有錯, 並由使用者輸入正確的文字. 並且在取用前還先預視取用後的結果, 嗯... 想起來就不錯, > 送件者: wmc <wmc@mozart.seed.net.tw> > 漢書實在不熟幫不上忙, word 我還可以, 不過不知要判斷? 文明兄, 您大概了解了嗎? :p 大概就這三個問題, 不過第三個要等第二個解決後才能進行, 故可稍緩, 目前既然接上 news , 各路好手應有不少, 待收集多點意見, 再來改進, 後學也可稍緩改版 :p 至於最新版的 fgfc 及漢書巨集, 待後學放上東坡站後再通知大家, 通常後學都放不上去, 可能又要麻煩大剛兄了 :) 其實, 真正辛苦的, 還是那些埋首佛典輸入的朋友, 沒有他們, 這一切 都沒有意義了. Heaven |
閱讀文章: 第 591/2032 篇 | 上篇 | 下篇 | 回覆 | 轉寄 | 轉貼 | m H d | 返回 |
卍 台大獅子吼佛學專站 http://buddhaspace.org |