繁簡漢字的差異是許多人都知道的,例如:
繁體 | 简体 |
貝 | 贝 |
東 | 东 |
滅 | 灭 |
書 | 书 |
繭 | 茧 |
競 | 竞 |
襯 | 衬 |
礎 | 础 |
親 | 亲 |
體 | 体 |
不過上述這些是一對一的對應,不會有什麼大的問題。另外還有一些是繁簡多對一,例如:
繁體 | 简体 |
幹勁、乾淨、相干 | 干劲, 干净, 相干 |
面子、麵條 | 面子, 面条 |
屋裡、裏、公里 | 屋里, 里, 公里 |
複習、報復 | 复习, 报复 |
志向、雜誌 | 志向、杂志 |
檯燈、颱風、臺灣、天台山 | 台灯、台风、台湾、天台山 |
上述這些多對一的對應,如果利用詞彙庫,大概還是可以解決大部分。因此如果想要從簡體轉換為繁體,需要先轉換字型,然後以詞彙庫修正。 以ConvertZ為例,詞彙庫中就有這些對應詞條:
修正前 | 修正後 |
干不 | 幹不 |
干不干 | 幹不幹 |
干不干休 | 干不干休 |
干不干杯 | 乾不乾杯 |
干不干涉 | 干不干涉 |
干不干淨 | 乾不乾淨 |
干不干預 | 干不干預 |
干不干擾 | 干不干擾 |
不干不淨 | 不乾不淨 |
如果要將「干不」、「干不干」轉為繁體,則無法確定對應到哪個字,但利用「長詞優先」原則,優先轉換最長的詞,然後次長的,如此反復,即可判定。例如「干不干涉」四個字一起出現,則可知繁體為「干」;如果是「干不干淨」,則繁體應為「乾」;如果只出現「干不干」,則可知繁體為「幹不幹」。
當然,這樣的轉換方式還是無法解決所有的問題。例如,何時該是「余」、何時該是「餘」?如果「余」當成姓氏的話,就不太容易判定了。
二、繁體轉簡體
不過,從繁體轉換成簡體呢?會不會有問題? 另外一個疑問是,哪一種轉換軟體較好?為了驗證,我做了個小小實驗。方法是將一部35萬字的小說,利用ConvertZ和MS Word 轉換為簡體,儲存為UTF-8的純文字檔,然後利用UltraCompare來比較兩者的差異。字形正誤的判定是參考2003年版的《現代漢語詞典》 。
比較結果 | ConvertZ 8.02 | MS Word 2003 | ||
醉「醺醺」 | 薰 | X | 熏 | X |
學「術」 | 术 | O | 朮 | X |
站「著」 | 著 | X | 着 | O |
一「剎」那 | 刹 | O | 剎 | X |
「愣」住 | 愣 | O | 楞 | X |
折「疊」 | 叠 | O | 迭 | X |
「骯」髒 | 肮 | O | 骯 | X |
「吶」喊 | 呐 | O | 吶 | X |
笑「瞇瞇」 | 眯 | O | 瞇 | X |
; | ﹔ | ? | ; | ? |
由上表可以看出,MS Word有些錯得離譜,如「骯」、「瞇」完全沒有轉換,「疊」、「愣」根本就對應錯誤,可見得Word的繁簡轉換大有問題。另外上表中有不少字是字形的差別,但對電腦來說這是兩個不同編碼的字,如「术」與「朮 」、「呐 」與「吶」等。另外一個有名的例子是「骨」,繁體是「骨」,簡體是「骨」。網頁上好像看不出來兩者的差異,那我就轉成圖片好了,左邊是繁體,右邊是簡體:
上述的結果當然是ConvertZ勝出。不過Prof. Teng要我試試看NJ Star,所以我再度比較了ConvertZ和NJ Star的轉換結果:
ConvertZ 8.02 | Njstar 5.01 | |||
過份 | 份 | X | 分 | O |
非份 | 份 | X | 分 | O |
. | ﹒ | X | . | O |
由以上可以看出,NJ Star似乎更勝一籌,不過ConvertZ允許使用者自己修正對應表,所以上述的問題很容易解決。至於音界號(间隔号),我不太容易判斷哪個正確,但參考了中華人民共和國國家標準的〈標點符號用法〉,看起來像是NJ Star的比較正確。至於前一次比較的分號(;),MS Word位置居中,ConvertZ偏左,我就無從判定了。
三、結論
- 簡體轉換繁體問題仍多,需要進一步完善現有的對應詞彙庫。
- 繁體轉簡體時,NJ Star 優於 ConvertZ 優於 MS Word,其中以Word最不可靠,ConvertZ與 NJ Star 相差無幾。
- 以價格而言,Microsoft Word最貴,NJ Star其次,ConvertZ免費。
- 兩岸字形的細微差異,需要文字學家進一步整理。
延伸閱讀
沒有留言:
張貼留言