2006-05-23

[TCSL][Computer] 繁簡漢字轉換

一、簡體轉繁體
繁簡漢字的差異是許多人都知道的,例如:
繁體
简体

不過上述這些是一對一的對應,不會有什麼大的問題。另外還有一些是繁簡多對一,例如:
繁體
简体
幹勁、乾淨、相干 干劲, 干净, 相干
面子、麵條 面子, 面条
屋裡、裏、公里 屋里, 里, 公里
複習、報復 复习, 报复
志向、雜誌 志向、杂志
檯燈、颱風、臺灣、天台山 台灯、台风、台湾、天台山

上述這些多對一的對應,如果利用詞彙庫,大概還是可以解決大部分。因此如果想要從簡體轉換為繁體,需要先轉換字型,然後以詞彙庫修正。 以ConvertZ為例,詞彙庫中就有這些對應詞條:
修正前
修正後
干不幹不
干不干幹不幹
干不干休干不干休
干不干杯乾不乾杯
干不干涉干不干涉
干不干淨乾不乾淨
干不干預干不干預
干不干擾干不干擾
不干不淨不乾不淨

如果要將「干不」、「干不干」轉為繁體,則無法確定對應到哪個字,但利用「長詞優先」原則,優先轉換最長的詞,然後次長的,如此反復,即可判定。例如「干不干涉」四個字一起出現,則可知繁體為「干」;如果是「干不干淨」,則繁體應為「乾」;如果只出現「干不干」,則可知繁體為「幹不幹」。

當然,這樣的轉換方式還是無法解決所有的問題。例如,何時該是「余」、何時該是「餘」?如果「余」當成姓氏的話,就不太容易判定了。


二、繁體轉簡體
不過,從繁體轉換成簡體呢?會不會有問題? 另外一個疑問是,哪一種轉換軟體較好?為了驗證,我做了個小小實驗。方法是將一部35萬字的小說,利用ConvertZ和MS Word 轉換為簡體,儲存為UTF-8的純文字檔,然後利用UltraCompare來比較兩者的差異。字形正誤的判定是參考2003年版的《現代漢語詞典》 。
比較結果
ConvertZ 8.02
MS Word 2003
醉「醺醺」
X
X
學「術」
O
X
站「著」
X
O
一「剎」那
O
X
「愣」住
O
X
折「疊」
O
X
「骯」髒
O
X
「吶」喊
O
X
笑「瞇瞇」
O
X

由上表可以看出,MS Word有些錯得離譜,如「骯」、「瞇」完全沒有轉換,「疊」、「愣」根本就對應錯誤,可見得Word的繁簡轉換大有問題。另外上表中有不少字是字形的差別,但對電腦來說這是兩個不同編碼的字,如「术」與「朮 」、「呐 」與「吶」等。另外一個有名的例子是「骨」,繁體是「骨」,簡體是「」。網頁上好像看不出來兩者的差異,那我就轉成圖片好了,左邊是繁體,右邊是簡體:

上述的結果當然是ConvertZ勝出。不過Prof. Teng要我試試看NJ Star,所以我再度比較了ConvertZ和NJ Star的轉換結果:
ConvertZ 8.02
Njstar 5.01
過份
X
O
非份
X
O
X
O

由以上可以看出,NJ Star似乎更勝一籌,不過ConvertZ允許使用者自己修正對應表,所以上述的問題很容易解決。至於音界號(间隔号),我不太容易判斷哪個正確,但參考了中華人民共和國國家標準的〈標點符號用法〉,看起來像是NJ Star的比較正確。至於前一次比較的分號(;),MS Word位置居中,ConvertZ偏左,我就無從判定了。


三、結論

  1. 簡體轉換繁體問題仍多,需要進一步完善現有的對應詞彙庫。
  2. 繁體轉簡體時,NJ Star 優於 ConvertZ 優於 MS Word,其中以Word最不可靠,ConvertZ與 NJ Star 相差無幾。
  3. 以價格而言,Microsoft Word最貴,NJ Star其次,ConvertZ免費。
  4. 兩岸字形的細微差異,需要文字學家進一步整理。
===================================
延伸閱讀

沒有留言: