Arabic Shaping

阿拉伯語系在文字處理上是我目前所知道最複雜的。阿拉伯文一些獨有的特性,導致其文字儲存時的編碼或在記憶體的原始 Unicode characters 序列,跟最後螢幕上看到的有很大的差異。

兩者最大的差異有:

  • 順序不同
    • 阿拉伯文的書寫(或顯示)順序是由右向左的
    • 阿拉伯文字元序列間如果有數字或英文等左邊開始書寫的文字,這些左向右寫的文字,呈現時不能跟著阿拉伯字一起字序倒轉
  • 單一字元最後顯示的形狀也不同
    • 字型檔處理上,會針對最後螢幕上呈現的字元給與另一套獨立的編碼
    • 這個獨立編碼,根據最新的 Unicode 標準,是不規範的,也就是由字型檔的創造者自行處理,可參考 Generating Arabic Fonts
    • 不過為了相容,Unicode 還是保留一組編碼作為這個用途,例如阿拉伯語專用的 Arabic Presentation Forms-B ,可參考 Arabic characters in Unicode
  • 可參看 Arabic: 'source' Unicode to final display Unicode - Stack Overflow

阿拉伯文字,從記憶體中原始 Unicode 順序(memory representation in logical order),到最後螢幕呈現的結果(glyphs arrangement in visual order),中間的整個處理流程叫作造形(shaping),一般是顯示時由 rendering engine 處理的。

Arabic Shaping 可以區分成下列五部分:

  • 書寫連接(Arabic Cursive Joining)
    • 阿拉伯文只有書寫體(沒有印刷體或標準體),即使是印刷在紙上,或顯示在電腦上,都得考慮草寫連接問題
    • 連接時,每個字元會因兩旁字元不同,而有不同形狀(glyphs),以應付不連,右連,左連,双連等情況
  • 形狀重塑(Arabic Ligatures)
    • 除了連接需求外,一些連續的特定兩個字元,會結合(ligature)成另一種形狀(glyph)
  • 記號標注(Combining Marks)
    • 用來標注重音等等
  • 字序重排(Reordering)
    • 處理右到左的書寫,及混合左到右書寫的情形
  • 鏡像矯正(Mirroring)
    • 針對大於小於及括號等因左右方向不同而有不同意義的字元作修正

前三者要依序處理。字序重排及鏡像矯正可以最先處理或最後處理,但會因先後處理不同會影響到前三項處理的細節。完整的字序重排及鏡像矯正說明可以參閱 UAX #9: Unicode Bidirectional Algorithm

網路上可以找到的 source code 如下:

其中, Android 版是 CE 版的改寫,但這兩支程式都有個問題,就是沒考慮到 Combining Marks ,遇到 Transparent Joining Types 的字元時,就會出錯,這很容易遇到。第三支程式應該比較完整,但它太龐雜了,有耐心的話可以慢慢啃
。建議直接參考 Unicode6.1.0/ch08.pdf 的 8.2 Arabic 這個章節,針對會遇到的部份,自己重寫比較直接。

如果要處理的文字只有阿拉伯語(不含其他阿拉伯語系的文字,例如波斯、埃及等),那只要處理 Arabic Block 中,也有在 ISO/IEC 8859-6 列出的部份。對應的 glyphs 都可以在 Arabic Presentation Forms-B 找到。

要完整處理整個阿拉伯語系,那勢必得直接採用下列資料:

其他值得參考的資料如下:

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-ShareAlike 3.0 License