研究題目: ルビ・アノテーションの多言語化研究
慶應義塾大学大学院政策・メディア研究科博士課程3年 鳥原 信一
研究の背景:
慶應義塾大学大学院での研究成果を社会還元(貢献)活動として、Webページにアノテーションを付与している。
現在は、日本語のWbページにルビ(読み仮名)を付与する、ルビ・アノテーションを行っている。
http://www.adaptive-techs.com/
近年中国ビジネスのバブル化にともない、中国語Wbページに発音記号である「ピーイン(pinyin)」付与の要望が多く寄せられている。
これを実現するためには、中国語版形態素解析ソフトウェアがフリーで使用できなければならないが、いまだそのようなツールは存在していない。
そこで、現時点では、中国語のWbページについて、特に、中国語の文字コード体系について調査しておくこととする。
中国語の文字コード:
簡体字中国語
GB2312 (EUC-CN)
HZ-GB-2312
GBK
GB18030
伝統的中国語
BIG5
CNS
11643 (EUC-TW)
ISO-2022-CN
その他
UTF-8
UTF-16
中国語の文字コードの説明:
GB2312 (EUC-CN)
中華人民共和国の文字集合 GB2312 (GB は Guojia
Biaozhun 「国家標準」
の頭文字。 GuoBiao と略されることもある) は 1980年に制定され,
2バイト文字集合としては日本のものに次ぐ古さを持っている。
大変よく普及している。日本で「JISコード」というと JIS X
0208 を
さすように, 「GB碼」といえばこの GB2312 のことをさす。
HZ-GB-2312
GB2312 のコードを 7bit 環境で ASCII と混在させて使う方式で,
スタンフォード大学の李楓峰(Fung F. Li) が考案した。
GBK
GBK の K は Kuozhan (拡展) の頭文字で, 公式規格ではないが,
Microsoft Windows95 の簡体字中国語コードページ
(CodePage 936) では
この文字集合を使っており, かなり普及している。体系としては,
GB2312 に互換性を持たせつつ, UCS BMP (Unicode)
に含まれる漢字(20,902字)のうち,
GB2312 に含まれないものをすべて追加したものである。
GB18030
GB 18030 は 2000年3月17日に公布された公式の規格です。上記の
GBK と
互換性を持たせつつさらに拡張したもので, 1, 2, 4 バイトの複雑な
マルチバイト符号化文字集合になっている。
BIG5
台湾の規格協会が中心になり, 5つの会社の間で調整して作ったために
Big5 という
名前があります。 GB のような国家標準ではありませんが, 伝統的中国語の
文字集合としてはもっともよく使われている, 事実上の標準です。 2バイトで
1文字を表し, 1バイト文字(ASCII)との区別を 1バイトめの値によって行う点は
日本のシフトJIS によく似ているが, 日本のような半角カナがないため,
字数はシフトJIS よりかなり多めになっている。
CNS11643 (EUC-TW)
Big5 は国際標準を無視しているので, ISO2022 に従った形の
CNS11643 が 1986 年に
作られ, これが台湾の標準の規格ということになっている。 Big5 と
CNS11643 の
関係は,シフトJIS と JIS の関係によく似ているが,
CNS11643 が Big5 よりも
後からできた,という点に大きな違いがあります。現実には Big5 の方が
CNS11643 よりもはるかによく使われている。中国語の文字集合といえば
GB2312 と Big5
の 2つを押さえていればいいくらいです。
ISO-2022-CN
GB と CNS11643 と ASCII を混在可能な, 7bit の符号文字集合です。
RFC1922 に記述があります。