研究題目: ルビ・アノテーションの多言語化研究

慶應義塾大学大学院政策・メディア研究科博士課程3年 鳥原 信一

 

 

 

研究の背景:

慶應義塾大学大学院での研究成果を社会還元(貢献)活動として、Webページにアノテーションを付与している。

現在は、日本語のWbページにルビ(読み仮名)を付与する、ルビ・アノテーションを行っている。

http://www.adaptive-techs.com/

 

近年中国ビジネスのバブル化にともない、中国語Wbページに発音記号である「ピーイン(pinyin)」付与の要望が多く寄せられている。

これを実現するためには、中国語版形態素解析ソフトウェアがフリーで使用できなければならないが、いまだそのようなツールは存在していない。

そこで、現時点では、中国語のWbページについて、特に、中国語の文字コード体系について調査しておくこととする。

 

 

中国語の文字コード:

簡体字中国語

  GB2312 (EUC-CN)

  HZ-GB-2312

  GBK

  GB18030

伝統的中国語

  BIG5

  CNS 11643 (EUC-TW)

  ISO-2022-CN

その他

  UTF-8

  UTF-16

 

 

中国語の文字コードの説明:

GB2312 (EUC-CN)

中華人民共和国の文字集合 GB2312 (GB は Guojia Biaozhun 「国家標準」

の頭文字。 GuoBiao と略されることもある) は 1980年に制定され,

2バイト文字集合としては日本のものに次ぐ古さを持っている。

大変よく普及している。日本で「JISコード」というと JIS X 0208 を

さすように, 「GB碼」といえばこの GB2312 のことをさす。

 

 

HZ-GB-2312

GB2312 のコードを 7bit 環境で ASCII と混在させて使う方式で,

スタンフォード大学の李楓峰(Fung F. Li) が考案した。

 

 

GBK

GBK の K は Kuozhan (拡展) の頭文字で, 公式規格ではないが,

Microsoft Windows95 の簡体字中国語コードページ (CodePage 936) では

この文字集合を使っており, かなり普及している。体系としては,

GB2312 に互換性を持たせつつ, UCS BMP (Unicode) に含まれる漢字(20,902字)のうち,

GB2312 に含まれないものをすべて追加したものである。

 

 

GB18030

GB 18030 は 2000年3月17日に公布された公式の規格です。上記の GBK と

互換性を持たせつつさらに拡張したもので, 1, 2, 4 バイトの複雑な

マルチバイト符号化文字集合になっている。

 

 

 

BIG5

台湾の規格協会が中心になり, 5つの会社の間で調整して作ったために Big5 という

名前があります。 GB のような国家標準ではありませんが, 伝統的中国語の

文字集合としてはもっともよく使われている, 事実上の標準です。 2バイトで

1文字を表し, 1バイト文字(ASCII)との区別を 1バイトめの値によって行う点は

日本のシフトJIS によく似ているが, 日本のような半角カナがないため,

字数はシフトJIS よりかなり多めになっている。

 

 

CNS11643 (EUC-TW)

Big5 は国際標準を無視しているので, ISO2022 に従った形の CNS11643 が 1986 年に

作られ, これが台湾の標準の規格ということになっている。 Big5 と CNS11643 の

関係は,シフトJIS と JIS の関係によく似ているが, CNS11643 が Big5 よりも

後からできた,という点に大きな違いがあります。現実には Big5 の方が

CNS11643 よりもはるかによく使われている。中国語の文字集合といえば GB2312 と Big5

の 2つを押さえていればいいくらいです。

 

 

ISO-2022-CN

GB と CNS11643 と ASCII を混在可能な, 7bit の符号文字集合です。

RFC1922 に記述があります。