Unicode ユニコード ウェブ標準の文字集合
Unicode ユニコード ウェブ標準の文字集合
用語:Unicode
日文:ユニコード ゆにこうど
別名:Universal Coded Character Set UTF-16 UTF-8 統一文字集合(とういつもじしゅうごう) ユニ ISO/IEC 10646 JIS X 0221
韓語:유니코드 (ゆにこど)
繁体:統一碼 tǒngyīmǎ tong3yi1ma3
簡体:统一码 tǒngyīmǎ tong3yi1ma3
意味:Unicodeとは、コンピューターで文字を扱うために制定された文字集合の1つです。Unicodeは多言語対応の文字集合で、ウェブの世界標準となっています。Unicodeを用いることで、プログラム・プラットフォーム・ウェブブラウザを超えて、文字情報の交換が可能となります。コンピューターで文字を扱う場合は、「とりあえずUnicodeのUTF-8形式」にしておけば大丈夫です。Unicodeの管理者は、ユニコードコンソーシアム(The Unicode Consortium)です。
例文:
日文:ファイルデータは、ユニコードのUTF-8
英文:Please save the file data in Unicode, UTF-8 format.
解説:ユニコード(Unicode)には、2つの大事な要素があります。
1つ目は、文字集合(もじしゅうごう Character set)です。最も身近な文字集合は「ひらがな」と「カタカナ」です。文字「あ」は、文字集合「ひらがな」に所属し、文字「イ」は、文字集合「カタカナ」に所属しています。アルファベット「A」は文字集合「ラテン文字」に所属しています。文字集合は、人間と人間、つまり人間同士で約束さえすれば、成立します。ユニコードの文字集合は21ビットの情報空間に定義され、16進法により 000000 から 10FFFF までで表現されます。
2つ目は、符号方式(ふごうほうしき)です。符号方式は、エンコード(encode)と表記されるのが一般的です。エンコードとは、文字集合をどのようにデジタルデータに変換するのか、人間と機械との約束です。例えば、文字「あ」は文字集合「ひらがな」に所属しますが、エンコードは「U+3042」となります。コンピューターは、人間と異なり、自然言語を理解しません。人間になら「ひらがなのあを書いて」と指示しますが、コンピューターには「U+3042を書いて」と指示します。
UTF-8 UTF-16 UTF-32:エンコードの方法は、UTF-8・UTF-16・UTF-32など、いくつか提案されています。初学者がまず押さえるべきはエンコードはUTF-8とUTF-16になります。
UTF-8 UTF-16 エンコードの違い:
エンコード | A | あ | 아 |
---|---|---|---|
Unicode | U+0041 | U+3042 | U+C544 |
UTF-8 | 41 | E3 81 82 | EC 95 84 |
UTF-16 | U+0041 | U+3042 | U+C544 |
年代 | 内容 | 団体 |
---|---|---|
1963(昭和38) | ASCII | ANSI |
1985(昭和60) | EUC-JP | AT&T |
1991(平成03) | unicode 1.0 | Unicode Consortium |
現代のコンピューター技術に影響を与えている文字集合として、1963年にアスキー(ASCII)が提案され、ラテン文字の文字集合が使いやすくなりました。日本語については、1985年にEUC-JPという文字集合が提案されています。1991年に提案されたUnicodeは、多言語対応を目指した文字集合です。
UnicodeのとJIS X 0221: UnicodeとJIS X 0221:Unicodeの発展に合わせて、日本政府はJIS X 0221を制定しました。「JIS X 0221は日本政府の名称」で「Unicodeはユニコードコンソーシアムの名称」という違いがありますが、内容はほぼ同じと考えてよいでしょう。
探究:
ユニコードコンソーシアム(The Unicode Consortium). https://home.unicode.org/.
質問と回答