Unicode ユニコード ウェブ標準の文字集合>プログラミング>情報科学

この記事 > プログラミング > 情報科学
作成 更新

Unicode ユニコード ウェブ標準の文字集合


用語Unicode 
日文:ユニコード ゆにこうど 
別名:Universal Coded Character Set UTF-16 UTF-8 統一文字集合(とういつもじしゅうごう) ユニ ISO/IEC 10646 JIS X 0221
韓語유니코드 (ゆにこど)
繁体統一碼 tǒngyīmǎ tong3yi1ma3
簡体统一码 tǒngyīmǎ tong3yi1ma3
意味:Unicodeとは、コンピューターで文字を扱うために制定された文字集合の1つです。Unicodeは多言語対応の文字集合で、ウェブの世界標準となっています。Unicodeを用いることで、プログラム・プラットフォーム・ウェブブラウザを超えて、文字情報の交換が可能となります。コンピューターで文字を扱う場合は、「とりあえずUnicodeのUTF-8形式」にしておけば大丈夫です。Unicodeの管理者は、ユニコードコンソーシアム(The Unicode Consortium)です。
例文:
日文ファイルデータは、ユニコードのUTF-8けいしきで、ぞんしてください。 
英文Please save the file data in Unicode, UTF-8 format. 
解説:ユニコード(Unicode)には、2つの大事な要素があります。

1つ目は、文字集合(もじしゅうごう Character set)です。最も身近な文字集合は「ひらがな」と「カタカナ」です。文字「あ」は、文字集合「ひらがな」に所属し、文字「イ」は、文字集合「カタカナ」に所属しています。アルファベット「A」は文字集合「ラテン文字」に所属しています。文字集合は、人間と人間、つまり人間同士で約束さえすれば、成立します。ユニコードの文字集合は21ビットの情報空間に定義され、16進法により 000000 から 10FFFF までで表現されます。

2つ目は、符号方式(ふごうほうしき)です。符号方式は、エンコード(encode)と表記されるのが一般的です。エンコードとは、文字集合をどのようにデジタルデータに変換するのか、人間と機械との約束です。例えば、文字「あ」は文字集合「ひらがな」に所属しますが、エンコードは「U+3042」となります。コンピューターは、人間と異なり、自然言語を理解しません。人間になら「ひらがなのあを書いて」と指示しますが、コンピューターには「U+3042を書いて」と指示します。
UTF-8 UTF-16 UTF-32:エンコードの方法は、UTF-8・UTF-16・UTF-32など、いくつか提案されています。初学者がまず押さえるべきはエンコードはUTF-8とUTF-16になります。

UTF-8 UTF-16 エンコードの違い:

エンコード
UnicodeU+0041U+3042U+C544
UTF-841E3 81 82EC 95 84
UTF-16U+0041U+3042U+C544
UTF-8(Unicode Transformation Format 8) エンコード: UTF-8は、Unicodeの文字集合を8bitで整理してきます。UTF-8はリナックス(Linux)やウェブ(Web)で広く普及しています。詳細な仕様はRFC-3629に記載されています。 UTF-16(Unicode Transformation Format 16) エンコード: UTF-16は、Unicodeの文字集合を16bitで整理してきます。UTF-16はウインドウズ(Windows)やジャバ(JAVA)で広く普及しています。 歴史:
年代内容団体
1963(昭和38)ASCIIANSI
1985(昭和60)EUC-JPAT&T
1991(平成03)unicode 1.0Unicode Consortium
コンピューターで文字集合を扱う技術については、コンピューターの黎明期から、提案はされていました。しかし、漢字の統一が難しかったように、コンピューターの文字集合の統一も難しかったようで、20世紀にはいくつも技術が乱立し、利用者は不便を感じていました。

現代のコンピューター技術に影響を与えている文字集合として、1963年にアスキー(ASCII)が提案され、ラテン文字の文字集合が使いやすくなりました。日本語については、1985年にEUC-JPという文字集合が提案されています。1991年に提案されたUnicodeは、多言語対応を目指した文字集合です。

UnicodeのとJIS X 0221: UnicodeとJIS X 0221:Unicodeの発展に合わせて、日本政府はJIS X 0221を制定しました。「JIS X 0221は日本政府の名称」で「Unicodeはユニコードコンソーシアムの名称」という違いがありますが、内容はほぼ同じと考えてよいでしょう。

探究:
ユニコードコンソーシアム(The Unicode Consortium). https://home.unicode.org/.

全文を読む


Django

Github

Python

Nginx

Windows

Linux

PostgreSQL

ウェブ

プログラミング

中学受験講座

高校受験講座

大学受験講座

社会人講座