空白用画像 ぶぶ漬けやバナー空白用画像 XREA.COM
XREA.広告
空白用画像 空白用画像

戻る(Z)

文字実体参照

HTML 4.01 文字実体参照やXHTML 文字実体参照の注意点を私的に和訳し抜粋しています。
HTML 4.01 文字実体参照一覧表の私的和訳(1)は、Latin-1(2)Special(3)Symbols(4)に分類されています。

文字参照の概要

文字参照とは、SGMLにおいて、ある種の特別な機能を持つ文字でキーボードで直接入力できない文字 < & などをデータ文字としてHTMLソースなどで特別な使い方をされている文字を記述し表現する場合の方法です。

文字参照の方法には、ISO/IEC-10646( Unicode )の文字コード位置を指定する方法で、数値文字参照(A)と、 DTD で宣言された名前で指定する方法の文字実体参照(B)があります。

HTML 4の文字セット(character set)は ISO 10646-1 (USC-4) となっています。現在ではBMP(C)しか定められていません。このBMP面の文字(256×256 の65536字)は、いわゆるユニコードと呼ばれている文字セットです。HTML4.0における文字参照の数値はこの文字セットの番号(コードポイント)ということになります。

数値文字参照

数値文字参照は、ISO/IEC-10646( Unicode )の文字コード位置を10進数または16進数で表記し指定します。例えば、<を文字コード位置にすると
10進数で指定する場合は、&#60; のように文字コード位置を &#;で囲みます。
16進数で指定する場合は、&#x3C; のように文字コード位置を&#x;で囲みます。16進数表記を指定するために#の後に小文字のxがあることと古いブラウザには認識されないことに注意してください。(XHTML文書には、必ず16進数のXを小文字にして下さい。)

文字実体参照

文字実体参照は、&lt; のように DTD で宣言されたシンボル的な名前で指定します。ASCII十進は 大文字小文字が区別されるので注意してください。例えば、文字実体参照「&aring;」は「小文字であるaの上にring(リング)がついた文字」となり、「&Aring;」は「大文字であるAの上にring(リング)がついた文字」となります。「&aring;」は数値の「&#229;」よりも覚えやすい事も事実です。

文字実体参照の注意点

NN4やIE4などの HTML4.0 に対応していないブラウザでは、文字実体参照をほとんど正しく表示できません。これらのブラウザで表示させたい場合は、 数値文字参照 を用いてください。
HTMLに関して言えば他に「CSSの識別子(文字参照)」「RFC 2396のURI(文字参照)」「Unicode文字参照」などがあります。

「'」アポストロフィ(所有格符号)は、XML1.0 で新しく定義された文字実体参照なので、 ほとんどのブラウザでは正しく表示されないようです。そのため、 &apos; ではなく、&#39; を使用しましょう。

文字実体参照の表

数値文字参照のコード配置、文字実体参照の名前、表示、その文字の定義等の表をW3CのCharacter entity references in HTML 4 (D)を参考に製作しました。

HTMLで、よく使われている文字実体参照
文字実体参照 数値文字参照 説明
< &lt; < &#60; 小なり(less-than sign)
> &gt; > &#62; 大なり(greater-than sign)
& &amp; & &#38; アンパサンド(ampersand)
" &quot; " &#34; 二重引用符(quotation mark)
  &nbsp;   &#160; スペース改行なし(no-break space)
at sign (なし) @ &#64; アットマーク(at sign)
© &copy; © &#169; 著作権(copyright sign)
® &reg; ® &#174; 登録商標(registered sign)
&trade; &#8482; トレードマーク(trade mark sign)

コラム

BMP面(Basic Multilingual Plane)
文字の符号化に関する規格のISO 10646及びJIS X 0212では、1文字を16bitで表現するUCS-2の形式と、1文字を32bitで表現するUCS-4の形式が規定されています。このうち1文字を32bitで表現する場合には、最初の8bitが群、次の8bitが面、次の8bitが区、最後の8bitが点を表わします。よって符号化では、区と点で表わされる2次元平面が複数あり、これら複数の面からなる群が存在すると考えれば良いでしょう(1つの群は256個の面からなり群は128個ある)。このうち最初の面(群00、面00)の平面をBMP(基本多言語面、Basic Multilingual Plane)と呼びます。因みにWindows NTが採用した16bitコードのUNICODEは、このBMPの部分の文字を表現した文字コード体系なっています。

Copyright (c) Producer by System KS. 2001 All rights reserved.(W)

Valid XHTML 1.0!(X).Valid CSS!(Y)