Znaky v XML dokumentech

  • Přípustné jsou jakékoli UNICODE znaky po x10FFFF (kromě xFFFE, xFFFF a rozmezí xD800 - xDFFF).

  • jména (names) musí být složena ze nemezerových znaků: číslice, písmena, . (tečka) - (pomlčka, minus) _ (podtržítko) : a dalších, musí začínat písmenem nebo _ :

  • Kódování těchto UNICODE znaků není podstatné.

  • Jako implicitní - není-li v prologu (hlavičce), např.

    <?xml version="1.0" encoding="Windows-1250"?>

    uvedeno jinak - se používá UTF-8 nebo UTF-16.

  • Rozlišení UTF-8 a UTF-16 se děje pomocí prvních dvou bajtů dokumentové entity (tj. souboru), pomocí tzv. byte-order-mark xFFFE

  • Není-li uvedena, předpokládá se UTF-8, čili UTF-8 je implicitní kódování UNICODE znaků v XML dokumentech.

Teoreticky by tedy bylo možné z obsahu souboru rozpoznat přesně, o jaké kódování se u XML dokumentu jedná...