Kanonický tvar - zásady konstrukce

Hlavní zásady konstrukce kanonického tvaru XML dokumentu:

  • kódování v UTF-8

  • zlomy řádků (CR, LF) jsou normalizovány podle algoritmu uvedeného v std. XML 1.0

  • hodnoty atributů jsou normalizovány

  • reference na znakové a parsované entity jsou nahrazeny jejich obsahem

  • CDATA sekce jsou nahrazeny jejich obsahem

  • hlavička "xml" a deklarace typu dokumentu jsou odstraněny

  • bílé znaky mimo kořenový element jsou normalizovány

  • jiné bílé znaky (vyjma normalizace zlomu řádků) jsou zachovány

  • hodnoty atributů jsou uvozeny "

  • speciální znaky v hodnotách atributů a textovém obsahu elementů jsou nahrazeny referencemi na entity

  • nadbytečné deklarace jmenných prostorů jsou z každého elementu odstraněny

  • implicitní hodnoty atributů jsou dodány do každého elementu (kde je to relevantní)

  • na pořadí atributů a deklarací jmenných prostorů se uplatní lexikografické řazení