SPX group - разработка программного обеспечения на заказ





написать письмо » spxgroup@inbox.ru





Формат XML - описание

часть 3

3 Логические структуры

[Определение: каждый документ XML содержит один или более элементов, ограниченных либо начальными и конечными тэгами, либо -для пустых элементов - тэгами пустых элементов. Каждый элемент имеет тип, идентифицируется по имени, которое иногда называется "generic identifier" (GI) - родовой идентификатор, и может иметь набор спецификаций атрибутов.] Каждая спецификация атрибутов имеет имя и значение.

Element\Элемент

[39]   

element

   ::=   

EmptyElemTag

 

     

| STag content ETag

[ОПС: Совпадение типа элемента]

       

[ОП: Элемент верен (правильный)]

Данная спецификация не вводит ограничений семантики, использования или (синтаксически) именования типов и атрибутов элементов, за исключением того, что имена начинающиеся с (('X'|'x')('M'|'m')('L'|'l')), зарезервированы для целей стандартизации этой и последующих версий данной спецификации.

Ограничение правильной сформированности: Соответствие Типа Элемента

Name в закрывающем тэге элемента обязано соответствовать типу элемента в начальном тэге.

Ограничение правильности: Элемент верен

Элемент является верным (правильным), если имеется объявление, соответствующее elementdecl, где Name соответствует типу элемента и выдерживается одно из следующих условий:

  1. Объявление соответствует EMPTY, и элемент не имеет содержимого.
  2. Объявление соответствует children, и последовательность дочерних элементов принадлежит языку, генерируемому регулярным выражением в модели содержимого, при наличии возможных пробелов (символами, соответствующими нетерминальному S) между начальным тэгом и первым дочерним элементом, между дочерними элементами или между последним дочерним элементом и конечным тэгом. Обратите внимание, что раздел CDATA, содержащий только пробелы, не соответствует нетерминальному S, и , следовательно, не может появляться в этих позициях.
  3. Объявление соответствует Mixed, и содержимое состоит из символьных данных и дочерних элементов, чьи типы соответствуют именам в модели содержимого.
  4. Объявление соответствует ANY (Любой), и типы каждого из дочерних элементов объявлены.


3.1 Начальные и конечные тэги, тэги пустых элементов

[Определение: Начало каждого непустого элемента XML обозначается начальным тэгом.]

Start-tag\Начальный тэг

[40]   

STag

   ::=   

'<' Name (S Attribute)* S? '>'

[ОПС: Уникальный Att Spec]

[41]   

Attribute

   ::=   

Name Eq AttValue

[ОП: Тип Значения Атрибута]

       

[ОПС: Нет Ссылок на Внешние Объекты]

       

[ОПС: Нет < в Значениях Атрибутов]

Name в начальном и конечном тэгах задаёт тип элемента.
[Определение: Пары Name-AttValue (Имя-Значение атрибута) называются спецификациями атрибутов элемента],
[Определение: с Name в каждой паре, называемым именем атрибута] и
[Определение: содержимым AttValue (текстом между ограничителями
' или ") в качестве значения атрибута.]
Обратите внимание, что порядок спецификации атрибутов в начальном тэге или в тэге пустого элемента не имеет значения.

Ограничение правильной сформированности: Уникальный Att Spec

Имя атрибута не может появляться более одного раза в одном начальном тэге или тэге пустого элемента.

<PОграничение правильности: Тип Значения Атрибута

Атрибут обязан быть объявлен; значение обязано быть того типа, который для него объявлен. (о типах атрибутов см. 3.3 Объявления Списка Атрибутов.)

Ограничение правильной сформированности: Нет Ссылок на Внешние Объекты

Значения атрибутов не могут содержать прямые или косвенные объектные ссылки на внешние объекты.

Ограничение правильной сформированности: Нет < в Значениях Атрибутов

Замещающий текст любого объекта, вызываемого прямо или косвенно в значении атрибута, обязан не содержать <.

Пример начального тэга:

<termdef id="dt-dog" term="dog">

[Определение: окончание каждого элемента, начатого начальным тэгом, обязано быть отмечено конечным тэгом, содержащим имя, отражающее тип элемента, как это было дано в начальном тэге:]

End-tag\Конечный Тэг

[42]   

ETag

   ::=   

'</' Name S? '>'

Пример конечного тэга:

</termdef>

[Определение: Текст между начальным и конечным тэгами называется содержимым элемента:]

Content of Elements\Содержимое Элемента

[43]   

content

   ::=   

CharData? ((element | Reference | CDSect | PI | Comment) CharData?)*

/* */

[Определение: Элемент без содержимого называется пустым.] Пустой элемент представлен либо начальным тэгом, после которого непосредственно следует конечный тэг, либо тэгом пустого элемента.
[Определение: Тэг пустого элемента имеет особую форму:]

Tags for Empty Elements\Тэги пустых Элементов

[44]   

EmptyElemTag

   ::=   

'<' Name (S Attribute)* S? '/>'

[ОПС: Уникальный Att Spec]

Тэги пустого элемента могут использоваться для любого элемента, не имеющего содержимого, независимо от того, объявлен он ключевым словом EMPTY или нет.
Для целей взаимодействия тэг пустого элемента должен использоваться (и только он должен использоваться) для тех элементов, которые объявлены как EMPTY.

Примеры пустых элементов:

<IMG align="left"

src="http://www.w3.org/Icons/WWW/w3c_home" />

<br></br>

<br/>


3.2 Объявления типа элемента

Структура элемента документа XML может, для целей проверки, быть ограничена путём использования объявлений типа элемента и списка атрибутов. Объявление типа элемента ограничивает содержимое элемента.

Объявление типа элемента часто ограничивают типы элементов, которые могут появляться в качестве потомков элемента. Процессор XML, по выбору пользователя, может выдавать предупреждение, если в объявлении упоминается тип элемента, для которого отсутствует объявление, но это не является ошибкой.

[Определение: Объявление Типа Элемента имеет форму:]

Element Type Declaration\Объявление Типа Элемента

[45]   

elementdecl

   ::=   

'<!ELEMENT' S Name S contentspec S? '>'

[ОП: Уникальное Объявление Типа Элемента]

[46]   

contentspec

   ::=   

'EMPTY' | 'ANY' | Mixed | children

 

где Name задаёт тип объявляемого элемента.

Ограничение правильности: Уникальное Объявление Типа Элемента

Тип элемента может быть объявлен только однократно.

Примеры объявлений типов элементов:

<!ELEMENT br EMPTY>

<!ELEMENT p (#PCDATA|emph)* >

<!ELEMENT %name.para; %content.para; >

<!ELEMENT container ANY>


3.2.1 Содержимое элемента

[Определение: Тип элемента имеет содержимое элемента, если элементы данного типа обязаны содержать только дочерние элементы (а не символьные данные), которые могут быть, по усмотрению, разделены пробелами (символами, соответствующими нетерминальному S).]
[Определение: В этом случае ограничение включает модель содержимого, простую грамматику, управляющую разрешёнными типами дочерних элементов и порядком, в котором они могут появляться.] Грамматика построена на content particles (cp)/частицах содержимого и состоит из имён, списков выбора частиц содержимого или списков последовательностей частиц содержимого:

Element-content Models\Модели Содержимого Элемента

[47]   

children

   ::=   

(choice | seq) ('?' | '*' | '+')?

 

[48]   

cp

   ::=   

(Name | choice | seq) ('?' | '*' | '+')?

 

[49]   

choice

   ::=   

'(' S? cp ( S? '|' S? cp )+ S? ')'

/* */

       

/* */

       

[ОП: Соответствующее Вложение Групп/Экземпляров Параметров]

[50]   

seq

   ::=   

'(' S? cp ( S? ',' S? cp )* S? ')'

/* */

       

[ОП: Соответствующее Вложение Групп/Экземпляров Параметров]

где каждое Name  - это тип элемента, который может появляться как дочерний. Любая частица содержимого в списке выбора может появляться в содержимом элемента в том месте, где список выбора появляется в грамматике; частицы содержимого, появляющиеся в списке последовательностей, обязаны появляться в содержимом элемента в том порядке, в котором они даны в списке. Необязательные символы после имени или списка управляют тем, может ли элемент или частицы содержимого в списке появляться один или более раз (+), ноль или более (*) или ноль или один (?) раз. Отсутствие такого оператора означает, что элемент или частица содержимого обязан/а появиться только однократно. Этот синтаксис и значения идентичны таковым, используемым в продуктах/productions в данной спецификации.

Содержимое элемента совпадает с моделью содержимого, если, и только если, имеется возможность трассировки пути в модели содержимого, подчиняясь операторам последовательности, выбора и повторения, и каждый элемент содержимого соответствует типу элемента в модели содержимого. Для совместимости, считается ошибкой, если элемент в документе может соответствовать более чем одному появлению типа элемента в модели содержимого. Дополнительно см. E  Детерминистические Модели Содержимого.

Ограничение правильности: Соответствующее вложение Групп/Экземпляров Параметров

Замещающий текст экземпляра параметра обязан быть вложен соответствующим образом с помощью групп скобок. Можно сказать , что, если закрывающие или открывающие скобки конструкций choice, seq или Mixed содержатся в замещающем тексте экземпляра параметра, то оба (тэга) обязаны содержаться в одном и том же замещающем тексте.

Для целей взаимодействия, если ссылка на экземпляр параметра появляется в конструкции choice, seq или Mixed, его замещающий текст должен содержать как минимум один непробельный символ, и ни первый, ни последний непробельный символ замещающего текста не должен быть коннектором (| или ,).

Примеры моделей содержимого элементов:

<!ELEMENT spec (front, body, back?)>

<!ELEMENT div1 (head, (p | list | note)*, div2*)>

<!ELEMENT dictionary-body (%div.mix; | %dict.mix;)*>


3.2.2 Смешанное содержимое

[Определение: Тип элемента имеет смешанное содержимое, если элементы этого типа могут содержать символьные данные, перемежаемые дочерними (необязательными) элементами.] В этом случае могут быть ограничены типы дочерних элементов, но не их порядок или количество появлений:

Mixed-content Declaration\Объявление Смешанного Содержимого

[51]   

Mixed

   ::=   

'(' S? '#PCDATA' (S? '|' S? Name)* S? ')*'

 

     

| '(' S? '#PCDATA' S? ')'

[ОП: Соответствующее Вложение Групп/Экземпляров Параметров]

       

[ОП: Отсутствие Дубликатов Типов]

Name задаёт тип элемента, который может появляться в качестве потомка. Ключевое слово #PCDATA исторически произошло от термина "parsed character data/разбираемые символьные данные."

Ограничение правильности: Отсутствие Дубликатов Типов

Одно и то же имя обязано не появляться более чем однократно в одном объявлении смешанного содержимого.

Примеры объявлений смешанного содержимого:

<!ELEMENT p (#PCDATA|a|ul|b|i|em)*>

<!ELEMENT p (#PCDATA | %font; | %phrase; | %special; | %form;)* >

<!ELEMENT b (#PCDATA)>


3.3 Объявления списка атрибутов

Атрибуты используются для ассоциирования пар имя-значение с элементами. Спецификации атрибутов могут появляться только в начальных тэгах и тэгах пустых элементов; поэтому продукции/productions, используемые для их распознавания, появляются в разделе 3.1 Начальные и конечные тэги, тэги пустых элементов. Объявления списков атрибутов могут использоваться:

  • Для определения набора атрибутов, относящихся к данному типу элемента.
  • Для установки ограничений типа для этих атрибутов.
  • Для предоставления атрибутам значений по умолчанию.

[Определение: Объявления списка атрибутов специфицируют имя, тип данных и значение по умолчанию (если имеется) каждого атрибута, ассоциированного с данным типом элемента:]

Attribute-list Declaration\Объявление Списка Атрибутов

[52]   

AttlistDecl

   ::=   

'<!ATTLIST' S Name AttDef* S? '>'

[53]   

AttDef

   ::=   

S Name S AttType S DefaultDecl

Name в правиле AttlistDecl - это тип элемента. По выбору пользователя, процессор XML может выдавать предупреждение, если атрибуты объявляются для типа элемента, который сам не определён, но это не является ошибкой. Name в правиле AttDef - это имя атрибута.

Если для данного типа элемента предоставлено более одного AttlistDecl, то их содержимое объединяется. Если для одного атрибута данного типа элемента предоставлено более одного определения, то первое объявление подключается, а остальные игнорируются. Для целей взаимодействия создатели ОТД могут избрать предоставление максимум одного объявления списка атрибутов для данного типа элемента, максимум одного определения атрибута для данного имени атрибута в объявлении списка атрибутов и минимум одного определения атрибута в каждом объявлении списка атрибутов. Для целей взаимодействия, процессор XML может, по выбору пользователя, выдавать предупреждение, если даётся более одного объявления списка атрибутов для данного типа элемента или дано более одного определения атрибута для данного атрибута, но это не является ошибкой.


3.3.1 Типы атрибутов

Есть три разновидности типов атрибутов XML: string/строковой, набор лексемных типов и перечисляемые типы. Тип string может принимать в качестве значения любые символьные строки; лексемные типы имеют различные лексические и семантические ограничения. Ограничения правильности, отмеченные в грамматике, применяются после нормализации значения атрибута, как описано в 3.3 Объявлении Списка Атрибутов.

Attribute Types\Типы Атрибутов

[54]   

AttType

   ::=   

StringType | TokenizedType | EnumeratedType

 

[55]   

StringType

   ::=   

'CDATA'

 

[56]   

TokenizedType

   ::=   

'ID'

[ОП: ID]

       

[ОП: Один ID на Тип Элемента]

       

[ОП: Значение по умолчанию ID Атрибута]

     

| 'IDREF'

[ОП: IDREF]

     

| 'IDREFS'

[ОП: IDREF]

     

| 'ENTITY'

[ОП: Имя Экземпляра]

     

| 'ENTITIES'

[ОП: Имя Экземпляра]

     

| 'NMTOKEN'

[ОП: Лексема Имени]

     

| 'NMTOKENS'

[ОП: Лексема Имени]

Ограничение правильности: ID

Значения типа ID обязаны соответствовать продукции Name. Имя обязано не появляться более одного раза в документе XML как значение данного типа; т.е. значения ID обязаны уникально идентифицировать элементы.

Ограничение правильности: Один ID на Тип Элемента

Ни один тип элемента не может иметь более одного ID специфицированного атрибута.

Ограничение правильности: Значение по умолчанию ID Атрибута

ID атрибута обязан иметь объявленное значение по умолчанию - #IMPLIED или #REQUIRED.

Ограничение правильности: IDREF

Значения типа IDREF обязаны соответствовать продукции Name, а значения типа IDREFS обязаны соответствовать Names/Именам; каждое Name обязано соответствовать значению атрибута ID некоторого элемента документа XML; т.е. значения IDREF обязаны соответствовать значению некоторого атрибута ID.

Ограничение правильности: Имя Экземпляра

Значения типа ENTITY обязаны соответствовать продукции Name, значения типа ENTITIES обязаны соответствовать Именам; каждое Name обязано соответствовать имени неразбираемого экземпляра, объявленного в ОТД.

Ограничение правильности: Лексема Имени

Значения типа NMTOKEN обязаны соответствовать продукции Nmtoken; значения типа NMTOKENS обязаны соответствовать Nmtokens.

[Определение: Enumerated attributes/Перечисляемые Атрибуты могут принимать одно значение из списка значений, предоставляемых в объявлении]. Имеется два вида перечисляемых типов:

Enumerated Attribute Types\Типы Перечисляемых Атрибутов

[57]   

EnumeratedType

   ::=   

NotationType | Enumeration

 

[58]   

NotationType

   ::=   

'NOTATION' S '(' S? Name (S? '|' S? Name)* S? ')'

[ОП: Атрибуты Нотации]

       

[ОП: Одна Нотация на Тип Элемента]

       

[ОП: Нет Нотации в Пустом Элементе]

[59]   

Enumeration

   ::=   

'(' S? Nmtoken (S? '|' S? Nmtoken)* S? ')'

[ОП: Перечисление]

Атрибут NOTATION идентифицирует нотацию, объявленную в ОТД с ассоциированными системными и/или публичными идентификаторами, используемыми для интерпретации элемента, к которому атрибут присоединён.

Ограничение правильности: Атрибуты Нотации

Значения этого типа обязаны соответствовать одному из имён нотации, включённому в объявление; все имена нотации в объявлении обязаны быть объявлены.

Ограничение правильности: Одна Нотация на Тип Элемента

Ни один тип элемента не может иметь более одного специфицированного атрибута NOTATION.

Ограничение правильности: Нет Нотации в Пустом Элементе

Для обеспечения совместимости, атрибут типа NOTATION обязан не быть объявленным в элементе, объявленном как EMPTY.

Ограничение правильности: Перечисление

Значения этого типа обязаны с одной из лексем Nmtoken в объявлении.

Для целей взаимодействия, одно и то же Nmtoken не должно появляться более одного раза в типах перечисляемых атрибутов одного типа элемента.

3.3.2 Значения по умолчанию для атрибута

Объявление атрибута предоставляет информацию о том, необходимо ли наличие атрибута и, если нет, как процессор XML должен реагировать, если объявленный атрибут отсутствует в документе.

Attribute Defaults\Значения по Умолчанию

[60]   

DefaultDecl

   ::=   

'#REQUIRED' | '#IMPLIED'

 

     

| (('#FIXED' S)? AttValue)

[ОП: Требуемый Атрибут]

       

[ОП: Законное Значение по Умолчанию Атрибута]

       

[ОПС: Нет < в Значениях Атрибута]

       

[ОП: Значения по Умолчанию Фиксированного Атрибута]

В объявлении атрибута, #REQUIRED означает, что атрибут всегда обязан быть предоставлен, #IMPLIED  - что значение по умолчанию не предоставляется.
[Определение: Если в объявлении не указано ни #REQUIRED, ни #IMPLIED, тогда значение AttValue содержит объявленное значение default; ключевое слово #FIXED устанавливает, что атрибут обязан всегда иметь значение по умолчанию. Если значение по умолчанию объявляется тогда, когда процессор XML вычислил отсутствующий атрибут, поведение будет таким, как если бы атрибут был представлен с объявленным значением по умолчанию.]

Ограничение правильности: Атрибут Required/Необходимый

Если объявлением по умолчанию является ключевое слово #REQUIRED, тогда атрибут обязан быть специфицирован для всех элементов типа из объявления списка атрибутов.

Ограничение правильности: Законное Значение Атрибута по умолчанию

Объявленное значение по умолчанию обязано соответствовать лексическим ограничениям объявляемого типа атрибута.

Ограничение правильности: Значение по умолчанию Фиксированного Атрибута

Если атрибут имеет значение по умолчанию, объявленное при помощи ключевого слова #FIXED, то экземпляры этого атрибута обязаны совпадать со значением по умолчанию.

Примеры объявлений списка атрибутов:

<!ATTLIST termdef

id ID #REQUIRED

name CDATA #IMPLIED>

<!ATTLIST list

type (bullets|ordered|glossary) "ordered">

<!ATTLIST form

method CDATA #FIXED "POST">


3.3.3 Нормализация значения атрибута

Прежде чем значение атрибута передаётся приложению или проверяется на правильность, процессор XML обязан нормализовать значение атрибута путём применения к нему нижеприведённого алгоритма или путём использования некоторых других методов так, чтобы  значение, передаваемое приложению, было тем же, что и произведённое алгоритмом.

  1. Все разрывы строки должны быть нормализованы при вводе до #xA, как описано в разделе 2.11 Обработка Конца Строки, чтобы в дальнейшем алгоритм оперировал текстом, нормализованным таким способом.
  2. Начать с нормализованного значения, состоящего из пустой строки.
  3. Для каждого символа, ссылки на объект или мнемоники символа в ненормализованном значении атрибута - с первого до последнего, выполнить следующее:
    • Для мнемоники символа - присоединить мнемонику к нормализованному значению.
    • Для ссылки на объект - рекурсивно применять шаг 3 данного алгоритма к замещающему тексту объекта.
    • Для пробельного символа (#x20, #xD, #xA, #x9) - присоединить символ пробела (#x20) к нормализованному значению.
    • Для других символов - присоединить символ к нормализованному значению.

    Если тип атрибута - не CDATA, то процессор XML обязан далее обрабатывать нормализованное значение атрибута, отбрасывая ведущие и ведомые пробелы (#x20) и заменяя последовательности пробельных символов (#x20) одиночным символом пробела (#x20).

    Обратите внимание, что ненормализованное значение атрибута содержит ссылки-мнемоники на пробельный символ, отличный от #x20, а нормализованное значение содержит ссылку на сам символ (#xD, #xA или #x9). Это контрастирует с тем случаем, когда ненормализованное значение содержит символ пробела (не ссылку), который заменяется на символ пробела (#x20) в нормализованном значении, и также с тем случаем, когда ненормализованное значение содержит ссылку на экземпляр, замещающий текст которого содержит символ пробела; обрабатываемый рекурсивно, символ пробела заменяется  в нормализованном значении на пробел (#x20).

    Все атрибуты, для которых не было прочитано объявлений, должны рассматриваться непроверяющим процессором как объявленный CDATA.

    Далее идут примеры нормализации атрибута.
    В данных объявлениях:

    <!ENTITY d "&#xD;">

    <!ENTITY a "&#xA;">

    <!ENTITY da "&#xD;&#xA;">

    спецификации атрибутов в левой колонке ниже могут быть нормализованы до символьных последовательностей в средней колонке, если атрибут a объявлен NMTOKENS, и до последовательностей в правой колонке, если a объявлен как CDATA.

    Спецификация атрибута

    a является NMTOKENS

    a является CDATA

    a="xyz"

     

    x y z

    #x20 #x20 x y z

    a="&d;&d;A&a;&a;B&da;"

     

    A #x20 B

    #x20 #x20 A #x20 #x20 B #x20 #x20

    a="&#xd;&#xd;A&#xa;&#xa;B&#xd;&#xa;"

     

    #xD #xD A #xA #xA B #xD #xA

    #xD #xD A #xA #xA B #xD #xD

    Заметьте, что последний пример неверен (но правильно сформирован), если a объявлен типом NMTOKENS.


    3.4 Разделы условий

    [Определение: Разделы условий являются частью внешнего поднабора объявления типа документа и включены или исключены из логической структуры ОТД, базирующейся на ключевом слове, которое им управляется.]

    Conditional Section\Разделы Условий

    [61]   

    conditionalSect

       ::=   

    includeSect | ignoreSect

     

    [62]   

    includeSect

       ::=   

    '<![' S? 'INCLUDE' S? '[' extSubsetDecl ']]>'

    /* */

           

    [ОП: Соответствующее Вложение Секции Условий/ЭП]

    [63]   

    ignoreSect

       ::=   

    '<![' S? 'IGNORE' S? '[' ignoreSectContents* ']]>'

    /* */

           

    [ОП: Соответствующее Вложение Секции Условий/ЭП]

    [64]   

    ignoreSectContents

       ::=   

    Ignore ('<![' ignoreSectContents ']]>' Ignore)*

     

    [65]   

    Ignore

       ::=   

    Char* - (Char* ('<![' | ']]>') Char*)

     

    Ограничение правильности: Соответствующее вложение Секции Условий/Экземпляров Параметров

    Если "<![", "[" или "]]>" секции условий содержится в замещающем тексте для ссылки экземпляра параметра, то все они обязаны содержаться в одном замещающем тексте.

    Подобно внешним и внутренним поднаборам ОТД, секция условий может содержать одно или более полных объявлений, комментарии, инструкции процесса или вложенные секции условий, перемежаемые пробелами.

    Если ключевое слово в секции условий - INCLUDE, тогда содержимое секции условий является частью ОТД. Если ключевое слово в секции условий - IGNORE, тогда содержимое секции условий не является логической частью ОТД. Если секция условий с ключевым словом INCLUDE появляется внутри другой секции условий с ключевым словом IGNORE, то обе секции - внешняя и внутренняя - игнорируются. Содержимое игнорируемой секции условий разбирается с игнорированием всех символов после "[" с последующим ключевым словом, исключая начало "<![" и концы "]]>" секций условий, пока не будет достигнут соответствующий конец секции условий. Ссылки экземпляра параметра не распознаются этим процессом.

    Если ключевое слово секции условий является ссылкой экземпляра параметра, то ЭП обязан быть замещён его содержимым до того, как процессор определит, включать или игнорировать секцию условий.

    Пример:

    <!ENTITY % draft 'INCLUDE' >

    <!ENTITY % final 'IGNORE' >

    <![%draft;[

    <!ELEMENT book (comments*, title, body, supplements?)>

    ]]>

    <![%final;[

    <!ELEMENT book (title, body, supplements?)>

    ]]>

     


    к содержанию
Яндекс цитирования Rambler's Top100 Rambler's Top100
Hosted by uCoz