Допустимый тип содержимого для документов XML, HTML и XHTML

123

Каковы правильные типы содержимого для документов XML, HTML и XHTML?

Мне нужно написать простой поисковый робот, который выбирает только такие файлы.

В настоящее время http://example.net/index.html может служить, например, файлом JPEG из-за mod_rewrite, поэтому мне нужно проверить тип содержимого из заголовка ответа и сравнить его со списком разрешенных типов содержимого.

Откуда мне взять такой список?

astropanic
источник
О фрагментах см stackoverflow.com/q/19303361/287948 и w3.org/TR/xml-fragment
Питер Краус

Ответы:

206

HTML:, text/htmlточка.

XHTML: application/xhtml+xmlили только если следующие принципы HTML compatbility, text/html. См. Примечание о типах носителей W3 .

XML: text/xml, application/xml( RFC 2376 ).

Есть также много других типов носителей, основанных на XML, например, application/rss+xmlили image/svg+xml. Можно с уверенностью сказать, что любое нераспознанное, но зарегистрированное окончание на +xmlосновано на XML. В списке IANA указаны зарегистрированные типы носителей, заканчивающиеся на +xml.

(Для незарегистрированных x-типов все ставки отключены, но можно надеяться, +xmlчто они будут соблюдены.)

bobince
источник
32
О различиях text/xmlи application/xmlсм. Здесь stackoverflow.com/questions/4832357/…
sanmai
То же самое верно и для фрагментов , см. W3.org/TR/xml-fragment или другие вопросы .
Питер Краусс