Каковы правильные типы содержимого для документов XML, HTML и XHTML?
Мне нужно написать простой поисковый робот, который выбирает только такие файлы.
В настоящее время http://example.net/index.html может служить, например, файлом JPEG из-за mod_rewrite, поэтому мне нужно проверить тип содержимого из заголовка ответа и сравнить его со списком разрешенных типов содержимого.
Откуда мне взять такой список?
Ответы:
HTML:,
text/html
точка.XHTML:
application/xhtml+xml
или только если следующие принципы HTML compatbility,text/html
. См. Примечание о типах носителей W3 .XML:
text/xml
,application/xml
( RFC 2376 ).Есть также много других типов носителей, основанных на XML, например,
application/rss+xml
илиimage/svg+xml
. Можно с уверенностью сказать, что любое нераспознанное, но зарегистрированное окончание на+xml
основано на XML. В списке IANA указаны зарегистрированные типы носителей, заканчивающиеся на+xml
.(Для незарегистрированных
x-
типов все ставки отключены, но можно надеяться,+xml
что они будут соблюдены.)источник
text/xml
иapplication/xml
см. Здесь stackoverflow.com/questions/4832357/…