можно ли через интернет или гугл определить размер сайта в мб (гб)

0

Например, если я собираюсь быть где-то удаленным и мне нужна Википедия целиком или переполнение стека, есть ли способ узнать, насколько велик размер конкретного веб-домена в ГБ?

Эта ссылка относится к устройству, которое соединяется со спутниками и обеспечивает ограниченную передачу данных в домашнюю точку доступа. Я хотел бы иметь возможность иметь целый веб-сайт, чтобы помочь сократить использование данных с такого рода устройства.

Frankenmint
источник
Я не думаю, что Google индексирует размер отдельных страниц, или, если они делают, они не делают эту информацию общедоступной. Вы можете сделать это с помощью программы, предназначенной для массовой загрузки веб-сайтов.
Crippledsmurf
Это также не то, что вы действительно можете измерить. Я имею в виду, если есть 10000 страниц и каждая страница содержит одинаковые верхние и нижние колонтитулы, вы считаете верхние и нижние колонтитулы? Потому что они, вероятно, будут храниться только один раз.
ChrisInEdmonton
Вы хотели бы прокси-сервер. А что касается размера сайта, теперь есть способ узнать, не указав этот сайт в явном виде. Некоторые сайты веб-данных могут собирать эти данные как часть своих действий по сканированию, но они не являются общепринятыми или общеизвестными. Это означает, что это не каталог на жестком диске. Также это устройство звучит как змеиное масло из-за этой строки: «Фонарь постоянно принимает радиоволны, передаваемые Outernet из космоса». Ой! Это просто спутник потребительского уровня для интернет-приемников, ориентированных на районы, в которых нет простого интернет-сервиса. Это не волшебство.
JakeGould

Ответы:

0

Википедия предлагает дамп данных в терабайтах данных.

За StackExchange По данным торрента, дамп данных за сентябрь 2014 года составляет 22,6 ГБ.

Другие сайты могут предлагать способ загрузки данных помимо просмотра веб-страниц. Если вы собираетесь очистить динамический веб-сайт, иногда вы можете оказаться в бесконечных циклах, что означает, что загружаемые вами данные могут никогда не закончиться. Если вы не обращаетесь к конкретным наборам информации или не знаете, что веб-сайт полностью статичен (только реальные страницы .HTML), вы не сможете легко определить, насколько большим будет сайт.

Sun
источник
0

Фонарь будет транслировать только определенное подмножество веб-сайтов. UUCP переизобретен, поэтому идея проверки размеров, скорее всего, не будет работать или будет необходима. это в одну сторону поэтому вам не нужно беспокоиться о размере данных & gt; это широковещательный средний, как старомодный телевизор или радио, а не двусторонний, как интернет. Итак, основная причина, по которой вы спрашиваете об этом ... ну, не будет проблемой. Википедия подводит итоги outernet довольно хорошо

Это интересная проблема, поэтому я попробую

Единственное, о чем я могу думать, это может работать с немного Веб-страницы должны использовать wget (с --spider, поэтому вы не загружаете страницу и --server-response, чтобы получить указанный размер файла). Этот подход был в значительной степени вдохновлен этим ТАК вопрос

Это работает с скажем superuser.com

[geek@phoebe os store]$ wget -v4 --spider --server-response superuser.com
Spider mode enabled. Check if remote file exists.
--2014-11-28 17:26:35--  http://superuser.com/
Resolving superuser.com (superuser.com)... 198.252.206.16
Connecting to superuser.com (superuser.com)|198.252.206.16|:80... connected.
HTTP request sent, awaiting response... 
  HTTP/1.1 200 OK
  Cache-Control: public, no-cache="Set-Cookie", max-age=60
  Content-Length: 71913
  Content-Type: text/html; charset=utf-8
  Expires: Fri, 28 Nov 2014 09:27:35 GMT
  Last-Modified: Fri, 28 Nov 2014 09:26:35 GMT
  Vary: *
  X-Frame-Options: SAMEORIGIN
  Set-Cookie: prov=85f6f157-7e84-43bf-b762-003cf7d8ff71; domain=.superuser.com; expires=Fri, 01-Jan-2055 00:00:00 GMT; path=/; HttpOnly
  Date: Fri, 28 Nov 2014 09:26:34 GMT
Length: 71913 (70K) [text/html]
Remote file exists and could contain further links,
but recursion is disabled -- not retrieving.

[geek@phoebe os store]$ wget -v4 --spider --server-response http://superuser.com/questions/845893/is-it-possible-to-determine-through-the-internet-or-google-how-large-a-website/845895#845895
Spider mode enabled. Check if remote file exists.
--2014-11-28 17:26:43--  http://superuser.com/questions/845893/is-it-possible-to-determine-through-the-internet-or-google-how-large-a-website/845895
Resolving superuser.com (superuser.com)... 198.252.206.16
Connecting to superuser.com (superuser.com)|198.252.206.16|:80... connected.
HTTP request sent, awaiting response... 
  HTTP/1.1 200 OK
  Cache-Control: public, no-cache="Set-Cookie", max-age=60
  Content-Length: 69163
  Content-Type: text/html; charset=utf-8
  Expires: Fri, 28 Nov 2014 09:27:43 GMT
  Last-Modified: Fri, 28 Nov 2014 09:26:43 GMT
  Vary: *
  X-Frame-Options: SAMEORIGIN
  Set-Cookie: prov=7d270174-a377-4758-bbff-f4c87054de67; domain=.superuser.com; expires=Fri, 01-Jan-2055 00:00:00 GMT; path=/; HttpOnly
  Date: Fri, 28 Nov 2014 09:26:42 GMT
Length: 69163 (68K) [text/html]
Remote file exists and could contain further links,
but recursion is disabled -- not retrieving.

Но нет, скажем

Google.com

[geek@phoebe os store]$ wget -v4 --spider --server-response google.com        
Spider mode enabled. Check if remote file exists.
--2014-11-28 17:29:06--  http://google.com/
Resolving google.com (google.com)... 74.125.68.113, 74.125.68.138, 74.125.68.100, ...
Connecting to google.com (google.com)|74.125.68.113|:80... connected.
HTTP request sent, awaiting response... 
  HTTP/1.1 302 Found
  Cache-Control: private
  Content-Type: text/html; charset=UTF-8
  Location: http://www.google.com.sg/?gfe_rd=cr&ei=YkB4VMT6F9iDoAO2tIH4Dw
  Content-Length: 262
  Date: Fri, 28 Nov 2014 09:29:06 GMT
  Server: GFE/2.0
  Alternate-Protocol: 80:quic,p=0.02
Location: http://www.google.com.sg/?gfe_rd=cr&ei=YkB4VMT6F9iDoAO2tIH4Dw [following]
Spider mode enabled. Check if remote file exists.
--2014-11-28 17:29:06--  http://www.google.com.sg/?gfe_rd=cr&ei=YkB4VMT6F9iDoAO2tIH4Dw
Resolving www.google.com.sg (www.google.com.sg)... 74.125.68.94
Connecting to www.google.com.sg (www.google.com.sg)|74.125.68.94|:80... connected.
HTTP request sent, awaiting response... 
  HTTP/1.1 200 OK
  Date: Fri, 28 Nov 2014 09:29:06 GMT
  Expires: -1
  Cache-Control: private, max-age=0
  Content-Type: text/html; charset=ISO-8859-1
  Set-Cookie: PREF=ID=a1dfee7d97d41db1:FF=0:TM=1417166946:LM=1417166946:S=Uzy6MmaLU-UegGZU; expires=Sun, 27-Nov-2016 09:29:06 GMT; path=/; domain=.google.com.sg
  Set-Cookie: NID=67=C_dkB1z4qdwwPkNMS80Ek1km-G4y716Evvh2BCEjYpdkpIJSAfXpjpTnSF496UlahPirO0Go-VhVxQjHlsEI_Hf4AxB9IfTyrGFzduyMB4rdTI-nX-kh0hlKhKQCrFg7; expires=Sat, 30-May-2015 09:29:06 GMT; path=/; domain=.google.com.sg; HttpOnly
  P3P: CP="This is not a P3P policy! See http://www.google.com/support/accounts/bin/answer.py?hl=en&answer=151657 for more info."
  Server: gws
  X-XSS-Protection: 1; mode=block
  X-Frame-Options: SAMEORIGIN
  Alternate-Protocol: 80:quic,p=0.02
  Transfer-Encoding: chunked
Length: unspecified [text/html]
Remote file exists and could contain further links,
but recursion is disabled -- not retrieving.
Journeyman Geek
источник
0

можно ли через интернет или гугл определить размер сайта

Нет.

Предполагая, что вы имеете в виду, перед загрузкой или вместо загрузки всего на свой компьютер и считая это там.

Не существует общепринятых общепринятых соглашений или методов, с помощью которых администраторы веб-сайтов предоставляют эту информацию.

Вы можете решить эту проблему для некоторых сайтов (см. Другие ответы), но способ, которым вы это делаете, и вероятный успех варьируются от сайта к сайту.

или гугл

Они были бы в лучшем положении, чтобы обеспечить общий механизм для всех сайтов, но есть сложности

  • robots.txt исключения, которые мешают Google видеть некоторые или все некоторые сайты
  • динамические сайты, которые могут генерировать практически неограниченный HTML-контент из ограниченных ресурсов  (например, параметрический поиск, некоторые нежелательные рекламные сайты на припаркованных доменах)
  • нечеткие границы сайта - некоторые сайты обслуживают контент из нескольких доменов.

Если Google не может найти способ монетизации предоставления запрашиваемой вами информации, для них может быть не приоритетным предоставлять ее.

RedGrittyBrick
источник