Я пытаюсь самостоятельно изучить работу с использованием Python как часть усилий по изучению анализа данных. Я пытаюсь очистить веб-страницу imdb, URL которой следующий: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012
Я использую модуль BeautifulSoup. Ниже приведен код, который я использую:
r = requests.get(url) # where url is the above url
bs = BeautifulSoup(r.text)
for movie in bs.findAll('td','title'):
title = movie.find('a').contents[0]
genres = movie.find('span','genre').findAll('a')
genres = [g.contents[0] for g in genres]
runtime = movie.find('span','runtime').contents[0]
year = movie.find('span','year_type').contents[0]
print title, genres,runtime, rating, year
Я получаю следующие выводы:
The Shawshank Redemption [u'Crime', u'Drama'] 142 mins. (1994)
Используя этот код, я мог очистить название, жанр, время выполнения и год, но я не мог очистить идентификатор фильма imdb или рейтинг. После проверки элементов (в браузере Chrome) я не смог найти шаблон, который позволил бы мне использовать код, аналогичный приведенному выше.
Кто-нибудь может мне помочь написать кусок кода, который позволит мне очистить идентификатор фильма и рейтинги?
источник
rating
не определен. Если вы исправите это, вы также можете добавитьfrom BeautifulSoup import BeautifulSoup
, иimport requests
. И почему бы не показать,url="http://etc"
чтобы нам не приходилось делать это для себя?Ответы:
Вместо очистки вы можете попытаться получить данные прямо здесь: http://www.imdb.com/interfaces . Похоже, у них есть данные, доступные через ftp для фильмов, актеров и т. Д.
источник
Я был в состоянии найти решение. Я думал о публикации на случай, если это кому-нибудь поможет или кто-то хочет предложить что-то другое.
Вывод выглядит так:
источник
Вы можете получить все из div с помощью class = "rating rating-list"
Все, что вам нужно сделать, это восстановить атрибут id: [id = "tt1345836 | imdb | 8.5 | 8.5 | advsearch"] Когда у вас есть этот контент, вы разделяете эту строку на '|', и вы получаете: 1. параметр: идентификатор фильма 3. параметр: оценка фильма
источник
Как часть общего отзыва, я думаю, что вы бы преуспели в улучшении выходного формата. Проблема с текущим форматом в том, что нет прозрачного способа программного получения данных. Рассмотрим вместо этого попытку:
Приятной особенностью файла с разделителями табуляции является то, что если вы в конечном итоге увеличите масштаб, его можно легко прочитать в нечто вроде impala (или в меньших масштабах, простые таблицы mySql). Кроме того, вы можете затем программно читать данные в Python, используя:
Второй совет: я бы предложил получить больше информации, чем вы думаете, на начальном этапе. Дисковое пространство дешевле, чем время обработки, поэтому повторный запуск скребка при каждом расширении аналитики не будет увлекательным.
источник