LinkedIn веб-соскоб

11

Недавно я обнаружил новый пакет R для подключения к LinkedIn API. К сожалению, API LinkedIn кажется довольно ограниченным для начала; Например, вы можете получить только базовые данные о компаниях, а это отдельно от данных о физических лицах. Я хотел бы получить данные обо всех сотрудниках данной компании, что вы можете сделать вручную на сайте, но невозможно через API.

import.io был бы идеален, если бы он распознал нумерацию страниц LinkedIn (см. конец страницы).

Кто-нибудь знает какие-либо инструменты или методы веб-скрепинга, применимые к текущему формату сайта LinkedIn, или способы изгибания API для проведения более гибкого анализа? Желательно в R или на основе Интернета, но, безусловно, открыты для других подходов.

christopherlovell
источник
2
Веб соскоб LinkedIn против их условий службы. См LinkedIn «децентрализованные» и «ДЕЛАТЬ» - НЕ: " С помощью ручного или автоматизированного программного обеспечения, устройств, скрипты роботов, другие средства или процессы доступа,„скрип“,„мурашки“или„паук“Службы или любой связанные данные или информация; "
Брайан Spiering

Ответы:

10

Beautiful Soup специально разработан для сканирования и сканирования в Интернете, но написан для Python, а не для R:

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

jagartner
источник
2
Я не думал, что красивый суп позволяет перебирать страницы, оказывается, вы можете . Спасибо
Кристоферловелл
3

Scrapy является большой библиотекой Python , который может помочь вам скрести различные сайты быстрее и сделать структуру коды лучше. Не все сайты можно анализировать с помощью классических инструментов, поскольку они могут использовать динамическое построение JS-контента. Для решения этой задачи лучше использовать Селен (Это тестовая база для веб - сайтов, но это также отличный инструмент веб - соскоб). Там также Python обертки для этой библиотеки. В Google вы можете найти несколько трюков , которые могут помочь вам использовать Selenium внутри Scrapy и сделать код ясно, организованным, и вы можете использовать некоторые большие инструменты для Scrapy библиотеки.

Я думаю, что Selenium будет лучшим скребком для Linkedin, чем классические инструменты. Здесь много javascript и динамического контента. Кроме того, если вы хотите выполнить аутентификацию в своей учетной записи и очистить весь доступный контент, у вас будет много проблем с классической аутентификацией, использующей простые библиотеки, такие как запросы или urllib .

itdxer
источник
1

Мне нравится rvest в сочетании с плагином SelectorGadget Chrome для выбора соответствующих разделов.

Я использовал rvest и создал небольшие скрипты для разбивки на страницы форума:

  1. Ищите объект "Page n Of m"
  2. Извлечь м
  3. На основе структуры страницы создайте список ссылок от 1 до m (например, www.sample.com/page1).
  4. Переберите скребок по полному списку ссылок
Rglish
источник
0

Я также пошел бы с Beautifulsoup, если вы знаете Python. В случае , если вы предпочтете код JavaScript / JQuery (и вы знакомы с Node.js), вы можете оформить CoffeeScript (Проверьте учебник ) Я уже использовал его успешно несколько раз для соскабливания веб - страниц.

Ханнес
источник
0

lxml - это хорошая библиотека для утилизации в Python. Красивый суп - это обертка над lxml. Таким образом, lxml быстрее, чем скрап и красивый суп, и намного легче в освоении.

Это пример скребка, который я построил для личного проекта, который может перебирать веб-страницы.

Dawny33
источник
0

BeautifulSoup не работает на LinkedIn. Скраппи нарушает политику. Octoparse только для Windows. Есть ли другой способ? Я хочу извлечь данные о похожих людях для аккаунта человека. Пожалуйста помоги!

Чинмай Джоши
источник
1
Пожалуйста, оставьте это как комментарий или задайте новый вопрос
christopherlovell
Это важная информация, но, пожалуйста, удалите вопрос, если предполагается, что это ответ.
Питикос,