Недавно я обнаружил новый пакет R для подключения к LinkedIn API. К сожалению, API LinkedIn кажется довольно ограниченным для начала; Например, вы можете получить только базовые данные о компаниях, а это отдельно от данных о физических лицах. Я хотел бы получить данные обо всех сотрудниках данной компании, что вы можете сделать вручную на сайте, но невозможно через API.
import.io был бы идеален, если бы он распознал нумерацию страниц LinkedIn (см. конец страницы).
Кто-нибудь знает какие-либо инструменты или методы веб-скрепинга, применимые к текущему формату сайта LinkedIn, или способы изгибания API для проведения более гибкого анализа? Желательно в R или на основе Интернета, но, безусловно, открыты для других подходов.
data-mining
social-network-analysis
crawling
scraping
christopherlovell
источник
источник
Ответы:
Beautiful Soup специально разработан для сканирования и сканирования в Интернете, но написан для Python, а не для R:
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
источник
Scrapy является большой библиотекой Python , который может помочь вам скрести различные сайты быстрее и сделать структуру коды лучше. Не все сайты можно анализировать с помощью классических инструментов, поскольку они могут использовать динамическое построение JS-контента. Для решения этой задачи лучше использовать Селен (Это тестовая база для веб - сайтов, но это также отличный инструмент веб - соскоб). Там также Python обертки для этой библиотеки. В Google вы можете найти несколько трюков , которые могут помочь вам использовать Selenium внутри Scrapy и сделать код ясно, организованным, и вы можете использовать некоторые большие инструменты для Scrapy библиотеки.
Я думаю, что Selenium будет лучшим скребком для Linkedin, чем классические инструменты. Здесь много javascript и динамического контента. Кроме того, если вы хотите выполнить аутентификацию в своей учетной записи и очистить весь доступный контент, у вас будет много проблем с классической аутентификацией, использующей простые библиотеки, такие как запросы или urllib .
источник
Мне нравится rvest в сочетании с плагином SelectorGadget Chrome для выбора соответствующих разделов.
Я использовал rvest и создал небольшие скрипты для разбивки на страницы форума:
источник
Я также пошел бы с Beautifulsoup, если вы знаете Python. В случае , если вы предпочтете код JavaScript / JQuery (и вы знакомы с Node.js), вы можете оформить CoffeeScript (Проверьте учебник ) Я уже использовал его успешно несколько раз для соскабливания веб - страниц.
источник
lxml - это хорошая библиотека для утилизации в Python. Красивый суп - это обертка над lxml. Таким образом, lxml быстрее, чем скрап и красивый суп, и намного легче в освоении.
Это пример скребка, который я построил для личного проекта, который может перебирать веб-страницы.
источник
BeautifulSoup не работает на LinkedIn. Скраппи нарушает политику. Octoparse только для Windows. Есть ли другой способ? Я хочу извлечь данные о похожих людях для аккаунта человека. Пожалуйста помоги!
источник
Здесь я делюсь своим успешным опытом.
Octoparse - отличный бесплатный инструмент для очистки веб-страниц . Я использовал его для успешной очистки данных Linkedin, и вот подробное видеоурок для извлечения данных из Linkedin .
источник