Lifehack

Продвинутые методы веб-скрейпинга с помощью Python⁠⁠

2 года назад

1. Скраппинг динамических сайтов

Одним из популярных инструментов является Selenium.

Selenium – это библиотека Python, которая позволяет управлять веб-браузером из кода.

Пример:

from selenium import webdriver

from bs4 import BeautifulSoup

driver = webdriver.Firefox()

driver.get('https://www.example.com')

# Wait for the JavaScript to load

time.sleep(5)

# Get the page source

soup = BeautifulSoup(driver.page_source, 'html.parser')

# Extract the data

table = soup.find('table', attrs={'id':'dynamic-table'})

data = []

for row in table.find_all('tr'):

data.append([cell.text for cell in row.find_all('td')])

# Close the browser

driver.quit()

2. Работа с CAPTCHA и IP-блокировками

• Существует ряд инструментов, которые могут помочь вам решить CAPTCHA.

Одним из популярных инструментов является Anti-Captcha.

Anti-Captcha – это сервис, который предлагает решение CAPTCHA с помощью человека. Это означает, что вы можете отправить CAPTCHA в Anti-Captcha, и они попросят человека решить ее за вас.

Пример:

import requests

url = 'https://anti-captcha.com/api/create'

data = {

'type': 'image',

'phrase': captcha_text

}

response = requests.post(url, data=data)

captcha_id = response.json()['captchaId']

url = 'https://anti-captcha.com/api/solve'

data = {

'captchaId': captcha_id

}

response = requests.post(url, data=data)

solution = response.json()['solution']

• Существует несколько способов изменить свой IP-адрес. Одним из популярных способов является использование прокси-сервиса.

Прокси-сервис – это сервер, который выступает в качестве посредника между вашим компьютером и сайтом, с которого вы собираете информацию. Это означает, что сайт будет видеть IP-адрес прокси-сервера, а не ваш собственный IP-адрес.

Пример:

import requests

import random

def get_proxy():

"""Gets a proxy from the proxy scrape service."""

response = requests.get('https://www.proxyscrape.com/')

data = response.json()

proxy = random.choice(data['results'])['ip'] + ':' + data['results'][0]['port']

return proxy

def scrape_website(proxy):

"""Scrape the website using the proxy."""

response = requests.get(url, proxies={'http': proxy, 'https': proxy})

soup = BeautifulSoup(response.text, 'html.parser')

data = []

for row in soup.find_all('tr'):

data.append([cell.text for cell in row.find_all('td')])

return data

if __name__ == '__main__':

proxy = get_proxy()

data = scrape_website(proxy)

print(data)

# Rotate the proxy

proxy = get_proxy()

data = scrape_website(proxy)

print(data)

• Главный цикл будет многократно вызывать функции get_proxy() и scrape_website(), каждый раз поворачивая прокси. Это поможет предотвратить блокировку веб-сайта по вашему IP-адресу.

• Для выполнения этого кода вам потребуется установить следующие библиотеки Python:

- requests

- BeautifulSoup4

Вы можете установить эти библиотеки с помощью следующей команды:

pip install requests BeautifulSoup4

Сохраняй пост себе, чтобы не потерять.

Мы в телеграме!

Правила сообщества