Automatisation par proxy avec selenium et python : guides et astuces

Automatisation par proxy avec Selenium et Python: Guides et Astuces

L’automatisation de tâches web en utilisant des proxies est une technique puissante pour éviter les limitations de trafic, contourner les restrictions géographiques et protéger votre identité en ligne. Dans cet article, nous allons explorer comment utiliser des proxies avec Selenium et Python pour automatiser vos interactions avec le web de manière efficace.

Pourquoi Utiliser des Proxies avec Selenium ?

Avant de plonger dans les détails techniques, comprenons pourquoi l’utilisation de proxies est cruciale dans l’automatisation web. Les proxies vous permettent de masquer votre adresse IP, ce qui est particulièrement utile lors de la collecte de données web (web scraping) ou des tests automatisés où vous ne voulez pas être bloqué par les serveurs ciblés.

Pour en savoir plus sur l’utilisation de proxies avec ChromeDriver et Selenium, vous pouvez consulter cet article détaillé: Automatisez avec des proxies fiables.

Configuration des Proxies avec Selenium

Définition des Proxies

Pour commencer, vous devez définir vos proxies dans votre script Python. Un proxy est généralement spécifié sous la forme SCHEME://USERNAME:PASSWORD@YOUR_PROXY_IP:YOUR_PROXY_PORT.

Voici quelques exemples de formats de proxies que vous pourriez rencontrer:

http://2.56.215.247:3128
https://2.56.215.247:8091
https://my-user:[email protected]:8044

Implémentation dans le Code

Vous pouvez spécifier plusieurs protocoles et même définir des domaines spécifiques pour lesquels un proxy différent sera utilisé. Voici un exemple de code pour configurer et utiliser des proxies avec la bibliothèque requests et aiohttp:

import requests
from requests.exceptions import ProxyError, ReadTimeout, ConnectTimeout

scheme_proxy_map = {
‘http’: ‘http://2.56.215.247:3128’,
‘https’: ‘https://2.56.215.247:8091’
}

try:
response = requests.get(‘https://ip.oxylabs.io/location’, proxies=scheme_proxy_map, timeout=10)
except (ProxyError, ReadTimeout, ConnectTimeout) as error:
print(‘Unable to connect to the proxy: ‘, error)
else:
print(response.text)

Utilisation de Proxies avec Selenium WebDriver

Configuration du WebDriver

Pour utiliser des proxies avec Selenium WebDriver, vous devez configurer le navigateur pour qu’il utilise votre proxy. Voici un exemple avec webdriver.Chrome:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

proxy = ‘http://2.56.215.247:3128′
chrome_options = Options()
chrome_options.add_argument(f’–proxy-server={proxy}’)

driver = webdriver.Chrome(options=chrome_options)
driver.get(‘https://ip.oxylabs.io/location’)
print(driver.page_source)
driver.quit()

Gestion des Erreurs et des Temps d’Attente

Il est crucial de gérer les erreurs et les temps d’attente lors de l’utilisation de proxies, car les connexions proxy peuvent être instables.

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.common.exceptions import TimeoutException

proxy = ‘http://2.56.215.247:3128′
chrome_options = Options()
chrome_options.add_argument(f’–proxy-server={proxy}’)

driver = webdriver.Chrome(options=chrome_options)
driver.set_page_load_timeout(10)

try:
driver.get(‘https://ip.oxylabs.io/location’)
print(driver.page_source)
except TimeoutException:
print(« La page n’a pas chargé dans le délai imparti. »)
finally:
driver.quit()

Rotation des Proxies pour Éviter les Blocages

Pourquoi Rotater les Proxies ?

La rotation des proxies est essentielle pour éviter d’être bloqué par les serveurs ciblés. En changeant régulièrement de proxy, vous réduisez le risque de voir vos requêtes être rejetées.

Implémentation de la Rotation des Proxies

Vous pouvez utiliser une liste de proxies et les faire tourner à l’aide d’une fonction asynchrone ou synchrone. Voici un exemple de rotation de proxies en utilisant aiohttp et asyncio:

import asyncio
import aiohttp

CSV_FILENAME = ‘proxies.csv’
URL_TO_CHECK = ‘https://ip.oxylabs.io/location’
TIMEOUT_IN_SECONDS = 10

async def check_proxy(url, proxy):
try:
session_timeout = aiohttp.ClientTimeout(
total=None,
sock_connect=TIMEOUT_IN_SECONDS,
sock_read=TIMEOUT_IN_SECONDS
)
async with aiohttp.ClientSession(timeout=session_timeout) as session:
async with session.get(url, proxy=proxy, timeout=TIMEOUT_IN_SECONDS) as resp:
print(await resp.text())
except Exception as error:
print(‘Proxy responded with an error: ‘, error)
return

async def main():
proxies = []
# Lecture de la liste des proxies à partir d’un fichier CSV
with open(CSV_FILENAME, ‘r’) as file:
for line in file:
proxies.append(line.strip())

tasks = [check_proxy(URL_TO\_CHECK, proxy) for proxy in proxies]
await asyncio.gather(\*tasks)

asyncio.run(main())

Conseils Pratiques pour l’Utilisation de Proxies

Sélection des Proxies

  • Choix des Proxies: Assurez-vous de choisir des proxies fiables et rapides. Les proxies gratuits peuvent être instables et moins fiables que les proxies payants.
  • Vérification des Proxies: Vérifiez régulièrement la liste de vos proxies pour vous assurer qu’ils fonctionnent correctement.

Gestion des Erreurs

  • Gestion des Temps d’Attente: Définissez des temps d’attente raisonnables pour vos requêtes pour éviter les blocages dus à des connexions lentes.
  • Gestion des Erreurs de Connexion: Capturez les exceptions de connexion pour gérer les erreurs de proxy de manière appropriée.

Sécurité

  • Utilisation de Proxies HTTPS: Préférez les proxies HTTPS pour une sécurité accrue, especialmente lorsque vous transmettez des données sensibles.
  • Authentification des Proxies: Utilisez des proxies avec authentification (username et password) pour une sécurité supplémentaire.

Tableau Comparatif des Méthodes de Configuration des Proxies

Méthode de Configuration Description Avantages Inconvénients
CLI Arguments Utilisation d’arguments de ligne de commande pour configurer les proxies. Facile à utiliser, rapide. Peu flexible, visible dans l’historique de la commande.
Fichier de Configuration Utilisation d’un fichier de configuration (par exemple, se-config.toml pour Selenium Manager). Flexible, facile à gérer. Peut être complexe à configurer pour les débutants.
Variables d’Environnement Utilisation de variables d’environnement pour configurer les proxies. Flexible, facile à intégrer dans les scripts. Peut être visible dans l’environnement, moins sécurisé.
Code Python Configuration directe dans le code Python. Très flexible, facile à intégrer dans les scripts. Peut être complexe à gérer pour de grandes listes de proxies.

Exemples Concrets et Anecdotes

Web Scraping avec Proxies

Lors d’un projet de web scraping, j’ai dû collecter des données à partir d’un site web qui bloquait les adresses IP répétitives. En utilisant une rotation de proxies, j’ai pu éviter d’être bloqué et collecter les données nécessaires de manière efficace.

Tests Automatisés

Dans un autre projet, j’ai utilisé des proxies pour tester une application web sur différents emplacements géographiques. Cela m’a permis de simuler des utilisateurs réels et de tester la performance de l’application dans divers contextes.

L’utilisation de proxies avec Selenium et Python est une technique puissante pour automatiser vos interactions avec le web de manière sécurisée et efficace. En suivant les guides et les astuces présentés dans cet article, vous pourrez configurer et gérer vos proxies de manière optimale, éviter les blocages et collecter des données web de manière fiable.

categorie:

Actu