如何设置爬虫的User-Agent？-爬虫-CSS教程网

如何设置爬虫的User-Agent？

在爬虫开发中，设置合适的 User-Agent 是模拟正常浏览器访问行为的关键步骤。User-Agent 是 HTTP 请求头中的一个字段，用于标识客户端（通常是浏览器）的类型、版本、操作系统等信息。通过设置 User-Agent，可以有效避免被目标网站识别为爬虫并限制访问。

以下是如何在 Python 和 Java 爬虫中设置 User-Agent 的详细方法：

一、Python 中设置 User-Agent

（一）使用 `requests` 库

在 Python 中，使用 requests 库发送 HTTP 请求时，可以通过 headers 参数设置 User-Agent。

Python

import requests

def get_html(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
    }
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()  # 检查请求是否成功
        return response.text
    except requests.RequestException as e:
        print(f"请求失败：{e}")
        return None

（二）随机选择 User-Agent

为了进一步模拟真实用户行为，可以随机选择不同的 User-Agent。

Python

import random

user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:123.0) Gecko/20100101 Firefox/123.0",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.0 Safari/605.1.15"
]

def get_html(url):
    headers = {
        "User-Agent": random.choice(user_agents)
    }
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        return response.text
    except requests.RequestException as e:
        print(f"请求失败：{e}")
        return None

二、Java 中设置 User-Agent

（一）使用 `HttpClient` 库

在 Java 中，使用 HttpClient 库发送 HTTP 请求时，可以通过设置请求头来指定 User-Agent。

java

import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

import java.io.IOException;

public class ProductDetailCrawler {

    public static String getHtml(String url) {
        try (CloseableHttpClient client = HttpClients.createDefault()) {
            HttpGet request = new HttpGet(url);
            request.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36");
            return EntityUtils.toString(client.execute(request).getEntity());
        } catch (IOException e) {
            e.printStackTrace();
            return null;
        }
    }
}

（二）随机选择 User-Agent

为了进一步模拟真实用户行为，可以随机选择不同的 User-Agent。

java

import java.util.Arrays;
import java.util.List;
import java.util.Random;

public class ProductDetailCrawler {

    private static final List<String> USER_AGENTS = Arrays.asList(
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:123.0) Gecko/20100101 Firefox/123.0",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.0 Safari/605.1.15"
    );

    public static String getRandomUserAgent() {
        Random random = new Random();
        return USER_AGENTS.get(random.nextInt(USER_AGENTS.size()));
    }

    public static String getHtml(String url) {
        try (CloseableHttpClient client = HttpClients.createDefault()) {
            HttpGet request = new HttpGet(url);
            request.setHeader("User-Agent", getRandomUserAgent());
            return EntityUtils.toString(client.execute(request).getEntity());
        } catch (IOException e) {
            e.printStackTrace();
            return null;
        }
    }
}

三、注意事项

（一）遵守平台规则

在编写爬虫时，必须严格遵守目标网站的使用协议，避免触发反爬机制。

（二）合理设置请求频率

避免过高的请求频率，以免对平台服务器造成压力。建议在请求之间添加适当的延时：

java

Thread.sleep(1000); // 每次请求间隔1秒

（三）数据安全

妥善保管爬取的数据，避免泄露用户隐私和商业机密。

（四）处理异常情况

在爬虫代码中添加异常处理机制，确保在遇到错误时能够及时记录并处理。

通过上述方法，可以有效地设置爬虫的 User-Agent，模拟正常浏览器行为，从而提高爬虫的稳定性和成功率。希望这些内容能帮助你更好地进行爬虫开发。

转载请说明出处内容投诉
CSS教程网 » 如何设置爬虫的User-Agent？

神码牛

分享到：

一、Python 中设置 User-Agent

（一）使用 requests 库

（二）随机选择 User-Agent

二、Java 中设置 User-Agent

（一）使用 HttpClient 库

（二）随机选择 User-Agent

三、注意事项

（一）遵守平台规则

（二）合理设置请求频率

（三）数据安全

（四）处理异常情况

神码牛

发表评论

一个令你着迷的主题！

（一）使用 `requests` 库

（一）使用 `HttpClient` 库