攻防兼备：网络安全爬虫技术大揭秘，从零基础到精通，收藏这篇就够了！

攻防兼备：网络安全爬虫技术大揭秘，从零基础到精通，收藏这篇就够了！_网络爬虫方法

还在为网络安全爬虫发愁？看完这篇，让你秒变爬虫达人！

一、什么是网络安全爬虫？

网络安全爬虫，又名网络安全蜘蛛、网络安全机器人（听起来是不是很酷炫？），它是一种按照预定规则，自动抓取互联网安全信息的程序或脚本。简单来说，它就像一个网络安全情报收集员，通过模拟浏览器行为，向服务器发送 HTTP 请求，获取网页内容，并从中提取关键的安全信息。这种技术在搜索引擎、大数据安全分析、漏洞挖掘等领域应用广泛，绝对是网络安全从业者的必备利器！

二、网络安全爬虫的种类

网络安全爬虫主要分为两种：通用型和定向型。就像安全界的“广撒网”和“精准打击”！

（一）通用网络安全爬虫

通用网络安全爬虫，又称全网安全爬虫，目标是尽可能多地抓取互联网上的安全信息，力求覆盖各种类型和主题的网站。它的特点是：

1. 海量覆盖：不限定特定领域，目标是构建一个全面的安全网页索引。

2. 规矩得很：通常会遵守 robots.txt 协议，尊重网站的安全爬取规则（毕竟是搞安全的，要讲规矩）。

3. 人多力量大：由于数据量巨大，通常采用并行爬取的方式，多线程、分布式齐上阵！

通用网络安全爬虫的实现，离不开以下几个关键模块：

初始 URL 集合：就像爬虫的“种子”，是整个爬取的起点。
URL 队列：存放着等待爬取的网页链接，排队等着被“临幸”。
页面爬行模块：通过 HTTP 请求，获取网页的“肉身”（HTML 内容）。
页面分析模块：解析网页，提取其中的“有用情报”——链接和内容。
页面数据库：存储爬取到的网页，建立自己的“情报中心”。
链接过滤模块：防止重复抓取相同的网页，避免“原地转圈圈”。

通用网络安全爬虫，通常会采用深度优先或广度优先的搜索策略。

（二）定向网络安全爬虫

定向网络安全爬虫，又称聚焦网络安全爬虫或主题网络安全爬虫，它的目标是，有选择地抓取与特定安全主题相关的网页。它的特点是：

1. 目标明确：专注于特定安全领域或主题，比如最新的漏洞情报、安全事件分析等。

2. 省钱小能手：由于目标明确，不需要遍历整个互联网，所以在存储和计算资源的消耗上，相对较少。

定向网络安全爬虫的实现原理与通用爬虫类似，但增加了内容评价和链接评价模块。它的核心在于，通过特定的策略和算法，选择要抓取的网页。常见的做法是，使用机器学习或自然语言处理技术，来判断网页内容是否符合预定的安全主题。

三、常见的搜索策略

网络安全爬虫在抓取网页时，通常会采用以下几种搜索策略（就像特工执行任务，需要不同的战术）：

（一）深度优先搜索（DFS）

深度优先搜索的基本思路是，按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。爬虫在完成一个爬行分支后，会返回到上一链接节点，继续搜索其他链接。这种策略适合垂直搜索或站内搜索，但可能会导致资源浪费（一不小心就钻到死胡同里了）。

（二）广度优先搜索（BFS）

广度优先搜索，按照网页内容目录层次的深浅来爬行页面，优先抓取较浅层次的页面。当同一层次中的页面爬行完毕后，再深入下一层继续爬行。这种策略能够有效控制爬行深度，避免陷入无穷深层分支（稳扎稳打，步步为营）。

（三）最佳优先搜索（Best-First Search）

最佳优先搜索是一种基于启发式的搜索策略，它通过评估每个节点的重要性，来决定下一步的抓取顺序。比如，可以基于页面与主题的相关性、链接质量等因素进行评估。这种方法能够更高效地抓取有价值的信息，尤其适用于定向网络安全爬虫（就像雷达一样，锁定最有价值的目标）。

安全开发者的秘密武器：开发者工具

对于咱们搞安全的开发者来说，浏览器可不仅仅是上网冲浪的工具，更是必备的开发利器！

当你找到目标网页后，只需轻轻按下 F12 键，或者右键选择“检查”，或者用组合键 Ctrl+Shift+I，就能打开开发者工具的神秘大门。

开发者工具的界面，就像一个百宝箱，里面有 9 个标签页，分别是：Elements、Console、Sources、***work、Performance、Memory、Application、Security 和 Audits。

如果是用于爬虫分析，熟练掌握 Elements 和 ***work 标签，就能满足你 80% 的需求。

Elements 标签：网页的“透视眼”

在 Elements 标签中，你可以像浏览器一样“看”页面，也就是说，可以看到 Chrome 渲染页面所需要的 HTML、CSS 和 DOM（Document Object Model）对象。甚至，你还可以编辑内容，更改页面的显示效果，简直是“指哪打哪”！

Elements 标签分为两个区域：

区域 1：显示页面的 HTML 信息。当你选中某一行内容时，
区域 2：会显示当前选中的 CSS 样式，并且允许你对元素的 CSS 样式进行查看和编辑。 ***puted 显示当前选中的边距属性、边框属性。Event Listeners 是整个网页事件触发的 JavaScript。

更神奇的是，通过单击 Event Listeners 下的某个 JavaScript，会自动跳转到 Sources 标签，显示当前 JavaScript 的源码。这个功能可以快速找到 JavaScript 代码所在的位置，对分析 JavaScript 简直是如虎添翼！

***work 标签：网络请求的“监控室”

在 ***work 标签中，你可以清晰地看到页面向服务器请求的信息、请求的大小，以及请求花费的时间。就像一个“监控室”，所有网络请求都逃不过你的眼睛！

***work 标签主要包含五个区域：

1. 功能区：控制面板

记录开关：红色圆点表示是否开启网络日志记录，灰色为未开启，红色为已开启。
清除日志：清除当前所有网络请求记录。
屏幕捕获：开启后会记录页面在不同时间下的快照。
过滤器开关：开启后可显示筛选区。
快速查找：用于快速查找特定请求。
显示设置：包括是否使用更大的区域显示请求记录、是否显示 Overview 等。
分组显示：勾选后可按表单名称对网络请求进行分组。
保留日志：勾选后，页面刷新不会清空之前的请求记录。
禁用缓存：当打开开发者工具时生效，页面资源不会存入缓存。
离线模式：用于测试离线状态下的页面表现。
网络限速：模拟不同网络条件，如弱网。

2. 筛选区：情报筛选器

提供多种预定义的筛选选项，如 ALL（显示所有请求）、XHR（AJAX 异步请求）、JS（JavaScript 文件）、CSS（样式表文件）、Img（图片）、Media（媒体文件）、Font（字体文件）、Doc（HTML 文档）、WS（WebSocket 请求）等。
还可以输入自定义条件进行筛选，简直是“想看啥就看啥”！

3. 时间轴区（Overview）：加载时间轴

以时间轴的形式，展示页面加载过程，包括 DOMContentLoaded 和 load 事件的触发时间。
可以通过滑动鼠标滚轮，查看不同时间点的加载情况。

4. 主显示区：请求列表

显示所有网络请求的详细列表，包括以下列：
- Name：请求资源的名称。
- Status：HTTP 状态码。
- Type：请求资源的 MIME 类型。
- Initiator：发起请求的对象或进程。
- Size：服务器返回的响应大小。
- Time：请求的总持续时间。
- Waterfall：各请求相关活动的直观分析图。
点击某个请求的名称，可以查看该请求的详细信息，包括 Headers（请求头和响应头）、Preview（预览）、Response（响应内容）、Cookies（Cookie 信息）、Timing（请求生命周期各阶段时间）等。

5. 信息汇总区：数据统计

显示当前页面加载的总请求数、数据传输量、加载时间等信息。
包括 DOMContentLoaded 和 load 事件的触发时间，及其在时间轴上的标记。

Requests Table：核心战场

在 5 个区域中，Requests Table 是核心部分，主要作用是记录每个请求信息。但每次网站出现刷新时，请求列表都会清空，并记录最新的请求信息。比如，用户登录后发生 304 跳转，就会清空跳转之前的请求信息，并捕捉跳转后的请求信息。对于每条请求信息，可以单击查看该请求的详细信息：

每条请求信息划分为以下 5 个标签。

Headers：该请求的 HTTP 头信息。

Preview：根据所选择的请求类型（JSON、图片、文本）显示相应的预览。

Response：显示 HTTP 的 Response 信息。

Cookies：显示 HTTP 的 Request 和 Response 过程中的 Cookies 信息。

Timing：显示请求在整个生命周期中各部分花费的时间。

关于 Headers 的内容如下：

Headers 标签通常分为以下几个部分：

请求方法和 URL

Request Method：显示请求的 HTTP 方法（如 GET、POST、PUT、DELETE 等）。
Request URL：显示请求的完整 URL。
Request HTTP Version：显示使用的 HTTP 版本（如 HTTP/1.1、HTTP/2 等）。

请求头（Request Headers）

请求头是由客户端发送给服务器的头信息，它包含了关于请求的元数据。常见的请求头包括：

A***ept：客户端可接受的响应内容类型（如 text/html、application/json 等）。
A***ept-Encoding：客户端可接受的内容编码方式（如 gzip、deflate 等）。
A***ept-Language：客户端偏好的语言（如 zh-***）。
Authorization：用于身份验证的凭据（如 Basic Auth、Bearer Token 等）。
Content-Length：请求体的长度（仅在 POST 或 PUT 请求中出现）。
Content-Type：请求体的内容类型（如 application/json、application/x-www-form-urlencoded 等）。
Cookie：客户端存储的 Cookie 信息。
Host：请求的主机名。
Origin：发起请求的源（用于 CORS 跨域请求）。
Referer：请求的来源页面。
User-Agent：客户端的浏览器或设备信息。

响应头（Response Headers）

响应头是由服务器返回给客户端的头信息，它包含了关于响应的元数据。常见的响应头包括：

A***ess-Control-Allow-Origin：允许访问资源的源（用于 CORS 跨域请求）。
Cache-Control：缓存策略（如 no-cache、max-age 等）。
Content-Encoding：响应体的内容编码方式（如 gzip）。
Content-Length：响应体的长度。
Content-Type：响应体的内容类型（如 text/html、application/json 等）。
Date：服务器生成响应的时间。
ETag：资源的唯一标识符，用于缓存验证。
Expires：响应过期时间。
Last-Modified：资源最后修改时间。
Location：重定向目标 URL。
Set-Cookie：服务器设置的 Cookie 信息。
Server：服务器软件信息。

请求体（Request Payload）

对于 POST 或 PUT 请求，Headers 标签还会显示请求体的内容。这通常用于查看发送到服务器的数据，例如表单数据、JSON 对象等。

查询参数（Query String Parameters）

如果请求 URL 中包含查询参数（如 ?key=value），Headers 标签会将这些参数列出，方便开发者查看。

—

Headers 标签的作用

调试请求和响应：通过查看 Headers，可以确认请求是否正确发送，以及服务器是否返回了预期的响应。
优化性能：通过分析缓存头（如 Cache-Control、ETag 等），可以优化页面的缓存策略，减少重复请求。
排查跨域问题：通过查看 A***ess-Control-Allow-Origin 等头信息，可以排查 CORS 跨域问题。
验证身份认证：通过检查 Authorization 头，可以确认身份认证信息是否正确传递。
分析内容编码：通过查看 Content-Encoding 和 Content-Type，可以确认资源是否被正确压缩和解析。

—

示例

假设你发起一个 GET 请求，Headers 标签可能显示如下内容：

请求方法和 URL

GET /api/data HTTP/1.1

请求头

Host: example.***
Connection: keep-alive
A***ept: application/json
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36
A***ept-Encoding: gzip, deflate, br
A***ept-Language: zh-***,zh;q=0.9
Cookie: sessionid=1234567890

响应头

HTTP/1.1 200 OK
Content-Type: application/json
Content-Length: 256
Cache-Control: max-age=3600
Date: Sat, 15 Oct 2023 12:34:56 GMT
Set-Cookie: sessionid=9876543210; Path=/; HttpOnly

请求体（如果适用）

如果是一个 POST 请求，可能会显示：

Request Payload:
{
  "username": "user",
  "password": "pass"
}

网站分析三步走，安全情报轻松Get！

分析网站的步骤如下：

步骤 01：锁定数据来源，大部分数据来源于 Doc、XHR 和 JS 标签。

步骤 02：追踪数据请求，分析其请求链接、请求方式和请求参数。

步骤 03：追溯参数源头。有时候，某些请求参数是通过另外的请求生成的。比如，请求 A 的参数 id 是通过请求 B 所生成的，那么要获取请求 A 的数据，就要先获取请求 B 的数据，作为 A 的请求参数。就像破案一样，抽丝剥茧，才能找到真相！
```

网络安全学习路线&学习资源

网络安全的知识多而杂，怎么科学合理安排？

下面给大家总结了一套适用于网安零基础的学习路线，应届生和转行人员都适用，学完保底6k！就算你底子差，如果能趁着网安良好的发展势头不断学习，日后跳槽大厂、拿到百万年薪也不是不可能！

初级网工

1、网络安全理论知识（2天）

①了解行业相关背景，前景，确定发展方向。
②学习网络安全相关法律法规。
③网络安全运营的概念。
④等保简介、等保规定、流程和规范。（非常重要）

2、渗透测试基础（一周）

①渗透测试的流程、分类、标准
②信息收集技术：主动/被动信息搜集、Nmap工具、Google Hacking
③漏洞扫描、漏洞利用、原理，利用方法、工具（MSF）、绕过IDS和反病毒侦察
④主机攻防演练：MS17-010、MS08-067、MS10-046、MS12-20等

3、操作系统基础（一周）

①Windows系统常见功能和命令
②Kali Linux系统常见功能和命令
③操作系统安全（系统入侵排查/系统加固基础）

4、计算机网络基础（一周）

①计算机网络基础、协议和架构
②网络通信原理、OSI模型、数据转发流程
③常见协议解析（HTTP、TCP/IP、ARP等）
④网络攻击技术与网络安全防御技术
⑤Web漏洞原理与防御：主动/被动攻击、DDOS攻击、CVE漏洞复现

5、数据库基础操作（2天）

①数据库基础
②SQL语言基础
③数据库安全加固

6、Web渗透（1周）

①HTML、CSS和JavaScript简介
②OWASP Top10
③Web漏洞扫描工具
④Web渗透工具：Nmap、BurpSuite、SQLMap、其他（菜刀、漏扫等）

恭喜你，如果学到这里，你基本可以从事一份网络安全相关的工作，比如渗透测试、Web 渗透、安全服务、安全分析等岗位；如果等保模块学的好，还可以从事等保工程师。薪资区间6k-15k

到此为止，大概1个月的时间。你已经成为了一名“脚本小子”。那么你还想往下探索吗？

【“脚本小子”成长进阶资源领取】

7、脚本编程（初级/中级/高级）

在网络安全领域。是否具备编程能力是“脚本小子”和真正黑客的本质区别。在实际的渗透测试过程中，面对复杂多变的网络环境，当常用工具不能满足实际需求的时候，往往需要对现有工具进行扩展，或者编写符合我们要求的工具、自动化脚本，这个时候就需要具备一定的编程能力。在分秒必争的CTF竞赛中，想要高效地使用自制的脚本工具来实现各种目的，更是需要拥有编程能力.

零基础入门，建议选择脚本语言Python/PHP/Go/Java中的一种，对常用库进行编程学习；搭建开发环境和选择IDE,PHP环境推荐Wamp和XAMPP， IDE强烈推荐Sublime； ·Python编程学习，学习内容包含：语法、正则、文件、网络、多线程等常用库，推荐《Python核心编程》，不要看完； ·用Python编写漏洞的exp,然后写一个简单的网络爬虫； ·PHP基本语法学习并书写一个简单的博客系统；熟悉MVC架构，并试着学习一个PHP框架或者Python框架 (可选)； ·了解Bootstrap的布局或者CSS。

8、超级网工

这部分内容对零基础的同学来说还比较遥远，就不展开细说了，贴一个大概的路线。感兴趣的童鞋可以研究一下，不懂得地方可以【点这里】加我耗油，跟我学习交流一下。

网络安全工程师企业级学习路线

如图片过大被平台压缩导致看不清的话，可以【点这里】加我耗油发给你，大家也可以一起学习交流一下。

一些我自己买的、其他平台白嫖不到的视频教程：

需要的话可以扫描下方卡片加我耗油发给你（都是无偿分享的），大家也可以一起学习交流一下。

网络安全学习路线&学习资源

结语

网络安全产业就像一个江湖，各色人等聚集。相对于欧美国家基础扎实（懂加密、会防护、能挖洞、擅工程）的众多名门正派，我国的人才更多的属于旁门左道（很多白帽子可能会不服气），因此在未来的人才培养和建设上，需要调整结构，鼓励更多的人去做“正向”的、结合“业务”与“数据”、“自动化”的“体系、建设”，才能解人才之渴，真正的为社会全面互联网化提供安全保障。

特别声明：

此教程为纯技术分享！本书的目的决不是为那些怀有不良动机的人提供及技术支持！也不承担因为技术被滥用所产生的连带责任！本书的目的在于最大限度地唤醒大家对网络安全的重视，并采取相应的安全措施，从而减少由网络安全而带来的经济损失！！！

转载请说明出处内容投诉
CSS教程网 » 攻防兼备：网络安全爬虫技术大揭秘，从零基础到精通，收藏这篇就够了！_网络爬虫方法

Smel丶～

分享到：

一、什么是网络安全爬虫？

二、网络安全爬虫的种类

（一）通用网络安全爬虫

（二）定向网络安全爬虫

三、常见的搜索策略

（一）深度优先搜索（DFS）

（二）广度优先搜索（BFS）

（三）最佳优先搜索（Best-First Search）

安全开发者的秘密武器：开发者工具

Elements 标签：网页的“透视眼”

***work 标签：网络请求的“监控室”

1. 功能区：控制面板

2. 筛选区：情报筛选器

3. 时间轴区（Overview）：加载时间轴

4. 主显示区：请求列表

5. 信息汇总区：数据统计

Requests Table：核心战场

网站分析三步走，安全情报轻松Get！

网络安全学习路线&学习资源

网络安全的知识多而杂，怎么科学合理安排？

初级网工

1、网络安全理论知识（2天）

2、渗透测试基础（一周）

3、操作系统基础（一周）

4、计算机网络基础（一周）

5、数据库基础操作（2天）

6、Web渗透（1周）

7、脚本编程（初级/中级/高级）

8、超级网工

网络安全工程师企业级学习路线

网络安全学习路线&学习资源

结语

特别声明：

Smel丶～

发表评论

一个令你着迷的主题！