攻防兼备:网络安全爬虫技术大揭秘,从零基础到精通,收藏这篇就够了!_网络爬虫方法

攻防兼备:网络安全爬虫技术大揭秘,从零基础到精通,收藏这篇就够了!_网络爬虫方法

还在为网络安全爬虫发愁?看完这篇,让你秒变爬虫达人!

一、什么是网络安全爬虫?

网络安全爬虫,又名网络安全蜘蛛、网络安全机器人(听起来是不是很酷炫?),它是一种按照预定规则,自动抓取互联网安全信息的程序或脚本。 简单来说,它就像一个网络安全情报收集员,通过模拟浏览器行为,向服务器发送 HTTP 请求,获取网页内容,并从中提取关键的安全信息。 这种技术在搜索引擎、大数据安全分析、漏洞挖掘等领域应用广泛,绝对是网络安全从业者的必备利器!

二、网络安全爬虫的种类

网络安全爬虫主要分为两种:通用型定向型。 就像安全界的“广撒网”和“精准打击”!

(一)通用网络安全爬虫

通用网络安全爬虫,又称全网安全爬虫,目标是尽可能多地抓取互联网上的安全信息,力求覆盖各种类型和主题的网站。 它的特点是:

1. 海量覆盖:不限定特定领域,目标是构建一个全面的安全网页索引。

2. 规矩得很:通常会遵守 robots.txt 协议,尊重网站的安全爬取规则(毕竟是搞安全的,要讲规矩)。

3. 人多力量大:由于数据量巨大,通常采用并行爬取的方式,多线程、分布式齐上阵!

通用网络安全爬虫的实现,离不开以下几个关键模块:

  • 初始 URL 集合:就像爬虫的“种子”,是整个爬取的起点。
  • URL 队列:存放着等待爬取的网页链接,排队等着被“临幸”。
  • 页面爬行模块:通过 HTTP 请求,获取网页的“肉身”(HTML 内容)。
  • 页面分析模块:解析网页,提取其中的“有用情报”——链接和内容。
  • 页面数据库:存储爬取到的网页,建立自己的“情报中心”。
  • 链接过滤模块:防止重复抓取相同的网页,避免“原地转圈圈”。

通用网络安全爬虫,通常会采用深度优先广度优先的搜索策略。

(二)定向网络安全爬虫

定向网络安全爬虫,又称聚焦网络安全爬虫或主题网络安全爬虫,它的目标是,有选择地抓取与特定安全主题相关的网页。 它的特点是:

1. 目标明确:专注于特定安全领域或主题,比如最新的漏洞情报、安全事件分析等。

2. 省钱小能手:由于目标明确,不需要遍历整个互联网,所以在存储和计算资源的消耗上,相对较少。

定向网络安全爬虫的实现原理与通用爬虫类似,但增加了内容评价链接评价模块。 它的核心在于,通过特定的策略和算法,选择要抓取的网页。 常见的做法是,使用机器学习或自然语言处理技术,来判断网页内容是否符合预定的安全主题。

三、常见的搜索策略

网络安全爬虫在抓取网页时,通常会采用以下几种搜索策略(就像特工执行任务,需要不同的战术):

(一)深度优先搜索(DFS)

深度优先搜索的基本思路是,按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。 爬虫在完成一个爬行分支后,会返回到上一链接节点,继续搜索其他链接。 这种策略适合垂直搜索或站内搜索,但可能会导致资源浪费(一不小心就钻到死胡同里了)。

(二)广度优先搜索(BFS)

广度优先搜索,按照网页内容目录层次的深浅来爬行页面,优先抓取较浅层次的页面。 当同一层次中的页面爬行完毕后,再深入下一层继续爬行。 这种策略能够有效控制爬行深度,避免陷入无穷深层分支(稳扎稳打,步步为营)。

(三)最佳优先搜索(Best-First Search)

最佳优先搜索是一种基于启发式的搜索策略,它通过评估每个节点的重要性,来决定下一步的抓取顺序。 比如,可以基于页面与主题的相关性、链接质量等因素进行评估。 这种方法能够更高效地抓取有价值的信息,尤其适用于定向网络安全爬虫(就像雷达一样,锁定最有价值的目标)。

安全开发者的秘密武器:开发者工具

对于咱们搞安全的开发者来说,浏览器可不仅仅是上网冲浪的工具,更是必备的开发利器!

当你找到目标网页后,只需轻轻按下 F12 键,或者右键选择“检查”,或者用组合键 Ctrl+Shift+I,就能打开开发者工具的神秘大门。

开发者工具的界面,就像一个百宝箱,里面有 9 个标签页,分别是:ElementsConsoleSources***workPerformanceMemoryApplicationSecurityAudits

如果是用于爬虫分析,熟练掌握 Elements***work 标签,就能满足你 80% 的需求。

Elements 标签:网页的“透视眼”

Elements 标签中,你可以像浏览器一样“看”页面,也就是说,可以看到 Chrome 渲染页面所需要的 HTML、CSS 和 DOM(Document Object Model)对象。 甚至,你还可以编辑内容,更改页面的显示效果,简直是“指哪打哪”!

Elements 标签分为两个区域:

  • 区域 1:显示页面的 HTML 信息。 当你选中某一行内容时,
  • 区域 2:会显示当前选中的 CSS 样式, 并且允许你对元素的 CSS 样式进行查看和编辑。 ***puted 显示当前选中的边距属性、边框属性。Event Listeners 是整个网页事件触发的 JavaScript。

更神奇的是,通过单击 Event Listeners 下的某个 JavaScript,会自动跳转到 Sources 标签,显示当前 JavaScript 的源码。 这个功能可以快速找到 JavaScript 代码所在的位置,对分析 JavaScript 简直是如虎添翼!

***work 标签:网络请求的“监控室”

***work 标签中,你可以清晰地看到页面向服务器请求的信息、请求的大小,以及请求花费的时间。 就像一个“监控室”,所有网络请求都逃不过你的眼睛!

***work 标签主要包含五个区域:

1. 功能区:控制面板
  • 记录开关:红色圆点表示是否开启网络日志记录,灰色为未开启,红色为已开启。
  • 清除日志:清除当前所有网络请求记录。
  • 屏幕捕获:开启后会记录页面在不同时间下的快照。
  • 过滤器开关:开启后可显示筛选区。
  • 快速查找:用于快速查找特定请求。
  • 显示设置:包括是否使用更大的区域显示请求记录、是否显示 Overview 等。
  • 分组显示:勾选后可按表单名称对网络请求进行分组。
  • 保留日志:勾选后,页面刷新不会清空之前的请求记录。
  • 禁用缓存:当打开开发者工具时生效,页面资源不会存入缓存。
  • 离线模式:用于测试离线状态下的页面表现。
  • 网络限速:模拟不同网络条件,如弱网。
2. 筛选区:情报筛选器
  • 提供多种预定义的筛选选项,如 ALL(显示所有请求)、XHR(AJAX 异步请求)、JS(JavaScript 文件)、CSS(样式表文件)、Img(图片)、Media(媒体文件)、Font(字体文件)、Doc(HTML 文档)、WS(WebSocket 请求)等。
  • 还可以输入自定义条件进行筛选,简直是“想看啥就看啥”!
3. 时间轴区(Overview):加载时间轴
  • 以时间轴的形式,展示页面加载过程,包括 DOMContentLoadedload 事件的触发时间。
  • 可以通过滑动鼠标滚轮,查看不同时间点的加载情况。
4. 主显示区:请求列表
  • 显示所有网络请求的详细列表,包括以下列:
    • Name:请求资源的名称。
    • Status:HTTP 状态码。
    • Type:请求资源的 MIME 类型。
    • Initiator:发起请求的对象或进程。
    • Size:服务器返回的响应大小。
    • Time:请求的总持续时间。
    • Waterfall:各请求相关活动的直观分析图。
  • 点击某个请求的名称,可以查看该请求的详细信息,包括 Headers(请求头和响应头)、Preview(预览)、Response(响应内容)、Cookies(Cookie 信息)、Timing(请求生命周期各阶段时间)等。
5. 信息汇总区:数据统计
  • 显示当前页面加载的总请求数、数据传输量、加载时间等信息。
  • 包括 DOMContentLoadedload 事件的触发时间,及其在时间轴上的标记。
Requests Table:核心战场

在 5 个区域中,Requests Table 是核心部分,主要作用是记录每个请求信息。 但每次网站出现刷新时,请求列表都会清空,并记录最新的请求信息。 比如,用户登录后发生 304 跳转,就会清空跳转之前的请求信息,并捕捉跳转后的请求信息。 对于每条请求信息,可以单击查看该请求的详细信息:

每条请求信息划分为以下 5 个标签。

  • Headers:该请求的 HTTP 头信息。
  • Preview:根据所选择的请求类型(JSON、图片、文本)显示相应的预览。
  • Response:显示 HTTP 的 Response 信息。
  • Cookies:显示 HTTP 的 Request 和 Response 过程中的 Cookies 信息。
  • Timing:显示请求在整个生命周期中各部分花费的时间。

关于 Headers 的内容如下:

Headers 标签通常分为以下几个部分:

  1. 请求方法和 URL
  • Request Method:显示请求的 HTTP 方法(如 GET、POST、PUT、DELETE 等)。
  • Request URL:显示请求的完整 URL。
  • Request HTTP Version:显示使用的 HTTP 版本(如 HTTP/1.1、HTTP/2 等)。
  1. 请求头(Request Headers)

请求头是由客户端发送给服务器的头信息,它包含了关于请求的元数据。 常见的请求头包括:

  • A***ept:客户端可接受的响应内容类型(如 text/htmlapplication/json 等)。
  • A***ept-Encoding:客户端可接受的内容编码方式(如 gzipdeflate 等)。
  • A***ept-Language:客户端偏好的语言(如 zh-***)。
  • Authorization:用于身份验证的凭据(如 Basic Auth、Bearer Token 等)。
  • Content-Length:请求体的长度(仅在 POST 或 PUT 请求中出现)。
  • Content-Type:请求体的内容类型(如 application/jsonapplication/x-www-form-urlencoded 等)。
  • Cookie:客户端存储的 Cookie 信息。
  • Host:请求的主机名。
  • Origin:发起请求的源(用于 CORS 跨域请求)。
  • Referer:请求的来源页面。
  • User-Agent:客户端的浏览器或设备信息。
  1. 响应头(Response Headers)

响应头是由服务器返回给客户端的头信息,它包含了关于响应的元数据。 常见的响应头包括:

  • A***ess-Control-Allow-Origin:允许访问资源的源(用于 CORS 跨域请求)。
  • Cache-Control:缓存策略(如 no-cachemax-age 等)。
  • Content-Encoding:响应体的内容编码方式(如 gzip)。
  • Content-Length:响应体的长度。
  • Content-Type:响应体的内容类型(如 text/htmlapplication/json 等)。
  • Date:服务器生成响应的时间。
  • ETag:资源的唯一标识符,用于缓存验证。
  • Expires:响应过期时间。
  • Last-Modified:资源最后修改时间。
  • Location:重定向目标 URL。
  • Set-Cookie:服务器设置的 Cookie 信息。
  • Server:服务器软件信息。
  1. 请求体(Request Payload)

对于 POST 或 PUT 请求,Headers 标签还会显示请求体的内容。 这通常用于查看发送到服务器的数据,例如表单数据、JSON 对象等。

  1. 查询参数(Query String Parameters)

如果请求 URL 中包含查询参数(如 ?key=value),Headers 标签会将这些参数列出,方便开发者查看。

Headers 标签的作用

  1. 调试请求和响应:通过查看 Headers,可以确认请求是否正确发送,以及服务器是否返回了预期的响应。

  2. 优化性能:通过分析缓存头(如 Cache-ControlETag 等),可以优化页面的缓存策略,减少重复请求。

  3. 排查跨域问题:通过查看 A***ess-Control-Allow-Origin 等头信息,可以排查 CORS 跨域问题。

  4. 验证身份认证:通过检查 Authorization 头,可以确认身份认证信息是否正确传递。

  5. 分析内容编码:通过查看 Content-EncodingContent-Type,可以确认资源是否被正确压缩和解析。

示例

假设你发起一个 GET 请求,Headers 标签可能显示如下内容:

请求方法和 URL

GET /api/data HTTP/1.1


请求头

Host: example.***
Connection: keep-alive
A***ept: application/json
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36
A***ept-Encoding: gzip, deflate, br
A***ept-Language: zh-***,zh;q=0.9
Cookie: sessionid=1234567890


响应头

HTTP/1.1 200 OK
Content-Type: application/json
Content-Length: 256
Cache-Control: max-age=3600
Date: Sat, 15 Oct 2023 12:34:56 GMT
Set-Cookie: sessionid=9876543210; Path=/; HttpOnly


请求体(如果适用)

如果是一个 POST 请求,可能会显示:

Request Payload:
{
  "username": "user",
  "password": "pass"
}


网站分析三步走,安全情报轻松Get!

分析网站的步骤如下:

步骤 01:锁定数据来源,大部分数据来源于 DocXHRJS 标签。

步骤 02:追踪数据请求,分析其请求链接、请求方式和请求参数。

步骤 03:追溯参数源头。 有时候,某些请求参数是通过另外的请求生成的。 比如,请求 A 的参数 id 是通过请求 B 所生成的,那么要获取请求 A 的数据,就要先获取请求 B 的数据,作为 A 的请求参数。 就像破案一样,抽丝剥茧,才能找到真相!
```

网络安全学习路线&学习资源

网络安全的知识多而杂,怎么科学合理安排?

下面给大家总结了一套适用于网安零基础的学习路线,应届生和转行人员都适用,学完保底6k!就算你底子差,如果能趁着网安良好的发展势头不断学习,日后跳槽大厂、拿到百万年薪也不是不可能!

初级网工

1、网络安全理论知识(2天)

①了解行业相关背景,前景,确定发展方向。
②学习网络安全相关法律法规。
③网络安全运营的概念。
④等保简介、等保规定、流程和规范。(非常重要)

2、渗透测试基础(一周)

①渗透测试的流程、分类、标准
②信息收集技术:主动/被动信息搜集、Nmap工具、Google Hacking
③漏洞扫描、漏洞利用、原理,利用方法、工具(MSF)、绕过IDS和反病毒侦察
④主机攻防演练:MS17-010、MS08-067、MS10-046、MS12-20等

3、操作系统基础(一周)

①Windows系统常见功能和命令
②Kali Linux系统常见功能和命令
③操作系统安全(系统入侵排查/系统加固基础)

4、计算机网络基础(一周)

①计算机网络基础、协议和架构
②网络通信原理、OSI模型、数据转发流程
③常见协议解析(HTTP、TCP/IP、ARP等)
④网络攻击技术与网络安全防御技术
⑤Web漏洞原理与防御:主动/被动攻击、DDOS攻击、CVE漏洞复现

5、数据库基础操作(2天)

①数据库基础
②SQL语言基础
③数据库安全加固

6、Web渗透(1周)

①HTML、CSS和JavaScript简介
②OWASP Top10
③Web漏洞扫描工具
④Web渗透工具:Nmap、BurpSuite、SQLMap、其他(菜刀、漏扫等)

恭喜你,如果学到这里,你基本可以从事一份网络安全相关的工作,比如渗透测试、Web 渗透、安全服务、安全分析等岗位;如果等保模块学的好,还可以从事等保工程师。薪资区间6k-15k

到此为止,大概1个月的时间。你已经成为了一名“脚本小子”。那么你还想往下探索吗?

【“脚本小子”成长进阶资源领取】

7、脚本编程(初级/中级/高级)

在网络安全领域。是否具备编程能力是“脚本小子”和真正黑客的本质区别。在实际的渗透测试过程中,面对复杂多变的网络环境,当常用工具不能满足实际需求的时候,往往需要对现有工具进行扩展,或者编写符合我们要求的工具、自动化脚本,这个时候就需要具备一定的编程能力。在分秒必争的CTF竞赛中,想要高效地使用自制的脚本工具来实现各种目的,更是需要拥有编程能力.

零基础入门,建议选择脚本语言Python/PHP/Go/Java中的一种,对常用库进行编程学习; 搭建开发环境和选择IDE,PHP环境推荐Wamp和XAMPP, IDE强烈推荐Sublime; ·Python编程学习,学习内容包含:语法、正则、文件、 网络、多线程等常用库,推荐《Python核心编程》,不要看完; ·用Python编写漏洞的exp,然后写一个简单的网络爬虫; ·PHP基本语法学习并书写一个简单的博客系统; 熟悉MVC架构,并试着学习一个PHP框架或者Python框架 (可选); ·了解Bootstrap的布局或者CSS。

8、超级网工

这部分内容对零基础的同学来说还比较遥远,就不展开细说了,贴一个大概的路线。感兴趣的童鞋可以研究一下,不懂得地方可以【点这里】加我耗油,跟我学习交流一下。

网络安全工程师企业级学习路线

如图片过大被平台压缩导致看不清的话,可以【点这里】加我耗油发给你,大家也可以一起学习交流一下。

一些我自己买的、其他平台白嫖不到的视频教程:

需要的话可以扫描下方卡片加我耗油发给你(都是无偿分享的),大家也可以一起学习交流一下。

网络安全学习路线&学习资源

结语

网络安全产业就像一个江湖,各色人等聚集。相对于欧美国家基础扎实(懂加密、会防护、能挖洞、擅工程)的众多名门正派,我国的人才更多的属于旁门左道(很多白帽子可能会不服气),因此在未来的人才培养和建设上,需要调整结构,鼓励更多的人去做“正向”的、结合“业务”与“数据”、“自动化”的“体系、建设”,才能解人才之渴,真正的为社会全面互联网化提供安全保障。

特别声明:

此教程为纯技术分享!本书的目的决不是为那些怀有不良动机的人提供及技术支持!也不承担因为技术被滥用所产生的连带责任!本书的目的在于最大限度地唤醒大家对网络安全的重视,并采取相应的安全措施,从而减少由网络安全而带来的经济损失!!!

转载请说明出处内容投诉
CSS教程网 » 攻防兼备:网络安全爬虫技术大揭秘,从零基础到精通,收藏这篇就够了!_网络爬虫方法

发表评论

欢迎 访客 发表评论

一个令你着迷的主题!

查看演示 官网购买