目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

Python全系列 教程

3567个小节阅读:5930.3k

收藏
全部开发者教程

鸿蒙应用开发

C语言快速入门

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(3.7k)
赞(0)

爬虫的基本套路

image-20220515175555751

  • 基本流程

    • 目标数据:想要什么数据

    • 来源地址

    • 结构分析

      • 具体数据在哪(网站、还是APP)
      • 如何展示的数据
    • 实现构思

    • 操刀编码

  • 基本手段

    • 破解请求限制

      • 请求头设置,如:useragant为有效客户端
      • 控制请求频率(根据实际情景)
      • IP代理
      • 签名/加密参数从html/cookie/js分析
    • 破解登录授权

      • 请求带上用户cookie信息
    • 破解验证码

      • 简单的验证码可以使用识图读验证码第三方库
  • 解析数据

    • HTML Dom解析

      • 正则匹配,通过的正则表达式来匹配想要爬取的数据,如:有些数据不是在html 标签里,而是在html的script 标签的js变量中
      • 使用第三方库解析html dom,比较喜欢类jquery的库
    • 数据字符串

      • 正则匹配(根据情景使用)
      • 转 JSON/XML 对象进行解析

选择一门语言

爬虫可以用各种语言写, C++, Java都可以, 为什么要Python?

  • 简单
  • 高效
  • 三方模块库多

 

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2