目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

Python全系列 教程

3567个小节阅读:5931.3k

收藏
全部开发者教程

鸿蒙应用开发

C语言快速入门

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(4.7k)
赞(0)

第一个爬虫

image-20220515180821632

小试牛刀

怎样扒网页呢?

其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS。如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML

  • HTML 70%
  • JS 20%
  • CSS 10%

image-20220518140335975

爬取页面,代码如下:

注意

urllib模块库是python自带的。在Python2叫urllib2

真正的程序就两行,执行如下命令查看运行结果,感受一下

看,这个网页的源码已经被我们扒下来了,是不是很酸爽?

实时效果反馈

1. 关于爬虫说法错误的是?

A urllib模块库是Python自带模块,无需安装

B urllib.request.urlopen()发送请求

C response.read()是读取数据

D response.read()读取的数据类型为字符串

答案

1=>D

 

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2