爬虫提升效率_协程实现-【官方】百战程序员_IT在线教育培训机构

协程一种轻量级线程，拥有自己的寄存器上下文和栈，本质是一个进程
相对于多进程，无需线程上下文切换的开销，无需原子操作锁定及同步的开销
简单的说就是让阻塞的子程序让出CPU给可以执行的子程序
一个进程包含多个线程，一个线程可以包含多个协程
多个线程相对独立，线程的切换受系统控制。多个协程也相对独立，但是其切换由程序自己控制

安装


xxxxxxxxxx
pip install aiohttp

官网 https://docs.aiohttp.org/en/stable/

常用方法

属性或方法	功能
aiohttp.ClientSession()	获取客户端函数
session.get(url)	发送get请求
seesion.post(url)	发送post请求
resp.status	获取响应状态码
resp.url	获取响应url地址
resp.cookies	获取响应cookie内容
resp.headers	获取响应头信息
resp.read()	获取响应bytes类型
resp.text()	获取响应文本内容

代码


xxxxxxxxxx
import aiohttp
import asyncio

async def first():
    async with aiohttp.ClientSession() as session:  #  aiohttp.ClientSession() == import requests 模块
        async with session.get('http://httpbin.org/get') as resp:
            rs = await resp.text()
            print(rs)

headers = {'User-Agent':'aaaaaa123'}
async def test_header():
    async with aiohttp.ClientSession(headers= headers) as session:  #  aiohttp.ClientSession() == import requests 模块
        async with session.get('http://httpbin.org/get') as resp:
            rs = await resp.text()
            print(rs)

async def test_params():
    async with aiohttp.ClientSession(headers= headers) as session:  #  aiohttp.ClientSession() == import requests 模块
        async with session.get('http://httpbin.org/get',params={'name':'bjsxt'}) as resp:
            rs = await resp.text()
            print(rs)

async def test_cookie():
    async with aiohttp.ClientSession(headers= headers,cookies={'token':'sxt123id'}) as session:  #  aiohttp.ClientSession() == import requests 模块
        async with session.get('http://httpbin.org/get',params={'name':'bjsxt'}) as resp:
            rs = await resp.text()
            print(rs)

async def test_proxy():
    async with aiohttp.ClientSession(headers= headers,cookies={'token':'sxt123id'}) as session:  #  aiohttp.ClientSession() == import requests 模块
        async with session.get('http://httpbin.org/get',params={'name':'bjsxt'},proxy = 'http://name:pwd@ip:port' ) as resp:
            rs = await resp.text()
            print(rs)



if __name__ == '__main__':
    loop = asyncio.get_event_loop()
    loop.run_until_complete(test_cookie())

实时效果反馈

1. 关于提升爬虫效率，说法错误的？

A 协程爬虫可以提高爬虫效率

B 协程爬虫可以使用aiohttp实现

C 协程爬虫可以同时爬取多个页面

D 协程爬虫提高效率是代码速度快，依然有阻塞IO

爬虫提升效率_多进程实战_进程池版 selenium_介绍与安装

北京市昌平区回龙观镇南店村综合商业楼2楼226室