Python全系列 教程
3567个小节阅读:5929.9k
目录
鸿蒙应用开发
C语言快速入门
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
scrapyd是一个用于部署和运行scrapy爬虫的程序,它允许通过JSON API来部署爬虫项目和控制爬虫运行
scrapyd是一个守护进程,可以用来监听爬虫的运行和请求,然后启动进程来执行它们
Scrapyd — Scrapyd 1.3.0 documentation
https://scrapyd.readthedocs.io/en/latest/index.html#
xxxxxxxxxx
pip install scrapyd==1.3.0
xxxxxxxxxx
scrapyd
问题
ModuleNotFoundError:No module name '_sqlite3'
解决方案
- yum install sqlite-devel
- make install # 安装Python
问题
Linux服务器启动服务后,Windows访问不了
解决方案
考虑防火墙问题
systemctl status firewalld.service
systemctl stop firewalld.service
考虑服务绑定IP问题
修改配置文件,路径为
/usr/local/lib/python3.9/site-packages/scrapyd/default_scrapyd.conf
配置文件选项
xxxxxxxxxx
[scrapyd]
# 项目eggs生成目录
eggs_dir = eggs
# 项目日志生成目录,如果不想要生成日志,可以直接设置成空
logs_dir = logs
# 爬取的items存储的文件夹,默认为空,不存储。
items_dir =
# 每个爬虫保持的完成任务数
jobs_to_keep = 5
# 项目dbs生成目录
dbs_dir = dbs
# 可启用的最多进程数
max_proc = 0
# 每个CPU可启用的scrapy进程数
max_proc_per_cpu = 4
# 保持的完成任务进程数
finished_to_keep = 100
# 轮训请求队列的时间间隔
poll_interval = 5.0
# 网页和json服务监听的IP地址,推荐改为 0.0.0.0
bind_address = 127.0.0.1
# 监听的端口,默认为 6800
http_port = 6800
# 是否打开 debug 模式
debug = off
实时效果反馈
1. 关于Scrapyd, 说法错误的是?
A scrapyd可以用于监控scrapy项目运行状态
B scrapyd可以用于开启scrapy项目
C scrapyd需要开启服务使用
D 需要修改配置文件后才可以使用scrapyd
答案
1=>D