Python全系列 教程
3567个小节阅读:5930.5k
目录
鸿蒙应用开发
C语言快速入门
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写。也就是说,这个东西最开始设计的目的,就是为了区分请求来自机器还是人类。可想而知,验证码就是为了反爬而生的。如果这个世界没有爬虫,可能也就不会诞生验证码
早期,那个时候验证码只是能够把一些简单的文字转换成图片让来识别,但也是一大杀器了。因为在 OCR 技术(Optical Character Recognition,光学字符识别)还不发达的时候,验证码可以说秒杀所有的爬虫。但是后来随着 OCR 的发展,识别验证码已经沦落为机器学习的入门课程,成了学生练手项目。最开始无敌的验证码,就这样被时代秒杀了
现在的验证码变得越来越奇葩,已经不仅仅是图片识别成文字的形式了。例如 Google 的找出自行车、12306 的找出手表,甚至一些网站的出现各种动态验证码等等,原本用于识别人类的验证码,逐渐变得越来越反人类
为什么越来越反人类?
随着老龄化的到来,越来越多的年龄极端人开始使用互联网。这个时候你用验证码让他算一个复杂的算式?或者让他找出图片里的佩奇——“嗯?啥是佩奇?”。验证码已经很难检测人类了,误伤人类的本事倒是越来越大。
手动输入(input) 这种方法仅限于登录一次就可持续使用的情况
图像识别引擎
Tesseract
TensorFlow
PyTorch
打码平台
爬虫常用的验证码解决方案
实时效果反馈
1. 关于验证码, 说法错误的是?
A 验证码主要区分是机器还是人
B 验证码分为多种类型
C 验证码破解必须使用机器学习
D 不同验证码破解方式不同
答案
1=>C