crawlspider
|
scrapy模拟登录
|
scrapy 入门使用
|
scrapy流程
|
Tesseract
|
动态HTML技术
|
爬虫代码建议尽量减少请求次数1. 能抓列表页就不抓详情页2. 保存获取的html页面,供差错和重复请求使用关注网站的所有类型的页面1. wap页面,触屏版页面2. H5页面3. APP多伪装1. 动态的UA2. 代理ip3. 不使用cookie利用多线程分布式在不被ban的请求下尽可能的提高速度动态
寻求js
|
request模块
|
http服务器
|
几十行代码写一个简单的文件下载器
|
服务器代码:import socketimport osdef main(): # 创建socket server_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM) # 绑定本地信息 server_socke