Scrapy框架及安装
课程    Python爬虫实战

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 Scrapy可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

使用Scrapy开发一个基于Python的爬虫非常简单,开发者只需要定制开发几个模块就可以轻松地实现一个爬虫,用来抓取网页数据。当然,要开发一个商业化的爬虫,还需要大量的开发工作,这些工作包括爬虫优化、爬取数据的存储及清洗。

要使用Scrapy,需要先安装Scrapy开发环境。因为Scrapy开发环境依赖一些外部库,在安装Scrapy之前,需要先安装依赖库。这里给出Windows操作系统下Scrapy及依赖库的安装。

依赖库lxml的安装

lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。爬取的网页内容需要使用lxml来解析。

在Windows命令行窗口输入命令:

pip3 install lxml

pip3会自动下载lxml并安装。

依赖库pyOpenSSL的安装

pyOpenSSL是Python一个支持数据安全的库,当爬虫爬取基于https协议的网站时,需要对请求数据进行加密,对爬取的数据也需要解密。

在Windows命令行窗口输入命令:

pip3 install pyOpenSSL

pip3会自动下载pyOpenSSL并安装。

依赖库Twisted的安装

Twisted是Python一个网络编程库,完成客户端与服务端的通信,支持许多常见的传输及应用层协议,包括TCP、UDP、SSL/TLS、HTTP、IMAP、SSH、IRC以及FTP。

使用pip3安装Twisted库可能会失败,在这种情况下。可以在网上下载Twisted库的wheel文件。wheel文件是Python库的安装压缩包,将Python库对应的wheel文件下载到本地,再利用pip3来安装Python库。

Twisted库对应的wheel文件下载地址是:

https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

Twisted库提供了多个wheel文件,对应不同的Python版本和操作系统。为找到正确的wheel文件,需要在Windows命令行窗口输入“python  -V”命令,查看当前Python的安装版本。

下载Twisted库的网站提供了Python不同模块的wheel文件,内容非常丰富,要找到Twisted库对应的wheel文件,可以在网页通过搜索“Twisted”定位到下载Twisted库的页面。

12.png

如上图所示,下载项中cp后面跟的数字代表该wheel文件对应的Python版本,38表示对应的是Python3.8版本。下载项中的win32表示对应32位Windows操作系统,win_amd64表示对应64位Windwos操作系统。

注意:下载的wheel文件名称不要改动。

在Windows命令行窗口输入命令:

pip3 install d:\python\Twisted-20.3.0-cp38-cp38-win_amd64.whl

命令中,install后面的内容是wheel文件的路径。

依赖库PyWin32的安装

PyWin32是Python一个封装了Windows API的库,使用该模块,Python程序可以方便地调用Windows API执行系统级别的功能。

在Windows命令行窗口输入命令:

pip3 install pyWin32

pip3会自动下载pyWin32并安装。

所有依赖库都已安装完成,现在可以安装Scrapy库了。

在Windows命令行窗口输入命令:

pip3 install Scrapy

pip3会自动下载Scrapy并安装。


读者留言
最新
推荐
LNL
1个月前
jjjuum*
  • 推荐[0]
  • |
  • 回复
回复评论
用手机学习课程

手机、电脑同步学

用浏览器扫描二维码,即可下载APP。

郎宏林
授课老师
授课老师简介
项目经理,系统分析和架构师,从事多年中文信息处理技术。熟悉项目管理、擅长项目需求分析和设计、精通Java、C#、Python等编程语言。
  • 备案号:鲁ICP备15001146号
  • @1997-2018 潍坊米粒花网络技术有限公司版权所有