Julia's BLOG

用Scrapy和xpath爬取网页-2

2018-02-14

本文是接上节中内容,在pycharm里面爬取数据。

一、pycharm配置scrapy

pycharm可以自己下载scrapy非常方便。

Preferences -> Project Interpreter 直接添加Scrapy即可。

二、建立scrapy项目

上节中已经介绍过,在pycharm里打开刚建立好的scrapy项目

三、编写爬虫代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import scrapy


class GanjiSpider(scrapy.Spider):
name = "zufang"
start_urls = ['http://bj.ganji.com/fang1/']

def parse(self, response):
print(response)

title_list = response.xpath(".//div[@class='f-list-item ershoufang-list']/dl/dd[1]/a/text()").extract()
price_list = response.xpath(".//div[@class='f-list-item ershoufang-list']/dl/dd[5]/div[1]/span[1]/text()").extract()

for i, j in zip(title_list, price_list):
print(i).encode('UTF-8')
print(j)

批注:

  1. 不要忘了加encode 不然打印出来的不是汉字。
  2. python内置zip函数。 是取其后两个参数一组一组打印,以少的为准。

四、在pycharm内置终端上爬取项目

1
scrapy crawl project

批注:此处project为项目名

另外,还可以用

1
scrapy list

查看当前所有scrapy项目

Tags: python
使用支付宝打赏
使用微信打赏

若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏

扫描二维码,分享此文章