1. Scrapy
我们已经知道如何获取网页源代码,解析数据。现在思考如何提高爬虫的规模,进而提高采集数据的“量”。Scrapy是基于Python的分布式爬虫框架。使用它可以非常方便地实现分布式爬虫。让开发者集中精力在数据的提取上。
(1)使用Scrapy获取网络源代码。
(2)在Scrapy中通过BeautifulSoup解析数据。
(3)在Scrapy中使用MongoDB。
(4)在Scrapy中使用Redis。
more >>
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent:
meta: false
pages: false
posts:
title: true
date: true
path: true
text: false
raw: false
content: false
slug: false
updated: false
comments: false
link: false
permalink: false
excerpt: false
categories: false
tags: true