抓取目标:就是自身要好的博客:http://www.cnblogs.com/ghostwu/

需贯彻之功力:

抓取博客所有的稿子标题,超链接,文章摘要,发布时

用用的库房:

node.js自带的http库

老三方库:cheerio,这个库房就是故来拍卖dom节点的,他的用法几乎跟jquery用法一模一样,所以发生了这利器,写一个爬虫就非常简单

备工作:

1,npm init –yes 初始化package.json

2,安装cheerio:npm install cheerio
–save-dev

兑现之靶子,是若管每首文章用抓取的有( 抓取文章标题,超链接,文章摘要,发布时
)整理成一个目标, 放在三番五次组中,如:

[ { title: '[置顶][js高手之路]从零开始打造一个javascript开源框架gdom与插件开发免费视频教程
连载中',
    url: 'http://www.cnblogs.com/ghostwu/p/7470038.html',
    entry: '摘要: 百度网盘下载地址:https://pan.baidu.com/s/1kULNXOF 优酷土豆观看地址:htt
p://v.youku.com/v_show/id_XMzAwNTY2MTE0MA==.html?spm=a2h0j.8191423.playlist_content.5!3~5~
5~A&&f',
    listTime: '2017-09-05 17:08' },
  { title: '[js高手之路]Vue2.0基于vue-cli+webpack Vuex用法详解',
    url: 'http://www.cnblogs.com/ghostwu/p/7521097.html',
    entry: '摘要: 在这之前,我已经分享过组件与组件的通信机制以及父子组件之间的通信机制,而
我们的vuex就是为了解决组件通信问题的 vuex是什么东东呢? 组件通信的本质其实就是在组件之间传
递数据或组件的状态(这里将数据和状态统称为状态),但可以看到如果我们通过最基本的方式来进行
通信,一旦需要管理的状态多了,代码就会',
    listTime: '2017-09-14 15:51' },
  { title: '[js高手之路]Vue2.0基于vue-cli+webpack同级组件之间的通信教程',
    url: 'http://www.cnblogs.com/ghostwu/p/7518158.html',
    entry: '摘要: 我们接着上文继续,本文我们讲解兄弟组件的通信,项目结构还是跟上文一样. 在
src/assets目录下建立文件EventHandler.js,该文件的作用在于给同级组件之间传递事件 EventHandl
er.js代码: 2,在Components目录下新建一个组件Brother1.vue 。通过Eve',
    listTime: '2017-09-13 22:49' },
   ]

 思路讲解:

1,获取目标地点:http://www.cnblogs.com/ghostwu/ 所有的html内容

2,提取所有的稿子html内容

3,提取每首稿子下面对应的( 文章标题,超链接,文章摘要,发布时间 )

 1 var http = require('http');
 2 var cheerio = require('cheerio');
 3 
 4 var url = 'http://www.cnblogs.com/ghostwu/';
 5 
 6 function filterHtml(html) {
 7     var $ = cheerio.load(html);
 8     var arcList = [];
 9     var aPost = $("#content").find(".post-list-item");
10     aPost.each(function () {
11         var ele = $(this);
12         var title = ele.find("h2 a").text();
13         var url = ele.find("h2 a").attr("href");
14         ele.find(".c_b_p_desc a").remove();
15         var entry = ele.find(".c_b_p_desc").text();
16         ele.find("small a").remove();
17         var listTime = ele.find("small").text();
18         var re = /\d{4}-\d{2}-\d{2}\s*\d{2}[:]\d{2}/;
19         listTime = listTime.match( re )[0];
20         arcList.push({
21             title: title,
22             url: url,
23             entry: entry,
24             listTime: listTime
25         });
26     });
27     return arcList;
28 }
29 
30 http.get(url, function (res) {
31     var html = '';
32     var arcList = [];
33     // var arcInfo = {};
34     res.on('data', function (chunk) {
35         html += chunk;
36     });
37     res.on('end', function () {
38         arcList = filterHtml( html ); 
39         console.log( arcList );
40     });
41 });

发生几只至关重要的地方如果教下:

1,res.on( ‘data’, function(){} ) 

http模块发送get请求后,就会源源不断的抓取目标网页的源代码内容,
所以,我以on中监听data事件,
chunk就是传输的多少,把这些多少增长到html这个变量,
当数据传截止以后就是会见触发end事件,你得当end事件中打印一下console.log(
html ) 就可知发现,他即便是目标地址之拥有html源代码,这样便化解了俺们的率先单问题:获取目标地点:http://www.cnblogs.com/ghostwu/
所有的html内容

2,有矣完整的html内容后,接下去自己包了一个函数filterHTML用来过滤我所欲之结果(
每首文章的信息 )

3,var $ = cheerio.load(html);
把html内容通过cheerio的load方法加载进来,就好据此cheerio的节点操作了,为了亲和jquery的操作,我所以美元符号$保存了此文档对象

4,var aPost = $(“#content”).find(“.post-list-item”);
这个是兼具的篇章节点信息,拿到后,通过each方法
挨个遍历并抓取需要之信息,整理成靶子,然后在一个数组中

1  arcList.push({
2 21             title: title,
3 22             url: url,
4 23             entry: entry,
5 24             listTime: listTime
6 25         });

如此这般就处理终结了,结果都当地方显示了,如果博客样式和自己的博客样式一样,应该都能抓取了,

继之到分页抓取,这样尽管能够把全路博客爬下来了

 1 var http = require('http');
 2 var cheerio = require('cheerio');
 3 
 4 var url = 'http://www.cnblogs.com/ghostwu/';
 5 
 6 function filterHtml(html) {
 7     var $ = cheerio.load(html);
 8     var arcList = [];
 9     var aPost = $("#content").find(".post-list-item");
10     aPost.each(function () {
11         var ele = $(this);
12         var title = ele.find("h2 a").text();
13         var url = ele.find("h2 a").attr("href");
14         ele.find(".c_b_p_desc a").remove();
15         var entry = ele.find(".c_b_p_desc").text();
16         ele.find("small a").remove();
17         var listTime = ele.find("small").text();
18         var re = /\d{4}-\d{2}-\d{2}\s*\d{2}[:]\d{2}/;
19         listTime = listTime.match(re)[0];
20         arcList.push({
21             title: title,
22             url: url,
23             entry: entry,
24             listTime: listTime
25         });
26     });
27     return arcList;
28 }
29 
30 function nextPage( html ){
31     var $ = cheerio.load(html);
32     var nextUrl = $("#pager a:last-child").attr('href');
33     if ( !nextUrl ) return ;
34     var curPage = $("#pager .current").text();
35     if( !curPage ) curPage = 1;
36     var nextPage = nextUrl.substring( nextUrl.indexOf( '=' ) + 1 );
37     if ( curPage < nextPage ) crawler( nextUrl );
38 }
39 
40 function crawler(url) {
41     http.get(url, function (res) {
42         var html = '';
43         var arcList = [];
44         res.on('data', function (chunk) {
45             html += chunk;
46         });
47         res.on('end', function () {
48             arcList = filterHtml(html);
49             console.log( arcList );
50             nextPage( html );
51         });
52     });
53 }
54 crawler( url );

 

相关文章