Ps: 重要的事情说其三举!!!
末有彩蛋,结尾有彩蛋,结尾有彩蛋。

万一协调需要爬(cai)(ji)的数据量比较坏,为了防被网站封Ip,可以分时段爬取,另外对爬至之数目貌似是用来囤积数据库,这虽待对数据开展去再处理,记录上次爬取的状态,就足以兑现以爬虫中断后,可以很快持续上次的状态,实现增量爬取,这里可以参照我前面写过之一个资讯采访,增量采集新闻数据,本文写的对新浪微博的数额收集和处理一体化代码在自我之Github。
玩微博的食指多数当明白微博将笑排行榜的,刚好写就篇和前看到榜姐1月8号0接触话题是一如既往口说一个,追女孩的小道理,感觉是话题简直是针对常见单身男的便利呀,ヾ(✿゚゚)ノ,故有了何不就收集一下讲评来分析一波的想法。

1.运新浪微博提供的API对数据开展采

作为一个爬虫菜鸟来说,如果非会见采取代理IP池,同时针对网站的反爬机制不太了解,建议事先去押下网站是否好提供的有API,今天我们设爬取的网站是初浪微博,当然新浪网作为为世界用户24时提供完善及时的中文新闻的大网站,一定是提供自己之API接口的。这样的大网站,必定是更了诸多街爬虫与反爬之间的烟尘,也肯定生死圆满的反倒爬策略,所以我们得以经调用新浪微博之开放平台来获取我们怀念如果之信息。使用前要详细阅读API文档,在开放平台认证为开发者,附App
key链接。

  • APIClient下充斥地址

# 如果这里引入失败,可以直接下载SDK和文件放一块就ok
from weibo import APIClient 
import webbrowser

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

APP_KEY = '你的App Key '  # 获取的app key 
APP_SECRET = '你的AppSecret'  # 获取的appsecret 
CALLBACK_URL = 'https://api.weibo.com/oauth2/default.html' #回调链接 

# 在网站设置"使用微博账号登陆"的链接,当用户点击链接后,引导用户跳转至如下地址  
client = APIClient(app_key=APP_KEY, app_secret=APP_SECRET, redirect_uri=CALLBACK_URL) 
# 得到授权页面的url,利用webbrowser打开这个url  
url = client.get_authorize_url() 
webbrowser.open_new(url) #打开默认浏览器获取code参数 

# 获取URL参数code:
print '输入url中code后面的内容后按回车键:'

code = raw_input() # 人工输入网址后面的code内容  
r = client.request_access_token(code)  # 获得用户授权 
access_token = r.access_token   # 新浪返回的token,类似abc123xyz456
expires_in = r.expires_in
# 设置得到的access_token,client可以直接调用API了
client.set_access_token(access_token, expires_in)

取得有用户最新发表之微博列表

uid
的获得方式,我们点开不同之微博,会发觉链接中https://m.weibo.cn/u/2706896955?sudaref=login.sina.com.cn&display=0&retcode=6102
u之后的数字就是用户之uid。

content = client.statuses.user_timeline(uid=2706896955, count=100)

回的结果是json格式的

{
    "statuses": [
        {
            "created_at": "Tue May 31 17:46:55 +0800 2011",
            "id": 11488058246,
            "text": "求关注。",
            "source": "<a href="http://weibo.com" rel="nofollow">新浪微博</a>",
            "favorited": false,
            "truncated": false,
            "in_reply_to_status_id": "",
            "in_reply_to_user_id": "",
            "in_reply_to_screen_name": "",
            "geo": null,
            "mid": "5612814510546515491",
            "reposts_count": 8,
            "comments_count": 9,
            "annotations": [],
            "user": {
                "id": 1404376560,
                "screen_name": "zaku",
                "name": "zaku",
                "province": "11",
                "city": "5",
                "location": "北京 朝阳区",
                "description": "人生五十年,乃如梦如幻;有生斯有死,壮士复何憾。",
                "url": "http://blog.sina.com.cn/zaku",
                "profile_image_url": "http://tp1.sinaimg.cn/1404376560/50/0/1",
                "domain": "zaku",
                "gender": "m",
                "followers_count": 1204,
                "friends_count": 447,
                "statuses_count": 2908,
                "favourites_count": 0,
                "created_at": "Fri Aug 28 00:00:00 +0800 2009",
                "following": false,
                "allow_all_act_msg": false,
                "remark": "",
                "geo_enabled": true,
                "verified": false,
                "allow_all_comment": true,
                "avatar_large": "http://tp1.sinaimg.cn/1404376560/180/0/1",
                "verified_reason": "",
                "follow_me": false,
                "online_status": 0,
                "bi_followers_count": 215
            }
        },
        ...
    ],
    "previous_cursor": 0,                     // 暂未支持
    "next_cursor": 11488013766,      // 暂未支持
    "total_number": 81655
}

回到的字段说明

只要我们怀念如果查的凡微博信息内容调用text即可

for info in content.comments:
         text = info.text

2.初浪微博爬虫

chrome浏览器右键检查查看network这些老套路自便隐瞒了,不了解可以翻Python网络爬虫(一)-
入门基础 从头开始看。
此外:代码是针对性新浪微博移动端
https://m.weibo.cn/
进行信息收集,之所以爬移动端而无是PC所有社交网站爬虫,优先挑选爬移动版(不要来问我何以好爬,我吧无知情

  • 得视最新评论的url是'https://m.weibo.cn/api/comments/show?id=' + 微博id + '&page=' + 页码

点来链接https://m.weibo.cn/single/rcListformat=cards&id=4193705642468999&type=comment&hot=0&page=2便为回到的json格式的多寡

属下去直接上代码

import re
import time
import requests

uid = '4193705642468999'
url = 'https://m.weibo.cn/single/rcList?format=cards&id=' + uid + '&type=comment&hot=0&page={}'
headers = {
"Accept": "application/json, text/javascript, */*; q=0.01",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language": "zh-CN,zh;q=0.9",
"Connection": "keep-alive",
"Cookie": "你的cookie",
"Host": "m.weibo.cn",
"Referer": "https://m.weibo.cn/status/" + uid,
"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Mobile Safari/537.36",
"X-Requested-With": "XMLHttpRequest",
}

i = 0
comment_num = 1  # 第几条评论
while True:
res = requests.get(url=url.format(i), headers=headers)
r = res.json()
content = r[0]['card_group']
if r.status_code == 200:
    try:
        for j in range(0, len(content)):
            hot_data = content[j]
            comment_id = hot_data['user']['id']  # 用户id
            user_name = hot_data['user']['screen_name']  # 用户名
            created_at = hot_data['created_at']  # 评论时间
            comment = re.sub('<.*?>|回复<.*?>:|[\U00010000-\U0010ffff]|[\uD800-\uDBFF][\uDC00-\uDFFF]', '', hot_data['text'])  # 评论内容
            like_counts = hot_data['like_counts']  # 点赞数
            comment_num += 1
        i += 1
        time.sleep(3)
    except Exception as e:
        logger.debug(e)
else:
    break

连通下就对数码的保存与拍卖了。
注意:
初浪毕竟是大厂,对爬虫肯定起好的相反爬策略,为了以防访问数被封禁,可以设置代理ip池,限制抓取时间等等。你问问我怎么掌握的,我才不见面告知您~

倘若你出现了这页面或者采集不至另外音讯,恭喜你,被新浪宠幸了

3.数据的仓储和拍卖

为现在尤其多的公司开慢慢使PostgreSQL作为店铺数据库,这里我们就是管多少存储于Postgresql,为了使我们的整整项目尤为工程化,我们把对数据库的操作单独定义方法。

# 对数据库实现查询的方法
def execute_select(conn, sql, params=None):
    with conn.cursor() as cur:
        if params:
            cur.execute(sql, params)
        else:
            cur.execute(sql)
        return cur.fetchall()

# 对数据库实现增删改的方法
def execute_sql(conn, sql, params=None):
    with conn.cursor() as cur:
        if params:
            cur.execute(sql, params)
        else:
            cur.execute(sql)

雅功告成了一半,运行代码 –> 保存数据库
接下来本来是指向咱们占领的数目进行分(hu)析(shuo)展(ba)示(dao)了(千年无变换的套路hhhhhh..)

此地我们可以看出数据已经成功存储和数据库

4.数目的处理与剖析

既是说及对汉语数据的拍卖和出示,我们经常因此的就算几乎种方法,词云、情感分析、数据可视化展示,这里我哪怕得提到python中较出名的一个国语NLP库:snowNLP,snowNLP能够基于被来之语句特别成一个0-1以内的值,当值大于0.5时时表示句子的情义极性偏于主动,当分值小于0.5时不时,情感极性偏于消极,越偏向少数峰,情感就一发敏感。使用一个储藏室太简易暴力的主意———读官方文档。

snownlp的用也特别简单

本身随便抽取了简单张结果,简单标注了一下,我们不难察觉涉嫌到主动、长得帅、有钱的、要勇敢、口红、情商就几乎个词很成的值都在0.9,矮矬穷、渣、你他妈这些词生成的价都于0.5之下,林佳,给我留给一口啊!凡啊破,竟然0.7???

  • 虽然数据量大(其实是从来不去停用词ヾ(✿゚゚)ノ)导致的乐章曰图效果不顶好,但是咱或得以视聊天、主动、好看眼看几个词的词频较高,至于为什么我非去停用词,是因没有语料库还是因未见面为此,都未是,因为我懒,我懒,我懒…
    剔除停用词的课程之前写的章中出:Python数据是(三)-
    python与数据科学用(Ⅲ)

def word_cloud(comment):
    logger.info('制作词云图...word_cloud')
    comment_text = ''
    back_coloring = imread("static/heart.jpg")
    cloud = WordCloud(font_path='static/simhei.ttf', 
                      background_color="white",  # 背景颜色
                      max_words=2000,  
                      mask=back_coloring,  
                      max_font_size=100,  
                      width=1000, height=860, margin=2,  
                      random_state=42,
                      )
    for li in comment:
        comment_text += ' '.join(jieba.cut(li, cut_all=False))
    wc = cloud.generate(comment_text)
    image_colors = ImageColorGenerator(back_coloring)
    plt.figure("wordc")
    plt.imshow(wc.recolor(color_func=image_colors))
    wc.to_file('微博评论词云图.png')
  • 本着拍卖了得情感值列表进行统计,并转移分布图,采集的评头品足大概有5w久

def snow_analysis(comment):
    logger.info('自然语言处理NLP...snow_analysis')
    sentimentslist = []
    for li in comment:
        s = SnowNLP(li)
        # logger.debug(li)
        # logger.debug(li, s.sentiments)
        print(li, s.sentiments)
        sentimentslist.append(s.sentiments)
    fig1 = plt.figure("sentiment")
    plt.hist(sentimentslist, bins=np.arange(0, 1, 0.02))
    plt.show()

微博 一个人数说一个,追女孩的小道理 评论的情感值分布

可看看情感值在类似0.6~1.0错右位置频率比较高,说明粉丝们于当下虽然微博的评头品足积极态度占绝大多数,因为是微博自便是偏积极性的,得出的结果吧认证了这个题材。

咱们的初衷是为着什么追女孩子,我哪怕统计了一下产出于多的评头品足(有博主为了抢热门频繁刷评论?),三推行代码就得搞定,这个Counter的用法之前也写了,传送门:使用python中的老三正库Counter

# 使用python的第三方库
from collections import Counter
userdict = Counter(comment_list)
print(userdict.most_common(8))

1.必要是积极啊 不然等女孩子主动为!但是主动为要相宜
别让对方以为胆寒…

2.灵魂要好,三观察要正确,责任感,孝顺善良这些内在因素呢生要紧

3.追有女孩不时 只追她一个口 千万别招惹别人

4.言谈幽默有趣但不要轻佻

5.对准她当女儿养吧

6.女孩子是要是因此来宠的,不是来和它称道理的。

7.多伴随其聊天,多关注其,爱护她,保护它,了解它,宠她,尊重其,给她安全感

8.永不暧昧不彻底,不要套路

文末彩蛋:

起不少男生抱怨自己追赶不交好的闺女,追了几只星期天便放弃了。其实,要反的凡若自己,只要努力开拓进取,让祥和转换得重优良,同时针对女儿保持相当的关注与热心,坚持几独月,总有一天你就见面发觉,不希罕就是免爱就是从来不辙的工作。

说到底,由于当下首博客是2018年先是篇博客,那么即便祝福大家狗年脱单了~

相关文章

网站地图xml地图