爬取哔哩哔哩首页头部 Gif 图
在哔哩哔哩首页头部如下位置有一个 Gif,每次刷新都不同。
通过检查发现他是异步加载的。
访问 api 后得到一个 json 数据。
然后使用 Python 进行爬取。
import requests
from pymongo import MongoClient
import os
import time
import random
total = 0
def main():
api = 'http://api.bilibili.com/x/web-interface/index/icon'
global total
r = requests.session()
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
}
db = MongoClient('127.0.0.1', 27017).gif
gif = db.gif
s = set()
try:
os.mkdir('gifs')
except:
pass
for i in range(10000):
c = r.get(api).json()
time.sleep(random.randint(10, 30) / 100)
if c['data']['id'] in s:
continue
else:
s.add(c['data']['id'])
dic = {
'url': 'https:' + c['data']['icon'],
'id': c['data']['id'],
'title': c['data']['title']
}
print('当前正在处理:', dic['id'], '\t', dic['title'])
gif.insert_one(dic)
with open('gifs/' + str(dic['id']) + '.' + dic['title'] + '.gif', 'wb+') as f:
content = r.get(dic['url'], headers=headers).content
f.write(content)
total = total + 1
if __name__ == '__main__':
main()
print(total)
发起大量请求后发现,仅仅有 18 张是有效的,不重复。于是想可能是后端做了限制,缓存之内,防止在同一时间内造成过多插表命令,导致服务器压力过大。
透过前段时间泄露的 B 站后端源码分析,该 JSON 数据模型并没有发生改变。
再次查找发现 Dao 层存在 Redis 缓存,缓存了 icon 数据。
由此可以确定,重复的原因是因为 Redis 缓存,并且可以人为设置缓存内容,以便设置活动中的 Gif。在缓存过期时间内,无法通过此 api 获取其他 Gif。