临街小站

宅福利-Tumblr

本篇文章是洗白种子文件的兄弟篇,也是为了安利一个宅男宅女极好的网站–汤不热.

Tumblr(中文名:汤博乐)成立于2007年,是目前全球最大的轻博客网站,也是轻博客网站的始祖。Tumblr(汤博乐)是一种介于传统博客和微博之间的全新媒体形态,既注重表达,又注重社交,而且注重个性化设置,成为当前最受年轻人欢迎的社交网站之一。雅虎公司董事会2013年5月19日决定,以11亿美元收购Tumblr。

tumblr是纯粹基于兴趣的社交网站,产品形态好用只是一个方面,更重要的是,可以只关注自己感兴趣的人和博客,而且不必为了维持真实好友关系和自己被期望的网络形象而去做一些自己不想做的事(比如逃避家长监控)

好了,不装x,目前国内青年使用Tumblr频率最高的动机不是为了寻觅上面叹为观止的写真、艺术创造,而是为了解决青春期荷尔蒙沉淀过多问题。Tumblr上面有大量的喜闻乐见的po主,他们经常更新自己的站点,包括一颗赛艇的pic和video。而且,最重要的,到目前为止,GFW还没有明确的将网站放到黑名单…

当你有了Tumblr博主账号之后,你可以轻松的访问获取他发布的每一条资源分享。然而可能因为服务器的缘故,国内请求受限,速度很慢,好吧,编程改变世界.|

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
import re
import requests
from lxml import etree
Res=set()
Res1=set()
blogname=input('plz input the username:')
def func(keys):
dom=etree.HTML(requests.get('http://'+blogname+'.tumblr.com/').text)
title=(dom.xpath('//title/text()'))[0]
global outputfile
outputfile= open(title+'-result.txt','w')
for key in keys:
baseurl = 'http://'+blogname.strip()+'.tumblr.com/api/read?type='+key+'&num=50&start=' #pic
start = 0 #start from num zero
while True:
url = baseurl + str(start)
pagecontent = requests.get(url).text
if key=='photo':
result=re.findall('<photo-url .*?>(.*?)</photo-url>',pagecontent)
for item in result:
Res.add(item)
else:
result=re.findall('source src="(.*?)"',pagecontent)
for item in result:
Res1.add(item)
if (len(result) < 50):
break
else:
start += 50
func(('video','photo'))
if Res:
for item in Res:
outputfile.writelines(item+'\n')
if Res1:
for item in Res1:
outputfile.writelines(item+'\n')
outputfile.close()

运行上面的代码,输入正确的站主name,就可以在当前目录下的result.txt文件写入所有的pic和video。

听过实验,pic会有很多的重复内容,因为会返回原图的不同尺寸url,这里我没有对他进行排重获取高分辨率,因为我懒。

下载戳我

clinjie wechat
Think about u every day