伯乐对象年龄爬虫

接着上一篇相关文章，还是说伯乐在线这个网站上有一个面向对象栏目。这次呢，不看妹子要求男生的身高问题，来瞧一瞧妹子在这个栏目上发帖子寻找soul mate的时间：）

实际上呢，网页信息是跟上次的一模一样，也就是说完全可以将上篇文章的网页代码保存在本地，设置好间隔符，通过不同的过滤规则获取相应的数据。

下面是我的代码：

import requests
import re
import os
import sys

import time
from bs4 import BeautifulSoup

urlsFile = os.path.join(sys.path[0],'urls.txt')
# 保存帖子url的本地路径的字符串,os.path.join()知识提供文件路径拼接功能 如果想要创建文件 则使用os.mkdir(path)
infoNum = 0 #有效信息的总条数
num = 0   #包含敏感信息的总条数


def getUrls():
    if os.path.exists(urlsFile) :
        return getUrlsFromFile()
    urlList = list()
    url='http://date.jobbole.com/page/1/?sort=latest'
    while url:
        html = requests.get(url)
        pattern='href=\"(.*?)\">.*?</a><label class=\"hide-on-480 small-domain-url\"></label>'
        urlList += re.findall(pattern,html.text)
        tem=(re.findall('<li id=\"pagination-next-page\"><a href=\"(.*?)\"',html.text))
        if len(tem)>0:url=tem[0]
        else:url=None
    saveUrls(urlList)
    return urlList



def getUrlsFromFile():
    urlList = list()
    f = open(urlsFile,'r')
    for line in f.readlines():
        #需要注意的是，智力读取的是包括换行符的字符串，因为在写入文件时已经直接写入了换行符，这里将文件按行分开
        #想要获取纯正的源数据可以使用str.strip()函数
        urlList.append(line)
    f.close()
    return urlList

def saveUrls(urlList):
    with open(urlsFile, "w",encoding='utf-8') as fp:
        fp.write("%s" % '\n'.join(urlList))

#查询该帖子下的内容
def viewUrl(url):
    result = ""
    html = requests.get(url)
    info = re.findall('出生年月：(.*?)<br />',html.text)
    print(url.strip())
    if len(info):
        if len(info)>1:
            if len(info[0])>len(info[1]) and info[1]!='':info[0]=info[1]
        if info[0]!='':
            result = info[0]
            isAboutA(result)
    f.close()

#是否有涉及身高的敏感信息
def isAboutA(info):
    global num
    keys=['(\d{4})','(\d{4}\.\d{2})','(\d{2}\.\d*)','(\d{2})年']
    f=open('infoA.txt','a')
    for p in keys:
        r = re.findall(p,info)
        if(len(r)):
            num = num + 1
            f.write(str(r[0])+"\n")
            print(info)
            print(r[0])
            break
    f.close()

def getAvarge():
    numList=list()
    f = open("infoA.txt","r")
    for line in f.readlines():
        line=line.strip()
        if line!='':
            #去除小数点
            if line.find('.')!=-1:
                line=(line.split('.'))[0]
            if len(line)==2:
                line='19'+line
            num = int(line)
            numList.append(num)
    result=0.0
    for num in numList:
        result+=num
    return '%.2f' % (2016-result/len(numList))

f=open('infoA.txt','w')
f.close()
urlList = getUrls()
num = 0
for i in range(0,len(urlList)):
    print('第'+str(i+1)+'个begin:')
    viewUrl(urlList[i])
    print('进度 %.2f\n' % ((i+1)/len(urlList)))
    time.sleep(0.1)
print(len(urlList))
print(num)

print('结果为 %.2f' % getAvarge())

结果为27.44

通过爬虫信息可以看出，27岁是个中间值，我也没有具体的研究年龄分布问题，后续等我有更科学的方法、数据量之后再来研究~