爬取vmgirls美女图片

小贾嗯嗯2021-02-252022-09-27

爬取vmgirls美女图片

import requests
from lxml import etree
from hashlib import md5
import re

def get_page(page):
    data={
        "append": "list-archive",
        "paged": page,
        "action": "ajax_load_posts",
        "query": "25",
        "page": "cat"
    }

    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36",
        "cookie": "_ga=GA1.2.879115049.1597016349; _gid=GA1.2.29282622.1597016349; Hm_lvt_a5eba7a40c339f057e1c5b5ac4ab4cc9=1597016349; _GPSLSC=; verynginx_sign_cookie=39154348106419081c88a4fccdff4f0a; verynginx_sign_javascript=ebf13703c41835d486309e30ef152c1e; Hm_lpvt_a5eba7a40c339f057e1c5b5ac4ab4cc9=1597045709; _gat_gtag_UA_127463675_2=1"
    }
    re=requests.post("https://www.vmgirls.com/wp-admin/admin-ajax.php",data=data,headers=headers)
    html=etree.HTML(re.text)
    res=html.xpath("//div[@class='list-body']/a/@href")

    return res

def get_detials(res):
    headers={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36",
        "cookie": "_ga=GA1.2.879115049.1597016349; _gid=GA1.2.29282622.1597016349; Hm_lvt_a5eba7a40c339f057e1c5b5ac4ab4cc9=1597016349; _GPSLSC=; verynginx_sign_cookie=39154348106419081c88a4fccdff4f0a; verynginx_sign_javascript=ebf13703c41835d486309e30ef152c1e; Hm_lpvt_a5eba7a40c339f057e1c5b5ac4ab4cc9=1597046540; _gat_gtag_UA_127463675_2=1"
    }
    url=[]
    for i in res:
        result=requests.get(i,headers=headers)
        urllist=re.findall('<a href="(.*?)" alt=".*?" title=".*?">',result.text)
        url.append(urllist)
    urls=[]
    for i in url:
        for j in i:
            j="https://www.vmgirls.com/"+j
            urls.append(j)
    return urls

def download(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36",
        "cookie": "__ga=GA1.2.879115049.1597016349; _gid=GA1.2.29282622.1597016349; Hm_lvt_a5eba7a40c339f057e1c5b5ac4ab4cc9=1597016349; _GPSLSC=; verynginx_sign_cookie=39154348106419081c88a4fccdff4f0a; verynginx_sign_javascript=ebf13703c41835d486309e30ef152c1e; Hm_lpvt_a5eba7a40c339f057e1c5b5ac4ab4cc9=1597045839"
    }
    for i in url:
        img=requests.get(i,headers=headers,timeout=(3,7))
        with open(f"./imgs/{md5(img.content).hexdigest()}.jpeg","wb") as f:
            f.write(img.content)
            print(f"下载图片：{md5(img.content).hexdigest()}.jpeg")

def main():
    for i in range(1,45):
        print(f"正在爬取第{i}页~~~")
        res=get_page(i)
        url=get_detials(res)
        download(url)

main()