Python爬取王蛇属蛇类科普网站数据

2022-03-21 Python Python, 爬虫 0 评论

import requests
from lxml import etree
import re
import time
import os
from concurrent.futures import ThreadPoolExecutor
from tqdm import tqdm


def mkdir(path):
    """
    创建文件夹
    :param path: 文件夹路径
    :return:
    """
    folder = os.path.exists(path)
    if not folder:
        os.makedirs(path)


def data_save(data):
    """
    下载图片并保存图片对应信息
    :param data:从网页爬取的元组格式数据
    :return:
    """
    photo_url_all = "https://sites.pitt.edu/~mcs2/herp/" + data[3]
    # print(photo_url_all)
    # 获取图片页面内容
    resp_photo_page = requests.get(photo_url_all)
    photo_page_content = resp_photo_page.text
    photo_page_content_html = etree.HTML(photo_page_content)
    # xpath获取图片页面内每张图片的下载地址
    src = photo_page_content_html.xpath('/html/body/p/img/@src')
    # 获取要存放每组图片的文件夹名称，并创建对应名称的文件夹
    folder_name = (data[3].split("/")[-1]).split(".")[0]
    mkdir("data/" + folder_name)
    for itt in src:
        # 逐张保存
        src = "https://sites.pitt.edu/~mcs2/herp/" + itt
        src_resp = requests.get(src)
        photo_name = src.split("/")[-1]
        with open("data/" + folder_name + '/' + photo_name, mode='wb') as f:
            f.write(src_resp.content)
        time.sleep(1)
    # 创建每组图片的信息文本，并写入信息
    with open("data/" + folder_name + '/' + folder_name + '.txt', mode='a') as ff:
        ff.write("Scientific Name : %s\n" % data[0])
        ff.write("Common Name : %s\n" % data[1])
        ff.write("Adult Length : %s\n" % data[2])


if __name__ == '__main__':
    url = "https://sites.pitt.edu/~mcs2/herp/Lampropeltis.html"
    resp = requests.get(url)
    page_content = resp.text
    obj = re.compile(r'</td>.*?<tr>'
                     r'.*?<td nowrap valign = top>(?P<Scientific_Name>.*?)</td>'
                     r'.*?<td valign = top>(?P<Common_Name>.*?)</td>'
                     r'.*?<td nowrap align = right valign = top>(?P<Adult_Length>.*?)</td>'
                     r'.*?<td valign = top><IMG SRC=".*?ball.gif">\s?<A\s+HREF="(?P<Photo>.*?)">Photo</A>', re.S
                     )
    # 返回迭代器
    # result = obj.finditer(page_content)
    # for it in result:
    #     print(it.group("Scientific_Name"))
    #     print(it.group("Common_Name"))
    #     print(it.group("Adult_Length"))
    #     print(it.group("Photo"))

    # 返回列表
    result = obj.findall(page_content)

    # 多线程
    # with ThreadPoolExecutor(30) as t:
    #     for n in tqdm(result, '数据获取中'):
    #         t.submit(data_save, n)
    # print("数据获取完成")

    # 单个依次获取
    for n in tqdm(result, '数据获取中'):
        data_save(n)
    print("数据获取完成")

本文链接： http://zhongriqian.github.io/2022/03/21/Python爬取王蛇属蛇类科普网站数据/
版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

董

Python爬取王蛇属蛇类科普网站数据

董