如何使用Python批量下载网站图片

在数字时代，图片是信息传递和分享的重要方式之一。如果你经常需要从网站上下载大量图片，那么手动下载将会是一项繁琐的任务。但是，不用担心！本教程将向你展示如何使用Python编写一个脚本来批量下载网站上的图片，让这项任务变得轻松而高效。

开篇故事

假设你是一名摄影爱好者，热衷于收集各种美丽的图片。你听说有一个网站，上面有数以千计的精美图片等待着你去探索。然而，手动一个一个下载这些图片将耗费你大量的时间和精力，于是你决定寻找一种更聪明的方式。

这时，Python走进了你的视野。你得知可以使用Python编写一个脚本，让它自动帮你下载这些图片。这听起来很酷，不是吗？那么，让我们开始吧！

步骤一：准备工作

首先，我们需要安装几个Python库，以便在脚本中使用它们。这些库包括requests、lxml和concurrent.futures。你可以使用以下命令来安装它们：

pip install requests lxml

这些库将帮助我们进行网页请求、解析HTML以及并发下载图片。

步骤二：编写下载图片的函数

接下来，我们将编写一个函数，用于从指定的URL下载图片并保存到本地。这个函数将接受两个参数：图片的URL和保存路径。以下是这个函数的代码：

import requests
import os

def download_image(url, img_path):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    response = requests.get(url, headers=headers)
    img_name = url.split('/')[-1]
    with open(os.path.join(img_path, img_name), 'wb') as f:
        f.write(response.content)
        print(f'图片：{img_path}' + '/' + f'{img_name}下载完成！')

这个函数首先发送HTTP请求以获取图片的内容，然后将内容保存到本地文件。在保存文件时，我们使用了图片的URL中的文件名作为文件名。

步骤三：编写处理网页的函数

现在，我们需要编写一个函数来处理网页，提取出图片的URL，并调用上面的download_image函数来下载图片。以下是这个函数的代码：

from lxml import etree

def process_page(page):
    url = f'https://www.****.****/page/{page}'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    response = requests.get(url, headers=headers)
    html = etree.HTML(response.content)
    img_urls = html.xpath('//div[@class="excerpts"]/article/a/@href')

    for img_url in img_urls:
        response = requests.get(img_url, headers=headers)
        html = etree.HTML(response.content)
        img_elements = html.xpath('//article/p/img')
        img_title = html.xpath('//title/text()')[0].split('-')[0]
        img_path = f'J:/xiezhen/{img_title}'

        if not os.path.exists(img_path):
            os.makedirs(img_path)

        for img_element in img_elements:
            img_url = img_element.attrib['src']
            download_image(img_url, img_path)

        time.sleep(0.5)

这个函数首先访问指定页面的URL，然后使用XPath解析HTML，提取出文章页面的链接。接着，它遍历每个文章页面的链接，进一步提取出图片的URL和标题。然后，它创建一个以标题命名的文件夹，将图片保存在其中。

步骤四：并发下载

为了提高下载速度，我们可以使用Python的concurrent.futures模块来实现并发下载。以下是如何使用该模块的代码：

import concurrent.futures

if __name__ == '__main__':
    with concurrent.futures.ThreadPoolExecutor() as executor:
        futures = []
        for page in range(1, 573):
            futures.append(executor.submit(process_page, page))
        for future in concurrent.futures.as_completed(futures):
            pass

这段代码会创建一个线程池，每个线程将处理一个页面的下载任务。我们遍历了从1到572的页面，并将每个页面的处理函数process_page提交给线程池。最后，我们等待所有任务完成。

结语

通过这个简单的Python脚本，你可以轻松实现批量下载网站图片的任务。不再需要手动一个一个下载，节省了大量时间和精力。这是Python的强大之处，它可以帮助你自动化各种任务，让生活更加便捷。

未经允许不得转载：大神网 » 如何使用Python批量下载网站图片

如何使用Python批量下载网站图片

开篇故事

步骤一：准备工作

步骤二：编写下载图片的函数

步骤三：编写处理网页的函数

步骤四：并发下载

结语

作者：cat9999sss

相关推荐

虚拟信用卡

热门标签