从进程池到线程池:实现高效图片下载

在数字时代,我们每天都能够轻松访问到各种各样的图片,不论是美景、艺术品还是有趣的表情包。然而,有时候我们需要大量的图片数据,例如用于机器学习的训练集或者简单的个人收藏。在这种情况下,如何高效地获取和保存这些图片就成了一个挑战。今天,我将向大家介绍一种使用进程池线程池相结合的方法,以实现高效的图片下载

准备工作

首先,让我们明确一下需要的准备工作。我们将使用Python来完成这个任务,所以确保你已经安装了Python环境。此外,我们还需要以下库:

  • requests:用于发送HTTP请求和获取网页内容。
  • lxml:用于解析HTML文档。
  • multiprocessing:用于创建进程池和进程共享变量。
  • concurrent.futures:用于创建线程池。

确保你已经安装了这些库,如果没有,可以使用pip来安装。

获取图片地址

首先,我们需要获取要下载的图片的地址。在这个例子中,我们将从一个网站上抓取动漫壁纸的图片地址。我们使用了requests库来发送GET请求,然后使用lxml来解析HTML文档,提取出图片的地址。这些地址将被放入一个进程队列中,以便后续的下载。

# 获取图片地址
def get_url(url, que):
    resp = requests.get(url, headers=headers)
    resp.encoding = resp.apparent_encoding
    date = resp.text
    tree = etree.HTML(date)
    list_url = tree.xpath('//ul[@class="clearfix"]/li/a')
    for i in list_url:
        url_img = i.xpath('./img/@src')
        que.put('https://pic.netbian.com' + str(*url_img))  # put写入进程变量队列中
    resp.close()

下载并保存图片

接下来,我们需要编写函数来下载并保存图片。我们使用requests库发送GET请求,然后将图片保存到本地。为了避免文件名冲突,我们可以使用一个共享的数值型变量来为每张图片分配一个唯一的文件名。这个变量会在多个进程之间共享,确保每张图片的文件名都不同。

# 下载并保存图片
def download_ove(url, name):
    try:
        resp = requests.get(url, headers=headers)
        path_img = os.path.join(path, f'{name.value}.jpg')
        with open(path_img, 'wb') as f:
            f.write(resp.content)
        print(f'保存成功{name.value}.jpg')
        name.value += 1  # 数值型进程变量自增
    except Exception as ex:
        print('下载出错', ex)

下载图片的主函数

现在,让我们来编写下载图片的主函数。我们使用了线程池来并发下载图片,这样可以提高下载速度。通过创建一个ThreadPoolExecutor对象,我们可以指定同时运行的线程数量,这里设置为20。然后,我们从进程队列中获取图片地址,并将下载任务提交给线程池处理。

# 获取进程队列中的url并启用线程池下载保存图片
def download_img(que, name):
    # 创建线程池,指定20个线程处理数据
    with ThreadPoolExecutor(20) as t:
        while True:
            try:
                s = que.get(timeout=3)  # 获取进程队列中的数据,等待3秒若是还没获取到数据抛出异常
                t.submit(download_ove, s, name)  # 添加进线程池
            except Exception as ec:
                print(ec)
                break

异常处理

在我们的代码中,我们还加入了异常处理机制。如果下载出现错误,我们会捕获异常并打印出错信息。这有助于我们及时发现问题并进行处理。

# 接收进程池与线程池异常的回调函数
def err_call_back(err):
    print(f'出错啦~ error:{str(err)}')

执行主程序

最后,我们在主程序中执行上述函数。我们首先创建了一个进程共享的队列变量和一个数值型的共享变量,用于存储图片地址和文件名计数。然后,我们根据需要获取多个页面的图片地址,将下载任务提交给进程池,并等待任务完成。这样,我们就能够高效地下载大量图片了。

if __name__ == '__main__':
    if not os.path.exists(path):
        os.mkdir(path)
    que = multiprocessing.Manager().Queue()  # 创建一个进程之间共享的队列变量
    name = multiprocessing.Manager().Value('i', 0)  # 创建一个进程之间共享的数值型变量,'i'表示整型数字,0表示从0开始
    for i in range(1, 4):
        if i != 1:
            url = f'https://pic.netbian.com/4kdongman/index_{i}.html'
        else:
            url = 'https://pic.netbian.com/4kdongman/'
        get_url(url, que)
        #  创建进程池,并将函数添加到进程池内,指定最多开辟1个进程处理数据(开多了怕把网址玩崩)
        with multiprocessing.Pool(1) as pool:
            pool.apply(download_img, args=(que, name))  # 将函数以同步的方式添加进进程池
    pool.close()  # 结束进程池,不在往内添加数据
    pool.join()  # 等待进程池运行结束
    print('结束')

结束语

通过使用进程池和线程池的组合,我们能够高效地下载大量图片,提高了任务的并发性和效率。这种方法对于需要大规模获取图片数据的任务非常有用,例如构建图像数据集或爬取网站上的图片资源。

希望这个教程对你有所帮助,如果你有任何问题或建议,欢迎在评论中留言。祝愿你在图片下载任务中取得成功!

本文由作者 王大神 原创发布于 大神网的AI博客。

转载请注明作者:王大神

原文出处:从进程池到线程池:实现高效图片下载

(0)
打赏 微信扫一扫 微信扫一扫
上一篇 2023年10月14日
下一篇 2023年10月14日

相关推荐

  • 如何在Python中使用IP地址进行SSL连接

    有一天,你正在开发一个Python应用程序,需要与一个没有域名,只有IP地址的远程服务器建立安全的SSL连接。你深知SSL的重要性,但如何在这种情况下实现它呢?不要担心,本文将为你详细解释如何在Python中使用IP地址…

    2023年10月10日
    00
  • 创建一个进程守护程序:确保微信机器人始终在线

    在现代的技术世界中,许多人都依赖于自动化工具来简化日常任务。其中,微信机器人是一个非常有用的工具,可以用于自动回复消息、管理群组、定时提醒等各种任务。然而,微信机器人也有可能出现问题,导致其停止运行…

    2023年11月13日
    00
  • 在VS Code中开始使用Python

    你好!在这篇教程中,你将学习如何在Visual Studio Code中使用Python 3创建、运行和调试一个Python“掷骰子”的应用程序,使用虚拟环境,使用包等等!通过使用Python扩展,你可以将VS Code变成一个出色的、轻量级的Py…

    2023年9月19日
    00
  • 编程的奇妙之旅:Python多线程爬虫下载PDF教材

    有一天,当我坐在电脑前,思考着编程的奇妙之处时,一种冒险的感觉涌上心头。我想,为什么不用编程来探索互联网的深处,下载一些有趣的教材呢?于是,我开始了这次奇妙的编程之旅,带着好奇心和激情,我将向你展示…

    2023年10月4日
    00
  • 如何使用OpenAI的Web UI API进行文本到图像生成

    嗨,大家好!如果你对使用OpenAI的Web UI API进行文本到图像生成感到困惑,不用担心,我将为你提供一份详细的教程。在这个教程中,我将向你介绍如何设置API,构建请求,获取生成的图像以及如何修改一些重要的参数。…

    2023年9月22日
    00
  • Python虚拟环境打包及迁移教程

    在实际开发中,我们经常会使用虚拟环境来隔离不同项目的依赖。但是,当我们需要在另一台服务器上部署相同的环境时,可能会遇到一些问题。本教程将介绍如何将 Python 虚拟环境打包,并在另一台服务器上解压后即可运…

    2024年3月17日
    00
  • 如何使用情感分析和Python分析虚拟货币市场情绪

    虚拟货币市场一直以来都是一个充满波动和不确定性的领域。在这个市场中,情感和市场情绪可以对价格产生重大影响。因此,了解如何使用情感分析工具和Python来分析虚拟货币市场情绪变得至关重要。本教程将向您介绍如…

    2023年12月28日
    00
  • 微软将Python直接融入Excel:办公软件的双进化

    近年来,Python和Excel一直在办公软件领域扮演着重要的角色。Python以其强大的编程功能和丰富的库生态备受欢迎,而Excel则是数据处理和分析的利器,几乎成了每个办公室的标配工具。然而,最近微软带来了令人振奋的…

    2023年8月25日
    00
  • 记录一次中药数据库的捣鼓

    在信息化、大数据的今天,手工操作逐渐显得笨拙和低效。今天,我要分享一个用Python自动获取和整理中药数据库的实践过程,以示如何通过编程实现工作自动化。 找寻数据源:机遇与挑战并存 解决任何问题的第一步总是…

    2023年9月3日
    00
  • 如何使用Python优化爬虫和数据可视化

    你是否曾经想过如何从Bilibili网站上获取有关UP主的信息,并将其可视化呈现出来?本教程将向你展示如何使用Python、Selenium、Pandas和Matplotlib优化你的爬虫和数据可视化流程,以更轻松地收集和分析数据。 前言 …

    2023年9月13日
    00