编程的奇妙之旅:Python多线程爬虫下载PDF教材

有一天,当我坐在电脑前,思考着编程的奇妙之处时,一种冒险的感觉涌上心头。我想,为什么不用编程来探索互联网的深处,下载一些有趣的教材呢?于是,我开始了这次奇妙的编程之旅,带着好奇心和激情,我将向你展示如何使用Python编写一个多线程爬虫,用于下载各种教材的PDF文件。

准备工作

在我们踏上这次冒险之前,我们需要做一些准备工作。

初始化日志

首先,我们需要设置日志记录,以便随时跟踪我们的编程冒险。

import logging

def init_logging():
    logging_format = '%(asctime)s\t[%(levelname)s]\t[%(name)s]\t[%(threadName)s]\t%(message)s'
    logging.basicConfig(format=logging_format, level=logging.INFO)

导入必要的库

为了让我们的编程冒险变得更加容易,我们需要使用requests库来进行网络请求和数据下载。如果你还没有安装这个库,请使用以下命令来安装它:

pip install requests

设置下载目录和线程数量

这两个变量将在后面的代码中使用,你可以根据需要进行调整。

download_base_dir = 'd:/book3'  # 设置下载文件保存的文件夹
thread_count = 8  # 设置线程数量

开始编写爬虫

请求数据版本

首先,我们需要获取教材数据的版本信息,这将有助于我们确定要下载的文件。

def request_data_version() -> [str]:
    # 目标URL
    data_url = "https://s-file-1.ykt.cbern.com.cn/zxx/ndrs/resources/tch_material/version/data_version.json"
    try:
        logging.info("开始请求URL: %s", data_url)
        response = requests.get(data_url)
        logging.info("状态码 %s, 响应内容: %s", response.status_code, response.text)
        if response.status_code == 200:
            data = response.json()
            return data["urls"].split(",")
        else:
            logging.warning("无法获得正确的响应,程序退出 -1。")
            sys.exit(-1)
    except requests.exceptions.RequestException as e:
        logging.exception("请求数据版本失败", e)

请求单个数据URL

接下来,我们将请求每个教材的数据URL,并解析教材信息。

def request_single_data_url(data_url: str) -> [dict]:
    try:
        logging.info("开始请求URL: %s", data_url)
        response = requests.get(data_url)
        logging.info("状态码 %s", response.status_code)
        if response.status_code == 200:
            data = response.json()
            books = []
            for d in data:
                book_data = parse_book_data(d)
                if len(book_data) != 0:
                    books.append(book_data)
                else:
                    logging.warning("跳过此教材: %s", d['title'])
            return books
    except requests.exceptions.RequestException as e:
        logging.exception("请求单个数据URL失败", e)

解析教材数据

我们将解析每本教材的数据,包括教材名称和标签。

def parse_book_data(data: dict) -> dict:
    book_id = data['id']
    book_name = data['title']
    book_tags = data['tag_list']
    book_tags = sorted(book_tags, key=custom_sort_tag_list, reverse=True)
    if '版' not in (book_tags[0]['tag_name']):
        return {}
    return {"id": book_id, "name": book_name, "dirs": get_dirs_from_tags(book_tags)}

获取目录信息

我们将从标签中提取目录信息,以便稍后创建文件夹。

def get_dirs_from_tags(book_tags) -> str:
    return f"{book_tags[0]['tag_name']}/{book_tags[1]['tag_name']}/{book_tags[2]['tag_name']}"

自定义标签排序

为了确保我们获取的是正确的教材版本,我们需要自定义排序标签。

def custom_sort_tag_list(tag):
    tag_name = tag['tag_name']
    school_level, edition, grade, semester, course_name = '', '', '', '', ''
    if "版" in tag_name:
        edition = tag_name
    elif "年级" in tag_name:
        grade = tag_name
    elif "册" in tag_name:
        semester = tag_name
    elif '小学' in tag_name or '初中' in tag_name or '高中' in tag_name:
        school_level = tag_name
    elif '教材' not in tag_name:
        course_name = tag_name

    return edition, school_level, grade, course_name, semester

下载教材

最后,我们将下载每本教材的PDF文件。

def download_book(book):
    file_dir = f"{download_base_dir}/{book['dirs']}"
    file_name = f"{book['name']}.pdf"
    file_full_path = os.path.join(file_dir, file_name)
    logging.info("开始下载教材: %s/%s", file_dir, file_name)
    try:
        if not os.path.exists(file_dir):
            os.makedirs(file_dir)
    except FileExistsError:
        logging.warning("文件夹 %s 已经存在", file_dir)

    download_url = f"https://r1-ndr.ykt.cbern.com.cn/edu_product/esp/assets_document/{book['id']}.pkg/pdf.pdf"
    response = requests.get(download_url)
    if response.status_code == 200:
        with open(os.path.join(file_dir, file_name), "wb") as file:
            file.write(response.content)
            logging.info("教材下载成功: %s", file_full_path)
    else:
        logging.warning("教材下载失败,状态码: %s", response.status_code)

多线程下载

我们将使用多线程来提高下载速度。

def multi_thread_download

_books(shared_queue: queue.Queue):
    try:
        while True:
            item = shared_queue.get_nowait()
            download_book(item)
            shared_queue.task_done()
    except queue.Empty:
        logging.warning("队列为空")

请求所有教材

最后,我们将请求所有教材的信息并将其添加到共享队列中。

def request_all_books_to_shared_queue():
    shared_queue = queue.Queue(maxsize=3000)
    urls = request_data_version()
    for url in urls:
        books = request_single_data_url(url)
        for book in books:
            shared_queue.put(book)
    return shared_queue

执行下载

现在,我们已准备好执行下载任务。

if __name__ == '__main__':
    init_logging()

    # 下载文件保存的文件夹
    download_base_dir = 'd:/book3'
    # 线程数量
    thread_count = 8

    all_books_queue = request_all_books_to_shared_queue()
    with concurrent.futures.ThreadPoolExecutor(max_workers=thread_count) as executor:
        futures = [executor.submit(multi_thread_download_books, all_books_queue) for i in range(thread_count)]
        concurrent.futures.wait(futures)

    logging.info("完成下载!!!")

结束语

通过这个教程,你已经学会了如何使用Python编写一个多线程爬虫,用于下载各种教材的PDF文件。这个项目不仅展示了编程的实际应用,还提供了深入探索网络资源的机会。希望你能充分利用这些技能,探索更多有趣的项目和挑战!

本文由作者 王大神 原创发布于 大神网的AI博客。

转载请注明作者:王大神

原文出处:编程的奇妙之旅:Python多线程爬虫下载PDF教材

(0)
打赏 微信扫一扫 微信扫一扫
上一篇 2023年10月4日
下一篇 2023年10月4日

相关推荐

  • 在排序数组中查找元素的首尾位置:详细教程与实用技巧

    在程序设计的世界里,数据结构和算法是构建高效、优雅解决方案的基石。想象一下,你有一个已排序的数字数组和一个目标值,你的任务是在这个数组中找到该目标值的起始和结束位置。这看起来简单,但实际上,它蕴含了…

    2023年11月25日
    00
  • 动态类型语言中如何确定返回值类型:Python实践指南

    在Python的世界中,张三正面临一个挑战。他正在使用一个新的第三方库,但遇到了一个问题:每次调用函数,由于缺乏类型提示,他都不知道返回的数据类型是什么。看源码,但似乎很复杂,IDE没有给出有用的提示。张三开…

    2023年10月9日
    00
  • 选择最佳GUI编程语言和工具,提高开发效率

    王大神,一名充满热情的自由职业者,最近在开发过程中遇到了一个挑战:客户需要一个在Windows平台上能够提供图形用户界面(GUI)的应用程序,并且要求打包成exe文件,而且要尽量避免bug。在一天的时间里,他尝试了…

    2023年11月17日
    00
  • Rust 在 Python Web 应用中的性能魔力

    在一个多云的下午,小张正在使用 FastAPI 编写一个新的 Web 服务。虽然他知道 Python 为他提供了高效的开发速度和灵活性,但他仍然对性能有所担忧。当他在互联网上浏览时,他碰巧读到了 Rust 和 Python 的联合使用…

    2023年10月9日
    00
  • 优化种子文件批量转换成磁力链的Python代码

    种子文件转换成磁力链是一个常见的需求,特别是对于那些喜欢分享和下载种子文件的人来说。在本教程中,我们将介绍如何优化已有的Python代码,以实现将多个种子文件批量转换成磁力链的功能。通过模块化、改进变量名…

    2023年12月18日
    00
  • 深入探讨迭代器:编程中的神奇工具

    开篇故事:探秘迭代器的魅力 大家好,我是王大神,欢迎回到我的AI技术博客。今天,我们将探讨计算机编程中一个令人着迷的话题:迭代器(Iterator)。或许你曾听说过它,但它究竟是什么,又有什么神奇之处呢? 让我…

    2023年9月26日
    00
  • 如何使用Stable Diffusion WebUI的API生成图像

    你是否曾想过如何利用Stable Diffusion WebUI的API来生成图像?在本教程中,我们将向你展示如何使用这个功能,以及如何在生成的图像中添加元数据。让我们开始吧! 故事开端 一天,你突然产生了一个创意,想要创建一…

    2023年9月13日
    00
  • 微软将Python直接融入Excel:办公软件的双进化

    近年来,Python和Excel一直在办公软件领域扮演着重要的角色。Python以其强大的编程功能和丰富的库生态备受欢迎,而Excel则是数据处理和分析的利器,几乎成了每个办公室的标配工具。然而,最近微软带来了令人振奋的…

    2023年8月25日
    00
  • Python GIL:解析并发、并行和线程安全

    一天,小明在调试他的 Python 多线程应用程序时,发现程序的并发性能并没有他预期的那么好。他很困惑,为什么在一个多核的 CPU 上,他的多线程程序似乎只在一个核上运行?他在网上搜索了一番,然后遇到了一个称为 &…

    2023年10月9日
    00
  • 从汇率到Python:如何查询和换算港币对人民币汇率

    有一天,小明计划去香港旅游,但他对港币对人民币的汇率一无所知。他不想在旅行中被坑,所以决定学习如何查询和换算港币对人民币的汇率。在他的学习过程中,他发现了Python这个有趣的工具,可以帮助他轻松查询汇率…

    2023年10月20日
    00