使用Python获取文件夹下所有图片并进行文字识别转换为Excel教程

在本教程中,我们将学习如何使用Python编写一个脚本,该脚本可以自动获取指定文件夹下的所有图片文件,并利用百度AI的文字识别服务将这些图片中的表格内容转换为Excel格式。这种功能在需要从大量图片中提取表格数据时非常有用。

使用Python获取文件夹下所有图片并进行文字识别转换为Excel教程

教程概览

  1. 环境准备:安装所需Python库。
  2. 目录遍历:获取指定文件夹下的所有图片文件。
  3. 百度AI文字识别:使用百度AI进行图片中表格的文字识别。
  4. 数据提取与保存:将识别结果保存为Excel文件。
  5. 关键词总结:列出教程相关的高搜索量关键词。
  6. 生成配图:为教程创建一张21:9尺寸的配图。

1. 环境准备

首先,我们需要安装一些Python库:

  • os:用于操作系统功能,如文件路径的遍历。
  • aip:百度AI的Python SDK,用于文字识别。
  • requests:用于发送网络请求,获取识别结果的下载链接。

可以使用pip命令安装aiprequests

pip install baidu-aip requests

2. 目录遍历

import os

work_path = "图片\\"
pictures = []

for root, dirs, files in os.walk(work_path):
    path = [os.path.join(root, name) for name in files]
    pictures.extend(path)

这段代码会遍历work_path指定的文件夹,并将所有文件的路径存储在pictures列表中。

3. 百度AI文字识别

要使用百度AI的文字识别功能,需要先在百度AI平台注册并创建应用,获取APP_IDAPI_KEYSECRET_KEY

from aip import AipOcr
import time

APP_ID = '你的APP_ID'
API_KEY = '你的API_KEY'
SECRET_KEY = '你的SECRET_KEY'
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

4. 数据提取与保存

遍历图片列表,对每张图片进行表格文字识别,并将结果保存为Excel文件。

import requests

for picture in pictures:
    with open(picture, 'rb') as pic:
        img = pic.read()
        table = client.tableRecognitionAsync(img)
        request_id = table['result'][0]['request_id']

        result = client.getTableRecognitionResult(request_id)
        while result['result']['ret_msg'] != '已完成':
            time.sleep(2)
            result = client.getTableRecognitionResult(request_id)

        download_path = result['result']['result_data']
        excel_name = picture.split(".")[0] + ".xls"
        excel = requests.get(download_path)
        with open(excel_name, 'wb') as file:
            file.write(excel.content)

本文由作者 王大神 原创发布于 大神网的AI博客。

转载请注明作者:王大神

原文出处:使用Python获取文件夹下所有图片并进行文字识别转换为Excel教程

(0)
打赏 微信扫一扫 微信扫一扫
上一篇 2023年12月10日
下一篇 2023年12月10日

相关推荐

  • 如何使用Python自动化B站任务

    在繁忙的生活中,有时候没有足够的时间去完成一些日常任务,比如在B站上投币、点赞、分享视频。但是,如果你是一名B站的资深用户,你可能知道这些任务可以帮助你获得更多的经验和银币。所以,有没有一种方法可以让…

    2023年10月20日
    00
  • 分享一个之前写的微信根据关键词发布朋友圈的auto.js

    想象一下,你每天都要发布微信朋友圈,分享生活中的点滴,但是这个过程变得越来越耗时,每天都需要花费大量的时间来完成。你可能想要寻找一种更高效的方式来自动发布朋友圈,以便有更多的时间去做其他事情。这时,A…

    2023年8月19日
    00
  • Python pip源切换全攻略:提升包下载速度

    在Python开发过程中,经常会使用pip来安装各种依赖包。由于网络环境的不同,直接使用官方源可能会遇到下载缓慢的问题。因此,了解如何切换到更快的镜像源,对于提升开发效率至关重要。本文将详细介绍如何通过一个简…

    2024年3月14日
    00