如何使用Python优化爬虫和数据可视化

你是否曾经想过如何从Bilibili网站上获取有关UP主的信息,并将其可视化呈现出来?本教程将向你展示如何使用Python、Selenium、Pandas和Matplotlib优化你的爬虫数据可视化流程,以更轻松地收集和分析数据。

前言

在这个信息爆炸的时代,我们有许多方法来获取数据。而对于喜欢Bilibili的用户来说,UP主的粉丝数量和内容质量是非常关键的信息。我们将使用Python编程语言来自动抓取Bilibili上UP主的信息,并通过数据可视化来更好地理解这些数据。

准备工作

在开始之前,确保你已经安装了以下Python库:

  • Pandas:用于数据处理和分析。
  • Matplotlib:用于数据可视化。
  • Selenium:用于网页自动化操作。

你还需要下载Microsoft Edge浏览器驱动,确保与你的浏览器版本相匹配。现在,让我们开始吧!

第一步:设置环境

首先,让我们设置Python环境并导入必要的库:

import pandas as pd
import matplotlib.pyplot as plt
from selenium import webdriver
from selenium.webdriver.common.by import By
import pinyin

在这里,我们导入了所需的库,包括Pandas用于数据处理、Matplotlib用于可视化、Selenium用于网页自动化操作以及pinyin用于处理拼音。

第二步:设置中文显示

由于我们将处理中文字符,我们需要设置Matplotlib以正确显示中文字符:

plt.rcParams["font.sans-serif"] = ["SimHei"]
plt.rcParams["axes.unicode_minus"] = False

这将确保你的可视化图表中可以正确显示中文。

第三步:编写辅助函数

在进行爬取和数据处理之前,我们将编写一些辅助函数来处理文字数据:

def getStrAllAlpha(string):
    return pinyin.get_initial(string, delimiter="").upper()

def getStrFirstAlpha(string):
    string = getStrAllAlpha(string)
    string = string[0:1]
    return string.upper()

这两个函数将用于将UP主的名字转换为拼音,并提取首字母,以便后续的数据整理。

第四步:爬取UP主信息

现在,让我们开始爬取Bilibili上UP主的信息。我们将使用Selenium来自动化这个过程。首先,设置Bilibili的搜索页面URL:

url = "https://search.bilibili.com/upuser?keyword=mc&from_source=webtop_search&spm_id_from=333.1007&order=fans"

接下来,设置浏览器的User-Agent,以模拟用户操作:

header = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36'}
opt = webdriver.EdgeOptions()
opt.add_argument('--user-agent=%s' % header)
edge = webdriver.Edge(options=opt)

然后,让浏览器打开Bilibili的搜索页面:

edge.get(url)

现在,我们准备开始爬取UP主信息。我们将循环爬取100个UP主的名字和粉丝数量,并将它们存储在两个列表中:

name_list = []
people_list = []

for i in range(1, 101):
    try:
        # 使用XPath定位UP主信息
        li = edge.find_element(by=By.XPATH, value='//*[@id="user-list"]/div[1]/ul/li[' + str(i) + ']')
        txt = li.text
        name = txt.split("\n")[0].split("+")[0]
        people = txt.split("\n")[2].split(":")[1].split("万")[0]
        name_list.append(name)
        people_list.append(float(people))
        print(name, people)
    except:
        print("切页")
        # 点击下一页按钮
        button = edge.find_element(by=By.XPATH, value='//*[@id="user-list"]/div[1]/div[2]/div/ul/li[' + str(page) + ']/button').click()
        page += 1

这个循环将遍历100个UP主的信息,并将它们存储在两个列表中。如果需要翻页,它还会自动点击下一页按钮。

第五步:数据整理

现在,我们已经成功爬取了UP主的信息,接下来让我们对数据进行整理。首先,我们将按照首字母对UP主进行分类:

abc_name = []
abc_name2 = []
abc_people = []
abc_people2 = []
abc = "A"

for i in range(26):
    for j in name_list:
        if getStrFirstAlpha(j) == abc:
            abc_name.append(j)
            tt = name_list.index(j)
    abc = chr(ord(abc) + 1)

for id in abc_name:
    if id not in abc_name2:
        abc_name2.append(id)

for i in abc_name2:
    abc_people2.append(people_list[name_list.index(i)])

这段代码会将UP主按照首字母进行分类,并创建两个新的列表,分别存储UP主的名字和粉丝数量。

第六步:数据保存

我们将整理好的数据保存为CSV文件,以备后续分析和可视化使用:

data = pd.DataFrame({"UP主名字": name_list, "粉丝数量/万": people_list})
data.to_csv("up主信息.csv")

data = pd.DataFrame({"UP主名字": abc_name2, "粉丝数量/万": abc_people2})
data.to_csv("按首字母分类.csv")

这将创建两个CSV文件

,分别存储UP主的详细信息和按首字母分类的信息。

第七步:数据可视化

现在,我们已经成功获取和整理了UP主的信息,接下来让我们使用Matplotlib进行数据可视化。我们将创建两个柱状图,一个显示所有UP主的粉丝数量,另一个按首字母分类显示:

plt.subplot(1, 2, 1)
bar1 = plt.bar(name_list, people_list, color=['r', 'r', 'r', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b'])
plt.xticks(rotation=90, fontsize=13)
plt.bar_label(bar1, label_type='edge')

plt.subplot(1, 2, 2)
bar2 = plt.bar(abc_name2, abc_people2, color=['r', 'r', 'r', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b', 'b'])
plt.bar_label(bar2, label_type='edge')
plt.xticks(rotation=90, fontsize=13)

plt.show()

这段代码会创建两个子图,一个显示所有UP主的粉丝数量,另一个按首字母分类显示。最后,通过plt.show()将图表显示出来。

总结

通过这个教程,你学会了如何使用Python、Selenium、Pandas和Matplotlib来爬取Bilibili上UP主的信息,并将其进行数据整理和可视化。这对于分析UP主的粉丝数量和分类是非常有用的。

现在,你可以探索更多的数据分析和可视化方法,或者将这些数据用于其他有趣的项目。希望这个教程对你有所帮助!

本文由作者 王大神 原创发布于 大神网的AI博客。

转载请注明作者:王大神

原文出处:如何使用Python优化爬虫和数据可视化

(0)
打赏 微信扫一扫 微信扫一扫
上一篇 2023年9月13日
下一篇 2023年9月13日

相关推荐

  • 打造神器:使用Python和Web3创建铭文批量铸造工具

    铭文在许多区块链游戏和应用中扮演着重要的角色。然而,如果你需要大量铸造铭文,手动完成这项任务将是一项繁重和耗时的工作。为了解决这个问题,我们可以使用Python和Web3库创建一个铭文批量铸造工具,以便更高效…

    2023年12月15日
    00
  • 如何使用Python减轻工作压力和自动化任务:从会计、教师到销售的全能工具

    在当今繁忙的工作环境中,提高效率和减轻工作压力是每个行业都面临的挑战。无论您是一名会计师、教师还是销售专业人员,Python都可以成为您的得力助手,帮助您自动化任务、提高工作效率。在本教程中,我们将探讨Pyt…

    2023年10月20日
    00
  • 如何打造你自己的Python学生管理系统:简单、高效、实用!

    记得刚学会编程的那段日子吗?最开始,我们就像一个空白的画布,对这个充满可能性的世界充满好奇。但随着时间的推移,你可能会发现自己陷入了一种单调乏味的状态——总是在做一些重复的任务,比如管理数据、整理文件…

    2023年9月24日
    00
  • 揭秘交易情绪分析:你的成功交易利器

    你是否曾想过,在投资和交易的旅程中,能够洞察市场情绪的变化,从而更明智地做出决策?交易情绪分析正是这个领域的一颗璀璨明珠,它利用自然语言处理和机器学习技术,帮助你解读市场的情感波动,无论是乐观、悲观…

    2023年9月27日
    00
  • Python中的`input`函数:Linux环境下为何无阻塞现象

    张杰是一个资深的Python开发者,他最近在Linux环境下遇到了一个令人困惑的问题:当他在socket通信中使用input函数时,该函数在某些情况下似乎不会阻塞。他很困惑,因为在其他情况下,input函数总是如预期那样工作的…

    2023年10月9日
    00
  • 如何使用Python自动化更新Visual Studio Code

    在软件开发领域,Visual Studio Code(简称VS Code)是一款备受欢迎的代码编辑器,拥有强大的功能和扩展性。它经常会发布新版本,带来各种改进和新功能。但是,手动下载和安装这些更新可能是一项繁琐的任务。本教程…

    2023年10月16日
    00
  • 如何优化Python数据库操作与连接

    在现代应用程序中,与数据库的交互是一个常见的任务。Python作为一门流行的编程语言,提供了多种方式来操作和连接数据库。然而,在处理大量数据或高并发请求时,数据库操作可能成为性能瓶颈。本教程将介绍如何优化P…

    2023年10月15日
    00
  • 如何使用Python和PyQt5创建双色球彩票选号器

    你是否曾经在购买双色球彩票时感到犹豫不决,不知道应该选择哪些数字?如果是这样,那么你来对地方了!本教程将教你如何使用Python和PyQt5库创建一个简单的双色球彩票选号器。通过这个应用程序,你可以随机生成红球…

    2023年10月19日
    00
  • 如何打造自己的开发工具箱:一个深入探讨的教程

    当李华从业界前辈那里听说 JetBrains Toolbox 的时候,他的内心被深深吸引了。作为一个对编程充满热情的初学者,李华对此表示了浓厚的兴趣。他想要为自己在 Python 上制作的各种小工具整合成一个完整的工具箱,如同…

    2023年10月9日
    00
  • 如何在Python中使用IP地址进行SSL连接

    有一天,你正在开发一个Python应用程序,需要与一个没有域名,只有IP地址的远程服务器建立安全的SSL连接。你深知SSL的重要性,但如何在这种情况下实现它呢?不要担心,本文将为你详细解释如何在Python中使用IP地址…

    2023年10月10日
    00