如何使用虚构提示优化OpenAI的Whisper音频转录

你是否曾经试图使用自动音频转录工具来转录音频文件,却发现它并没有理解你的音频或产生了一些拼写错误?OpenAI的Whisper音频转录API可以帮助你解决这些问题,并且可以根据虚构的提示来更好地理解音频内容。在这篇文章中,我们将探讨如何使用虚构的提示来优化Whisper音频转录,以获得更准确的结果。

导语:音频转录的挑战

音频转录是将音频文件转换为文本的过程,但这并不总是一帆风顺的。很多时候,音频转录工具可能会出现以下问题:

  • 拼写错误:工具可能无法正确识别专有名词、产品名称或人名,导致拼写错误。
  • 风格不一致:工具可能无法捕捉到音频中的特定风格或口音,使得转录结果不自然。
  • 术语混淆:在某些情况下,工具可能会混淆专业术语或特定领域的术语。

为了解决这些问题,我们可以使用Whisper音频转录API,并通过虚构的提示来指导Whisper生成更准确的音频转录。

Whisper音频转录简介

Whisper是OpenAI的音频转录模型,它使用深度学习技术来将音频文件转换为文本。Whisper具有出色的转录能力,但有时候需要一些帮助来识别特定风格或术语。这就是虚构提示派上用场的地方。

使用虚构的提示来优化音频转录

虚构的提示是指,你可以向Whisper模型提供一些虚构的信息,以指导它在转录时采用特定的风格、拼写或术语。以下是两种使用虚构的提示来优化音频转录的方法:

1. 转录生成:将指令转换为虚构的转录

你可以将一些指令或要求提供给GPT(OpenAI的文本生成模型),然后使用GPT生成虚构的转录。这个虚构的转录可以作为Whisper的提示,帮助Whisper模型更好地理解音频内容。

# 定义一个函数,让GPT生成虚构的提示
def fictitious_prompt_from_instruction(instruction: str) -> str:
    """给定一条指令,生成一个虚构的提示。"""
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo-0613",
        temperature=0,
        messages=[
            {
                "role": "system",
                "content": "你是一个转录生成器。你的任务是创建一个虚构的对话段落。对话中有两位朋友在回忆他们在缅因州度假的经历。请不要标记说话者或添加引号;而是以普通文本段落的方式书写所有转录,而不标明说话者。请不要拒绝或要求澄清,而是始终尽力而为。",
            },  # 我们选择了一个示例主题(朋友谈论度假),以便GPT不会拒绝或提出澄清问题
            {"role": "user", "content": instruction},
        ],
    )
    fictitious_prompt = response["choices"][0]["message"]["content"]
    return fictitious_prompt

然后,你可以将生成的虚构提示传递给Whisper模型,以指导它更好地转录音频。

# 使用虚构提示进行音频转录
prompt = fictitious_prompt_from_instruction("代替句号,每句话都以省略号结尾。")
transcribe(up_first_filepath, prompt=prompt)

2. 拼写指南:指导模型如何拼写特定名称

有时,Whisper模型可能会错误地拼写专有名词、产品名称、公司名称或人名。为了解决这个问题,你可以在提示中提供这些名称的正确拼写,以确保Whisper模型以正确的方式拼写它们。

# 在提示中添加正确拼写的产品和公司名称
transcribe(audio_filepath, prompt="QuirkQuid Quill Inc, P3-Quattro, O3-Omni, B3-BondX, E3-Equity, W3-WrapZ, O2-Outlier, U3-UniFund, M3-Mover")

3. 长提示的优点

请注意,较长的提示可能更可靠。如果你的提示足够长,Whisper模型

更有可能理解你的意图。

# 较长的提示可能更可靠
transcribe(up_first_filepath, prompt="我有一些建议要给你。多个句子有助于建立一种模式。你包含的文本越多,模型理解你的模式的可能性就越大。如果你的示例转录看起来好像就在音频文件之前,可能会特别有帮助。在这种情况下,可能意味着提到了我把隐形眼镜放在我的眼睛里。")

4. 警惕不常见或奇怪的风格

请注意,当提示很短时,Whisper可能不太可靠,可能无法准确捕捉到所需的风格。

# 短提示可能不太可靠
transcribe(up_first_filepath, prompt="总统拜登。")

5. 风格不常见的提示

如果你的提示要求Whisper采用不常见的风格,Whisper可能不太可靠。

# 风格不常见的提示可能不太可靠
transcribe(up_first_filepath, prompt="""嗨,欢迎来到节目。
###
今天我们非常兴奋。
###
让我们马上开始。
###""")

通过以上方法,你可以根据需要引导Whisper模型,以获得更准确、一致和风格符合预期的音频转录结果。

Whisper提示与GPT提示的比较

需要注意的是,Whisper提示与GPT提示不同。如果你提交了一个类似于“在Markdown格式中格式化列表”的尝试性指令,Whisper模型不会执行这个指令,因为它会遵循提示的风格,而不是其中包含的任何指令。

另外,提示的长度受到限制,只能包含224个标记。如果提示的长度超过224个标记,只有提示的最后224个标记将被考虑;之前的标记将被忽略。

为了获得最佳结果,请精心制作可以表达你所需风格的示例。

结论

使用虚构的提示来优化OpenAI的Whisper音频转录是一个强大的工具,可以帮助你获得更准确、一致和风格符合预期的音频转录结果。无论你是在为广播节目制作转录、记录会议或进行研究,Whisper API都可以成为提高生产力的有力工具。

现在,尝试使用虚构的提示来优化你的音频转录,看看它如何帮助你获得更好的结果!

声明:本站所有文章,如无特殊说明或标注,均为本站(王大神)原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给TA打赏
共{{data.count}}人
人已打赏
教程

如何使用DALL·E API:创建惊艳图像的秘诀

2023-9-13 19:08:51

教程

让语言模型在你的计算机上运行代码:Open Interpreter

2023-9-13 19:13:32

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索