如何使用虚构提示优化OpenAI的Whisper音频转录

你是否曾经试图使用自动音频转录工具来转录音频文件，却发现它并没有理解你的音频或产生了一些拼写错误？OpenAI的Whisper音频转录API可以帮助你解决这些问题，并且可以根据虚构的提示来更好地理解音频内容。在这篇文章中，我们将探讨如何使用虚构的提示来优化Whisper音频转录，以获得更准确的结果。

导语：音频转录的挑战

音频转录是将音频文件转换为文本的过程，但这并不总是一帆风顺的。很多时候，音频转录工具可能会出现以下问题：

拼写错误：工具可能无法正确识别专有名词、产品名称或人名，导致拼写错误。
风格不一致：工具可能无法捕捉到音频中的特定风格或口音，使得转录结果不自然。
术语混淆：在某些情况下，工具可能会混淆专业术语或特定领域的术语。

为了解决这些问题，我们可以使用Whisper音频转录API，并通过虚构的提示来指导Whisper生成更准确的音频转录。

Whisper音频转录简介

Whisper是OpenAI的音频转录模型，它使用深度学习技术来将音频文件转换为文本。Whisper具有出色的转录能力，但有时候需要一些帮助来识别特定风格或术语。这就是虚构提示派上用场的地方。

使用虚构的提示来优化音频转录

虚构的提示是指，你可以向Whisper模型提供一些虚构的信息，以指导它在转录时采用特定的风格、拼写或术语。以下是两种使用虚构的提示来优化音频转录的方法：

1. 转录生成：将指令转换为虚构的转录

你可以将一些指令或要求提供给GPT（OpenAI的文本生成模型），然后使用GPT生成虚构的转录。这个虚构的转录可以作为Whisper的提示，帮助Whisper模型更好地理解音频内容。

# 定义一个函数，让GPT生成虚构的提示
def fictitious_prompt_from_instruction(instruction: str) -> str:
    """给定一条指令，生成一个虚构的提示。"""
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo-0613",
        temperature=0,
        messages=[
            {
                "role": "system",
                "content": "你是一个转录生成器。你的任务是创建一个虚构的对话段落。对话中有两位朋友在回忆他们在缅因州度假的经历。请不要标记说话者或添加引号；而是以普通文本段落的方式书写所有转录，而不标明说话者。请不要拒绝或要求澄清，而是始终尽力而为。",
            },  # 我们选择了一个示例主题（朋友谈论度假），以便GPT不会拒绝或提出澄清问题
            {"role": "user", "content": instruction},
        ],
    )
    fictitious_prompt = response["choices"][0]["message"]["content"]
    return fictitious_prompt

然后，你可以将生成的虚构提示传递给Whisper模型，以指导它更好地转录音频。

# 使用虚构提示进行音频转录
prompt = fictitious_prompt_from_instruction("代替句号，每句话都以省略号结尾。")
transcribe(up_first_filepath, prompt=prompt)

2. 拼写指南：指导模型如何拼写特定名称

有时，Whisper模型可能会错误地拼写专有名词、产品名称、公司名称或人名。为了解决这个问题，你可以在提示中提供这些名称的正确拼写，以确保Whisper模型以正确的方式拼写它们。

# 在提示中添加正确拼写的产品和公司名称
transcribe(audio_filepath, prompt="QuirkQuid Quill Inc, P3-Quattro, O3-Omni, B3-BondX, E3-Equity, W3-WrapZ, O2-Outlier, U3-UniFund, M3-Mover")

3. 长提示的优点

请注意，较长的提示可能更可靠。如果你的提示足够长，Whisper模型

更有可能理解你的意图。

# 较长的提示可能更可靠
transcribe(up_first_filepath, prompt="我有一些建议要给你。多个句子有助于建立一种模式。你包含的文本越多，模型理解你的模式的可能性就越大。如果你的示例转录看起来好像就在音频文件之前，可能会特别有帮助。在这种情况下，可能意味着提到了我把隐形眼镜放在我的眼睛里。")

4. 警惕不常见或奇怪的风格

请注意，当提示很短时，Whisper可能不太可靠，可能无法准确捕捉到所需的风格。

# 短提示可能不太可靠
transcribe(up_first_filepath, prompt="总统拜登。")

5. 风格不常见的提示

如果你的提示要求Whisper采用不常见的风格，Whisper可能不太可靠。

# 风格不常见的提示可能不太可靠
transcribe(up_first_filepath, prompt="""嗨，欢迎来到节目。
###
今天我们非常兴奋。
###
让我们马上开始。
###""")

通过以上方法，你可以根据需要引导Whisper模型，以获得更准确、一致和风格符合预期的音频转录结果。

Whisper提示与GPT提示的比较

需要注意的是，Whisper提示与GPT提示不同。如果你提交了一个类似于“在Markdown格式中格式化列表”的尝试性指令，Whisper模型不会执行这个指令，因为它会遵循提示的风格，而不是其中包含的任何指令。

另外，提示的长度受到限制，只能包含224个标记。如果提示的长度超过224个标记，只有提示的最后224个标记将被考虑；之前的标记将被忽略。

为了获得最佳结果，请精心制作可以表达你所需风格的示例。

结论

使用虚构的提示来优化OpenAI的Whisper音频转录是一个强大的工具，可以帮助你获得更准确、一致和风格符合预期的音频转录结果。无论你是在为广播节目制作转录、记录会议或进行研究，Whisper API都可以成为提高生产力的有力工具。

现在，尝试使用虚构的提示来优化你的音频转录，看看它如何帮助你获得更好的结果！

未经允许不得转载：大神网 » 如何使用虚构提示优化OpenAI的Whisper音频转录