近期,短视频平台上火爆的“AI绘画”,在各大科技平台上刷屏的智能聊天软件ChatGPT,引起了人们广泛关注。人工智能潜力再次被证明,而这两个概念均来自同一个领域:AIGC。AIGC到底是什么?为什么如此引人关注?AIGC能产生什么样的应用价值?
本文将重点关注三个方面:
- AIGC核心技术与原理
- AIGC典型应用场景
- AIGC落地产品形态
一、AIGC是什么?
AIGC全称为AI-Generated Content,直译:人工智能内容生成。即采用人工智能技术来自动生产内容。那么,AIGC采用了什么人工智能技术?可生成什么内容?
对以上两个问题进行回答,首先,从技术层面AIGC可分为三个层次,分别为:
- 智能数字内容孪生:
简单的说,将数字内容从一个维度映射到另一个维度。与生成有什么关系呢?因为另一个维度内容不存在所以需要生成。内容孪生主要分为内容的增强与转译。增强即对数字内容修复、去噪、细节增强等。转译即对数字内容转换如翻译等。该技术旨在将现实世界中的内容进行智能增强与智能转译,更好的完成现实世界到数字世界映射。例如,我们拍摄了一张低分辨率的图片,通过智能增强中的图像超分可对低分辨率进行放大,同时增强图像的细节信息,生成高清图。再比如,对于老照片中的像素缺失部分,可通过智能增强技术进行内容复原。而智能转译则更关注不同模态之间的相互转换。比如,我们录制了一段音频,可通过智能转译技术自动生成字幕;再比如,我们输入了一段文字,可以自动生成语音,两个例子均为模态间智能转译应用。
应用:
- 图像超分
- 语音转字幕
- 文字转语音
- 智能数字内容编辑:
智能数字内容编辑通过对内容的理解以及属性控制,进而实现对内容的修改。如在计算机视觉领域,通过对视频内容的理解实现不同场景视频片段的剪辑。通过人体部位检测以及目标衣服的变形控制与截断处理,将目标衣服覆盖至人体部位,实现虚拟试衣。在语音信号处理领域,通过对音频信号分析,实现人声与背景声分离。以上三个例子均在理解数字内容的基础上对内容的编辑与控制。
应用:
- 视频场景剪辑
- 虚拟试衣
- 人声分离
- 智能数字内容生成:
智能数字内容生成通过从海量数据中学习抽象概念,并通过概念的组合生成全新的内容。如AI绘画,从海量绘画中学习作品不同笔法、内容、艺术风格,并基于学习内容重新生成特定风格的绘画。采用此方式,人工智能在文本创作、音乐创作和诗词创作中取得了不错表现。再比如,在跨模态领域,通过输入文本输出特定风格与属性的图像,不仅能够描述图像中主体的数量、形状、颜色等属性信息,而且能够描述主体的行为、动作以及主体之间的关系。
应用:
- 图像生成(AI绘画)
- 文本生成(AI写作、ChatBot)
- 视频生成
- 多模态生成
从生成内容层面AIGC可分为五个方面:
- 文本生成
基于NLP的文本内容生成根据使用场景可分为非交互式与交互式文本生成。非交互式文本生成包括摘要/标题生成、文本风格迁移、文章生成、图像生成文本等。交互式文本生成主要包括聊天机器人、文本交互游戏等。
代表性产品或模型:
- JasperAI
- copy.AI
- ChatGPT
- Bard
- AI dungeon
- 图像生成
图像生成根据使用场可分为图像编辑修改与图像自主生成。图像编辑修改可应用于图像超分、图像修复、人脸替换、图像去水印、图像背景去除等。图像自主生成包括端到端的生成,如真实图像生成卡通图像、参照图像生成绘画图像、真实图像生成素描图像、文本生成图像等。
代表性产品或模型:
- EditGAN
- Deepfake
- DALL-E
- MidJourney
- Stable Diffusion
- 文心一格
- 音频生成
音频生成技术较为成熟,在C端产品中也较为常见,如语音克隆,将人声1替换为人声2。还可应用于文本生成特定场景语音,如数字人播报、语音客服等。此外,可基于文本描述、图片内容理解生成场景化音频、乐曲等。
代表性产品或模型:
- DeepMusic
- WaveNet
- Deep Voice
- MusicAutoBot
- 视频生成
视频生成与图像生成在原理上相似,主要分为视频编辑与视频自主生成。视频编辑可应用于视频超分(视频画质增强)、视频修复(老电影上色、画质修复)、视频画面剪辑(识别画面内容,自
视频拼接)。视频自主生成可应用于图像生成视频(给定参照图像,生成一段运动视频)、文本生成视频(给定一段描述性文字,生成内容相符视频)。
代表性产品或模型:
- Deepfake
- videoGPT
- Gliacloud
- Make-A-Video
- Imagen video
5、多模态生成
以上四种模态可以进行组合搭配,进行模态间转换生成。如文本生成图像(AI绘画、根据prompt提示语生成特定风格图像)、文本生成音频(AI作曲、根据prompt提示语生成特定场景音频)、文本生成视频(AI视频制作、根据一段描述性文本生成语义内容相符视频片段)、图像生成文本(根据图像生成标题、根据图像生成故事)、图像生成视频。
代表性产品或模型:
- DALL-E
- MidJourney
- Stable Diffusion
二、AIGC典型应用场景
AIGC技术可应用于多个领域,包括但不限于:
- 内容创作
AIGC技术可用于文本、图像、音频、视频等多模态内容的创作。如AI绘画、AI创作音乐、AI创作文学作品等。
- 游戏
AIGC技术可用于游戏场景、人物、道具等元素的自动生成,提高游戏的可玩性和趣味性。如EVE中的NPC自动生成、无人深空的星系自动生成。
- 营销
AIGC技术可用于营销内容的创意和创作。如AI创意广告、AI自动生成海报等。
- 教育
AIGC技术可用于教育内容的创作和辅助。如AI自动生成教学课件、AI辅助学生作业等。
三、AIGC落地产品形态
- 以API形式提供的技术服务
如OpenAI,提供文本、图像、语音等多模态的AIGC技术API。
- 自主研发的AIGC产品
如DALL·E(OpenAI)、Deepfake(Lyrebird)、MusicAutoBot(Amper Music)等。
- 基于AIGC技术的SaaS产品
如ChatGPT(AI翻译)、copy.ai(AI设计助手)等。
- 基于AIGC技术的定制化解决方案
如DeepFashion(深度学习视觉智能服装解决方案)、DeepVoice(智能语音解决方案)等。
总之,AIGC的应用前景广阔,未来将成为互联网内容生产的重要方式之一。