【ChatGPT背后的技术演进】网站首页 学无止境

【ChatGPT背后的技术演进】

笑着的程序员 2023-06-05 00:00:02

简介【ChatGPT背后的技术演进】

ChatGPT背后的技术演进

1.自然语言处理的发展历史回顾

自然语言处理（Natural Language Processing, NLP） 作为人工智能的重要研究方向，旨在帮助计算机理解、解释和运用人类语言。
回顾 NLP 的主要发展历程，可大致分为三个阶段：
1）上世纪 80 年代之前，人工智能开始萌芽，基于规则的语言系统占据主导；
2）80 年代之后，从机器学习的兴起到神经网络的引入，带动了 NLP 的快速发展和商业化；
3）2017 年至今，基于 Attention 注意力机制构建的 Transformer 模型开启了大语言模型时代。
在这里插入图片描述

第一阶段：

基于规则的语言系统。早在上世纪 50 年代前后，人工智能就已经诞生，1956 召开了达特茅斯会议，首次正式提出了“人工智能”。1980 年，自然语言处理的分为了两大阵营，分别为基于语言规则的符号派和基于概率统计的随机派，而当时基于规则方法的势头明显强于基于概率统计的势头，因此当时大多数 NLP 系统都使用复杂的逻辑规则，能够处理包括字符匹配、词频统计等一些简单的任务。同时在这一时期，也产生了一些机器翻译以及语言对话的初级产品，比较著名的是 1966 年 MIT 发布的世界上第一台聊天机器人 Eliza， Eliza 能够遵循简单的语法规则来实现交流。但总体来看，这一时期 NLP 领域形成的成果还无法商业化，包括机器翻译的成本还是远高于人工翻译，而且还无法与人真正实现基本的对话。

第二阶段：

从机器学习到神经网络。1980 年美国的卡内基梅隆大学召开了第一届机器学习国际研讨会，标志着机器学习在全世界兴起，而自然语言处理也逐渐走向纯粹的统计学。90 年代以后，神经网络模型被引入到 NLP 领域，其中最著名的两个神经网络模型为循环神经网络（Recurrent Neural Network, RNN）和卷积神经网络（Convolutional Neural Networks，CNN），特别是 RNN 因其处理序列数据的特性，成为了大部分 NLP 模型的主流选择。2000 年后，一方面 Multi-task learning，Word Embedding，Seq2seq 等层出不穷的新技术推动了 NLP 技术的快速进步，另一方面 NLP 逐步实现了商业化，包括机器翻译、文本处理等商业化产品开始大量出现。

第三阶段：

基于 Attention 注意力机制构建的 Transformer 模型奠定了大语言模型的基础。2017 年 Google 机器翻译团队发布了著名论文《Attention is All You Need》，提出了基于 Attention 注意力机制构建的 Transformer 模型，这也成为了 NLP 历史上的一个标志性的事件。相较于传统的神经网络，基于 Attention 注意力机制构建的 Transformer 模型在提升了语言模型运行的效率（效率更高），同时能够更好的捕捉语言长距离依赖的信息（效果更好）。2018 年 OpenAI 公司的 GPT 以及 Google 公司的 BERT 均是基于 Attention 注意力机制与 Transformer 而构建，而 NLP 也正式进入到了大语言模型的全新阶段。

2.持续进化：从 GPT-1 到 GPT-3

在 2018 年，自然语言处理 NLP 领域正式步入了大语言模型时代， OpenAI 公司的 GPT 模型与谷歌的 BERT 模型在同年相继推出。2018 年 6 月，OpenAI 公司发布了 GPT 模型的初代版本，GPT-1 运用了 Transformer 的 Decoder 框架中 Mask Self-attention 机制，目前已经迭代到了最新 ChatGPT 与 GPT-4，毫无疑问 GPT 模型已经成为了当前最为强大的语言模型。在 2018 年 10 月，Google 也发布了 BERT 模型， BERT 采用了 Transformer 的 Encoder 框架中 Self-attention 机制，作为一个拥有 3 倍 GPT 参数量的更大体量的语言模型，BERT 在当时的多项测评以及业内影响力等方面，要领先于 GPT 的初代版本。特别是在 BERT 开源之后，包括 Facebook、百度等国内外大厂均推出了基于 BERT 之上开发的大模型，其中包括 Facebook 的 XLM、RoBERTa 模型，以及百度的 ERINE 系列模型。

GPT-1

从 GPT 的初代版本来看，GPT-1 在训练方式上仍依赖于数据标注和模型微调，同时 GPT-1 的语言泛化能力仍然不足，因此可以说 GPT-1 更接近于处理特定语言任务的专家模型，而非通用的语言模型。GPT-1的模型训练采取的是二段式的训练模式，第一阶段利用无监督学习进行预训练，使用未标记的数据生成语言模型；第二阶段则根据特定的下游任务来对模型进行人工微调，比如分类任务、自然语言推理、语义相似度、问答和常识推理等任务。因此相较于此前 NLP 模型，GPT-1 实际上还是一个半监督式学习的语言模型。GPT-1 在多种语言任务方面都有不错的效果，在自然语言推理、分类、问答、对比相似度的多种测评中均超越了之前的模型。但与此同时，GPT-1 的语言泛化能力仍然不足，无法解决通用的语言任务，且和同时代的 BERT 模型比较的话，GPT-1 在能力上要逊色于 BERT。

GPT-2

2019 年 2 月，GPT-2 正式发布，相较于 GPT-1，GPT-2 舍弃了模型微调，构建了一个泛化能力更强的语言模型，这也开始让模型的通用性得以充分展现。尽管此前 GPT-1 在特定任务上已经取得了不错的效果，但实际上这类模型都需要针对单个语言任务使用大量的标注数据和模型微调，因此也只能在解决特定语言任务时才能发挥作用。而 GPT-2 的泛化能力就体现在，能够让模型应用到不同的任务，而不需要做专门的训练。这也更符合人脑处理语言信息的过程，因为人脑既可以读小说，也可以看新闻，能执行不同的语言处理任务，而且这种能力是相互关联的。而人脑在获取一个语句的信息时，这个信息是通用的，因此我们所期望的一个通用的语言模型，既可用于分类任务，也可以用于问答和常识推理等任务。具体而言，相较于 GPT-1 的无监督式预训练+有监督式学习和模型微调，GPT-2 直接舍弃了微调阶段，直接通过大规模数据进行预训练，让模型开始具备解决多种语言任务的能力。

GPT-3

2020 年 5 月， GPT-3 正式发布，GPT-3 在训练方式上创新性的引入了 In-context 学习（上下文学习），即在训练模型时，在输入的文本中加入一个或多个示例，引导模型输出相对应内容。比如：“请把以下中文翻译成英文：苹果 => apple；自然语言处理的发展历程”就是一个典型的带有一个示例的输入文本。而 In-context 学习包含了三种模式，分别为 Zero-shot Learning（零样本学习）、One-shot Learning （单样本学习）和 Few-shot Learning（少样本学习），zero-shot 就是没有示例只给提示，one-shot 是只给一个范例，few-shot 则给多个范例，实际上 zero-shot 在表达方式上已经接近于人类的语言表达方式。 In-context 学习的优点在于，输入规范化的语言模板，从人类的例子和类比中去学习，无需进行模型微调和数据标注，特别是大量的标注数据需要很高的人工成本。引入 In-context 学习后，从最终实际效果来看，GPT-3 在 few-shot 上有非常强劲的表现，但同时 one-shot 和 zero-shot 的效果还不够优秀。因此对于 one-shot 和 zero-shot 效果的提升也成为了下一代模型未来需要突破方向。
GPT-3 参数量相较于 GPT-2 提升了两个数量级，达到了 1750 亿，数据集在处理前容量达到了 45TB，成了真正意义上的超大语言模型。 GPT-3 在许多 NLP 任务上相较于 GPT-2 及其他语言模型有更多出色表现，特别是机器翻译、聊天问答和文本填空。同时是在海量参数和训练数据的支撑下，GPT-3 的开始能够完成一些比较困难的 NLP 任务，比如 GPT-3 也可以生成新闻报道和撰写文章，并且很难将机器写的文章与人类写的辨别开来，甚至 GPT-3 在编写 SQL 查询语句，React 或者 JavaScript 代码也有十分优异的表现。而在 GPT-3 强大能力的背后是对算力的巨大消耗，GPT-3 的计算量达到了 BERT-base 的上千倍，根据 OpenAI 公司披露数据，GPT-3 的训练费用超过 1200 万美元，因此到这一阶段就能看出，大语言模型逐渐成为了只有巨头才能参与的游戏。

3.能力突变：从 ChatGPT 到 GPT-4

在 GPT-3 取得成功之后，OpenAI 在 GPT-3 的基础上推出了多个迭代版本，经过 2 年左右的时间，在 2022 年 11 月正式推出 ChatGPT，随即成为了全球范围内最强大的语言模型。OpenAI 公司在 GPT-3 与 ChatGPT 之间发布了多个迭代版本，其中包括：2021 年 7 月推出了 Codex 系列；2022 年 1 月，引入 RLHF（基于人工反馈的强化学习）得到了 InstructGPT；2022 年 4 月至 7 月，推出了融合 Codex 和InstructGPT 的 code-davinci-002 版本； 5 月至 6 月发布了 text-davinci-002 版本；11 月发布了 text-davinci-003 和 ChatGPT，两个模型都是使用了基于人类反馈的强化学习的版本指令微调模型。
ChatGPT 相较于 GPT-3，不仅是在文本生成等方面展现出了非常强大的能力，与人类对话的智能感大幅提升，而且海量数据和参数的支撑下，模型在逻辑推理与思维链等方面能力开始涌现。ChatGPT 可以完成许多相对复杂的语言任务，可以完成包括自动文本生成、自动问答、多轮对话等，并且能够主动承认错误，质疑不正确的问题等。此外，ChatGPT 还能编写和调试计算机程序。
在这里插入图片描述

目前 ChatGPT 的应用主要包括：

聊天机器人，可以使用 ChatGPT 来自由对话，使机器人能够向用户做出自然的回应；
编写和调试计算机程序；
文学、媒体相关领域的创作，包括创作音乐、电视剧、童话故事、诗歌和歌词等；
教育、考试、回答测试问题；
通过 API 结构集成到其他应用中，目前 GPT 已经集成到了 Bing 搜索和 Office 套件。

ChatGPT 在推出后仅两个月活跃用户就达到了一个亿，成为了史上用户增长速度最快的消费级应用程序。

GPT-4

2023 年 3 月 15 日，GPT-4 正式发布，相较于之前版本的 GPT 模型， GPT-4 在各项能力上有了质的的突破，除了在推理能力、文本生成能力、对话能力等方面有了大幅提升之外，GPT-4 迈出了从语言模型向多模态模型进化的第一步。GPT-4 最大的变化即能够接受图像的输入，并且能够生成文本语言，并且在看图能力方面有让人惊喜的表现的。同时 GPT-4 的各项能力相较于此前版本也有大幅提升，包括可以处理超过 25000 字长文本，以及写作能力的大幅提升，能够编歌曲、写剧本、学习用户写作风格，同时包括 GRE、SAT 等考试能力也有大幅提升。在基于机器学习模型设计的各项基准上评估 GPT-4，GPT-4 大大优于现有的大型语言模型，以及大多数 SOTA 模型。除了英语外， GPT-4 在包括拉脱维亚语、威尔士语和斯瓦希里语等 26 种语言上的性能甚至都优于现有语言模型的英语性能。

4.未来展望：多模态和 AIGC

全球范围来看，大模型的应用已经不局限于 NLP 领域，计算机视觉、多模态等领域的大模型开始涌现。
目前大模型包括三类：

自然语言处理（NLP）模型，如 Open AI 的 ChatGPT 模型，Google 的 LaMDA；
计算机视觉（CV）模型，如微软的 Florence；
多模态模型，如 Open AI 的 GPT-4 模型，Google 的 Parti。

国内互联网大厂包括百度、字节、阿里等厂商均推出了自己的大模型或披露了相关计划。总体来看，和海外头部厂商相比，国内大模型在工程实践上尚存在一到两年以上的差距。

百度：

3 月 16 日百度文心一言多模态大模型正式发布，具备文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成五个领域能力；

阿里：

2021 年，阿里推出了最大规模的中文多模态预训练大模型通义-M6，并以该模型为底座，覆盖 NLP、多模态、计算机视觉等领域，目前该模型系列已在超过 200 个场景中提供服务；

字节：

2022 年，字节与清华联合提出的 DA-Transformer 大模型，超越了自回归 Transformer 的性能；

腾讯：

2022 年，腾讯发布了混元 AI 万亿大模型，采用腾讯太极机器学习平台自研的训练框架 AngelPTM。
此外包括 360、科大讯飞等厂商也披露了相关产品计划。

AIGC 是人工智能的重要演进方向，而生成算法、大模型与多模态三大底层技术的突破成为了 AIGC 的质变的关键。从 2022 年以 DALL-E2、Stable Diffusion 为代表的 AI 作画系统，到 2023 年以 ChatGPT 为代表的对话机器人的出现，预示着 AIGC 底层技术的逐渐成熟。
在这里插入图片描述

微软

微软正式推出集成了 GPT-4 的 Microsoft 365 Copilot，办公率先正式进入 AIGC 时代。在 3 月 16 日发布的产品中，微软将生成式 AI 助手 Copilot 直接嵌入到 Office 365 全家桶中，对 Word、Excel、PowerPoint、 Outlook 和 Teams 等工具套件进行升级，具体功能体现在：
在这里插入图片描述

Word：

能够基于用户所提供的要求或信息按照格式生成草稿，可以根据要求对文档就行修改、缩减，并能进行语气语态的修改；

Excel：

可根据用户要求引入函数、生成模型、插入图表等，并可总结相关规律、分析趋势；

PowerPoint：

可实现 Word 与 PPT 的自动转换，同时也可直接生成动画切换，并可根据已有的图表内容根据要求插入幻灯片等；

Teams：

Copilot 作为的会议助手，可以组织关键讨论要点，根据会议内容直接生成会议摘要；

Outlook：

除了自动生成邮件外，还可管理邮件，标注重要项目。同时，Copilot 以 Business Chat 的形式融入 Windows 的日历、邮箱、文档等软件中，通过用户的会议记录、邮件、聊天记录等内容自动更新工作状态。
我们认为，Copilot 的发布预示着大模型及 AIGC 相关技术开始正式应用于办公领域，在大幅提升用户办公效率的同时，也将推动的办公产品的快速升级迭代。

百度

文心一言正式发布，国内预训练多模态大模型迈出第一步。3 月 16 日，百度文心一言正式发布，作为国内最受关注的预训练多模态大模型，文心一言具备文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成五个领域能力，并通过开放 API 接口，能够为金融、汽车、互联网、汽车等多行业提供 AIGC 的能力。文心一言的底层是飞桨深度学习平台和文心知识增强大模型，目前，飞桨已广泛应用于金融、工业、农业、服务业等众多行业，开发者数量达 535 万，创造了 67 万个模型，服务了 20 万家企事业单位，培养了超 200 万 AI 人才。同时，飞桨模型库中的自然语言处理开发库 PaddleNLP，聚合了业界优质预训练模型并提供开箱即用的开发体验，覆盖 NLP 多场景，能为文心一言提供技术积累和补充。截至 2023 年 3 月，已经有包括互联网、媒体、金融、保险、汽车、企业软件等行业的 650 多家头部企业宣布加入百度“文心一言”生态圈。

风语者！平时喜欢研究各种技术，目前在从事后端开发工作，热爱生活、热爱工作。