您现在的位置是:首页 >学无止境 >【ChatGPT背后的技术演进】网站首页学无止境
【ChatGPT背后的技术演进】
ChatGPT背后的技术演进
1.自然语言处理的发展历史回顾
自然语言处理(Natural Language Processing, NLP) 作为人工智能的 重要研究方向,旨在帮助计算机理解、解释和运用人类语言。
回顾 NLP 的主要发展历程,可大致分为三个阶段:
1)上世纪 80 年代之前, 人工智能开始萌芽,基于规则的语言系统占据主导;
2)80 年代之后, 从机器学习的兴起到神经网络的引入,带动了 NLP 的快速发展和商业 化;
3)2017 年至今,基于 Attention 注意力机制构建的 Transformer 模型开启了大语言模型时代。
第一阶段:
基于规则的语言系统。早在上世纪 50 年代前后,人工智 能就已经诞生,1956 召开了达特茅斯会议,首次正式提出了“人工智 能”。1980 年,自然语言处理的分为了两大阵营,分别为基于语言规 则的符号派和基于概率统计的随机派,而当时基于规则方法的势头明 显强于基于概率统计的势头,因此当时大多数 NLP 系统都使用复杂 的逻辑规则,能够处理包括字符匹配、词频统计等一些简单的任务。 同时在这一时期,也产生了一些机器翻译以及语言对话的初级产品, 比较著名的是 1966 年 MIT 发布的世界上第一台聊天机器人 Eliza, Eliza 能够遵循简单的语法规则来实现交流。但总体来看,这一时期 NLP 领域形成的成果还无法商业化,包括机器翻译的成本还是远高于 人工翻译,而且还无法与人真正实现基本的对话。
第二阶段:
从机器学习到神经网络。1980 年美国的卡内基梅隆大学召 开了第一届机器学习国际研讨会,标志着机器学习在全世界兴起,而 自然语言处理也逐渐走向纯粹的统计学。90 年代以后,神经网络模型 被引入到 NLP 领域,其中最著名的两个神经网络模型为循环神经网络 (Recurrent Neural Network, RNN)和卷积神经网络(Convolutional Neural Networks,CNN),特别是 RNN 因其处理序列数据的特性, 成为了大部分 NLP 模型的主流选择。2000 年后,一方面 Multi-task learning,Word Embedding,Seq2seq 等层出不穷的新技术推动了 NLP 技术的快速进步,另一方面 NLP 逐步实现了商业化,包括机器翻译、 文本处理等商业化产品开始大量出现。
第三阶段:
基于 Attention 注意力机制构建的 Transformer 模型奠定 了大语言模型的基础。2017 年 Google 机器翻译团队发布了著名论文 《Attention is All You Need》,提出了基于 Attention 注意力机制构建 的 Transformer 模型,这也成为了 NLP 历史上的一个标志性的事件。 相较于传统的神经网络,基于 Attention 注意力机制构建的 Transformer 模型在提升了语言模型运行的效率(效率更高),同时能够更好的捕 捉语言长距离依赖的信息(效果更好)。2018 年 OpenAI 公司的 GPT 以及 Google 公司的 BERT 均是基于 Attention 注意力机制与 Transformer 而构建,而 NLP 也正式进入到了大语言模型的全新阶段。
2.持续进化:从 GPT-1 到 GPT-3
在 2018 年,自然语言处理 NLP 领域正式步入了大语言模型时代, OpenAI 公司的 GPT 模型与谷歌的 BERT 模型在同年相继推出。2018 年 6 月,OpenAI 公司发布了 GPT 模型的初代版本,GPT-1 运用了 Transformer 的 Decoder 框架中 Mask Self-attention 机制,目前已经迭 代到了最新 ChatGPT 与 GPT-4,毫无疑问 GPT 模型已经成为了当前 最为强大的语言模型。在 2018 年 10 月,Google 也发布了 BERT 模型, BERT 采用了 Transformer 的 Encoder 框架中 Self-attention 机制,作为 一个拥有 3 倍 GPT 参数量的更大体量的语言模型,BERT 在当时的多 项测评以及业内影响力等方面,要领先于 GPT 的初代版本。特别是在 BERT 开源之后,包括 Facebook、百度等国内外大厂均推出了基于 BERT 之上开发的大模型,其中包括 Facebook 的 XLM、RoBERTa 模 型,以及百度的 ERINE 系列模型。
GPT-1
从 GPT 的初代版本来看,GPT-1 在训练方式上仍依赖于数据标注和 模型微调,同时 GPT-1 的语言泛化能力仍然不足,因此可以说 GPT-1 更接近于处理特定语言任务的专家模型,而非通用的语言模型。GPT-1的模型训练采取的是二段式的训练模式,第一阶段利用无监督学习进 行预训练,使用未标记的数据生成语言模型;第二阶段则根据特定的 下游任务来对模型进行人工微调,比如分类任务、自然语言推理、语 义相似度、问答和常识推理等任务。因此相较于此前 NLP 模型,GPT-1 实际上还是一个半监督式学习的语言模型。GPT-1 在多种语言任务方 面都有不错的效果,在自然语言推理、分类、问答、对比相似度的多 种测评中均超越了之前的模型。但与此同时,GPT-1 的语言泛化能力 仍然不足,无法解决通用的语言任务,且和同时代的 BERT 模型比较 的话,GPT-1 在能力上要逊色于 BERT。
GPT-2
2019 年 2 月,GPT-2 正式发布,相较于 GPT-1,GPT-2 舍弃了模型 微调,构建了一个泛化能力更强的语言模型,这也开始让模型的通用 性得以充分展现。尽管此前 GPT-1 在特定任务上已经取得了不错的效 果,但实际上这类模型都需要针对单个语言任务使用大量的标注数据 和模型微调,因此也只能在解决特定语言任务时才能发挥作用。而 GPT-2 的泛化能力就体现在,能够让模型应用到不同的任务,而不需 要做专门的训练。这也更符合人脑处理语言信息的过程,因为人脑既 可以读小说,也可以看新闻,能执行不同的语言处理任务,而且这种 能力是相互关联的。而人脑在获取一个语句的信息时,这个信息是通 用的,因此我们所期望的一个通用的语言模型,既可用于分类任务, 也可以用于问答和常识推理等任务。具体而言,相较于 GPT-1 的无监 督式预训练+有监督式学习和模型微调,GPT-2 直接舍弃了微调阶段, 直接通过大规模数据进行预训练,让模型开始具备解决多种语言任务 的能力。
GPT-3
2020 年 5 月, GPT-3 正式发布,GPT-3 在训练方式上创新性的引入 了 In-context 学习(上下文学习),即在训练模型时,在输入的文本 中加入一个或多个示例,引导模型输出相对应内容。比如:“请把以 下中文翻译成英文:苹果 => apple;自然语言处理的发展历程”就是 一个典型的带有一个示例的输入文本。而 In-context 学习包含了三种 模式,分别为 Zero-shot Learning(零样本学习)、One-shot Learning (单样本学习)和 Few-shot Learning(少样本学习),zero-shot 就是 没有示例只给提示,one-shot 是只给一个范例,few-shot 则给多个范 例,实际上 zero-shot 在表达方式上已经接近于人类的语言表达方式。 In-context 学习的优点在于,输入规范化的语言模板,从人类的例子和 类比中去学习,无需进行模型微调和数据标注,特别是大量的标注数 据需要很高的人工成本。引入 In-context 学习后,从最终实际效果来 看,GPT-3 在 few-shot 上有非常强劲的表现,但同时 one-shot 和 zero-shot 的效果还不够优秀。因此对于 one-shot 和 zero-shot 效果的提 升也成为了下一代模型未来需要突破方向。
GPT-3 参数量相较于 GPT-2 提升了两个数量级,达到了 1750 亿, 数据集在处理前容量达到了 45TB,成了真正意义上的超大语言模型。 GPT-3 在许多 NLP 任务上相较于 GPT-2 及其他语言模型有更多出色 表现,特别是机器翻译、聊天问答和文本填空。同时是在海量参数和 训练数据的支撑下,GPT-3 的开始能够完成一些比较困难的 NLP 任务, 比如 GPT-3 也可以生成新闻报道和撰写文章,并且很难将机器写的文 章与人类写的辨别开来,甚至 GPT-3 在编写 SQL 查询语句,React 或 者 JavaScript 代码也有十分优异的表现。而在 GPT-3 强大能力的背后 是对算力的巨大消耗,GPT-3 的计算量达到了 BERT-base 的上千倍, 根据 OpenAI 公司披露数据,GPT-3 的训练费用超过 1200 万美元,因 此到这一阶段就能看出,大语言模型逐渐成为了只有巨头才能参与的 游戏。
3.能力突变:从 ChatGPT 到 GPT-4
在 GPT-3 取得成功之后,OpenAI 在 GPT-3 的基础上推出了多个迭代 版本,经过 2 年左右的时间,在 2022 年 11 月正式推出 ChatGPT, 随即成为了全球范围内最强大的语言模型。OpenAI 公司在 GPT-3 与 ChatGPT 之间发布了多个迭代版本,其中包括:2021 年 7 月推出了 Codex 系列;2022 年 1 月,引入 RLHF(基于人工反馈的强化学习) 得到了 InstructGPT;2022 年 4 月至 7 月,推出了融合 Codex 和InstructGPT 的 code-davinci-002 版 本 ; 5 月 至 6 月 发 布 了 text-davinci-002 版本;11 月发布了 text-davinci-003 和 ChatGPT,两个 模型都是使用了基于人类反馈的强化学习的版本指令微调模型。
ChatGPT 相较于 GPT-3,不仅是在文本生成等方面展现出了非常强 大的能力,与人类对话的智能感大幅提升,而且海量数据和参数的支 撑下,模型在逻辑推理与思维链等方面能力开始涌现。ChatGPT 可以完成许多相对复杂的语言任务,可以完成包括自动文本生成、自动问 答、多轮对话等,并且能够主动承认错误,质疑不正确的问题等。此 外,ChatGPT 还能编写和调试计算机程序。
目前 ChatGPT 的应用主要包括:
- 聊天机器人,可以使用 ChatGPT 来自由对话,使机器人 能够向用户做出自然的回应;
- 编写和调试计算机程序;
- 文学、 媒体相关领域的创作,包括创作音乐、电视剧、童话故事、诗歌和歌 词等;
- 教育、考试、回答测试问题;
- 通过 API 结构集成到其他 应用中,目前 GPT 已经集成到了 Bing 搜索和 Office 套件。
ChatGPT 在推出后仅两个月活跃用户就达到了一个亿,成为了史上用户增长速 度最快的消费级应用程序。
GPT-4
2023 年 3 月 15 日,GPT-4 正式发布,相较于之前版本的 GPT 模型, GPT-4 在各项能力上有了质的的突破,除了在推理能力、文本生成能 力、对话能力等方面有了大幅提升之外,GPT-4 迈出了从语言模型向 多模态模型进化的第一步。GPT-4 最大的变化即能够接受图像的输入, 并且能够生成文本语言,并且在看图能力方面有让人惊喜的表现的。 同时 GPT-4 的各项能力相较于此前版本也有大幅提升,包括可以处理 超过 25000 字长文本,以及写作能力的大幅提升,能够编歌曲、写剧 本、学习用户写作风格,同时包括 GRE、SAT 等考试能力也有大幅提 升。在基于机器学习模型设计的各项基准上评估 GPT-4,GPT-4 大大 优于现有的大型语言模型,以及大多数 SOTA 模型。除了英语外, GPT-4 在包括拉脱维亚语、威尔士语和斯瓦希里语等 26 种语言上的性 能甚至都优于现有语言模型的英语性能。
4.未来展望:多模态和 AIGC
全球范围来看,大模型的应用已经不局限于 NLP 领域,计算机视觉、 多模态等领域的大模型开始涌现。
目前大模型包括三类:
- 自然语 言处理(NLP)模型,如 Open AI 的 ChatGPT 模型,Google 的 LaMDA;
- 计算机视觉(CV)模型,如微软的 Florence;
- 多模态模型,如 Open AI 的 GPT-4 模型,Google 的 Parti。
国内互联网大厂包括百度、字节、阿里等厂商均推出了自己的大模型 或披露了相关计划。总体来看,和海外头部厂商相比,国内大模型在 工程实践上尚存在一到两年以上的差距。
百度:
3 月 16 日百度文心一言多模态大模型正式发布,具备文学创作、商业文案创作、数理 逻辑推算、中文理解和多模态生成五个领域能力;
阿里:
2021 年, 阿里推出了最大规模的中文多模态预训练大模型通义-M6,并以该模 型为底座,覆盖 NLP、多模态、计算机视觉等领域,目前该模型系列 已在超过 200 个场景中提供服务;
字节:
2022 年,字节与清华联 合提出的 DA-Transformer 大模型,超越了自回归 Transformer 的性 能;
腾讯:
2022 年,腾讯发布了混元 AI 万亿大模型,采用腾讯太极机器学习平台自研的训练框架 AngelPTM。
此外包括 360、科大讯 飞等厂商也披露了相关产品计划。
AIGC 是人工智能的重要演进方向,而生成算法、大模型与多模态三 大底层技术的突破成为了 AIGC 的质变的关键。从 2022 年以 DALL-E2、Stable Diffusion 为代表的 AI 作画系统,到 2023 年以 ChatGPT 为代表的对话机器人的出现,预示着 AIGC 底层技术的逐渐 成熟。
微软
微软正式推出集成了 GPT-4 的 Microsoft 365 Copilot,办公率先正式 进入 AIGC 时代。在 3 月 16 日发布的产品中,微软将生成式 AI 助手 Copilot 直接嵌入到 Office 365 全家桶中,对 Word、Excel、PowerPoint、 Outlook 和 Teams 等工具套件进行升级,具体功能体现在:
Word:
能够基于用户所提供的要求或信息按照格式生成草稿,可以根据要求 对文档就行修改、缩减,并能进行语气语态的修改;
Excel:
可根 据用户要求引入函数、生成模型、插入图表等,并可总结相关规律、 分析趋势;
PowerPoint:
可实现 Word 与 PPT 的自动转换,同时也 可直接生成动画切换,并可根据已有的图表内容根据要求插入幻灯片 等;
Teams:
Copilot 作为的会议助手,可以组织关键讨论要点,根 据会议内容直接生成会议摘要;
Outlook:
除了自动生成邮件外, 还可管理邮件,标注重要项目。同时,Copilot 以 Business Chat 的形 式融入 Windows 的日历、邮箱、文档等软件中,通过用户的会议记录、 邮件、聊天记录等内容自动更新工作状态。
我们认为,Copilot 的发布 预示着大模型及 AIGC 相关技术开始正式应用于办公领域,在大幅提 升用户办公效率的同时,也将推动的办公产品的快速升级迭代。
百度
文心一言正式发布,国内预训练多模态大模型迈出第一步。3 月 16 日,百度文心一言正式发布,作为国内最受关注的预训练多模态大模 型,文心一言具备文学创作、商业文案创作、数理逻辑推算、中文理 解和多模态生成五个领域能力,并通过开放 API 接口,能够为金融、 汽车、互联网、汽车等多行业提供 AIGC 的能力。文心一言的底层是 飞桨深度学习平台和文心知识增强大模型,目前,飞桨已广泛应用于 金融、工业、农业、服务业等众多行业,开发者数量达 535 万,创 造了 67 万个模型,服务了 20 万家企事业单位,培养了超 200 万 AI 人才。同时,飞桨模型库中的自然语言处理开发库 PaddleNLP, 聚合了业界优质预训练模型并提供开箱即用的开发体验,覆盖 NLP 多场景,能为文心一言提供技术积累和补充。截至 2023 年 3 月,已 经有包括互联网、媒体、金融、保险、汽车、企业软件等行业的 650 多家头部企业宣布加入百度“文心一言”生态圈。