您现在的位置是:首页 >技术教程 >论人工智能的低碳转型网站首页技术教程
论人工智能的低碳转型
近些年,人工智能技术的巨大突破重塑了人类社会的方方面面,然而这种成功的背后却是巨量的能源消耗和二氧化碳排放。本文从实际数据出发探讨了人工智能模型产生巨量能耗和碳排放的现象和原因,并说明了人工智能技术需要低碳转型,要走可持续的绿色人工智能之路。
一 问题的由来
近十年来,人工智能(AI)领域飞速发展,已经给世界带来了翻天覆地的变化,各种高性能 AI 大模型纷至沓来,深度学习、人脸识别、对话系统、AlphaGo 等技术和产品的成功令世人瞩目。然而,在这辉煌的背后,一种令人担忧的负面趋势也开始凸显:硬件设施的性能、参数规模的大小、训练数据的多少成为影响 AI 模型表现的重要因素之一,但似乎也逐渐成为业界和学界研究人员心目中的“决定性因素”。更可怕的是,主流舆论对此尚未给予足够的关注。
人脑是一种效率极高的智能来源,但目前的 AI 还达不到这样的水平。现代 AI 模型需要消耗大量电力,而且对电力的需求正以惊人的速度增长。OpenAI 于 2018 年发布的一份关于 AI 计算量增长趋势的分析报告显示,自 2012 年以来,构建一流AI模型所需要的计算资源消耗平均每 3.5 个月翻一番,至 2018 年这个指标已经增长了 30 万倍以上 [1]。
更为重要的是,庞大的电力需求意味着巨量的二氧化碳排放。根据美国环保署(EPA)公布的数据,在美国,一千瓦时电力平均对应 0.954 磅二氧化碳排放量。2019 年 7 月,来自马萨诸塞大学阿姆赫斯特分校的研究人员进行了一项广泛研究,研究表明训练一套优秀的深度学习模型可能产生高达 284 吨的二氧化碳排放,这相当于美国汽车从制造到报废所产生的总二氧化碳排放量的近五倍 [2]。然而,这并不是 AI 模型所能产生的碳排放的极限。一年后的 6 月,OpenAI 宣布搭建了有史以来(至 2020 年)规模最大的 AI 模型 GPT-3 [3],这套惊人的模型被认为是自然语言处理领域目前最成功的语言模型之一,已经成为令人印象深刻的伟大技术成就。GPT-3 能够根据简单的创意写出完整的小说,把晦涩艰深的法律条文用平易近人的语言阐述,也能回答从柴米油盐到天文地理的提问,表现远超此前的任何自然语言处理模型。然而,与卓越性能相对的是高昂的代价:GPT-3 训练的硬件和电力成本高达 1200 万美元(约 7500 万人民币)。根据谷歌和美国加州大学伯克利分校于 2021 年联合发表的一项研究,GPT-3 在训练过程中消耗了 1287 兆瓦时的电力,产生了 552 吨的碳排放,相当于一辆汽车 120 年的排放量 [4]。
美国麻省理工学院的研究员 Neil Thompson 指出,深度学习的发展令人工智能革命成为可能,但其不断增长的成本值得警惕。当规模的膨胀成为了一股无法阻挡的潮流,同步骤增的金钱成本、能源消耗以及碳排放,都成为了学界和业界无法忽视的问题。
AI 技术带来的碳排放已经不容忽视,如果行业趋势继续下去,那么情况将很快失去控制。除非我们愿意重新评估并改革当今的AI研究议程,否则人工智能领域很可能在不久的未来成为引发气候变化的罪魁祸首。
二 为什么 AI 模型会产生如此多的碳排放
在当今以深度学习为中心的研究范式当中,人工智能的主要进步主要依赖于模型的规模化扩展:训练数据集更大、模型参数规模更大、计算资源更大。
近些年,训练人工智能模型的数据集在快速增肥。在使用包含 30 亿个单词的数据集进行训练之后,BERT 模型 [5] 在 2018 年实现了同类最佳的自然语言处理(NLP)性能。而在利用包含 320 亿个单词的训练集完成训练之后,XLNet [6] 又超越了 BERT。不久之后,GPT-2 [7] 开始在包含 400 亿个单词的数据集上接受训练。最终是我们前面提到的 GPT-3,它使用的是一套包含约 5000 亿个单词的加权数据集。尽管数据规模的扩大带来了模型性能的提升,但是模型在训练过程中需要为每一条数据执行一整套冗长的数学运算,并以复杂的方式更新模型参数,这就使得数据集越大,与之对应的算力与能源需求也在飞速增长。
此外,AI 理论不断进步,随之膨胀的,是模型参数的规模,这种趋势带来了更准确的结果和更优秀的性能。在研究和实践中,专家们发现,大大增加模型的参数量,使其超过数据数量的过程,也就是“过参数化”,能够提高训练的效率,加强模型的泛化能力。前文提到的 GPT-3 模型就包含多达 1750 亿个参数,而它的前身 GPT-2 模型(在 2019 年发布时,同样创下了体量层面的纪录)只有 15 亿个参数。GPT-2 在拥有千万亿次算力的设备上训练了几十天,相比之下,GPT-3 的训练时长增长至数千天。中国的研发团队在大规模模型训练的道路上也没有落后,智源研究院 2020 年发布的悟道 2.0 模型已经拥有 1.75 万亿个参数,相当于 GPT-3 的 10 倍,阿里达摩院 2021 年发布的 M6 模型参数量更是超过了 10 万亿。这种靠“每况愈大”模型推动 AI 技术进步的问题在于,模型中包含的参数量越大,计算需求就越大,所带来的能源消耗就越夸张,并由此产生巨量碳排放,这最终会转化为对环境的影响。
三 展望未来:可持续的绿色 AI
虽然人工智能模型规模的膨胀至少在未来数年是不可阻挡的潮流,但我们仍有必要控制它们的能耗和碳排放。
目前的学界和业界,尤其是科技巨头公司,研发模型的模式有过于粗放之嫌,在降低消耗方面还有很大提升空间。IBM 研究员、麻省理工学院-IBM 沃森人工智能实验室成员约翰•科恩表示:“如果要让人工智能继续快速发展,我们需要减少它对环境的影响,需要开发方法使人工智能模型更小、更高效。”
专门针对深度学习场景设计的芯片是降低AI研发和部署成本的一个关键。由于深度学习模型训练需要大量并行的浮点运算和读写,CPU 难以胜任,目前主要使用 GPU 或 TPU 进行。英特尔,英伟达,谷歌等公司都在设计和生产这些芯片。
通过政策的激励和管控,更合理地安排人工智能研发和部署,也是管控成本,提高整体效率的重要手段。例如,如果人工智能模型使用主要来自可再生能源的电力进行训练,其碳排放就会相应降低;在可再生能源密集的区域,可再生电力的时间分布不均匀,在电力冗余的时段进行训练,也是提高人工智能产业能源利用效率的有效方法。中国 2022 年 2 月正式启动的“东数西算”工程就被学界认为是促进产业绿色发展的强力手段。由于东部资源日趋紧张,大规模发展计算中心难以为继,而西部可再生能源充沛,可以很好地承接东部算力需求。华为、百度、腾讯等众多科技公司都响应了这一工程,在西部建立了计算或数据中心。“东数西算”所提升的不只是人工智能训练,而是整个算力密集产业的能效,不仅能立竿见影地降低研发部署成本,更有希望让整个行业的发展变得更加高效更加绿色,推动东西部协调发展。
算法研究者、硬件开发者和政策制定者都正在实现“绿色AI”的道路上努力着。但这些硬件和软件支持,终究只是支持。过于关注准确性等性能指标,而以牺牲速度和模型大小等效率指标为代价的观念和评价体系,普遍存在于整个人工智能领域。这样的评价观念亟待转变,AI 模型也需追求碳中和,性能不应成为唯一指标。毕竟模型做出来,不只是为了在学术期刊和会议上攀比的,更多时候是为了转化为应用,服务业界的,而任何高能耗高排放的应用产品,都是不符合时代要求的。只有认识到这一点,才能真正让“绿色AI”像今天的“绿色化学”一样,从文献里走出来,走进每一个实验室,走进每一家公司,走进每个人的生活。
参考文献
[1] Amodei, D. and Hernandez, D. AI and compute, 2018. Blog post.
[2] Strubell, E., Ganesh, A. and McCallum, A. Energy and policy considerations for deep learning in NLP. In Proceedings of ACL, 2019.
[3] Brown T, Mann B, Ryder N, et al. Language models are few-shot learners. Advances in neural information processing systems, 2020, 33: 1877-1901.
[4] Patterson D, Gonzalez J, Le Q, et al. Carbon emissions and large neural network training. arXiv preprint arXiv:2104.10350, 2021.
[5] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. Association for Computational Linguistics.
[6] Yang Z, Dai Z, Yang Y, et al. Xlnet: Generalized autoregressive pretraining for language understanding. Advances in neural information processing systems, 2019, 32.
[7] Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners. OpenAI blog, 2019, 1(8): 9.