十一、搭建自己的GPT模型网站首页 技术杂谈

十一、搭建自己的GPT模型

vandh 2024-09-10 12:01:05

简介十一、搭建自己的GPT模型

   nanoGPT，是用于培训/微调中型GPT的最简单、最快的存储库。因为代码非常简单，所以很容易满足需求，从头开始训练新模型，或者微调。基于GPT-2 1.3B模型，优点是cpu也可以跑，简单，快速。LLaMa的模型训练太耗费gpu，很多人也跑不了，所以暂时选择这个。
   项目地址：https://github.com/karpathy/nanoGPT
1、搭建环境
   git clone https://github.com/karpathy/nanoGPT
   pip install transformers tiktoken tqdm
2、快速体验demo模型
   在莎士比亚的作品中训练一个角色级的GPT，默认250轮会保存一次模型；在训练差不多可以直接ctrl+c停掉。
   如果仔细观察，会发现我们正在训练一个GPT，其上下文大小最多为256个字符，384个功能通道，它是一个6层的Transformer，每层有6个头。
   模型保存路径：D:Simon anoGPTout-shakespeare-charckpt.pt
   # 下载数据集
   $ python data/shakespeare_char/prepare.py
   # 使用GPU训练,在一个A100 GPU上，此训练运行大约需要3分钟。没有gpu，使用参数--device=cpu
   $ python train.py config/train_shakespeare_char.py
   $ python train.py config/train_shakespeare_char.py --device=cpu --compile=False --eval_iters&

风语者！平时喜欢研究各种技术，目前在从事后端开发工作，热爱生活、热爱工作。

上一篇
docker容器

下一篇
论文精读 —— Invisible Backdoor Attack...

站长推荐

U8W/U8W-Mini使用与常见问题解决
U8W/U8W-Mini使用与常见问题解决
QT多线程的5种用法，通过使用线程解决UI主界面的耗时操作代码，防止界面卡死。
QT多线程的5种用法，通过使用线程解决UI主界面的耗时操作代码，防止界面卡死。...
stm32使用HAL库配置串口中断收发数据（保姆级教程）
stm32使用HAL库配置串口中断收发数据（保姆级教程）
分享几个国内免费的ChatGPT镜像网址(亲测有效)
分享几个国内免费的ChatGPT镜像网址(亲测有效)
Allegro16.6差分等长设置及走线总结
Allegro16.6差分等长设置及走线总结

您现在的位置是：首页 >技术杂谈 >十一、搭建自己的GPT模型网站首页技术杂谈

十一、搭建自己的GPT模型

上一篇 docker容器

下一篇 论文精读 —— Invisible Backdoor Attack...

站长推荐

上一篇
docker容器

下一篇
论文精读 —— Invisible Backdoor Attack...