编译 | 段祎编辑 | Panken

芯东西3月30日,3月25日,据Tom’s Hardware宣布,一位名叫Les Pounder的技能职员修正了软件开拓者Georgi Gerganov写的C/C++模型llama.cpp。
Les Pounder称,利用具有8GB RAM的Raspberry Pi 4(树莓派:微型电脑主板)下载llama.cpp后,通过运行代码可以创建一个基于LLaMA(社交软件巨子Meta开拓的大型措辞模型)的类似ChatGPT的谈天机器人。

不过由于中端硬件算力方面的限定,Raspberry Pi 4上的LLaMA运行缓慢,加载谈天内容可能须要几分钟韶光。
如果想要一个相应更快的谈天机器人,须要配备RTX 3000系列的打算机或更快的GPU。

运行像ChatGPT这样的谈天机器人须要强大算力GPU的支持。
从诸如GPT-4、LLaMA等大型措辞模型开源以来,许多干系技能职员通过再次开拓程序,改变配置,使此类大型措辞模型可以成功运用于消费级PC、Raspberry Pi等中端硬件上。
如果追求该模型的运行速率,可以利用Linux台式机或条记本电脑。

若何用树莓派跑AI聊天机械人具体教程来了

一、大模型对本地硬件的哀求:运算效率高,内存容量大

此前,如果要想在电脑上运行ChatGPT,不仅须要强大的算力硬件核心,如CPU+GPU、FPGA、ASIC等,而且还须要考虑硬件的稳定性、吞吐量、运算效率等。
如今,随着各大型措辞模型开源,找到获取它们的路径并不难,但这些大型措辞模型占用的内存依旧却非常之大。

例如LLaMa-13B包含36.3GiB(注:打算机硬盘存储单位)的紧张数据、6.5GiB用于预量化的4比特模型。
这须要24GB VRAM和64GB系统内存的显卡才能获取。
乃至还有一个650亿参数的措辞模型,须要有英伟达A100 40GB PCIe卡以及128GB的​系统内存才能下载获取。

想要以16比特精度运行基本措辞模型,利用英伟达的RTX 4090、RTX 3090 Ti、RTX 3090或Titan RTX显卡可以将性能发挥到最好。
所有具有24GB VRAM的卡都可以用于运行具有70亿个参数的措辞模型(LLaMa-7B),但很少有家庭用户可能拥有这样的显卡。

但若以8比特精度加载措辞模型,就可将VRAM内存容量减半,这意味着任何具有至少10GB VRAM的显卡可以运行LLaMa-7B。
以此类推,更好的是,以4比特精度加载措辞模型再次将VRAM内存容量减半,从而让LLaMa-13B在10GB VRAM上事情。

▲英伟达RTX 4090(图源:Tom’s Hardware)

ChatGPT对硬件配置的高哀求限定了其在类似树莓派这样的中端硬件上运行,但依赖Georgi Gerganov开拓的C/C++模型llama.cpp,完成这个项目只须要8GB RAM的Raspberry Pi 4、具有16GB RAM运行Linux的PC、16GB或更大的格式化为NTFS的USB驱动器。

二、在Raspberry Pi 4上运行LLaMA,天生“BOb”谈天机器人

该过程的第一部分是在Linux PC上设置llama.cpp,下载LLaMA 7B模型,转换它们,然后将它们复制到USB驱动器上。
同时须要利用Linux PC来转换模型,由于Raspberry Pi中的8GB RAM是不足的。
详细操作如下:

1、在Linux PC上打开终端并确保安装了Git(开源的分布式版本掌握软件):

2、利用Git克隆数据库:

3、安装一系列Python模块,这些模块将与LLaMA模型一起创建谈天机器人:

4、确保安装了G++和build essential,这些是构建C程序所必须的:

5、在终端中将文件目录变动为llama.cpp:

6、构建项目文件,按回车键运行:

7、利用以下链接下载LLaMA 7B torrent:

8、优化下载,只下载7B和tokenizer文件,其他文件大小达数百GB:

▲操作图(图源:Tom’s Hardware)

9、将LLaMA 7B和分词器文件复制到/llama.cpp/models/。

10、在主目录中打开终端并转到llama.cpp文件夹:

11、将LLaMA 7B模型转换为ggml FP16格式。
这可能须要花费一段韶光,利用16GB RAM会使速率更快。
此操作将全体13GB models/7B/consolidated.00.pth文件作为pytorch模型加载到RAM中。
在8GB Raspberry Pi 4上考试测验此步骤将导致造孽指令缺点。

12、减少LLaMA 7B模型的大小,将模型量化为4比特:

13、将/models/的内容复制到USB驱动器。

末了一部分,在Raspberry Pi 4上重复llama.cpp设置,然后利用USB驱动器复制模型。
然后加载一个交互式谈天会话并问“Bob”一系列问题,除了哀求它编写Python代码。
此过程中的第9步可以在Raspberry Pi 4或Linux PC上运行。

▲代码图(图源:Tom’s Hardware)

1、在桌面启动Raspberry Pi 4。

2、打开终端并确保安装了Git:

3、利用Git克隆数据库:

4、安装一系列Python模块,这些模块将与LLaMA模型一起创建谈天机器人:

5、确保安装了G++和build essential,这些是构建C程序所必须的:

6、在终端中将文件目录变动为llama.cpp:

7、构建项目文件,按回车键运行:

8、插入USB驱动器并将文件复制到/models/,这将覆盖模型目录中的所有文件。

9、开始与“Bob”谈天会话。
这是须要一点耐心的地方,只管LLaMA 7B模型比其他模型占用内存更小,但对付体积本身就很小的Raspberry Pi来说,它的内存仍旧较大,故加载模型可能须要几分钟韶光。

10、问“Bob”一个问题,然后按Enter。

▲代码图(图源:Tom’s Hardware)

结语:借力开源大模型,中端硬件也能跑谈天机器人

谈天机器人ChatGPT的爆火吸引了大量用户,人们对类似的天生式AI产生了浓厚的兴趣。
自社交巨子Facebook的母公司Meta最近发布全新人工智能大型措辞模型LLaMA以来,研究职员和工程师都在积极探索人工智能运用和干系功能。
接管了20种措辞演习的LLaMA模型已经被大量开拓者在天生文本、对话、总结书面材料等运用。

通过采取C/C++和Python措辞将LLaMA模型运用在体积小巧的树莓派上,天生的“BOb”机器人便可以和用户进行大略对话,这种自我参与创建谈天机器人并不须要高算力的GPU就能运行。
对付人们来说,在大略的硬件上DIY一个专属谈天机器人也不失落意见意义。

来源:Tom’s Hardware