英伟达Jetson部署大模型教程

以Llama 3、YOLOv8等模型为例，适配Jetson AGX Orin/Nano/Xavier系列

一、环境准备与硬件配置

设备选择与系统要求
- 支持的设备：Jetson AGX Orin（64GB/32GB）、Jetson Orin Nano（8GB）、Jetson Xavier NX等。
- 系统要求：需预装JetPack 5.1.2或更高版本（含CUDA 11.4+、TensorRT 8.5+）。

基础环境配置

镜像烧录：使用SD Card Formatter工具将官方JetPack镜像写入SD卡（建议使用UHS-I Class 10以上的存储卡）。

依赖安装：

sudo apt update sudo apt install python3-pip libopenblas-dev libjpeg-dev 
pip3 install torch torchvision --extra-index-url 
https://download.pytorch.org/whl/arm64 ``` ```

二、模型选择与优化

模型适配策略
- 量化技术：优先选择GGUF或GPTQ格式的4-bit量化模型（如Llama-3-7B-Q4_K_M.gguf ），以降低内存占用。
- 本地化压缩：使用NVIDIA TensorRT进行模型转换，提升推理速度（支持FP16/INT8量化）。
工具链推荐
- Ollama：支持一键部署70B以下模型，自动调用CUDA加速（需Jetson计算能力≥5.0）。
- llama.cpp ：手动编译优化，适配低内存设备（如Jetson Nano需配置6GB SWAP空间）。

三、部署流程（以Llama 3为例）

容器化部署（推荐）

# 拉取预构建的AI容器镜像 
docker pull nvcr.io/nvidia/l4t-ml:r35.2.1-py3 

# 启动容器并挂载模型 
docker run -it --rm --runtime nvidia --network host -v /path/to/models:/models nvcr.io/nvidia/l4t-ml 

# 运行Llama 3 
ollama run llama3-7b ``` ``` 

> 注：Orin系列设备可通jetson_clock命令锁定最大CPU/GPU频率以提升性能[9]()。

手动编译部署（适配老旧设备）

步骤1：编译llama.cpp

git clone https://github.com/ggerganov/llama.cpp 
cd llama.cpp && make -j4 LLAMA_CUBLAS=1 ``` ```

步骤2：运行量化模型

./main -m /models/llama-3-7b-Q4_K_M.gguf -p "你好，世界" -n 512 --temp 0.7 
``` ```

提示：Jetson Nano需在编译前升级GCC至8.5+以避免兼容性问题。

四、性能调优与监控

GPU加速验证

# 检查CUDA状态 
nvcc --version nvidia-smi 

# 测试TensorRT性能 
/usr/src/tensorrt/bin/trtexec --loadEngine=model.plan --shapes=input:0:1x3x640x640 

``` ```

资源监控工具
- jtop：实时查看CPU/GPU利用率、内存占用和温度：
```
sudo -H pip3 install jetson-stats 
jtop 
``` ```
```
- 优化建议：
  - 限制模型线程数（如-t 4）避免内存溢出
  - 启用--n-gpu-layers 20参数提升GPU计算比例

五、扩展场景与应用

多模态模型部署
- 视觉语言模型（VLM）：使用MiniGPT-4实现图像问答1：
```
docker run -p 7860:7860 minigpt4 --model-path /models/vicuna-13b 
``` ```
```

工业级应用

YOLOv8实时检测：通过TensorRT加速实现30FPS目标跟踪3：

from ultralytics import YOLO 
model = YOLO("yolov8n.pt") 
model.export(format="engine", device=0) # 生成TRT引擎 
``` ```

六、常见问题与解决

问题类型	解决方案
内存不足	增加SWAP空间：`sudo fallocate -l 6G /swapfile && sudo mkswap /swapfile`
GPU未启用	检查CUDA路径：`export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH`
摄像头接入失败	配置GStreamer管道：`nvarguscamerasrc ! videoconvert ! appsink`

进阶资源：

官方示例仓库：jetson-examples （含YOLO/Stable Diffusion一键脚本）
模型量化工具：llama.cpp / AutoGPTQ

端侧大模型开发者社区