# NeoJ's Web Page (下水鱼的Blog) > 下水鱼的个人网络日志,一个年轻的老派工程师。Go、WebGL、Python、运维与硬核技术博客。 ## About - Site: https://firsh.me - RSS: https://firsh.me/rss.xml - Sitemap: https://firsh.me/sitemap.xml - Author: NeoJ (https://github.com/uk0) - License: CC BY-SA 4.0 unless otherwise noted ## Posts - [GLM-5.2 W4A8 Ascend 910B2 部署手册](https://firsh.me/blog/0186.html) — 2026-07-01 · 本手册专为在华为昇腾910B2 NPU环境下部署GLM-5.2模型而编写,采用W4A8(权重4位、激活8位)量化方案以降低显存占用并提升推理吞吐量。文档覆盖从环境搭建、依赖安装到模型量化转换的完整操作步骤,适合需要在昇腾硬件上落地大语言模型的工程师参考。通过W4A8量化技术,GLM-5.2可在910B2上实现高效低延迟推理,兼顾模型精度与硬件资源利用率。 - [GLM-5.2-W8A8 在 4 机 32 卡 Ascend 910B2 集群的部署与压测](https://firsh.me/blog/0184.html) — 2026-07-01 · 本文聚焦于 GLM-5.2-W8A8 量化大语言模型在华为昇腾 Ascend 910B2 硬件平台上的大规模分布式部署实践。实验环境采用 4 台服务器共 32 张 NPU 卡构成的推理集群,重点探讨 W8A8(权重与激活均 INT8)量化方案在昇腾生态下的适配与优化。文章涵盖集群组网、推理框架配置及性能压测方法,为业界在国产 AI 芯片上部署超大规模语言模型提供参考。