热搜:微信 游戏 亮相 内存仅 抢不到 风林火山 电脑公司 王者荣耀 王者荣耀 万能装机 系统 xp 电脑公司 浏览器 一键重装 蜘蛛侠 快手 win7 fix realtek 微信 游戏 office mumu模拟器 微软电脑管家 22H2 secoclient 11 11 11 开始菜单 WingetUI 腾讯电脑管家 打印机 应用商店 谷歌浏览 批量下载 中国建设银行 win1032位 龙信 系统 Outlook AutoCAD 2023 Fix 迅雷 系统大师 装机大师 win7系统 WIFI sscom wps 采集 启动 植物大战僵尸 驱动人生 腾讯QQ V9.7.20 优酷 输入法 抖音 三只羊 短视频 qq 快手 系统 迅雷 注册表 学习通 红警 the vmware win11 必应 原神 小米 乙 和 UC浏览器网页版 TT SugarNMS 企业微信 21h2 Escrcpy 驱动精灵 京麦 QQ amd 搜狗 yy iOS16 kook 剪映 冰凌 CAD 华为电脑管家 edge 推流 雷电模拟器 pdf 键盘失灵 Microsoft photos 迅雷12 FileZilla Server LTSC CF 英语 企业版 中国移动云盘 Windows10 迅读 英文版 win10 abbyy Visual Studio 2012 Microsoft Edge 无线网卡驱动 激活 合同管理系统 office 2019 win10旗舰 亿图图示 WPS WPS Office 2024 冷风 通达信 VMware 罗技外设管 柜柜 冰凌五笔 腾讯视频 贵政通 鲁大师 字体 win10游戏版 BTMine 黄 wps office UnblockNeteaseMusic office 2016 老机 不坑盒子 360安全卫士 夸克 SKYPE 搜狗输入法 局域网 2012 谷歌浏览器 PDF 企业微信 mechanical ps 激活码 翻译 rar 16 cad Win10 百度 visio 定时 定时发送 图库 专业工作站版 专业工作站 Dell Display Manager xp系统 wps2019 axure amd显卡 mac pe 磁盘 微信xp Photo 老电脑 精简 工作站 百度网盘 qq空间查看器 斯沃 AxMathV2.706 旗舰版 官方原版 21H2 asus 2016 激活工具 广联达 蓝牙驱动 xp 石大师 抖音客户端 系统之家 驱动 win10系统 环保手册 会声会影 抖音直播伴侣 Windows Windows7 联想笔记本 Office ltsc 2019 19041 iBypasser 浏览器 UltraISO 华为 qq浏览器 win8 会声会影 系统工具 音乐 autocad 5y 飞书 office 2016 winpe 网卡驱动 压 企业版 19044 饥荒 DingTalk电脑版 微软杀毒 edge TranslucentTB QQ空间查看器 805 WIN10精简版 Edge 平板 Ghost GHOST 芝麻倒计时 万维 注册 vic 夸克网盘 V1 激活系统 钉钉 超级互联 u盘 联想电脑管家 10系统 火绒 像素蛋糕 TRANSL 京麦工作台 chrome Win10 LTSC 任务栏 QQ突破群禁言 彩虹 ARM 夸克网盘 AMD Ryzen Master 同花顺 天正 photo QQ空间 108.0.5359.99 108.0.5359 Chromium浏览器 WeekToDo 智能 microsoft photos ltsc Q绑 空间查看器 office2013 天正电气 12.1.0.19770 千牛 jdpaint win11 压力 PS插件 Easy Document 阿里云盘 CAD迷你看图 百灵创作 火狐浏览器 东方财富 微信电脑版 DirectX Altium Designer msi 手机 ABD ADB qq空间破解 亦搜 游戏定制 沙漏 WIN8 僵尸
编辑:电脑系统网 2024-10-22 来源于:电脑系统网
微软开源 1bit 大模型推理框架!
现在 1000 1亿参数的大模型量化 CPU 可跑,速度可达每秒 5-7 个 token。
比如在苹果 M2 新品上运行 BitNet b1.58 3B 模型,be like:
以传统的大模型参数为准 16 位浮点数(如 FP16 或 以BF16的形式存储, BitNet b1.58 所有这些都变成了三进制,即 {-1, 0, 1}。
这里的“1.58 bit指每个参数都可以使用 1.58 表示位置信息。
转换后,矩阵中的计算只涉及加法,使大型模型在保持一定精度的同时显著减少所需的存储空间和计算资源,并显著改善当地设备的运行 LLM 的可能性。
这个项目开源后,在 X 也引起了一波高度关注。
bitnet.cpp 是 1bit LLM(例如 BitNet b1.58)官方推理框架。
该框架配备了一系列优化核心,支持 CPU 快速无损的上行 1.58bit 模型推理将在未来扩展支持 NPU 和 GPU。
bitnet.cpp 主要支持首版 CPU 推理。
在具体性能改进方面, ARM CPU 这个框架是可以实现的 1.37 至 5.07 倍加速,更大的模型会有更显著的性能提升。
同时,它可以降低能耗 55.4% 至 70.0%,进一步提高效率。
在 x86 CPU 上,加速效果介于 2.37 至 6.17 两倍之间,能耗降低 71.9% 至 82.2%。
网友也发现了华点,在那里 x86 上性能增益率比 ARM 更大。
此外,bitnet.cpp 量化千亿参数模型后的订单 CPU 可跑,速度可达每秒 5-7 个 token,接近人类的阅读速度。
微软还展示了它的使用 bitnet.cpp 不同的推理框架支持 1 bit LLM。
1 bit LLM 一年前,微软进行了相关研究,称为实现方法 BitNet(一种 Transformer),用 BitLinear 替换了 nn.Linear。
今年二月,BitNet 原班人马在上一篇论文的基础上进行了优化,并提出 BitNet b1.58,在原始 BitNet 在此基础上增加了一个额外的数字 0 值。
然后只有这个内容 6 论文页面引发热议:
BitNet b1.58 模型的权重量化为三元值 {-1, 0, 1}相当于在二进制系统中使用 1.58 bit 表示每一个权重。
采用了 absmean 量化函数约束权重,通过平均绝对值缩放权重矩阵,然后四舍五入最接近的整数值(-1、0 或 1)。
激活值在激活量化中缩放 [−Qb, Qb] 消除零点量化的范围。
在架构设计方面,BitNet b1.58 借鉴了 Llama,使用了 RMSNorm、SwiGLU、旋转位置编码和其他组件,并删除所有偏置项。该设计使其很容易集成到主流的开源框架中。
实验中,与 Llama 相比,BitNet b1.58 节省矩阵乘法 71.4 计算能耗的倍。
这种方法发布后,很多人都在这项研究的基础上进行了探索。
一个问题是,BitNet b1.58 每个参数只用三元值表示,但所有这些都需要从零开始训练模型。不是每个人都有预算 LLM 预训练。
而 Huggingface Transformers 最近整合了 BitNet b1.58.使用一些技能,现有模型可以直接微调 1.58bit。
感兴趣的童鞋可以自己查阅。
但也有网友指出了这种方法的局限性:
总之,1 bit LLM 潜力巨大。
但正如网友所说,1 bit LLM 关键是要在实践中证明自己。
参考链接:
[1]https://github.com/microsoft/BitNet
[2]https://x.com/rohanpaul_ai/status/1847814379657462201
[3]https://x.com/rohanpaul_ai/status/1848172443258728860?s=46 t=iTysI4vQLQqCNJjSmBODPw
[4]https://huggingface.co/blog/zh/1_58_llm_extreme_quantization
本文来自微信公众号:微信公众号(ID:QbitAI),作者:西风,原标题“微软开源爆炸” 1.58bit 大模型推理框架!量化千亿参数模型后的订单 CPU 可跑,速度每秒 5-7 个 token》
广告声明:文本中包含的外部跳转链接(包括不限于超链接、二维码、密码等形式)用于传递更多信息,节省选择时间。结果仅供参考。计算机系统网络上的所有文章都包含了本声明。
2024/11/22 16:07
微软重拳出击:依法捣毁大型网络钓鱼平台 ONNX,斩断 240 个恶意域名2024/11/22 16:07
诺基亚与微软再合作,为 Azure 数据中心供货延长五年2024/11/21 14:12
微软 Win11 Build 27729 隐私策略文件中将 Copilot AI 称为“Windows Intelligence”微软发布新闻稿,提到他们正在美国弗吉尼亚州北部郊区附近建立该公司旗下第一个基于木质材料打造的数据中心,该数据中心在建设时主要选用防火交叉层压木材(CLT)以取代钢筋混凝土...
2024/11/21 14:12:40
为了吸引用户使用自家产品,微软推出了一项诱人的活动:使用微软 Edge 浏览器和 Bing 搜索引擎,就有机会赢取 100 万美元的大奖。此外,另外还有 10 名幸运儿可获得 1 万美元奖金。...
2024/11/21 14:12:39