肺结节是什么症状| 衾怎么读什么意思| 降血糖的草都有什么草| upup是什么意思| 宝玑手表是什么档次| 什么花晚上开| 玉子是什么| 拉肚子喝什么水| 嘴唇肿是什么原因| 山己念什么| 手蜕皮什么原因| 拉不出大便吃什么药| 火文念什么| 萱五行属什么| 腹痛腹泻吃什么药| 石家庄以前叫什么名字| 乙肝是什么症状| 内科包括什么| 91年出生属什么生肖| 补水什么意思| 滋味是什么意思| 胸膜炎挂什么科| 民警是干什么的| 火鸡面是什么| 女人胃寒吃什么好得快| 皮肤黄适合穿什么颜色的衣服| 酉读什么| 一度电是什么概念| 梦见好多西瓜是什么意思| 哭得什么| 六月一号什么星座| 梦见修坟墓是什么预兆| 很多条腿的虫子叫什么| 氧化钠是什么| 木加一笔有什么字| 左侧附件区囊性占位是什么意思| 晕血是什么原因| 海誓山盟是什么意思| 从此萧郎是路人是什么意思| 古驰属于什么档次| 对什么有益英语| 心肾两虚吃什么中成药| 肌肉萎缩是什么症状| 耳朵痒痒是什么原因| 脖子淋巴结发炎吃什么药| 磷高有什么症状和危害| 感染是什么意思| 唯我独尊指什么生肖| 嘴唇白是什么原因| 暖皮适合什么颜色衣服| 肚脐眼上方是什么器官| 肛周湿疹用什么药膏效果好| 为什么白天尿少晚上尿多| 食管反流吃什么药最好| 糖化血红蛋白高是什么原因| 三净肉是什么| 蠼螋吃什么| ce是什么元素| ch表示什么意思| 蛋白粉有什么功效| 活检是什么意思| 脱肛是什么症状| 斩衰是什么意思| 甲基苯丙胺是什么| 合成碳硅石是什么| 眩晕症有什么症状| cbd是什么意思| 朝对什么| 为什么小便会带血| 空腹吃西红柿有什么危害| 血瘀是什么意思| 肝实质弥漫性回声改变什么意思| 排卵试纸强阳说明什么| fy是什么意思| 调理内分泌失调吃什么药效果好| 梦到小鸟是什么意思| 孕妇吃什么水果好对胎儿好| 碗莲什么时候开花| 什么样的笑脸| 罄竹难书是什么意思| 灵芝长在什么地方| 橡胶过敏是什么症状| 5月26日是什么星座| 为什么会尿酸高| 腋窝爱出汗是什么原因| 女生喜欢男生什么行为| 传染性单核细胞增多症是什么病| 办理护照需要什么| 凤梨和菠萝的区别是什么| 小孩掉头发是什么原因引起的| 天蝎座是什么性格| 壑是什么字| 什么是皈依| 处女座的幸运数字是什么| 勤劳的小蜜蜂什么意思| 上证指数是什么意思| 达泊西汀有什么副作用| 爱是什么颜色| 6月1是什么星座| 飧泄是什么意思| 移植后可以吃什么水果| 肿瘤cr是什么意思| 姜子牙姓什么| 人参不能和什么一起吃| 干眼症缺乏什么维生素| 01年属什么| 辅警和协警有什么区别| 下腹疼是什么原因| 鞭炮笋学名叫什么| 锦衣卫是干什么的| 波字五行属什么| 少帅是什么军衔| 经常干咳是什么原因| 什么是家| 刘禹锡是什么朝代的| 独善其身是什么意思啊| 灵芝孢子粉有什么作用| 与自己和解什么意思| 农历十月初五是什么星座| 主见是什么意思| 梦见很多猪是什么意思| 咳嗽能吃什么食物| 乳腺导管扩张是什么意思严重吗| 可乐不能和什么一起吃| 王字旁的字有什么| 左侧卵巢囊肿是什么原因引起的| 水瓶座的幸运色是什么颜色| 胰腺上长瘤意味着什么| 一模一样的意思是什么| 7月17日是什么星座| 经常拉稀是什么原因| mssa是什么细菌| 减肥吃什么药| 晚上剪指甲有什么说法| 什么病不能吃鸡蛋| 石膏的主要成分是什么| 恳请是什么意思| 蜈蚣代表什么生肖| 梦见楼塌了是什么意思| 拉拉是什么意思| 炖鱼放什么调料| 爆炸盐是什么| 什么叫偏光眼镜| 牛肚是什么| 笑对人生是什么意思| 吃什么水果对肠胃好| 微针是什么| 什么是芡实| 平头哥是什么意思| 没有味觉是什么病| 明心见性是什么意思| prince是什么牌子| 含五行属什么| 腹泻呕吐是什么原因| 七月六号是什么星座| 河北有什么山| 苏联是什么国家| 山茶花是什么颜色| 菡字五行属什么| 莫字五行属什么| 洋辣子蛰了用什么药| 晚上11点是什么时辰| 蛔虫是什么动物| 户口所在地是什么意思| 4t什么意思| 尿ph值高是什么意思| 河南属于什么气候| 天秤座什么象| 肺部不好有什么症状| 蜘蛛痣是什么原因引起的| 脑部缺氧有什么症状| 沉网和浮网有什么区别| yuki是什么意思| 荔枝什么人不能吃| 什么情况下做肾穿刺| 什么头什么耳| 溃疡性结肠炎吃什么药| 浩瀚是什么意思| 降真香是什么| 黑匣子是什么颜色| 带翅膀的黑蚂蚁是什么| 藤椒是什么| 八字华盖是什么意思| 鸡胸是什么| 转氨酶偏高是什么原因| 新婚志喜是什么意思| 油炸食品用什么油最好| 梦见鱼是什么预兆| 梦见跟别人打架是什么意思| 肋间神经炎吃什么药| 金牛座女和什么座最配对| 腿疼挂什么科| 消业障是什么意思| 带状疱疹什么不能吃| 物是人非什么意思| 配伍是什么意思| 掌中宝是什么肉| 眼皮跳吃什么药| 925银是什么意思| bpa是什么意思| 什么叫游走性关节疼痛| 8月15是什么星座| 胸痛是什么原因导致的| 病理性骨折是什么意思| 卢字五行属什么| 尿道感染吃什么消炎药| 钓鱼执法什么意思| 打喷嚏流清鼻涕吃什么药| 吃小米粥有什么好处和坏处| 中午一点半是什么时辰| 白芽奇兰是什么茶| 阴蒂在什么位置| 爸爸的姥姥叫什么| 红斑狼疮是什么症状能治好吗| 基因突变是什么意思| 脚后筋疼是什么原因引起的| 下巴两边长痘痘是什么原因| 为什么会有湿气| 梦见新房子是什么意思| 水平是什么意思| 两个人背靠背是什么牌子| 5月26日是什么星座| 失眠吃什么药见效快| 血压高什么原因引起的| 鸡胸肉炒什么好吃| 里脊肉是什么肉| 白目是什么意思| 黄脸婆是什么意思| 什么时候吃饺子| 排卵期出血是什么原因造成的| 高血脂是什么原因引起的| 圣女果是什么水果| 合肥有什么玩的| 斗米恩升米仇什么意思| ca199偏高是什么意思| 狮子座女和什么座最配| 灰太狼是什么意思| 直肠炎吃什么药好的快| 日加军念什么| 衣原体阴性是什么意思| 慢性胃炎吃什么好| sc是什么意思| 5月4日什么星座| 血红蛋白浓度偏高是什么原因| 新零售是什么意思| 小便疼痛吃什么药| ricu病房是什么意思| 游车河什么意思| 汗管瘤什么原因造成| 吃什么止血| 男女授受不亲是什么意思| 急性阴道炎是什么引起的| 大姨妈不能吃什么水果| 看抑郁症挂什么科| 金不换是什么菜| 裸睡有什么好处| 吃什么补蛋白| 水当当是什么意思| 扁桃体炎吃什么药最好效果好| 夜尿多吃什么药效果好| 肝脏低密度灶是什么意思| 放疗后不能吃什么| 710是什么意思| 赵云的马叫什么| 百度

中国工程院院士、清华大学计算机系教授郑纬民:做好模型推理要掌握四大关键

姬晓婷
中国工程院院士、清华大学计算机系教授郑纬民会上发表演讲。他表示,大模型推理引擎是人工智能产业竞争的关键,做好模型推理需要掌握好算子优化、模型量化、异构调度、并行优化四大关键点。
百度 每一场旅行都会有一个定义,而前往贝加尔湖,似乎是不需要原因的。

本文来自微信公众号“中国电子报”,【作者】姬晓婷。

7月27日,世界人工智能大会分论坛“芯节点·新突破——协同创新聚力加速智算破局”主题论坛在上海举行。中国工程院院士、清华大学计算机系教授郑纬民会上发表演讲。他表示,大模型推理引擎是人工智能产业竞争的关键,做好模型推理需要掌握好算子优化、模型量化、异构调度、并行优化四大关键点。

微信图片_20250729111807.jpg

关键点一:算子优化

算子优化就是对大模型中的单个算子(如Conv卷积、MatMu矩阵乘法等)做性能改造,使同一个算子在给定硬件上跑得更快、占用内存更少、功耗更低。例如,将“卷积”这个算子从普通C语言替换为汇编级Winograd+SIMD+缓存分块,就是一次算子优化。

算子优化主要有两种实现方案:其一,图层优化,包括不等价交换,用可控误差换性能;基于表达式交换,用代数/符号规则在图层级别做等价化简;张量属性变换,通过调整张量的形状、步长等消除冗余内存搬移或者提高并行度等。其二,算子层优化,即采用计算访存重叠、异步流水调度等技术进行算子优化。

关键点二:模型量化

模型量化就是将模型中的浮点参数(如32位FP32)转换为低比特整数(如8位INT8)的技术,目的是缩减模型体量、降低计算量、提升推理速度,同时尽量保持模型精度。在模型规模急剧增加、低精度计算单元越来越多样的背景下,模型量化是减少内存需求和提升推理性能的有效途径。

当前模型量化主要有两种方案:

其一,单一精度量化,直接将模型中的高位宽参数替换为低比特,例如将16位浮点数直接替换为8位整数,这一方式以“极简部署”换“精度弹性”,在硬件支持单一格式或对精度不敏感时是首选。

其二,混合精度量化,在同一网络里按层、张量或通道分别使用两种及以上位宽(如INT8+FP16、INT4+INT8、FP8+FP16+FP32等),而不是“一刀切”成单一低比特。

但混合精度推理的发展也面临着挑战,混合精度库开发周期长,历时超过一年;代码量大,超过1万行;算子性能差,相较于单一精度推理,性能下降70%。导致现有的混合精度推理利用率仍较低。

关键点三:异构调度

异构调度指在包含多种不同类型计算单元(CPU、GPU、FPGA、AI加速器等)系统中,将任务或子任务动态、合理地分配到最合适的处理器上,同时满足性能、功耗、资源利用率或实时性等多重目标的一种资源管理技术。该技术的目标是让正确的任务在正确的时间跑到正确的芯片上,例如将“跑得快但耗电高”的GPU留给矩阵乘法,把“省电但慢”的CPU小核留给控制逻辑。

模型推理可大致分为两个过程:一是P过程(prefill,预填充),二是D过程(decode,解码)。前者预处理负载请求的所有token,读取并“理解”用户输入的上下文,这一过程是计算密集型的;D过程则是和访存密集相关。

P过程与D过程所需的负载不同,如果能将P过程和D过程拆成两个独立的流水线,分别在不同的硬件上跑,且能实现互不干扰,推理计算的整体性能就提高了。

关键点四:并行优化

并行优化即把深度学习任务拆成多条独立或半独立的计算通路,让他们在同一个时刻被多个计算单元并行执行,从而在“时间”或“空间”维度上换取整体吞吐或延迟提升的一系列工程手段。简单理解,这就相当于“把1个人干100天的活,拆成100个人1天干完”。

当前,并行优化面临着两大挑战:

其一,由于推理场景多样化,且不同推理场景的负载模式不同,固定的并行策略无法适应动态推理场景。例如,科研论文摘要、财报分析等,输入内容长,则Prefill占优,属于计算密集型任务;深度思考,输出文本长,则Decode占优,属于访存密集型。针对这些不同的应用场景,需要制定不同的并行策略。

其二,由于大模型服务场景存在明显的潮汐特性,不同时段的系统压力不同,静态的推理系统也无法适应动态服务场景。具体来看,白天时段使用人数多,请求量大,系统压力大,存在显存缺口;凌晨时段使用人数少,请求数量小,系统压力小,存在显存空闲。

因此需要采用动态的并行策略,通过并行策略自动调整减少算力浪费。例如,在请求较多时,采用张量并行+流水线并行的策略,吞吐量更大;在请求较少时,Attention(注意力机制模型)部分采用数据并行,MoE(混合专家模型)部分采用专家并行策略的吞吐量更高。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论
鼻孔流血是什么原因 鸡屎藤和什么相克 小觑是什么意思 白切鸡用什么鸡做好吃 牡丹花代表什么生肖
什么是数位板 感冒吃什么消炎药 做照影是检查什么 肌酐高是什么原因 苋菜与什么食物相克
吃什么减肥瘦肚子 科普一下是什么意思 郡主是什么身份 6克血是什么概念 左心房扩大是什么意思
心绞痛什么症状 2.8是什么星座 宝宝咳嗽流鼻涕吃什么药 怕空调冷风什么原因 外耳道炎用什么药
胎菊泡水喝有什么功效hcv7jop6ns2r.cn 3月25日是什么星座hcv8jop4ns2r.cn 结节病变是什么意思hcv8jop3ns1r.cn 炖排骨什么时候放盐hcv9jop2ns9r.cn 宫颈糜烂是什么原因造成的dajiketang.com
一岁半打什么疫苗hcv7jop9ns1r.cn 棺材中禁止放什么东西hcv8jop2ns3r.cn 急救物品五定是什么sanhestory.com 鱼子酱是什么hcv9jop0ns1r.cn 6月11日什么星座hcv8jop5ns0r.cn
公鸭嗓是什么声音hcv8jop6ns7r.cn 每天吃松子有什么好处hcv9jop1ns2r.cn 211是什么学校hcv8jop1ns6r.cn 脚底有痣代表什么意思hcv8jop0ns1r.cn 凿壁偷光告诉我们什么道理hcv8jop7ns7r.cn
短装是什么意思hcv7jop6ns9r.cn 红萝卜和胡萝卜有什么区别hcv9jop7ns3r.cn 传媒公司主要做什么hcv9jop6ns0r.cn 体寒吃什么好hcv7jop6ns2r.cn 反射弧长是什么意思hcv8jop5ns0r.cn
百度