端边设备“算得快又吃得少”？世界人工智能大会前夕，这款AI芯片面世

2025世界人工智能大会还未正式启幕，已有企业迫不及待秀出了新品。

25日下午，后摩智能正式发布全新端边大模型AI芯片——后摩漫界®M50，同步推出力擎™系列M.2卡、力谋®系列加速卡及计算盒子等硬件组合，形成覆盖移动终端与边缘场景的完整产品矩阵。

新民晚报记者了解到，M50芯片实现了160TOPS@INT8、100TFLOPS@bFP16 的物理算力，搭配最大48GB内存与153.6 GB/s的超高带宽，典型功耗仅10W，相当于手机快充的功率，就能让PC、智能语音设备、机器人等智能移动终端高效运行1.5B到70B参数的本地大模型，实现了“高算力、低功耗、即插即用”。

“大模型技术以计算为主，且对带宽要求极高。”后摩智能CEO吴强博士指出，“大模型时代产品产品底层逻辑发生了变化，大模型产品更快速、直接创造生产力。”当前大模型行业正经历深刻变革，达成亿级用户规模，Facebook用了4.5年，ChatGPT用了2个月，而DeepSeek仅仅用了2周。

在吴强博士看来，行业已进入“推理密度”与“能耗密度”双重敏感阶段，未来五年推理成本将占大模型全生命周期80%以上。在端边大模型部署“最后一公里”的竞争，或将成为决定未来产业格局的重要拐点。

“未来90%的数据处理将在端边进行，10%的复杂任务交予云端。”他作出判断。显而易见，AI的处理重心正逐步向端边转移。

高算力、高带宽、低功耗，这三项看似互斥的指标，正是存算一体技术大显身手的主场，后摩智能从2020年创立伊始便深耕该领域。

何为“存算一体”？吴强解释，存算一体通过把计算和存储单元集成在一起，让数据就近处理，从根本上解决了传统芯片“数据传输慢、功耗高”的问题。

“M50芯片作为存算一体的集大成之作，其第二代SRAM-CIM双端口存算架构能让权重加载和矩阵计算同时进行，支持多精度混合运算，可兼顾模型部署的各项需求。”吴强介绍，“自主研发的第二代IPU架构——天璇，通过压缩自适应计算周期实现弹性计算，最高可提供160%的加速效果。”

在他看来，M50的亮点可以用几个词概括：混合精度、澎湃算力、超高带宽、海量内存、超低功耗、极致能效、高速互联。总的来说，和传统架构相比，M50的能效提升5—10 倍，适配了端边设备“算得快又吃得少”的需求。

除了M50芯片，后摩智能此次发布的产品矩阵形成了覆盖端侧到边缘的多元算力方案。这些产品可广泛应用于消费终端、智能办公、智能工业等多元领域，且均能在离线状态下实现全流程本地处理，从源头杜绝数据联网传输风险。例如在消费终端，赋能笔记本、平板电脑、学习机等设备本地大模型推理能力，无需联网即可完成智能交互、内容生成等任务，用户隐私数据全程闭环留存；智能办公场景中，智能会议系统在断网环境下仍能实现多语种翻译、纪要生成，会议内容不触云、不泄露；智能工业领域，产线质检与车路云协同通过本地算力完成实时分析决策，生产数据与运营信息在设备端闭环处理，避免云端传输隐患。