寒武纪发布新品思元370:算力翻倍,客户适配表现超预期
继年初发布的思元290之后,寒武纪于11月初发布了本年度第二款新品思元370,以及基于思元370的两款加速卡。这也是寒武纪的首款第四代产品。
继年初发布的思元290之后,寒武纪于11月初发布了本年度第二款新品思元370,以及基于思元370的两款加速卡。这也是寒武纪的首款第四代产品。
思元370在算力上,基于台积电 7nm 制程工艺、整体集成390亿个晶体管的思元370最大算力达到 256TOPS(INT8),相比上一代思元270算力实现翻倍。
思元370还是寒武纪首款采用 chiplet(芯粒)技术的AI芯片,在国内应该也属于行业首颗chiplet AI芯片。由于思元370在一颗芯片中封装2颗AI计算芯粒(MLU-Die),每一个MLU-Die都具备独立的AI计算单元、内存、IO以及MLU-Fabric控制和接口,不同MLU-Die可以组合规格多样化的产品,可以为用户提供适用不同场景的高性价比AI芯片。
值得注意的是,在架构上,思元370属于寒武纪第四代自研智能芯片架构,第一代架构MLUarch00主打智能加速IP核,第二代MLUarch01主打多核架构,第三代MLUarch02主打多核共享片内存储,本次发布的第四代MLUarch03拥有新一代张量运算单元,内置Supercharger模块大幅提升各类卷积效率;采用全新的多算子硬件融合技术,在软件融合的基础上大幅减少算子执行时间;片上通讯带宽是上一代MLUarch02的2倍、片上共享缓存容量最高是MLUarch02的2.75倍;推出全新MLUv03指令集,更完备,更高效且向前兼容。凭借全新的我MLUarch03,相较于峰值算力的提升,思元 370 实测性能表现非常亮眼:同功率性能超过NVIDIA T4两倍还多,完成同样的任务,功耗可以是A10的一半。
自思元100 以来,寒武纪在三年之内已经连续推出三代云端AI 芯片,最新一代产品在工艺制程、架构、指令集和软件等方面有了全面的提升,实现了同级芯片的顶尖水平。
特别值得一提的是,新品思元370,是在去年三季度流片、相关加速卡产品在今年二季度陆续送测客户后才进行的发布。目前,部分客户已完成测试、导入,产品进入早期销售阶段。
百度异构计算架构师黎世勇就对寒武纪的思元370充满期待,“自2018年起,百度与寒武纪展开了多维度的软硬件协作,思元100等产品服务百度语音合成等多种业务场景。我们相信,随着思元370等新产品的落地,双方软硬件充分结合的生态势必将发挥更大的效能,助力人工智能行业多场景落地。”
思元370系列加速卡也已与国内主流服务器合作伙伴完成适配。浪潮信息副总裁、人工智能和高性能产品线总经理刘军表示:“浪潮跟寒武纪长久以来保持着紧密合作,思元370在性能、能效等方面较之思元270均有大幅提升,我们期待双方未来能够携手为更多行业和领域提供人工智能计算相关服务。”
刘军还介绍了与寒武纪之前合作的进展:“浪潮搭载寒武纪芯片的AI服务器已经在中国移动、互联网、智算中心等客户和行业中实现落地。”
有媒体专门求证了中国移动集采中标的知情人士,其提到,中国移动2021年至2022年人工智能通用计算设备集中采购中,整个标包三里的中标产品(浪潮、中兴)都有用到寒武纪的加速卡思元270。
近年来,寒武纪在智慧金融、智慧能源、智慧交通等行业与合作伙伴共同完成了诸多落地案例。众所周知,芯片行业呈现典型的“投资前置,收益后置”特征,产品从起量到规模化量产销售需要一个相对漫长的过程,相比其他行业更难实现商业化的跳跃式发展。但从产品策略及落地应用角度看,寒武纪无疑切实跳出了PPT,正稳健地践行着自己的“中立通用芯片设计公司”定位,切实为客户创造实际价值。