大模型爆发倒逼算力升级，火山引擎分享“AI全栈云”经验

2024-11-23 发布

AI大模型的爆发式增长，正驱动着算力需求不断升级，云基础设施在集群建设和管理、性能、稳定性等方面都面临着严峻挑战。

火山引擎基于字节跳动在大模型领域的实践沉淀，带来更高性价比的算力资源和一站式资源服务，持续助力企业AI转型落地。8月21日，2024火山引擎AI创新巡展上海站活动成功举办，火山引擎云基础产品负责人罗浩发表演讲，详细介绍了面对算力需求的升级，火山引擎的具体应对方法和措施。

罗浩表示，早在2019年，火山引擎已经观察到了由Transformer带来的更大规模算力需求。并且随着算力大规模爆发式增长，也带来了计算模式的变化，计算从“单节点模式”向“集群模式”演化。

为了满足AI领域的算力增长，火山引擎首先打造更新的基础设施，如新一代GPU型算力，以及能够容纳这些算力的新一代机房等。

在此基础上，则是打造新一代互联技术，将多达数十万个计算节点互联起来，支持近似线性加速比。

罗浩介绍，由于不同算力资源池的节点阈值不同，当小于8个节点的时候，调度都在一台服务器内部完成，但当节点大于500的时候，可能就需要跨机架调度，而当节点大于1000或更多时，需要跨两至三层的交换机调度，所涉及到的网络架构管理内容，包括通信协议、拥塞控制等等，其性能挑战的难度将逐步增大。

因此，随着AI大模型的爆发，任务已从单节点来到多节点，甚至达到万卡规模，故障域也变得更大。

如此大的故障域中，如何在当某个节点发生故障时能快速识别问题，及时剔除故障节点，节省计算成本，就存在相当严峻的挑战。

火山引擎云基础产品负责人罗浩

因此火山引擎提出“AI全栈云”，包含三个方面。

一、集中使用资源和算力。最大程度上避免由于分布式数据中心建设带来的算力孤岛和存储孤岛问题。

二、所有的IaaS层产品、PaaS层产品、数据产品、安全产品甚至推荐算法还有AI产品，都在同一朵云上，采用同样的软件架构、通信协议，使得数据流动、业务通信保持最高效的，同时也更加安全。

三、大算力资源池建设和自研硬件，以及自研网络通信协议、拥塞控制算法等能力相结合，实现规模更大、性能更强、稳定性更高和成本更优。

罗浩表示，目前火山引擎能够做到在分钟级别调度千卡规模资源池，以应对弹性任务。互联能力方面，单机互联能力已经从800G提升到了3.2T，增长了4倍。同时火山引擎还提供覆盖全球的网络，能够支持2TB/秒吞吐并行文件存储。

在高可用方面，火山引擎做了充分的压测左移体系，会在批量机器交付之前，抽样比较大的集群同时部署上容器、虚拟机、物理机进行测试，确保高可用性。拥有这样的压测能力，即可快速发现问题，结合冷迁移技术，将故障节点在离线状态或在线状态剥离出去，使得任务持续运行。

成本方面，火山引擎除对大规模算力资源池集中使用之外，对于loadbook、DevOps等短期任务，只会用单张卡或0.5张卡，提供更加灵活、更小粒度的资源使用方式。同时，火山引擎的网络负载均衡还能够感知到训练推理体系里的KVCache、过热导致的调度不均匀问题，达到更高的调度效能。

在存储方面，除VPFS超大规模、超大性能存储之外，火山引擎还提供LAS缓冲层、CFS、TOS分层性价比更高的存储。

罗浩表示，火山引擎基于字节跳动在大模型领域的实践沉淀，以技术驱动的极致性价比让大模型人人用得起，陪伴客户一起成长。未来，火山引擎全栈AI服务将持续助力企业AI转型落地，激发业务增长潜能。

声明：本页面内容源自互联网，不能用于任何商业服务,也不可作为任何信息依据,更无法构成专业建议，我们无法确保该内容的时效性、准确性和完整性，仅供读者参考。严禁使用和转载与分享该内容。本站对该信息不承担任何责任，内容和图片有误或涉及其他问题请及时与本站联系处理。

大模型爆发倒逼算力升级，火山引擎分享“AI全栈云”经验相关资讯资讯

效率跃升16倍！火山引擎ByteHous
销售数据，是反映市场趋势、消费者行为以及产品表现的重要指标，也是企业做出精准决策的关键依据。因此

挖掘大模型行业落地潜力，火山引擎发布AI
在近日举办的火山引擎AI创新巡展上海站上，火山引擎正式发起“AI创作者大赛”，大赛首场聚焦汽车行

火山引擎携零售巨头成立大模型联盟，抖音电
2024年虽被外界普遍认为是“大模型应用落地元年”，但至今仍有很多声音，质疑大模型在具体行业的应

大模型爆发倒逼算力升级，火山引擎分享“A
AI大模型的爆发式增长，正驱动着算力需求不断升级，云基础设施在集群建设和管理、性能、稳定性等方面

火山引擎数据飞轮提效游戏厂商，助力打造下
8月20日，《黑神话：悟空》正式上架发售，相关词条迅速登顶海内外多个社交媒体热搜榜单。据推测，《

火山引擎谭待：日均10亿tokens是企
在8月21日举办的2024火山引擎AI创新巡展（上海站）上，火山引擎总裁谭待表示，日均调用10亿

爱慕集团携手火山引擎数智平台VeDI 挖
数智化升级正在帮助越来越多的企业发现新的增长机会。作为领跑全球贴身服饰行业的企业之一，爱慕集团多

数据分析慢？火山引擎ByteHouse发
性能在数据分析中至关重要，它直接决定数据处理的效率与及时性，进一步对数据驱动的企业决策造成影响。

数据飞轮驱动消费行业变革，火山引擎数智平
8月1日，数据飞轮消费行业研讨会在上海举办。火山引擎数智平台与参会的消费行业企业，共同探讨了消费

火山引擎ByteHouse高性能向量检索
在现实生活中，“以图搜图”已经得到广泛应用。例如，当我们看到喜欢的服饰，但不知道品牌或具体名称时

资讯News

资讯网红热榜

娱乐Yule

种梦音乐屡造热单《中国说唱巅峰对决2023》威尔Will.T《临时抱佛脚》

潮流Trend

穿搭时尚球鞋

游戏Youxi

单机网游手游游戏攻略

汽车Che

评测汽车豪车

70多辆小米SU7同一天撞墙撞柱

长安睿行EM80财富版6座上市配侧滑门/续航270公里

新款奥迪A7 Sportback上市

新款法拉利Roma谍照曝光

周鸿祎卖掉迈巴赫买了12辆国产车

外观内饰大变样新款日产Armada官图发布

体育Tiyu

体育篮球足球

美容Meili

减肥化妆美容

数码Digital

软件数码电脑手机

健身Fitness

舞蹈武术运动