发布日期:2024-10-16 18:04 点击次数:54
10月15日,火山引擎在视频云时期大会上发布了大模子磨练视频预处理决策东京热官网,助力处理视频大模子磨练的本钱、质地和性能等方面的时期挑战。当今,该时期决策已应用于豆包视频生成模子。
火山引擎总裁谭待在看成致辞示意,在AIGC、多模态等时期的共同鼓吹下,用户体验在多个维度上阅历着深远鼎新,“基于抖音业务实验和与行业客户共创,火山引擎视频云正积极探索AI大模子与视频时期的深度和会,在时期底座、处理链路和业务增长层面为企业寻找解法。”谭待说。
自研多媒体处理框架BMF ,助力豆包视频生成模子打破业界贫穷据先容,对磨练视频进行预处理是保险大模子磨练就果的进犯前提。预处理经过不错调处视频的数据形状、提高数据质地、杀青数据轨范化、减少数据量以及处理标注信息,从而使模子能更高效地学习视频中的特征和常识,提高磨练就果和服从。
抖音集团视频架构负责东说念主王悦示意,对大模子厂商而言,上述经过中濒临着诸多挑战。
“最初,超大限度视频磨练数据集导致计较和处理本钱激增,”王悦说,“其次是视频样本数据散乱不王人,然后是处理链路设施多、工程复杂,终末还濒临着对GPU、CPU、ARM等多种异构算力资源的交流部署。”
抖音集团视频架构负责东说念主王悦先容火山引擎大模子磨练视频预处理决策
借助Intel的CPU等资源,火山引擎这次发布的大模子磨练视频预处理决策依托于自研的多媒体处理框架BMF,能有用应答模子磨练的算力本钱挑战。此外,该决策还在算法和工程方面进行了调优,不错对海量视频数据高质地预处理,短时辰内杀青处理链路的高效协同,提高模子磨练服从。值得一提的是,火山引擎本次还发布并开源了转移端后处理会决决策BMF lite版块。BMF lite支捏端侧大模子接入和算子加快,愈加轻量、通用。
Bytedance Research 负责东说念主李航先容,豆包视频生成模子PixelDance在磨练经过中罗致了火山引擎的大模子磨练视频预处理决策,充分专揽了广阔潮汐资源,为模子磨练提供了有劲撑捏。火山引擎视频云团队提供的点播处理决策还为PixelDance出产的视频提供了从裁剪、上传、转码、分发、播放的全人命周期一站式处事,让模子的交易化应用有了保险。
据了解,豆包视频生成模子PixelDance于9月24日发布,该模子罗致 DiT 架构,通过高效的DiT和会计较单位和全新打算的扩散模子磨练设施,打破了多主体通达的复杂交互、多镜头切换的实质一致性贫穷,在业界引起平常温雅。当今,豆包视频生成模子已通过头山引擎面向企业开启邀测。
多项“音视频+AI”时期决策,助力企业全链路适配AIGC时期这次看成中,火山引擎还发布了跨讲话同声复刻直播决策、多模态视频理会与生成决策、对话式AI及时交互决策和AIG3D&大场景重建决策,从视频的出产端、交互端到破费端,全链路融入了AI的能力。
火山引擎视频云负责东说念主Yongyuan 指出,在AI视频时期,东说念主和AI交互变得愈加动态和活泼,这条目处理链路愈加智能和交互。
以对话式AI及时交互决策为例,依托豆包大模子和火山引擎视频云自研的多项算法,火山引擎为用户提供了智能对话和当然讲话处理的浩大能力,可杀青毫秒级东说念主声检测和打断反映,以及丝滑康健的端到端反映体验。
在千里浸式破费体验方面,火山引擎通过AI生成3D实质和大场景重建决策,为山西高平二郎庙金代戏台和北京正乙祠两座罕见的历史建立生成了3D数字金钱,并以假造直播间的面目应用于抖音的戏诟谇播场景。
绝色诱惑大会上,王悦还显露了字节自研视频编解码芯片的最新瓦解,经过抖音集团里面的实验考据,该芯片在同等视频压缩服从下,本钱圣洁了95%以上,还在2024MSU寰球编码器大赛中一举夺得最好ASIC编码器。
王悦示意,该芯片将于近期讲求对外绽开测试,招募首批种子用户,共同探索交易价值的可复制性。
火山引擎视频云团队为字节进步提供音视频时期,并通过头山引擎处事外部客户。
— 完 —
量子位 QbitAI · 头条号签约
温雅咱们东京热官网,第一时辰获知前沿科技动态