成心处理电信行业用户行为建模的难题人妻。
华为 GTS 部门 AI 算法团队建议GTS-LUM,结尾转移通讯用户精确行为洞析与多跳瞻望,践诺中成果大幅优于 Meta 的 HSTU 和字节的 HLLM。
GTS-LUM,全称 Global Technical Service-Large User Model,主要有以下几个革新点:
基于海量用户行为序列数据自监督、多模异构 Encoder-Adapter-LLM Decoder 架构、Q-former 语义空间和业务空间常识对皆、革新多模范时序处理机制、多用户运营场景后考试、精确捕捉用户业务级浅层语义。
践诺中,在通盘评估概念上均显贵优于基线模子,拿下鸿沟新 SOTA。
以下是更多细节。
GTS-LUM 措施领路
跟着电信市集浸透率趋近满盈,存量用户价值挖掘与用户留存成为运营商中枢政策。
电信用户在网行为产生的海量数据(日均 PB 级)成为一种新式数据模态。
以往,运营商借助传统机器学习的措施学惯用户行为,但受制于模子体量,瞻望精度上的瓶颈日益凸起。而不同于熟识的互联网推选场景下的用户行为建模,电信场景的非常性体目下:
用户的长周期决策机制
电信做事动作社会基础法子具备强一语气型需求,导致用户决策呈现长周期特征。
用户要道决策行为(如套餐变更、携号转网)更多受恒久做事体验运转(如网罗空闲性、资费合感性等),与互联网场景的短期兴味运转念制酿资本体各异。
该决策特征使得传统序列建模措施中基于近期行为的采样策略濒临挑战,平直应用可能导致要道历史信息丢失,亏损瞻望精度。
多模异构数据本性
与互联网场景中常见的以历史用户 - 商品交互序列为基础,瞻望用户下一段时天职的商品交互为方向不同,电信用户的数据输入与瞻望方向有显豁的异质本性,体目下:
行为打点各种性:包含用户 - 用户 / 居品 / 位置 / 渠说念 / 网元交互等信息;
时分粒度头绪性:包含秒级(委果时信令)、日级(如业务办理)、月级(如账单)等多个模范;
方向异质性:包含用户流失预警、套餐升级瞻望、营销反馈建模等多运营任务。
雨宫琴音作品这种复杂性使得现存本领濒临几个瓶颈:
1、跨时分模范建模不及:面前序列建模措施零落有用的时分处理机制,以捕捉用户跨日、周、月等多时分模范下用户的恒久行为演化模式;
2、多模异构数据表征局限:面前互联网推选本领常借助商品的文本形容,难以充分行使电信鸿沟异构数据模态丰富的本性强化用户表征才调,平直应用存在异构空间对皆问题;
3、方向分离严重:电信鸿沟现存有缱绻常常对流失预警、套餐升级瞻望等运营任务孤独建模,效用低下,贫困和洽模子架构索乞降方向愈加有用关联的用户表征。
由此,华为 GTS 部门 AI 算法团队建议了 GTS-LUM。
GTS-LUM 本领架构如下图所示:
多模范时序处理机制
GTS-LUM 基于多层级时分分别和会语义策略,通过构建"时段 - 周期"语义形容优化用户行为序列建模。
具体而言,基础层级将逐日分别为多少典型时分区间(如早岑岭、午间时段等);并在周期层级重叠责任日 / 周末的周级维度特征,酿成对用户行为发惹事件的复合语义形容。然后将用户行为按照指定时分切片范围进行处理蚁合。
针对吞并时分切片的用户行为,组织序列时,在肇始端镶嵌对应的时段 - 周期语义形容,并在序列末端添加非常分隔符 [ SEP ] 动作行为片断的界限瑰丽。
该设想通过粗粒度业务时分特征与细粒度行为位置关系的协同建模,酿成具随机分感知才调的用户行为序列。
多模异构框架
GTS-LUM 构建了多模态协同的用户行为镶嵌框架,精确捕捉用户业务级浅层语义。
在语义特征维度,通过任一时分切片内对用户和居品 / 位置 / 渠说念的交互行为进行处理蚁合得到"一句话"形容,然后基于预考试谈话模子获取文本向量镶嵌,并在语义空间引申谱聚类,从而索求可说明的行为语义编码。
在业务特征维度,袭取 Node2Vec 算法对用户 - 用户交互等图数据以及 TableGPT2 框架对终局建造、地舆位置等属性维表进行处理,生成多模态业务镶嵌向量。
本措施的中枢革新在于引入了基于 Q-Former 适配器的跨模态对皆机制:
通过交叉防范力层自动筛选与面前语义最相干的多模态业务特征,并借助分享的自防范力层构建业务特征空间和语义空间的潜在映射关系,终末通过对比学习任求结尾跨模态常识对皆。
值得防范的是,论文中革新性地为 Q-Former 引入了绝顶考试任务,包括序列片断 - 文本匹配、序列片断 - 文本对比学习和序列片断 - 文本生成,使其兼具多模态对皆器与用户恒久兴味压缩器的双重功能。
方向感知建模
GTS-LUM 进一步优化了用户表征学习经由,通过方向感知建模凸起了与任务场景最相干的历史行为。
不同于传统推选模子的方向后置范式,GTS-LUM 将瞻望标签前置于行为序列肇始位置,行使 LLM 的因果防范力机制结尾双阶段优化:
在防范力狡计阶段,方向标签动作先验条目动态调遣历史行为的防范力权重漫衍;在表征生成阶段,基于 Decoder 的自哀痛架构结尾渐进式特征优化,通过多步解码经由迭代调遣用户表征向量。
工业级考证成果
在某省级运营商真确场景中,选取 20w 傍边用户数据量在 Ascend 910B2 NPU 上进行考试和推理,践诺罢休线路 GTS-LUM 明白亮眼。
GTS-LUM 与业界有缱绻对比如下:
GTS-LUM 在通盘评估概念上均显贵优于基线模子。
罢休标明,尽管典型推选模子在践诺室数据中明白精致,但在具有鸿沟特定复杂性的工业级数据集上会出现显贵的性能下落。
具体而言,GTS-LUM 比拟 Meta@HSTU 有缱绻平均进步 107.86%,比拟 ByteDance@HLLM 有缱绻进步 31.38%,这些校阅突显了和会多模态输入的紧迫性,以及将通达寰宇常识与特定业务常识对皆的必要性。
更多践诺罢休,请参阅论文。
GitHub 流畅:https://github.com/zzzzztw/GTS-LUM/blob/main/GTS-LUM.pdf
一键三连「点赞」「转发」「小心心」
接待在褒贬区留住你的思法!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 样子主页流畅,以及推敲步地哦
咱们会(尽量)实时呈文你
� � 点亮星标 � �
科技前沿进展逐日见人妻