大模型元年,“万能的淘宝”有了万能的AI助力:AIGC应用于电商买卖双端落地的首次全面实战盘点
今年双十一,除了买家卖家和平台,还多了第四种参与者:AI助手。
淘宝天猫平台,商家在双十一准备期及开卖期调用AI次数已超过15亿次。买家方面,AI助手「淘宝问问」的累计体验人次也超1000万,其中高活跃人群日均提问数超8次。最夸张的一条数据是“单一用户最多提问数超4000次”,这位是完全不动手找商品,买什么全听AI的了吗?
淘宝天猫这回各种AI应用,那是百花齐放。
不知道买什么可以问AI,具体选哪款可以问AI,选好了怎么下单哪些活动实惠还可以问AI。这还没完,卖家快速开新店可以找AI,大批量上架商品可以找AI,投放广告还是可以找AI……
大模型爆发接近一年,不断改造着人们的工作和线上娱乐方式。而渗透进电商购物这一块,可以算是连接上了空间更为广阔的衣食住行等线下生活。
「淘宝问问」体验测评:
淘宝首个AI应用“淘宝问问”AI导购助手全面测评:打通阿里电商数据库,贴身超级导购专员丨附内测申请方法
淘宝问问相较于其他功能相似、差异性不强的AI聊天机器人,淘宝AI助手与自身产品能力的结合度特别高,十分成熟。
AI助手「淘宝问问」,已经对所有淘宝用户开放,直接在搜索框输入「淘宝问问」就能直达。乍一看与其他聊天机器人产品类似,主体都是一个对话框。实际上手体验才发现,它不仅懂商品,还懂你。
如果有优惠券要凑满减,就可以让AI推荐点凑单的零食。无需在提问时附加额外的要求,它也能从历史订单、购物车等数据中推荐符合喜好的商品。
对于每款推荐的商品,AI都会总结好产品本身的特点、适合的人群或场合,以及推荐理由。
接下来点击商品卡片,就可以直接选择规格、口味加入购物车了。
除了直接提问,在淘宝问问里有一些内置好的功能模板。
「用我挑商品」专治选择困难症,选择两个商品优缺点对比说的明明白白。
「婚礼策划师」与「旅行策划人」、「资深导购员」都是专为相应场景优化,整体方案+每个环节商品推荐一口气呈现。
「生活小能手」和「美食达人」,在解决日常问题的基础上又可以一键购齐所需材料。
最后「灵魂写手」则是给喜欢分享购物体验的用户准备。
这里展开介绍一下「用我挑商品」对比商品的玩法:直接从浏览记录或购物车中选择两件拿不准的商品。
即使是不同品类的洗衣液和洗衣凝珠,AI都能帮你把异同分析得头头是道。
当然如果是要对比衣服,到底怎么搭配好看,淘宝问问暂时还帮不到你。这时候就要请出另一个功能「淘宝试衣」了,还是直接搜索就可找到。
看好哪件点一下就可换装,可自己搭配上装下装或选择套装,堪称真人版奇迹暖暖。
涉及要与发型脸型体型腿型各种型搭配的,还可以上传自己的全身照片、设定自己的身高体重来代替AI模特,不出门不花钱就能在线试穿上千万种。可以点击对比按钮,与自己拍照时的状态反复对比,也是很实用的玩法。
除了上面展开介绍的这些,淘宝天猫还准备了「我的萌宠」,通过AIGC技术为你的宠物制作数字分身;「极有家」,上传房间照片,在线设计装修方案等更多玩法。
都是在搜索栏搜索直达,篇幅有限,就留给感兴趣的读者自己去体验了。
商家也有了专门的「淘宝商家智能经营工具」。
从上传第一个商品照片开始,店铺起名、生成Logo、仅靠张图片自动识别商品属性、上架、到店铺装修,一气呵成,节省大量人工操作。此外还有商品素材任意扩展尺寸功能,适应各种展示场合,大幅降低素材加工成本,避免人力返工。
最终从复盘数据来看,今年双十一是新品牌、新商家、中小商家参与最多的一届。
按往常来说,对于平台功能不熟悉、操作不熟练会带来不少麻烦,但今年在新技术的加入下,彻底把经营店铺的门槛降低了。淘宝商家智能经营工具线不足半月,就为女装服饰商家提供了10w+次AI发品服务,发品时长较传统发品降低25%。
基于大语言模型技术研发的中心化电商经营Copilot,开启内测后也为数万商家提供了经营知识问答、经营工具调用、文案生成等多种经营辅助能力,目前已经为商家经营提效超50万次。
算起来,ChatGPT发布接近一周年,AIGC文生图的兴起还要更早一些。这期间每一次技术突破,都掀起一波创业或改造已有业务的浪潮。直到今年双十一期间,AI在电商领域终于实现大规模应用,意义非比寻常:
不仅用于企业内部流程,还要面向终端用户。而且是一次面对买家和卖家两种特点、需求都截然不同的终端用户。这其中涉及大模型和AIGC文生图两大技术路线的融合创新,可以观察到AI如何跨越从技术到应用的鸿沟,也能为更多行业带来启示。
先说更早兴起的AIGC文生图。2022年8月Stable Diffusion开源、算力需求小,开启了AIGC商业化的序幕。
但Stable Diffusion的弱点也很快在实践中暴露出来:
首先是生成的图像不可控问题,特别是淘宝天猫所在的电商领域,对商品主体的呈现准确性要求极高;其次是使用复杂,复杂的提示词技巧就不好掌握,众多需要调节的参数更是增加了学习成本。
转机很快出现。
1月份,ControlNet横空出世,巧妙的通过添加辅助条件引导生成,一定程度上解决可控性问题,被誉为“改变游戏规则”。
这时,高手已经可以用Stable Diffusion+ControlNet的组合来指定生成图像的细节了,如人物姿态、整体布局等,相当于提升了AIGC文生图的上限。
但对于淘宝天猫要服务的众多普通用户而言,这些引导方式的理解和使用成本依然很高。
2023年8月,一项新技术IP-Adapter出现,再次把稳定按需生成图像的门槛降低。IP-Adapter相当于开辟了“用图像当提示词”的新方法,也可以当成ControlNet中的一个引导条件。
这样一来,电商卖家在文生图流程中利用好现成的商品照片即可,无需再学习掌握提示词技巧或其他专业制图知识,相当于进一步降低了AIGC的下限。
解决了基本的实用性问题,更深层次的需求又凸显出来。
Stable Diffusion属于预训练模型,对世界的理解主要来自训练阶段的数据。而电商领域又是快速变化的,每天都会上新大量商品,需要AI能不断更新、持续学习。这时,来自大语言模型的快速微调技术LoRA就派上用场,借鉴到AIGC文生图领域被当做“知识/概念注入”的方法。
具体来说,LoRA在微调时会冻结模型的大部分权重,仅更新一小部分。同时更新后的权重还可单独分离出来,每个只有几十到上百MB大小。
在淘宝天猫的实践中,LoRA相当于为商品和模特构建了数字分身,为商家沉淀数字资产,可以进一步生成更加丰富多样的商品或模特图。
把LoRA加入流程后,又出现生成可控比较差的问题。如何让LoRA生成的模特在像与美之间取得平衡,如何让基于LoRA生成的商品精准还原商品细节,都是需要进一步解决的应用挑战。
此外淘宝天猫还在探索不用训练即可将商品概念用于图像生成的全新知识注入技术,直接在推理阶段提供商品图片即可,极大降低知识注入技术的应用成本,提升实时性。
AIGC要大规模应用,光是围绕图像生成模型Stable Diffusion本身的增强改造就有这么多。但实际工作流程中,为了大幅降低生图操作的复杂度,还有大量工作需要完成。比如针对电商领域对商品主体必须准确呈现的需求,又加入了SAM分割万物分模型,先把商品主体分离,再与AI生成的环境背景部分适配融合。
这样一来确保了商品主体的准确呈现,避免出现“货不对版”,又能使商品主体与背景无缝融合, 让光影看起来没有破绽,有放置物感。接下来还要结合局部细节修复、超分辨率、增加滤镜等多个环节提高图像质量,达到商用级别水准。
AIGC应用如此,大模型在电商领域走向大规模应用的历程同样困难重重。特别是淘宝天猫要做的不是纯粹的专业模型,而是一个有很强专业领域能力的通用模型,以解析淘宝用户长尾的自然语言问题,理解更加精准的用户意图。
要实现这一点,在通用模型的基础上首先要增加电商专业知识,在多年积累的电商行业数据中训练。
但此时通用大模型还在根据输入续写文本,比如当用户提出一个问题,模型很有可能按格式补充多个类似问题,而不是回答这个问题。
行业中解决这个问题的方法AI与人类偏好对齐。
SFT(指令微调)让大模型学会如何完成用户的指令,RLHF(人类反馈强化学习)让大模型学会什么样的回答满足人类偏好。在淘宝天猫的实践中,产品上线后还能不断迭代用户的反馈偏好。
接下来要解决的是大模型回答中的,业内称为“幻觉问题”。对此,淘宝天猫技术团队从模型内外两方面,双管齐下去解决。
模型内,也就是在模型训练阶段就引入大量电商行业数据;模型外,通过RAG(检索增强生成)技术,针对不同的问题,调用不同的知识库,获取实时更新的商品信息。
更进一步的,针对需要实时调用外部工具的问题,淘宝天猫技术团队利用Tool learning技术,优化大模型理解工具、选择工具和调用工具的能力,并提供可解释的工具调用路径,使回答内容更准确,回答形式更加丰富。
比如「淘宝问问」里用户的一次普通查询,不仅调用了大模型生成能力,还调用了淘宝商品推荐能力和内容社区的视频推荐能力。更复杂的场景如旅行策划,还会调用合作伙伴飞猪的机酒预订能力。
最终,以「淘宝问问」为代表的一系列大模型产品,在大模型基础上有意图识别、任务规划、记忆和使用外部工具能力,正朝着Agent(智能体)的方向发展,也就是大模型行业必争的下一个阶段。
近期文章
更多