信息化 频道

周祥军:天猫商品搜索详情满意度模型

        【IT168 DTCC大会报道】2014年4月10-12日,第五届中国数据库技术大会在北京五洲皇冠国际酒店隆重举行。本届大会的主题为“大数据技术探索与价值发现”,参会规模达到1,800人。大会邀请近百位优异技术专家和行业领袖分享数据库与大数据技术的最新动态,及其在行业领域里的应用部署和管理经验。

  自2010年以来,国内领先的IT专业网站IT168联合旗下ITPUB、ChinaUnix两大技术社区,已经成功举办了四届中国数据库技术大会,每届大会与会规模超过千人,是目前国内最受欢迎、人气最高的的数据库技术交流盛会。今年是中国数据库技术大会五周年,大会将继续秉承分享IT非常好的应用实践的宗旨,结合传统与创新,为与会者传递数据库、大数据相关的技术和实践。

周祥军:天猫商品搜索详情满意度模型
▲天猫搜索技术专家周祥军

  在大会第三天下午的“大数据应用及商业模式”的专场上,来自天猫搜索技术专家周祥军先生为我们分享天猫商品详情页满意度模型,通过用户在商品详情页上的大量行为分析,建立一套转化率预估的模型,预估每个商品的成交转化率。

周祥军:天猫商品搜索详情满意度模型
▲天猫商品详情页满意度模型建立顺序

  NO.1 问题理解

  每天都很多人在天猫上进行搜索,但对结果进行点击、生成详情页的百分比越来越少,最终提交订单的仅占3%,那么对于那97%没有成交的IPV是不是就是不好的商品呢?周祥军表示,我们的目标是提升转化率:更好的商品排序靠前,基于用户每次在商品详情页面的各种行为量化用户对当前一次浏览的满意程度,为此研究并修改了详情页的框架。

周祥军:天猫商品搜索详情满意度模型
▲详情页框架

  NO.2:数据准备

  目前,天猫拥有4亿的用户,每天在线达到千万级别,每天成交量达到千万,商品达到了8千万多个,品牌也达到了10万多,卖家10万多家,需要把历史数据和新数据进行收集,历史数据包括了用户信息、商家信息、商品信息,新数据包括了获取的根据经验定义新类型数据,前端和系统配合,积累的模型需要一定的数据积累(7/30/90/180天)。

  NO.3特征选择

  我们需要将所有的用户特征、店铺特征、产品特征、详情页特征、流量特征进行汇总,然后根据用户行为分析、停留时间、详情页屏数等进行研究分析。  

周祥军:天猫商品搜索详情满意度模型
▲特征研究分析

  NO.4:数学建模 逻辑回归

周祥军:天猫商品搜索详情满意度模型
▲数学建模

  NO.5 算法调优模型评估

  周祥军表示,模型建立完成之后并非万事大吉,还需要根据AUC值,真实转化率vs满意度、人气VS满意度、ABTest效果进行调优,之后用于搜索排序、推荐选品、信息披露、详情页优化。

  在最后周祥军还给大家了一些比较好的建议,数据(50%)、特征(20%)、应用(20%)、优化模型(10%),要什么数据,做什么,要先想清楚,数据正确性校验,基础数据尽量保持原始数据,各种变形,组合,离散化等尽量放到最后,样本抽样:因为正负样本差异比较大,丢掉部分负样本也许对模型有利,人工调权:模型训练出来后的feature weight, 可以根据业务和经验需要人工设置权重。每一年数据库技术大会都是不一样的内容,同样的精彩,欢迎更多的数据库达人来到大会现场与技术牛人面对面交流。

周祥军:天猫商品搜索详情满意度模型
更多精彩技术分享,请点击IT168图文直播专题   

4
相关文章