信息化 频道

DTCC2017:链家网宋鑫谈机器学习技术

  【IT168 专稿】DTCC2017数据库技术大会即将拉开帷幕,笔者也在会前“捕捉”到了为数不多的接受会前采访的演讲嘉宾其中之一。在进入采访之前,笔者先带来一段有趣的对话…

DTCC2017:链家网宋鑫谈机器学习技术

  这是一段关于机器学习技术的小段子。机器学习是新的编程方式,不需人们总结经验、输入逻辑,只需把大量数据输入计算机,由计算机总结经验归纳逻辑,这过程叫做训练。训练后得到一个模型,可以用来代替人去做判断,训练较好的模型甚至可以达到超过人类的判定准确度。看到这里,大家可能心中有数,接受笔者采访的正是目前从事数据挖局、机器学习等工作的链家网数据挖掘资深研发工程师——宋鑫。

DTCC2017:链家网宋鑫谈机器学习技术

  宋鑫毕业于中科院软件所,目前在链家网从事数据挖掘相关技术工作。公司一系列的数据挖掘、机器学习等相关工作均由宋鑫所在的这个部门团队负责。该团队主要负责的项目还有房屋估价、房屋推荐、搜索优化、反作弊等。

  链家网大数据集群目前拥有超过1PB的房产数据,涵盖大量房屋基础数据及用户浏览行为数据。宋鑫告诉笔者,楼盘字典和房屋交易数据是最核心的两部分。楼盘字典是链家网历时10年建立的全国楼盘数据库,收录30多个城市7000多万套房屋数据,绘制标准户型图68万张,每套房屋信息采集达300多个纬度,存储容量达到了1000T。房屋交易数据方面,链家收录了全国120万套房屋真实成交数据,950万套历史挂牌房源数据。

  宋鑫的团队主要从事数据挖掘相关工作,所以他更关注机器学习相关的热点技术领域。他告诉笔者:深度学习像是已经成了机器学习的代名词。深度学习确实在图片识别、语音识别和自然语言处理等领域大放异彩,但这些领域提供的特征都是raw feature。在深度学习之前,在这些领域一直都是采用特征工程的方法,从raw feature中抽取更高level的feature,深度学习证明在这些领域我们人构造的抽象特征在效力上比不上机器自动构建的特征。

  但是,在其它更广泛的领域(如链家的房屋估价),人类在这些领域已经有了非常深入的认识,总结出了很多有用的规律,发现了很多有效的指标。换句话说,在这些领域,我们能够抽取出十分有效的抽象特征,短时间内,深度学习在这些领域并不会超越传统的机器学习算法。

  今年,面对很多人说互联网已经进入到下半场,要依靠大数据、数据分析等等,宋鑫也表示出了很深的感触,他说“我十分赞同这说法,互联网前半场靠用户红利,后半场靠大数据。”事实上,互联网前半场注重的是开发和推广速度,拼的是“快”,后半场注重的是用户体验和运营成本,拼的是“极致和精细”。

  如何提升用户体验,提高运营ROI,做到极致精细?宋森说“核心就是依靠大数据,数据驱动产品。”能够安然走完后半场的一定是那些数据驱动型公司。他还告诉笔者:数据工程师信奉的原则是“If you can’t measure it, you can’t improve it。”通过对产品和策略设置科学的指标体系来衡量效果,将用户体验、产品收益量化,由数据出发,对各层转化路径进行分析,发现不足,来驱动下一次产品和策略升级,升级效果再通过新一轮数据得到体现。这样形成一个不断往复的闭环:数据采集——数据分析——产品优化——数据采集——数据分析——产品优化...通过数据驱动,不断循环迭代,将用户体验做到极致。

  当笔者问到现在很多服务都迁移上云,许多公有云纷纷推出数据库服务。在云数据库的安全方面宋鑫是持怎样的看法时,他说:安全性是否够高要看公司对数据安全的需求。对于BAT这种级别的巨头公司或银行类数据至关重要的金融企业,即使第三方公司的安全防护措施很可靠,但恐怕他们还是很难愿意吧数据放在别人服务器上。但是对于大多数的中小企业来说,云数据库的安全性会比自建数据库高。因为,公有云提供的数据库服务,由于摊薄了研发成本,可以在安全防护上进行更深层次的开发,安全性可以做到更好。就如同越来越多的中小企业租用云主机一样,相信会有越来越多的中小公司租用云数据库,开发运维成本更低,包括安全性在内的各项技术指标更好,是没有理由不用的。

  说到大多数分析师和业务人员使用自助式BI工具准备和分析大数据,宋鑫告诉笔者,链家网大数据部一直在内部研发推广各种BI工具和平台。BI能有效帮助业务人员和管理层掌握公司现状,作为各行业信息化重要的一环,一定会持续发展。并且,很多公司已经能够实现某种程度的自助式BI报表。

  宋鑫认为BI的难点主要在于BI本质上不是技术实现,而是公司的组织结构、运营管理的信息化实现,需要管理者、业务人员和IT开发者同时参与。BI产品在需求阶段管理者和业务人员要重度参与,产品经理需要深刻理解业务,理解公司的经营管理逻辑,确立科学的指标体系;在研发阶段需要技术人员深入业务,打通各业务系统数据鸿沟;在日常运营中,需要业务人员对采集到的数据反复核验,确保数据质量。这其中任何一环掉链子都难产生好的效果。

  结语

  房屋估价是链家网为买家、卖家、经纪人三方提供议价基础的工具,目前日均调用量8W次。房屋估价为早期用户提供与平台发生交互的入口,为潜在买房者和卖房者提供价格预估,有效增大用户粘性。在本次的DTCC2017数据库技术大会现场,宋鑫将带来主题演讲链家网数据挖掘技术实践——估价系统的前世今生与开发者们共同探讨时下流行的技术热点。

0
相关文章