大牛网IT工厂
驱动牛犊
驱动牛犊
  • 注册日期2015-12-11
  • 最后登录2015-12-18
  • 粉丝0
  • 关注0
  • 积分-1分
  • 威望61点
  • 贡献值0点
  • 好评度0点
  • 原创分0分
  • 专家分0分
阅读:1489回复:0

海量数据之data海拾贝

楼主#
更多 发布于:2015-12-17 15:23

           海量数据之data海拾贝
                 ---浅谈用户行为的跟踪和偏好挖掘
在市场环境竞争中,如何才能让服务提供商与服务使用者之间的相互交互得到更进一步的提升,对于服务提供商来说有着非凡的意义。服务提供商正在面临着这样一个问题,如何根据服务使用者来对每一个用户提供针对性的商品或服务。这当中最能解决这个问题的就是个性化服务。个性化服务通过收集和分析用户服务信息进行用户偏好的学习;通过提供推送高质量的服务培养忠实用户以及吸引更多的新用户。
百度高级技术总监王梦秋曾说过这样的一句话:“用户数据对于想研究互联网的人来说,简直是梦寐以求的宝库”,由此可见用户的行为分析的重要性。大牛网针对企业比较关心的用户行为的跟踪和偏好挖掘的现状,针对现有国内外文献和资料进行了一些整理,来简单谈谈用户行为的跟踪和偏好挖掘,希望能帮助企业更加有效的挖掘潜在的用户,提高现有用户的更好的体验,从而提高产品的市场竞争力。
面对大量的数据,那哪些是有用的呢?到底从何处下手呢?这里给个具体例子,比如从不同用户的角度来分析:
1. 一般用户行为分析  通过统计分析,为运营者提供所需数据由以下几种:
A. 流入路径数据:客户的流入路径及移动路径  
B. 访问关键字数据:通过搜索网站的访客,不同关键字类别的分布情况
C. 滞留时间数据:访客在每页中滞留的时间  
D. 访问次数数据:访客的访问次数及不同客户的访问次数
E. 客户系统数据:客户的使用系统信息  
F. 访客最常移动的路径:访客在访问某网站时,依次浏览的网页顺序组成了一条移动路径。例如,有一位访客在某一购物网站访问时,其移动路径很可能是:首页-> 用户登录页-> 商品查询页面-> 商品信息页面-> 订购页面„„
G. 入口页和出口页: 入口页(Entry Page):无论通过哪种渠道来到您的网站,访客进入您网站浏览的第一页就被称为“入口页”,入口页不一定就是一个网站的首页。 出口页(Exit Page):无论访客在您的网站浏览了哪些页面,他/她最后浏览的一个页面就被称为“出口页”。如果访客进入您的网站仅浏览了一个页面,则该页面既是入口页,也是出口页。  
2. 广告用户行为追踪  
会员/非会员按照广告位指引点击进入网站的依次路劲,从中分析出网站广告投放的吸引程度及会员相关心的网站内容。从数据分析中得出有多少会员通过广告所带来最终消费。  
3. 付费用户行为分析  
付费用户为网站注册用户,并通过付费享有一定优惠权限。根据付费用户点击进入网页的路径,分析出其浏览页面的关注程度,之后继续优化页面,提升最终消费率的提升。  
用户行为的分析不仅包括用户日均浏览页面数等方面,而是对网站用户行为数据进行全面统计、分析并得出用户需求特征的分析,比如用户数的增长分析,用户黏度的分析,用户属性的分析,用户对内容喜好程度的分析等用户数据的全面剖析。  
网站的访客包括两类,一个是网站的注册用户,一个是非网站注册用户。对网站用户来说,有年龄、地区、性别等基本属性,还有收入、教育程度、职业等社会属性。这是用户注册时所提交的数据,这些数据对于分析用户的行为有重要作用,也是做数据库的基础。比如不同年龄段的用户,对服务的偏好是否有不同,不同性别的用户在选择上是否会有不同。所有这些数据的分析,都是服务于网站的目的。这对于网站产品的定位、网站推广有重要的参考意义。并且,这些用户的属性,可用于网站广告的定向发布,把用户感兴趣的广告推给客户,比如正在装修的用户,可能推送他们一些装修建材一类的优惠信息,这些广告信息,对于用户来说是有价值的。  除了用户属性,对用户行为的分析也非常关键。用户上网的行为有很多,比如登陆人数、登陆频率、页面浏览数、平均在线时长等。
针对时下比较火的电子商务,《基于用户浏览行为的偏好兴趣挖掘推荐研究》一文作者李微娜给出了用户界面反馈值Q的具体计算方法:
在隐性反馈中,假定用户对商品的偏好程度可以用以下几点来理解:
1(1)用户放入购物篮内的商品比只点击浏览过的商品,用户更感兴趣。
2(2)对于点击浏览过的商品,累积总的浏览时间越长,用户的偏好程度越强。
此外,为了尽可能多得到详细的客户当前偏好,对偏好判断的最大数设置
的约束集可以首先通过最近产生的反馈,然后再下一个,依此类推,除非它变成
不可行。将同类商品分类定义成一个集合A={,……,},并且该商品集
合中的每种商品具有相同的商品属性集C={,……,}
3步:计算每个商品喜好度。
(1)若用户将商品已放人购物篮,则Y()=1;否则Y()=0
(2)用户近期浏览的每个商品页面的总时间进行叠加,为t( )=
4步:将第r价商品放人GK中,并比较偏好顺序,产生商品集合表示。
(1)n=1
(2)产生商品集合 ={l Y()=1 }
(3)=-
(4)产生商品集合={ l maxt(a)}
(5)=- 非空,若n=n+l,返回(3);否则的话,下一步。
5步:产生有序对的集合Ω K={()I∈,∈。,r=1
2,… n-1},其中()表示的是商品两商品之问的弱偏好关系。
6步:得到一个约束集,表示从用户那里得到的最近的第K次页面反馈。此约束集表示的是两商品间的对比偏好关系,以形式给出,其中从这种偏好顺序关系中,可以得到nk约束集合,
   
.
7步:产生一个临时约束集,其中
   
[img]file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml\wps1E5E.tmp.png[/img]    
8步:若[img]file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml\wps1E5F.tmp.png[/img]是可行的且仍存在[img]file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml\wps1E60.tmp.png[/img],[img]file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml\wps1E61.tmp.png[/img],返回第2步;否则下一步。
9步:输出QQ为可行的不等式约束集
上面的方法在web挖掘的基础上,对用户的浏览行为进行了分析,获取偏好信息,利用Web用户反馈的不完全偏好信息,结合分析用户的个性化不完全偏好信息,旨在根据用户的访问路径向用户推荐个性化的web资源。通过利用用户的浏览足迹,实时地匹配用户的当前访问序列,对不同的用户有针对性的提供不同的推荐资源。
当然面对海量的数据,单靠某一方法去挖掘,去推荐的话,目前技术还不是很成熟,不过相比5年前,已经准确很多了。相信在不久的将来,各服务提供商面对一千个客户,给出一千个个人服务。
   [img]file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml\wps1E71.tmp.png[/img]

【1】 基于用户行为反馈的服务偏好挖掘方法研究 《武汉理工大学 2012



作者张慧


【2】 基于用户浏览行为的偏好兴趣挖掘推荐研究 《中国科技博览》李微娜
【3】 数据挖掘原理与技术 张云涛等
【4】 Web日志挖掘数据预处理优化 周爱武,肖云
游客

返回顶部