Articles Archive for 十二月 2008
基础知识, 疑问求解 »
在上一篇文章中,我列举了一些我认为有极度人工流量可能性的案例,现在接着跟朋友们分享。案例本身没有分类,而是想到了就写,因此如果你从一个案例迅速切换到另一个案例觉得有些突兀,我只能请您原谅。作为补救,请在留言区提出你任何觉得不太明了的地方,我愿一一解答。
由于我们的广告主越来越多的和国内知名的互联网平台合作建立一个小网站(被行内称为minisite或者microsite)推广自己的产品或服务,因此这些minisite实际上就成为了知名互联网平台为广告主提供广告服务的一种形式。随着这种形式越来越频繁的使用,广告主越来越希望在minisite上获得更多的流量(更多的流量意味着更多的广告受众),并且开始以流量的多寡来衡量与这些知名网站合作情况的好坏。这就使minisite成为人工流量的重灾区。除了在上篇中列举的一些minisite的怪异流量现象,我们在下篇中继续讨论这个领域的问题。
[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]
可疑的流量来源之一:奇怪的质量分布
我们一般用Time on Site和PV / V来综合评定流量的质量(quality),当然也会看bounce rate和action rate之类的比例。在研究具体流量的质量前,我想请您先同意我的一个基本观点,那就是:如果不是非常特殊的网站(或网页),流量的Time on Site(或Time on Page)与PV / V应该是成正比的关系。当然,这个基本观点是基于逻辑的——以人的访问行为来看,访问两页page肯定比访问一页要花的时间长。因此,当我发现大量的流量忽然出现了时间越长,PV / V越小;或是PV / V越大,而时间越短的情况的时候,我就彻底的奇怪了。上个图先:
图1:至少,这个流量的质量分布是可疑的
图中所示的是某个网站的流量来源的质量分布,圆饼(Bubble)的大小代表着Visit的多少,黄色的线代表这个站点平均的Time on Site和平均的PV / V。从图中我们可以看到,左下角的流量质量不高,而右上角的流量质量很高(有更长的时间和页面访问数)。令我比较惊奇的是右下角的三个流量源,它们挤在一起,坐拥30%以上的总体流量,且具有相同的访问行为特征——访问的页面数很多(6、7页之多!),却只有很短的页面停留时间(最高也不过40秒钟),令人啧啧称奇。再看看传统的高质量流量源——(direct)/(none),大概也不过1、2页的访问。
当然,流量质量超过(direct)并不奇怪,但是PV/V超出它3、4倍,但访问时间却又短出30%且连平均值都超不过,这不能不让人倍感疑惑。如果是您,您会如何判断这种异常?如果再加上看看这几个流量源的bounce rate能低到百分之二三十,我想可能您也该有信心地下个结论了。
Avinash说,“没有细分就没有分析”,在这个细分流量源后发现问题的案例上甚为恰切。
[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]
可疑的流量来源之二:查查地理分布
可疑的流量来源有可能不通过研究质量分布就被你轻易的查出,这种情况出现在流量的地理分布过于集中的情况中。
例如,我的同事Edward告诉我,在他曾经做过的一个案子中,他所负责的minisite被host在某个知名下载网站(或是驱动网站?有些不太记得了)上。在事后的分析中发现,全部流量的90%以上来源于河南省的某个城市。这很可疑,因为我们的minisite从来没有专门聚焦于某个地域,从来都是全国范围的——因此我们当然不希望流量都来源于某一个省!
我相信这个知名网站做了一些超出我的同事预计的事情,而且做的并不高明,这实在是太太太明显了。这种情况我自己倒是从来都没有遇到过。你有遇到吗?
图2:这不是真正的GA的截图,不过如果您看到类似的图,应该看看自己的网站是不是被做了什么
可疑的流量来源之三:主要流量来自未定义源头
在这个领域发现可疑流量的前提是,你的网站的流量源头都应该事先做好标记。Google Analytics(GA)和Omniture都提供了一套详细的在入口目标URL后附加参数的流量源头标记解决方案,其中GA利用的是UTM Tag,Omniture用的是CID Tag,二者所用的标记参数完全不同,原理却是毫无二致的。
现在,我们假设某个广告主的minisite的所有流量源头都被做了标记(当然,除了不能做标记的直接访问的流量来源以外),那么我们应该期望大部分的流量都来源于我们做了标记的入口。事实上我的期望大部分没有落空,在大多数我遇到的case中,没有意外的,绝大部分流量都来自于我们做了标记的入口,毕竟直接访问minisite的流量很难超过整体流量的5%,而通过搜素引擎等等其他一些渠道来的流量则微小的几乎可以忽略不计。
[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]
正因如此,如果出现了一些我们没有标记的却又流量惊人的unidentified(未被鉴定的)的流量时,我就会格外警惕。下面的图显示的就是这样的一个特异案例:
图3:pceggs.com/referral其实就是一种变相的click fraud
如果您做过GA的UTM入口标记,那么您一定清楚,所有做过标记的流量源,都不会显示“referral”,而会显示你标记后的名称,比如上图中的“button”、“textlin”等。所以图中第一个流量源,同时也是最大的流量源pceggs.com/referral肯定不是我们预期的流量来源。再看看这个流量源的质量:PV/V只有1.05,Time on Site只有9秒,bounce rate高达95.21%,简直太糟糕了,如果你的个人网站的流量质量也是如此表现,那我建议还不如直接关掉网站另起炉灶。
然后,很自然的,你会问Sidney,这个pceggs.com/referral到底是什么?把www.pceggs.com直接输入浏览器,一切真相大白——你会马上明白为什么它带来的流量会比其他入口的流量大,也会明白为什么流量质量这么糟糕。这不是一种新的商业模式,只不过是买流量的一种方法罢了。如果你是广告主,你认为这些买来的流量有意义吗?从我的角度看,随着广告越来越能衡量后端效果,这种商业模式一定会淡出市场——虽然可能会需要很长的时间,尤其在中国。
流量质量突变
在我的工作中,常常会遇到比基因突变还可怕的流量质量突变,这种变化有时候真是惊天地泣鬼神,让你忽然明白,原来网站分析玩儿的也是心跳。看看下面的图吧!
图4:不是过山车,是bounce rate的玩笑
我相信大多数朋友们没有遇到上面的情况,不过这是我真实遇到的,我相信在中国的互联网领域impossible is nothing。图中黄色的线条是visit,蓝色的线条是bounce rate。看看蓝色线条的变化趋势有多么牛X吧,仿佛不这样就不能让我们这些网站分析师们知道它的存在似的。这种图让我恶心,也让我明白一个道理——在WA世界中也许知道太多并不是好事。
[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]
写到这里,我准备停笔了,但我的故事似乎不会停止。就在上个星期,我的团队又在处理一个棘手的富媒体广告(Richmedia广告)的监测——出了些状况,因为一般的富媒体广告内部有程序,有互动的action,而我们的这个富媒体广告则更加复杂,已经类似于一个flash的小网站。正是这种复杂性,我们对这个广告内的所有action都做了严格的定义,以期监测所有的广告内的互动情况。最终,我们的监测成功了,但我们的数据一塌糊涂,数据结果绝对不合逻辑。在我们确认没有任何监测方面的问题后,所有问题发生的原因都指向了广告所在的网站平台。最后,我们终于明白了,richmedia本身的复杂性,让网站平台们难以捉摸,因此给我们的数据当然乱七八糟了。等我们培训了每一个网站这个广告的内部结构和关联关系后,数据重回完美,世界清净不少。我能说什么?我在无语的同时,奉献给大家一个最苦最苦的微笑。:)
最后,如果我的读者您是广告主,我将挖心窝子的对您说一声:“忘记流量吧,因为很多时候流量的多少和广告效果的好坏成反比。数字只是游戏,您永远需要关心数字背后的真正质量。”
基础知识, 疑问求解 »
在写这个题目之前,先跟大分享一个幻灯片,跟主题无关,是我发现的一个比较详细的介绍Google Analytics的PPT,大家可以随便翻阅看看。另外有些朋友问我为什么上次WAW没有去,没有别的原因,只是因为父亲来北京探望我,和WAW的活动冲突了,所以还是先尽孝心,请朋友们原谅,下次聚会我当然不会错过也不愿错过。不过WAW的主办人是Florian,所以即使我不在,活动一样能保证哦!
这个文章的题目有些消极,但却是我最想跟各位朋友探讨的。这个题目背后的东西无时无刻不再困扰我,尤其是在我现在的工作中,现在我不再只看网站,我看整个网络营销,因此我就根本无法回避这一事情给我带来的深刻影响。我想跟大家做些探讨。
[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]
那些虚无的网事,是我的无奈。中国网络营销灰色的现实,创造了一个复杂的、完善的、利润丰厚且底蕴深厚的人工流量产业链,而这个产业链对于我所服务的客户,我所从事的产业都有着非常消极的影响。这是一个“劣币驱逐良币”法则的世界,潜规则将真正具有说服力的东西逐出眼界之外,“乱花渐欲迷人眼”的结果是“假作真时真亦假,无为有处有还无”,到了你不做点儿什么就无法生存的地步,着实可悲。我今天想跟大家分享的,正是想透过那些怪异的事实,跟大家一起集思广益发现真像。
下面我将列举我所见到的种种怪现象,以及我认为背后可能的原因。不过,我的眼界有限,对这个灰色世界的了解还只是一星半点,如果我的朋友您在看完某些怪现象后告诉我你觉得的真正原因,将是我最想获得的知识,不胜感谢!
流量爆炸
流量包括网站流量和广告的流量。我们用UV,visit和PV来衡量网站的流量,用impression和click来衡量广告的流量。无论哪种衡量,总之是多多益善,“量多不压身”,总能骗骗洋大傻Alexa嘛,总能忽悠忽悠广告主嘛。所以,当我忽然发现我的一个广告在一个多小时的时间内突然发生了流量爆炸,我竟然没有惊诧。
图1:上图是一个小时前的流量,下图是一个多小时后的表现,我模糊了一些敏感信息(后同)
从图中可以看到,仅仅一个多小时(请注意上下两个表表头的时间),这个媒体总的广告流量,尤其是impression,被放大了n倍。由于一个小时前,impression数字离奇(或者更准确的是click数字离奇,因为太大了),一开始CTR高的让人难以置信。随着我们对相关站点的警告,impression的毛病一个小时内就解决了。真是叹为观止。
[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]
光看数据,这简直是不可能发生的事情。我从来不关注impression会变得多么巨大,因为影响这个度量的因素太多了,要知道QQ客户端在一天可以给你的广告贡献1、2亿个impressions!随便一个热门游戏的BBS给你带来几百万一天的impression也见多不怪了。但是,你却绝对不能无视click这个值的大小和变化,比如下面这个图,这是一个连续投放在某个网站上的广告的时分点击量:
图2:流量爆炸指短时间的流量激增,一如超新星爆发(注意14点和18点的click)
如果不是统计工具出了问题或是服务器成了有自我意识的Wall·E,这样的流量趋势是不大可能发生的。14:00和18:00的booming是个不能用常规思维解释的事实。我只想说,如果真的要用人工的手段来做点儿什么的话,拜托,给点专业精神好不好!讲到这里我有一个问题,AdSense(AdWords)是否会屏蔽掉这样的不正常流量?
Unique是个好东西
有一天,当Tenly在研究某个投放在某个媒体上的转换率(Conversion Rate,指click为目标网站带来的visit的数量的比例,conversion rate等于20%,意味着100个click为网站带来了23个visit,其他的click都在页面真正被打开前就关闭了浏览器)的时候,发现转换率低于5%。一般而言,conversion rate在30%~80%的范围都应该是合理的,毕竟不同的广告形式带来的误点击量是不同的。但5%则不可接受,这说明要么是click,要么是visit的数据出了问题。
Tenly先从click入手,然后立即就发现了问题。他的方法很简单,直接查看Unique Click。Unqie Click和Unique Visitor是很类似的度量,假如一段时间内(这个时间根据不同的监测软件会略有不同,但监测原理都是完全一样的)你用同一个电脑上的同一个浏览器反复点击同一个广告,那么click数值会不断增加,但unique click则不会。click / unique click的数值越大,说明一个广告被反复点击的次数就越多。
[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]
大多数人不会在一个广告上点多次,只有少部分人过于无聊才会这么干,不过不会造成什么整体影响。但是当我们看到这个网站的click / unique click的时候,我们大吃一惊,比例竟然高达11倍多。这就意味着,平均每个在这个网站点击了相关广告的人,会连续点击10次以上!而其他的网站则都很正常。如果是你,你会得出什么样的结论?
图3:无法相信高达11倍的click/unique click值
如果用click来计算CTR(点击率),CTR=2.11%,非常高。而用unique click来计算CTR,则是0.19%,回归到一个正常的值。所以我认为unique click才大致是“真人”的点击量。
Unique真的是个好东西。但是现在也不好用了,原因就是,现在的“网站优化”技术,早已经越过了这一步,这样的低级错误已经很难看到了。所以当我这几天看到这个案例的时候,我才会觉得如此有趣。
千万别轻信CTR能大于1%!
很多朋友问我CTR大概多少比较正常。我没有答案。可以说我遇到的大部分CTR都出奇的好,往往超过0.5%,甚至高于1%。可是,如果我冒天下之大不韪说出我认为的真像或许您会不信:中国绝大多数普通的网络广告(SEM除外)的真实CTR能有万分之五(0.05%)就不错了,而那些内容庞杂的门户网站的CTR则可能更低。但我们看到最终统计软件的数值却永远远高于这个数。所以当你问我什么是正常值,我真的没有答案,答案的准确性依赖于你想知道真像的诚意。
不管怎样,过于大的CTR还是值得警惕的,尤其是在impression普遍爆炸的今天,这意味着click值得相应的被放得更大。如果CTR>1%,则表明每100个看到你的广告的人会至少有一个点击你的广告,这个比例太高了,不信你可以立即在你的办公室内展开现场的survey(调查)研究。
[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]
有些形式夸张的广告,比如忽然全屏弹出而且加上了一个假的“X”(关闭)标记的广告,或者是nude(赤裸美女)之类的欺骗广告会赢得极高的点击率,甚至CTR能超过50%,但这样的“靐广告”我相信你不会使用,这等同于click fraud(点击欺诈)。如果你的广告是正常的Leaderboard,PIP, Skyscraper或是Textlink,而且内容也正常(文字和图片不是过于“挑衅”或“挑性”),请你相信大致真实的CTR范围:
第一屏leaderboard: 0%~0.1%
PIP和skyscraper: 0%~0.05%
Textlinik: 0%~0.02%
如果是SEM,可能会高于0.5%,毕竟SEM是比较细分的广告投放形式,但高于1%我就有些担心了
是不是真的比你想象的小?
当然,上面的数值可能非常武断,毕竟广告投放的点击情况和网站与广告的匹配度有关。但是,相信我,不管内容多么匹配,1%以上的点击率一定值得展开深入的调查。
孤立无援的Action Rate
看到这个小标题,你可能会有点儿奇怪。Bounce Rate我们常见了,而Action Rate是什么呢?Action Rate不是一个标准度量,但在我的工作中,我已经把它标准化了,用于衡量网页上真正有意义的点击行为。我对action rate的定义是:Action Rate = subpage visit / landing page visit,可以简单的理解为:从登陆页进入下一级页面的访问量占所有登陆页访问量的比。在这个定义下,action rate越高,意味着有越多的访问在进入landing page之后会点击其上的链接进入更多的其他页面,也就意味着landing page越有效。
你会说为什么需要action rate这样一个度量?衡量landing page的有效性用bounce rate不就行了?而且很明显,根据Sidney你的这个定义,如果action rate高,那么bounce rate应该肯定会比较低。
没错,这就是我一开始的想法。直到有一天我发现了一个其后我不断发现的“怪事情”。这个“怪事情”的发现是从一个过低的bounce rate开始的。一般情况下,商业性的网站(比如宣传产品,促销之类)的bounce rate会比较高,能够低于70%其实很不常见,因此当我发现一个大概只有40%的bounce rate的类似网站的时候,我非常惊诧。紧接着,我看到这个网站PV / V 有超过2的趋势,而time on site 则是不可思议的205秒——绝对是相当耀眼的成绩。
[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]
起初我认为这个网站确实拥有与众不同的好的设计和访问者质量,但是当我在Google Analytics中查看Top Content中首页的Navigation Summary报告的时候,我开始发现我最初的判断完全错了。
图4:能看出来吗?首页存在大量的重复刷新,而真正的内容无人问津
能在这张图中看出点儿什么来吗?红色粗线框内的两个页面是完全一样的名称,实际上就是首页(/sales/…/?ad=1509)本身。我们只需要看图的右半部分,它告诉我们的是:在访问首页的所有流量中,有53.69%离开了网站,有另外46.31%进入后面的页面(Next Pages)。现在,问题出现了,请看仔细:46.31%的下个页面的访问量中,45.11%是访问的首页本身,只有剩下1.20%的流量在访问其他内容!这表明什么?我记得以前有朋友问过我这个问题,我当时就告诉他,这表明首页存在大量的刷新!
此外,这个数据还告诉我们,这个页面的Action Rate大致只有1.20%!100个人来了,约有1个人会真正的点击页面中的链接,另外99个人则根本不会点击页面上成堆的有意思的链接了。1.20%的action rate和极低的bounce rate、很高的PV / V以及极长的Time on Site根本无法匹配,简直是孤立无援!但是,真像往往就是在发生矛盾的时候才浮出水面的!
仔细分析这个数据报告不难重现首页的流量状况:很多访问(visit)进入首页,一部分离开网站(近一半),另外一部分(另外一半)虽然留下来,但不点击别的链接,只是刷新首页。这,无法解释为普通访问者的行为。
我的第一感觉是木马流量,无数的“肉鸡”,“僵尸”隔一段时间(一般也就是几分钟)就访问一下目标网站,这简直是“黑客们”的小儿科。由于GA在定义Bounce的时候是以single PV为定义的,因此这些访问量虽然只是不断访问首页,但是却不会被记录为bounce,因此bounce rate就会很低,PV / V就会很大,访问网站的时长也变得很长!但完全都是垃圾,对网站一点儿意义都没有!
你会问,那让这些木马流量继续访问其他页面不访问首页不就行了?一方面从技术上,这些木马流量能够被控制访问某个网站页面,但是要让他们分工继续否问网站中的某些链接可就不那么容易了。另一方面,让木马流量访问其他页面会更明显的暴露。所以,最终的结果就成了图中显示出来的奇怪网站访问表现。
除了木马,机器人访问量也类似于这种表现。总之,不是真正的人的行为,在GA的细分报告中很容易露出马脚。
[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]
好了,写到这里,可能你有很多问题了,当然也有很多想跟我讨论和争辩的。我还是那句话,人工流量是个灰色的领域,我不是行家里手,我真心希望大家能跟我讨论争论。我不想影响什么产业链,我只是好奇,我想知道真像。
后面还有一些其他的内容,避免行为过长,我将这个post分成上下两集,敬请期待。
网站分析圈子/活动 »
非常非常大声的通知大家,这一次的WAW将移师三里屯。
时间:12月3日(周三)晚上8点到10点
地点:Luga’s villa http://www.dianping.com/shop/2747107, 这是一个墨西哥风味的餐厅,在三里屯,环境相当不错——比以前的侃普要安静很多。因为没有地图直接表明这个餐厅的地点,因此我标出了3.3大厦,Luga’s villa就在这个大厦的旁边,到了这里问问就能找到。
费用:50元/人
这次的活动,MillwardBrown要给我们带来题为:Dynamic Logic (暂译为动态逻辑)的演讲,演讲的内容是网站分析实际上做不到的一个空白点。这个空白点是,网站访问者的偏好和感受。
要知道,我们做网站分析,能够直接读到访问者在网站上的行为,并且据此而推测网站访问者的偏好——他们对什么感兴趣,他们感兴趣的程度如何,他们是否接受了网站上想要传到的内容。但是,不管怎么样,我们是间接推测,而不是直接了解,我们是通过行为逻辑的演算去寻求用户的偏好和态度,但是一个真正的答案我们可能永远无法获得——访问者心里想的到底是什么?
MillwardBrown是来解决这个问题的。他们不是网站分析,但却是网站分析最好的结合和互补,对于互联网营销来说,这也是必读的一课。当然,他们所从事的,也是一个传统商业模式下的互联网升华。
不多说了,到现场去就能够知道他们做什么以及怎么做的了。
欢迎任何感兴趣的朋友参加,无需报名,直接去即可。
——————————————————————-
活动由以下机构慷慨赞助:
