数据驱动的互联网营销和运营
宋星的个人博客

趣味题目——你会怎么做?(1):Sidney的观点

quiz[1]  首先,非常感谢朋友们对我的问候,有很多朋友甚至给了我很多很好的建议,我已经在开始执行。你们的关注和关怀是我生命灵魂中不息的能量,我深受感染,更加感动。我一直试图探寻生命的意义,现在我知道,感动本身就是生命的意思所在,以及创造感动的博爱、勇气、信念和给予。谈到给予,我可能会略微沉默,因为——有些东西,我没有做到,比如很多朋友的提问,我其实很多也回答不出来,但是,我会为你们尽一点点微薄之力,你们之后会看到

  好了,不耽误大家的宝贵时间,切入正题:

  大家一定还记得在上个月的时候的这个趣味题目

  题目如下: 

  你的公司的网站有5000多页,很庞杂,有很多内容是重复的,所以管理起来非常麻烦,结构也很不优化。有一天,你的老板彻底发怒了,他非常不喜欢网站目前的状态。
  你是这个公司的网站总监,你被请去了老板的办公室,他开始对你抱怨网站页面太多,太乱,而且内容重复,你也深感赞同。于是,他命令你,在一个周之内把网站的页面数减至现在数量的10%,即精简到500页。
  你觉得能实现这个目标吗?为了这个目标,你会怎么做?

  对于这个题目,有很多精彩的回复,几乎把这个题目能想到的地方都想到了,所以我再说说我的看法其实也了无新意。不过,再谈谈这个题目背后的意思其实还是有趣的。

  我强调过,这个题目其实没有标准的答案,但有明确的目的。这个题目来自于Omniture SiteCatalyst招聘咨询顾问的一个面试题目。这个题目的目的是构建一个开放的环境,以测验应聘者对目标的准确认识、对网站状态的把握以及对策略的敏感性和独到性。

  首先,题目有几个值得注意的地方:

1. 页面多达5000页以上;

2. 网站很庞杂,且内容重复,结构不优化;

3. 时间限制是一周之内。

  这些地方告诉了我们一些重要的信息。首先,最主要的题点是“页面有5000多页”,我们要做的是减法,让网站瘦身。而瘦身,不能随意瘦,人说“前凸后翘”是最好的(对不起,有点粗鲁:),但腰最好细点才性感,网站瘦身同样如此。因此,这个案例要考察的“瘦身方法”体现了你对网站页面的价值定位策略以及在页面结构策略方面的敏感性和独到性。

  最常见的策略是:

  利用网站分析报告的Top content(pages)报告,把访问最少的页面找出来,然后把它们搞定完事。这个方法,不错,不过总让人觉得有些隐隐的不对头。你怎么能肯定这些页面的访问者不是你的优质客户呢?比如说,你的VIP客户才能访问的页面,往往只有极少的访问量,可是这些客户却给你带来很多的收入,你不可以随意删除这些页面。

  如果你这样多想了一步,你就可以想到一个更加先进一点的策略——先细分访问者,再来查看页面的访问量,然后再删除页面。如果你想到这里,面试官可能会相当impressed。:)

  你也可以告诉面试官,你会在一开始就设定一些Red Zone,这里面的页面内容是你无论如何不会删去的(但可以优化)。这些页面包括:转化的末端页面(转化漏斗,越到末端越小,访问量小,但是你不能删除);VIP或者高级客户的特殊服务页面;为普通用户设置的特殊服务页面(比如航空公司的退票refund页面,用的人少,但仍然是关键页面)等等。

  你也同样可以告诉面试官,你会在一开始就设定一些Green Zone,这里面的页面无论访问量,我一上来就会删除,最典型如过期页面,例如限时促销页面,旧闻(并不是旧的新闻,而是过期的通知启事等),下架商品或者退市产品的页面等等。

  如果你说出上面的这些策略之后,会让面试官刮目相看,也能说明你对网站的情况有相当不俗的了解。紧接着,在答出上面这些之后,你将面对另外一个诱惑——“0”访问页面。

  越大的网站,越可能有一些页面是长时间无人问津的,这些页面也是最有可能被删除的,但,不要过于轻率。由于页面无人问津有几种可能,搞清楚什么原因造成的无人问津再依情况处理非常重要。一种情况是,0访问页面的入口链接有问题,访问者很难从其他页面(或者站内搜索)进入这个页面,但这个页面本身是很重要的;另一种情况是,不仅内部链接不佳,而且这个页面的SEO做的也非常糟糕,造成从外部进入这个页面也很困难。这种情况下,草率删除这个页面可能会产生问题。

  总体而言,对待0访问页面要小心,并不是直接全部删除,而是考察异常,留下小部分,删除大部分。

  如果你这么回答,你开始超出面试官的期望了。

  除了用流量来判断页面的价值,还可以用停留时间,或者exit rate等,这些方法是用来衡量engagement的常用方法,但time on page小,并不一定意味着页面不好。exit rate高的页面,也不见得是有毛病的页面——比如Call center电话显示页面的exit rate如果高于70%,我认为很正常,不能因此就删除这个页面。另外,这些细致的分析可能需要花更多的时间,一个星期的时间是否足够,需要掂量。

  删除页面还有一个快速方法,就是如Dick所说的,直接去掉无用的网友部分(如,某个频道)。当然这个方法不一定总是用得上,因为网站砍掉某个部分绝对是大举动,除非这个部分已经完全失去作用。Dick的原话是:

Q2:太乱
A2:确定网站主体同容,重理框架,或把不要的栏目直接砍掉

  现在,开始处理重复页面的问题。网站的内容庞杂,内容重复,结构不优化,这是网站需要解决的问题,是网站优化的目标,这里请大家注意“内容重复”这个问题。网站出现内容重复不奇怪,而且越是历史悠久的网站,越可能内容重复。处理重复绝对是这个题目的精华所在。

  这个问题,Vocano同学回答的太好了(比我想到的方法更好),不敢据为己有,他的答案如下:

    1.从网站中挑出Top20-Top30 PV的页面列表A;
    2.通过A列表,用Google的相似度参数related+site本站定位找出一个列表B;
    3.结合GA的同出口路径分析,从B列表中找出导出路径基本一致的页面;
—–经过上面3步,基本可以找出80%的重复页面,如果5000个页面大部分都是重复的,起码可以找出3000多个页面—–
    4.从找到的每个系列的相似页面中,每个系列取前5,然后人工审核保留的必要性(甚至可以把若干比较有争议的交给Boss做决定,增加互动),其他删除之;

  Vocano用了一个很棒的工具“related+site”,这样让找重成为可能,而且能够提高效率。

  我没有想到这么高级的答案,我自己的办法如下:

  • 首先,研究什么原因造成的页面重复?大部分页面重复都是由于很多历史原因造成的,挖掘一下这些历史原因,能够顺藤摸瓜揪出很多重复的页面;
  • 其次,这些重复的页面是否可以删除?或者可以最大限度不“伤筋动骨”的删除?因为,链接问题,删除页面之后,会造成大量的死链。
  • 最后,网站应该考虑内容复用,即模块化网站的页面,以及对页面的动态调用。

  另外,在这个题目中,谈到了要一个星期完成这个任务,时间非常紧迫。要做的事情,是摘下那些不用梯子就能够得着的果子(英语谚语:low hang fruites,即容易快速完成且快速见效的事情)。例如:快速删去过期页面和失效页面——这个不需要用网站分析就可以做到;快速分析0访问或者近0访问页面,然后删去大部分;快速分析重复的页面,删去大部分,然后快速搜寻替换链接;最后,如果老板愿意给更多的时间,那么做页面模板,并且实现种子页面(例如产品介绍页面)的动态复用。

  现在,面试官会觉得你太牛了,是不二之选。

  但还没有结束,如果我们还能继续考虑一下删除页面可能造成的其他问题。典型的问题,如SEO。Tenly以及其他朋友也提到了使用SEO的质量情况来分辨页面的重要性,这绝对是一个重要的方法。例如,Tenly的意见是:

简而言之:
1、查看SEO的结果,保留搜索引擎收录排名最好的头1000个页面。
2、查看WA的结果,挑选1000个访问者最关注的页面。
3、求个交集,然后合并内容、简化内容、逻辑化与结构化内容,精减到500页面左右。

  我认为,删去页面,如果会严重影响到SEO,实际上可能得不偿失,所以,要做好将SEO performance损失降低到最小的准备工作。网站结构不佳,本身实际上会影响到SEO,如果在删除页面的同时,保留SEO价值最高的页面,并且重新理清网站的内部链接情况,不失为一次SEO提升的机会,完全可以坏事变好事。

  你答到这里,面试官会觉得你有资格跟他一起做面试官了。

  不过,还没有结束。:)

  还有一个最有趣的问题,也是有一些朋友提出来的问题,那就是,我完全可以质疑删除90%页面这个要求本身的合理性!或者,我至少要探讨如何可以优化结构,精简网页,去除重复,而不是简单的删除90%!

  例如dodoro同学直言:

先要质疑一下老板的10%的想法何来?为何不是11%,不是9%。

  你完全可以质疑面试官关于这个问题的合理性,然后阐述你觉得合理的解决办法。这样的回答也绝对会让人刮目相看。

  总之,这个题目非常有意思,大家的意见也非常棒!因为是开放题目,没有标准答案,所以,我也不过是一家之言,若有见笑,多包涵。另外,朋友们的回答不能一一列举,请见谅。请没有参与这个题目的朋友看看其他朋友的回答,他们也给出了很多富有创意,卓有见地的思路。

  最后,衷心地感谢大家的参与!如果有新的想法,欢迎继续留言讨论!

未经允许不得转载:网站分析在中国——从基础到前沿 » 趣味题目——你会怎么做?(1):Sidney的观点
分享到: 更多 (0)

评论 14

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  1. #-49

    如果网站是通过搜索引擎来的流量 最好不好乱改。

    flapfly7年前 (2010-08-29)回复
  2. #-48

    我觉得如果能够再加上一点的话,答案就显得更加完美了。被删掉的页面虽然是不重要且访问量低的,但出现错误页面对用户体验和SEO都不友好,请问这个是怎么解决的呢?

    有机米7年前 (2010-08-30)回复
  3. #-47

    通过讨论获得知识。。真的很好

    爱非鱼7年前 (2010-08-30)回复
  4. #-46

    可以再做个301转向,将删除的页面转向到保留的页面中,对SEO和用户都友好。
     

    SEO7年前 (2010-08-30)回复
  5. #-45

    可以做个301重定向,将删除的内容重定向到新的内容上,对用户和SEO都友好
     

    SEO7年前 (2010-08-31)回复
  6. #-44

    不错,分析的很精彩

    NoahLu7年前 (2010-08-31)回复
  7. #-43

    这篇文章太牛了,学习了。
    我也没想到要用Google查相似网页,呵呵,还有很多其他点也没想到,这样的讨论蛮能开拓思路的。
     

    mars7年前 (2010-08-31)回复
    • 我也大开眼界!Vocano真的是不鸣则已,一鸣惊人哦。很多人现在在跟我打听他,可是我也不知道这寂寞高人是谁,能给我发一封信留一个联系方式吗?

      Sidney Song7年前 (2010-09-01)回复
  8. #-42

    终于看到答案了,原来以为其他的页面做301转向或者用robots来限制蜘蛛的爬区,看来还是现在的答案更好哦,考虑更加全面。

    郑州SEO7年前 (2010-09-05)回复
  9. #-41

     
    谁能告诉我怎么用 related+site 搜索站内相似内容么?
    比如搜索页面:http://new.163.com /  站点:www.163.com
    假如我拿出top50来,得一个个过滤么?然后把搜索结果一个个保存起来,或者写一个python脚本抓取一下?假如GOOGLE收录站点的页面较少怎么办?GA统计代码嵌入不完整覆盖不到怎么办?很多公司的定制的促销页活动页都容易忽略这个。
     
    一点看法:
    感觉这个任务主要就是想处理一下重复内容,和死链、死角。
    step1. 特殊页面保留:首页、栏目页、XXX帮助,指导,客服,版权,隐私保护==blah,blah,不管有没有人看都得留下来。
     
    死链检查非常简单,xenu这样的东西就不需要总说了吧。找出来的死链能处理的处理,处理不了就Kill掉。
    step2.
    站内 duplicate content过滤,SEO方向第一步是把相同相似的title找出来,改得改删的删。第二部识别相同相似的内容。
    首先python遍历(URL log日志PV)或者(GA TOP CONTENT -> visits)获得(title->url->visits/pv)列表。EXCEL处理、weka文本聚类或者分词算法。
    最后如果的问题如果还想深究,就分词相似度算法,或text-DM.挖掘所有news/cms数据库内容。
    所有问题一天内就可以解决掉。
    PS.5000 页真没多少,按照经验法则,大部分站点75%的页面都是长尾,没有主要贡献。当然,查火车票、天气预报等类型站点略微有特殊。

    Ethan7年前 (2010-09-08)回复
  10. #-40

    真的没想到去用Google的页面相似去处理相似页面的问题。还有我这个人的缺点一般不回去和boss讨论他的对错,只会自己努力将错的变成可行的,看来工作经验还太少啊

    SEOdisk7年前 (2010-10-05)回复
  11. #-39

    今天看了三篇文章写的都很不错!
    大家多多交流哈。。。。

    重庆电子商务7年前 (2010-10-14)回复