Sidney的IWOM监测与分析：理解和实践

　　最近更新博客较少，因为实在太忙，甚至不得已请Tenly为我们写了一篇关于Crazy Egg的文章（其实他也很忙，但比我更刻苦）。但是，不能总拿忙当借口，毕竟跟朋友们聊聊心得和发现也应该是“忙”的重要部分。

话归正题，最近为什么忙，就是因为在为客户做一个相当复杂的IWOM的监测。所谓IWOM，可能大家还有点儿陌生，是英语“Internet Word of Mouth”的简称，Word of Mouth的意思是“口碑”，因此IWOM监测听起来搞得挺玄乎，实际上就是为客户研究互联网上的口碑。【点击标题阅读全文】

虽说说起来很简单，但如何监测这个IWOM，如何为客户提出好的建议，却是一件相当复杂的工作。互联网上的口碑载体本就很多，但更麻烦的是口碑这东西永远没有标准，而且随着老百姓语言和网友们情绪的发展不断变化着——这不是加入一个Tracking Code（监测代码）就能搞定的事情，这需要一个完整的方法论。

我知道目前最好的IWOM研究公司是CIC（SeeISee），在与他们的高级总监交流及自己做项目的实践过程中，我逐渐形成了一些自己的理解，并放入为客户服务的实践中，现在跟朋友们进行分享，内容还远不成熟，大家自备避雷针。:)

IWOM的3A层次

在实践中，IWOM被分为三个层次，与客户的需求紧密相连。三个层次分别是：Alert（报警），Analytics（分析）和Architecture（构建）。

Alert层次指帮助客户及时发现负面口碑。不要小看了那些该死的“Gossip”，负面口碑往往会演变成危机。“三株口服液”和“秦池古酒”的案例大家已经耳熟能详了，甚至写入了吴晓波的“大败局教科书”，而互联网上的反面案例则来自于DELL（HELL）以及“家乐福”。所以，你要永远相信“天有不测风云”，即使你不能防患于未然，也不能完全消除负面口碑，早点儿发现它们并且早做准备也是好的。
Analytics是比Alert更高一级的层次。Alert是以发现负面口碑为中心，而Analytics则是全面分析口碑内容及趋势。前者如同雷达，后者则是卫星全局扫描（糟糕，有人丢砖——你以为你是嫦娥一号？！）。简单说来，Analytics要实现的目标是：
- 1. 分析互联网上关于品牌/产品/企业有哪些主要的口碑；
- 2. 口碑的趋势；
- 3. 更重要的，是发现这些口碑发生的原因。第3点可是一个称职的分析师应该做的哦！:)
Architecture则是最高层次。所谓构建，就是能够消除口碑对抗，营造口碑氛围，甚至控制口碑走势。哇，偶地个妈呀，这已经不是人工降雨了，这简直是控制天气！没错，这……的确是高科技啊，要做的就是要让舆论不知不觉走向有利于客户的方向，甚至是走向客户预先定位的方向。尝试用专业的语言来说则是：
- 1. 消弭负面情绪
- 2. 扩大正面声音
- 3. 引导（甚至左右）舆论内容

这3个层次都不简单，尤其是第2和第3个。口碑这东西，今天平安无事，明天就满城风雨，如何实现上面的三个目标层次呢？

1. 相信28分布，别信长尾

大家都知道网络有非常明显的长尾特征，但是口碑这东西，却有明显的聚合性。因此我说，在进行IWOM研究的时候，一定要相信二八分布，千万不要试图把长尾都一网打尽，原因很简单——你做不到。

我在这方面吃过亏，因为客户永远都希望什么都要，但他们其实很多时候并不清楚什么是他们最应该要的。不知道大家是否有同感——客户拿到了所有，但忽视了精华，他们拥有，但他们不消化。这常常让我回忆起《夺宝奇兵——圣杯》的最后场景。在监测IWOM的时候，我发现，在绝大多数情况（我这么说你要相信是100%的情况）下，20%（甚至是10%不到）的口碑聚合地已经聚集了80%（其实我更相信是90%）的口碑了。

　　大家用双手就能数清楚各个行业的互联网口碑聚集地。另外我的认识是，在中国，BBS类网站是口碑的实际垄断者。这么说你可能会不同意，的确，Web2.0之类网站的口碑在增长，但是他们的影响是通过BBS类网站放大的——道理很简单，Web2.0是小众的集合，BBS则仍是大众。

我这么说不是抹杀Web2.0之类小众聚合的重要性，尤其是博客，我认为对口碑的研究是相当重要的。博客常常是负面声音的发起者（虽然绝大多数情况不是由它放大的），但请你还是相信我坚持的二八分布规律，20%的blogger已经覆盖了80%的声音——鬼才相信有那么多的有价值的原创呢！

不过，请不要误解我，长尾在很多地方是有效的，只是在这里，我们先忽略它吧！

2. 搞定IWOM的所有数据？

在分析网站的时候，我们使用Tracking Code，或者可以通过Log file来直接获得数据。但是IWOM则不能如此。有几个难处。

没有Tracking Code可加，也没有Log file能分析。原因很简单，就不罗嗦了。
即使技术上能加，面对浩如烟海的BBS，Blog以及层出不穷的Web2.0网站，技术人员也会加的吐血。
加了Code又有什么用呢？你要分析的是内容，而不仅仅是点击量。

所以，不需要用网站分析的方法来分析IWOM了，我们需要其他的帮助。这个帮助是网页抓取技术，或者更精确的说，是BBS（或者Blog）的页面内容抓取技术。

这个技术并不复杂，但是想要做好却是相当困难。我没有发现哪个服务提供商能真正做好的，原因在于BBS（或者Blog）系统的多样化，虽然Discuz系统（或是Wordpress系统）已经占据相当份额，但是还是有数以千记的各种系统以及自行开发的系统存在着。所以我可以肯定的告诉大家，中国没有哪一家技术提供商能够做到抓取哪怕50%的BBS（Blog）内容（请注意，我所说的内容是包括首贴和回复的）。这一点上，我很笃定，但我希望我是错的，我希望我的读者告诉我，在这一点上我错了，有一家公司能做到！我一定会请你看奥运（附注：电视上）！

[转载请事先声明并得到许可，版权归作者 www.chinawebanalytics.cn所有]

　　现在大多数都只能抓取部分BBS或者BBS的部分数据。一种是能够搜索到相当多的BBS，但是很可惜只能抓取主贴，但是抓不到回复（大旗网就是如此），另外一种则是能够抓取论坛上的所有主贴和回复，但是要为每个BBS做专门的抓取定制开发，所以抓取的BBS数量是有限度的（印象中CIC是这样，但我希望我是错的，请CIC的朋友指正）。因此，这就是为什么我前面说，千万不要相信长尾的原因。能够把20%一网打尽我看已经是救民于水火了。

　　在我的实践中，我们需要抓取的数据包括：

定性数据
1. 主贴的内容
2. 回复的内容
3. 标题
4. 作者
5. 发帖时间/回帖时间
6. 所在BBS及板块的名称，以及它们的URL
7. 以及其他数据（如是否置顶，是否加精等等）
定量数据
1. 发帖数
2. 每个帖子的回复数
3. 每个帖子的阅读数（点击数）

这些数据构成了IWOM分析的基础。其中，定量数据容易获得，而定性数据则很难完全抓取（比如第7个，现在技术上面临的困难还很大），这正是IWOM分析在全球都仍然是需要攻克的难题的第一个原因，但相比第二个难题，这个简直就是小儿科。

3. 初步分析——你知道汉语有多么可怕吗？

为什么说是初步分析呢？原因在于这一部分的分析是最基础的，本来应该由机器完成，但是现在却需要大量的人力来完成。机器程序编的越好，人力需要参与的就越少，但想要让人在旁边睡大觉是不可能的。

相信你已经猜到初步分析的内容了：

机器参与的：
1. 排水/扫水（就别让水帖占用我们的空间了）
2. 关键词抽取和统计（初步的主题分析）
3. 调性分析（所谓调性，就是这个帖子是正面的还是负面的还是中性的还是扯淡的）
人参与的：
1. 主题分析（也就是说，这个帖子最主要是关于什么的，其他谈到了哪些方面）
2. 调性分析（帖子整个主题表现出的调性，以及谈到的各个方面的调性）

这其中，最关键的是调性分析和主题分析。调性分析能够帮我们实现本文最初所讲的第一个层次：Alert，而且更重要的是帮助我们进行进一步的分析；而主题分析则是为了深入挖掘口碑的内涵。

本来，我们是希望机器能把这些事情都做了，很可惜，中文是世界上第一复杂的语言，不仅词汇繁多，俚语已经不少，还非要成天两头的蹦出来一些网络语言，酱紫搞得机器很不知所措，处理的结果常常“雷倒众生”。其实不是我们的技术不行，微软和Google现在也做不好自然语言的分析，仅仅一个“分词”技术就够申请数个专利的了。所以，没辙，还是要靠大脑。

不过，就算是靠大脑，还是会有误差，因为人的背景不同，比如分析讨论电脑的帖子，没有一点儿DIY的背景很容易分析错误。不仅如此，有时候帖子的标题似乎是“负面的”，但仔细一看帖子，很可能是“正面的”，这个时候，粗心一点儿就会出错。但是人不可靠的最关键原因是，人是会疲劳的，尤其是面对这种枯燥的工作。而且，如果我问你，你愿意每天60元坐在电脑面前兼职做这个工作吗？你的答案一定是——No，并且给我一记闷棍。

[转载请事先声明并得到许可，版权归作者 www.chinawebanalytics.cn所有]

　　所以，汉语口碑的调性分析对于机器而言，还是一座不可逾越的大山，必须要人来完成，但人力资源是可贵的，而且服务的质量也难以保证。这是IWOM监测如此困难和痛苦的原因，也是需要攻克的最难的难题。

初步分析的数据具有极为重要的意义，它是后面所有分析的基础，但是质量让我十分伤心。我们需要一个高质量的服务，如果谁知道，请告诉我。

4. 深入分析和提出建议——分析师的工作来了

前三步实际上等于网站分析中利用WA工具获得的初步数据报告，可是已经让人精疲力尽了。终于轮到分析师上场了，他们需要做的事情实际上就是解答IWOM的第二个层次——Analytics。其实，也是我在这个客户项目中最主要负责的部分。

我主要从下面的各个方面入手：

Negative（负面） vs. Postive（正面）
Negative分析：Negative舆论是什么，为什么，以及产品/品牌/企业的短板
Positive分析，Positive舆论是什么，产品/品牌/企业的长项
分类主题分析，以细分产品/品牌/企业的不同特征，这个必须基于初步分析中的“主题分析”
竞争对手分析（内容跟上面4个一样）
产品/品牌口碑对比分析
趋势分析
总结分析的发现，并且提出建议
最恐怖的是——上面的所有分析应该基于不同细分用户群体。

上面的这些内容就是让我在7月的半个月中没有周末，没有写博客的最主要原因。纷繁无杂，千头万绪，我希望我再不用做这个东西。不过最终当报告形成，看到拿出来的一些结果和建议，还是有点儿成就感。但是，我对初步分析的基础数据一直不满意，因此我竭尽所能，仍不能确保这是一个100%可信的报告，我也相信在中国可能还没有这样的一个报告。

5. 控制天气——仍然非常困难

　　现在报告形成了，我们知道了口碑背后的原因，我们开始形成一些行动，比如，用官方的正确舆论引导，或者强烈抗议竞争对手的恶意破坏（这种行为实际上就是反面软文）。但是我不打算在这个领域写太多，我相信有很多专家，但是我相信这是一个很难解决的问题。我还在实践，我还没有结论。我希望大家的建议。

终于，这个似乎又是突破记录的乏味长文要结束了。如果你看完了，请给我留个言，算是对自己的一个鼓励，也是对我的一个favor。我知道看这么多内容是需要耐力的。什么，你看完了？你应该参加奥运会的马拉松比赛，你能赢，真的。

最后，把整个流程做一个图形化的总结，见下图。

　　给我留言吧，需要大家的启发！谢谢！

[转载请事先声明并得到许可，版权归作者 www.chinawebanalytics.cn所有]

Sovrn

#51

说实话，口碑监控什么的，每次我都是紧急处理，分析什么都来不及做。在我实际的工作情况看来，用户在发布负面信息的时候，完全就是随机性的，天知道他/她什么时候在和你完全无关的情况下，给你一刀。
所以常规处理方式（以母婴媒体的论坛为例）是这样的，对公司用户、潜在用户经常出现的媒体，进行常规监控。
监控指标是论坛热帖，或者热门话题不出现任何负面。
负面帖子，有实际源头的、直接原因的，比如客服处理不当，产品运输问题，请相关部门协助解决，客户满意之后，请她修改帖子，避免被搜索引擎看到。
而深层次的原因，竞争对手造谣，这种要么删帖，要么要求公司从谣言产生的渠道进行公关。直接在网络渠道辟谣。
所以出现负面帖子，处理方法一般如下：
能删么？
能沉么？
沉了，能锁么？
锁了能把标题改了么？能把内容编辑掉么？
各种都不行，那，我叫人去回帖发正面，把lz灭了，这总可以吧？
说实话，口碑监控关乎人心民意，一个模型实在无法说明任何问题。必须投入大量的精力和时间，以对产品和用户群深入了解的精神，去沟通维护。

augustheart13年前 (2011-04-29)回复

#52

看完有2点想法：
1，分析是向着精确地方向，而WOM似乎是模糊的形象。是不是针对模糊形象的这个分析是可以有模糊的应用模型和统计方法；
2，作者回复说读者已经有独立的思想和评判标准了，严重同意。比如说一篇文章，可能有4%的读者回复，如果只抓取这4%的内容去分析全部的口碑，个人觉得忽略了很大的一个因素，就是有独立思想不回复的人。也许上平民是受精英的思想掌控的，这又与读者有独立的思想和评判标准相违背了。

deng13年前 (2011-05-03)回复

#53

佩服

郑航13年前 (2011-06-03)回复

#54

把文章及所有留言都看了，觉得可以实践下！因为公司还不可能有技术及资金投入来做口碑营销及监控，打算自己手工做第一步的抓取工作，试着分析一下，给老大提份报告，看是否对公司有帮助。呵呵，一年前开始关注该博客，可一直懒散着没好好学习，最近工作需要，一头扎进来，发现大大的帮助啊。感谢星哥！

菽篱12年前 (2012-07-07)回复

#55

宋老师已经很专业了，这些知识我从来没有接触过。

SD12年前 (2012-12-17)回复

#56

现在看来，在分析的那一步，不用说机器了，就是人工，也很有可能出错，因为现在网络上有很多“高级黑”，他们的帖子到底是在捧，还是在黑，是很难分清的。比如一句“X产品比Y产品好得多”，有可能是在称赞X产品，有时候反而是在抹黑X产品，因为Y产品做得很好是有目共睹的，而X产品做的很一般，这时候这样一句话就起到了反效果，这样不负责任的吹捧X产品，只能让人看了对其更加反感，这就是一个“高级黑”，例如“宝马比奔驰好得多”，这个是在称赞宝马，如果是“奇瑞QQ比奔驰好得多”，这明显就是在抹黑奇瑞QQ了。但是有时候根本无法分清说这话的到底是黑还是粉，有些粉丝言语甚至更夸张，这就有了“一个脑残粉等于十个高端黑”的说法。

湿湿手好翻书11年前 (2012-12-25)回复

@湿湿手好翻书：大赞您的评论！说得对！高级黑还是脑残粉，不是这个坛子里面长泡的人，一般还是看不出的。

Sidney Song11年前 (2012-12-28)回复

#57

第一次接触 IWOM，不过看完您的博文，我觉得着咱们可以把中国的古汉语以及现代汉语词典搞个数据库，标记上褒贬义属性，可以按行业或者其他维度分类，然后找一些段子或者灌水高手来分下权重，做一个又大又全还实时更新的数据库。就可以秒杀一切BBS上的主题关键字了，呵呵。然后做个集成的系统，可以出一些简单的报告……然后再请分析师参与…会好一些吧

Ada11年前 (2013-01-30)回复

#58

BTW, 博文本身并不长，回复很长很长……呵呵

#59

尽管这是一篇很早前的文章，今天再次阅读依然有收获。想想很多公司在面对网络负面新闻的时候，要么将负面新闻用各种手段通通封杀，要么与对方展开无聊的恶战。其实如果能用这样一套分析方法来解决，或许会转化成一个完美的危机公关。当然，这个我常见于国际化大公司，而对一些中国传统型企业，中小型企业，似乎很难。
ps：在字里行间的偶尔一丝俏皮语，让人莞尔。

lily11年前 (2013-03-11)回复

#60

宋老师写的有点小幽默呀，看完了，好文章一篇，有收获，鉴定完毕！嘻嘻，宋老师，加油哟！

Sarah11年前 (2013-07-09)回复

#61

来到这篇文章，看到的大家08年留言，那一年我高二，而如今我已经在互联网行业工作两年了，时间的力量很神奇，这种感觉好像“参观一个神奇而古老的堡垒，会有旧的痕迹，但有美的精致”，不知道作者和以前的小伙伴们还在么？

jacklearner9年前 (2015-11-12)回复

Sidney的IWOM监测与分析：理解和实践

IWOM的3A层次

1. 相信28分布，别信长尾

2. 搞定IWOM的所有数据？

3. 初步分析——你知道汉语有多么可怕吗？

4. 深入分析和提出建议——分析师的工作来了

5. 控制天气——仍然非常困难

相关文章

宋星

相关推荐

评论 79