信息监测篇_第四章 信息监测技能(一):如何获取网上信息(1 / 1)

第四章 信息监测技能(一):如何获取网上信息

第一节 人工浏览

一、对新闻网站、论坛、博客等实时监测

对新闻网站、论坛、博客等传统互联网信息源的实时监测仍然以人工浏览方式为主。为了及时、高效地发现、获取有价值的信息,在实时监测的工作中,可以遵循以下三点策略。

第一,对新闻网站、论坛、博客等信息源进行分类整理。在浏览器中建立好收藏夹,将出料比较多的新闻网站、论坛、博客网址都收藏在一起,并按照一定的分类标准进行分类整理,比如将新闻网站分为综合门户类网站、经济类网站、思想类网站等,将论坛分为境内论坛、境外论坛等。每天工作时就直接找到该收藏夹,点击就能进入这些新闻网站、论坛、博客进行浏览。值得注意的是,在浏览论坛的时候,可设置按时间排序,在每天都坚持浏览的情况下,浏览几个页面即可,有时候,花十几分钟就可以快速浏览完当天的信息,从而不断提高自己的工作效率。

第二,根据信息源的特点进行监测。对于网站和论坛,要掌握其结构和更新规律,针对其“出料”较多的栏目、板块重点监测。作为一名网络舆情分析师,了解当天的网络热点事件是非常重要的一项工作,新闻门户网站的首页和新闻频道的首页将是浏览的一大重点。除此以外,门户网站的新闻频道往往会对每日的热门新闻进行排行,通过浏览排行栏目,往往有助于我们了解当天的网络舆情热点所在。比如,新浪网和网易的新闻频道都设有排行一栏,按照点击数量的高低,对不同类别的新闻进行了排行,新浪网还可以按照评论数量和分享数量进行排行,网易则不仅直接给出了点击的数量,而且可以按照24小时、本周、本月进行排行。与新浪网和网易略有不同,搜狐网则可以通过“我来说两句”栏目浏览当天的热门新闻,新闻按照评论的数量进行排行。除此以外,还应该根据信息源信息量的多少,合理分配时间和精力进行监测;对于定时更新的信息源,在其更新后要及时浏览,确保信息的时效性,但对于更新较快的信息源,应安排多时段多次浏览,避免遗漏。

第三,根据工作重点需求进行监测。网络舆情分析工作中,往往会遇到阶段性任务,在特定时期内某些特定信息需求量大增。如“九一八”前后,境内论坛的涉日信息、反日游行等成为政府部门关注重点;重大地质灾害发生之后,求救求援信息、质疑地方政府救灾不力、灾区腐败的声音等信息具有很大的信息价值。每年的3月15日“消费者权益日”前后,用户反映产品的质量问题或霸王条款侵害用户利益等的信息会集中出现;在“五一”劳动节、“八一”建军节、“十一”国庆节前后,网上有关特定利益群体串联维权等的信息会增多。适时调整关注重点,有助于提高上报信息的价值。

二、微博信息的获取

(一)建立信息来源圈,及时获取日常热点信息

建立属于自己的信息来源圈,是刚接触微博的网络舆情分析工作者的第一步工作。“新浪微博”内置的“风云人物榜”为入门者提供了发现热点信息源的便利。以2015年3月19日数据为例,通过浏览“风云人物榜”和各个账号发布的微博,我们可以把关注时事并热衷发表政见的一些网上“大V”作为关注对象,纳入信息来源圈;作为发布消息的重要媒体,我们还可以将“头条新闻”、“财经网”和“南方都市报”等加为关注对象。在累积关注对象的同时,要注意对各个活跃账号进行分类分组,以便更好地监测管理。如在“新浪微博”、“腾讯微博”中的活跃群体大致可按以下几类进行分组监测:一为意见领袖;二为专家学者、作家;三为维权人士;四为媒体人。

完成以上步骤,信息来源圈算是基本建成,只要定期刷新主页或分类浏览相关账号发布的最新消息,根据消息的内容、转发量和评论数判断其“热度”,就可及时“获取”这些微博活跃群体关注的有价值热点信息。

(二)有效利用搜索引擎,建立并不断更新关键词库,主动“猎取”专项热点信息

等待关注对象推送消息尚属被动的信息获取方式,我们还需要主动出击“猎取”信息。通过实践发现,与“奇虎”、“谷歌”、“百度贴吧”相比,“新浪微博”屏蔽的**词相对较少,通过关键词突破微博自身屏蔽,利用微博内置搜索引擎,主动猎取我们所需的特定信息,是搜集网上重要舆情,完成专项任务必须掌握的重要技能。

比如,从“王立军事件”开始,随着有关部门加大了对微博信息的管控力度,一些网民开始发明指代**人物或事件的代替词:“王立军”先是被拼音首字“WLJ”代替,很快演变成“王都头”、“王总兵”、“来俊臣”(唐朝酷吏)乃至“护士长王丽娟”;最后,以“王丽娟”这一常见的中国女性名字指称王立军成为网民共识。类似的情况在“薄熙来事件”上重演,从“不厚”、“薄都督”、“西南王”、“平西王”到“定襄公”、“瓜爹”、“重庆火锅”等替代词的嬗变来看,网民“旧词新指”的能力令人叹为观止。网民利用各种替代词来发布小道消息或“散布谣言”,规避管控、删帖,对发现、搜集网络舆情带来了很大挑战。网络舆情分析师必须紧跟微博热词变化,不断更新自己的“关键词库”,保持与微博网民“同步”,才能保持在第一时间发现最新舆情,在最短时间内上报最具价值的信息。再如,中央宣布薄熙来处理结果后,境内论坛、微博流传大量政治类有害信息,这些帖文也采用各种代替词汇影射党和国家领导人,给网络舆情监测工作带来很大挑战。

(三)门户网站与微博结合

目前,一些重要新闻,除非被各大门户网站放在首页比较显著的位置,否则网民参与度很低,回帖更是寥寥无几,无法成为热点信息。因此,可以首先浏览门户网站,找到一些重要、**信息,然后再在“新浪微博”上找网民评论。例如,“中国疾控中心等权威组织审批通过转基因牛奶”这条新闻2012年5月3日刊登在“网易探索频道”上,网民参与度几乎为零。但发现在“新浪微博”上被网民转载后,网民评论短时间内达到500多条,已具备成为网络舆情热点的条件。

(四)跟踪各类多媒体在微博中的新应用,迅速“抓取”新型热点信息

囿于微博的字数限制,网民常选择以附图、超链接形式力求将消息完整地发布。而后“长微博工具”出现,将长篇幅文字转为可缩放的图片,完美地突破了字数限制。同时,图片、音频、视频文件由于包含信息量大、审核时间长,审核难度远大于文本信息,逐渐成为网民热衷的规避审核、突破言论尺度的消息发布形式。越来越多的微博以“文字+附图”形式,或是以“文字+截图+视频(链接)”形式发布,所附图片、视频甚至“喧宾夺主”成为微博消息的重点。这些多媒体集成应用的出现,为我们“抓取”微博热点信息,提供了很好的机会。以下四种新型微博信息走俏微博,值得重点关注。

一是佐证型照片微博。虚拟的互联网空间推崇“有图有真相”,相对于纯文字信息,附上相关照片往往意味着更高的真实度,更能获得网民的认可和关注,形成持续扩散的推动力以及舆论压力,影响事件的走向。比如,“7·23”动车事故发生后,相关部门掩埋车头、救援不当及现场救援秩序混乱通过照片在微博曝光、扩散,网民的指责、不满情绪弥漫国内互联网。高层指示“尽快恢复通车”的结果,在一张现场航拍照片上反映出来:一片狼藉的事故残骸旁,高架桥上的动车呼啸而过。照片在微博疯传,将网民的不满情绪推向极致,政府决策的正确性遭到民众的强烈质疑。同样,由玛莎拉蒂豪车、LV名包等奢侈品拉开序幕的“郭美美事件”中,“眼见为实”的图片挑动网民神经,一个炫富事件迅速演变成红十字会的公关危机,直至红十字会被迫在财务公开、透明度方面做出改进。2012年,自称“美得惊动党中央”的“二炮刘园园”微博炫富,与军人形象不符的作风经过微博放大,把解放军第二炮兵推向舆论风口浪尖,致其形象大受损害。此外,学者于建嵘发起的“随手拍解救流浪儿童”,网民发起的“随手拍各地政府豪华办公楼”、“随手拍军(公)车私用”活动,借助照片的直观和真实性,在网民中引起较高的关注,这些都值得我们注意。

图4-1 “7·23”动车事故

图4-2 郭美美炫富

二是针砭时弊型漫画微博。时政漫画在我国历史悠久,现代漫画在清末民初兴起,至今已有百年历史。民国时期著名漫画家华君武就曾在各大报章发表大量时政漫画,以画笔作为武器表达对社会黑暗、吏治腐败的不满与控诉。在“微时代”,时政漫画借助微博这个新平台,焕发出新的生命。漫画看似寥寥几笔,往往本身已经包含对某事件、某种现象的褒贬,且其“只可意会”的特点令其可以最大程度规避微博对言论尺度的控制。时政漫画家紧跟最新国内外重大事件,通过作品表达对事件的褒贬臧否,引起网民热议、共鸣,成为网民宣泄情绪的一个新途径,也成为观察网民情绪的新载体。

图4-3 网上流传的一张新闻标题的对比图片

三是拼图对比型微博。在互联网时代,消息新闻往往会保存在虚拟空间,通过搜索引擎很容易检索到早前的新闻。政府朝令夕改、官员表态的前后矛盾,很容易被细心的网民发现,成为网民质疑的焦点。比如网上流传的一张新闻标题的对比图片显示,官方不断修正三峡工程抗洪能力:“2003年:三峡大坝固若金汤,可以抵挡万年一遇洪水;2007年:三峡大坝今年起可防千年一遇洪水;2008年:三峡大坝可抵御百年一遇特大洪水;2010年:长江水利委:今年抗洪还不能全都指望三峡大坝;2012年4月:三峡库区将产生大量新生滑坡和塌岸近10万人面临搬迁。”三峡工程相关信息透明度低早就遭人诟病,官方一再修改说法令公众深感屡受愚弄,致使政府的公信力在质疑中流失。

四是恶搞讽刺型改编歌曲或视频微博。“优酷网”、“酷6网”、“新浪播客”等视频网站首发的讽刺时政、表达政见或影射近期国内大事的视频,经网民转发至微博网站后,浏览人次和关注度大大增加,在一定程度上对相当数量的网民产生导向作用。如食品安全事故频发的状况下,有网民将歌曲《走进新时代》恶搞改编成《走进新食代》,歌词对国内各种食品安全事故和非法商人大加挞伐,引起网民的强烈反响。《钓鱼岛之歌》在微博流传,燃起更多网民保卫钓鱼岛的决心,民众对领土所有权的声张成为政府制定外交政策做出外交回应的重要参考。

三、信息源的更新

一是应该经常对网站、论坛、博客、微博进行整理。互联网的发展一日千里,变化非常快,网络舆情工作同样如是。前几年,网站和论坛还是网络舆情的主战场,现今,微博和微信已经成为网络舆情的主要阵地,不少网站和论坛或者关闭,或者“出料”的情况锐减。不少博客和微博的用户不再更新,甚至销户,已经没有必要关注,与此同时,一些新的博客和微博用户又横空出世,引起网民的高度关注。微信这一新的传播手段,更是成为网民的新宠。因此,针对网站、论坛、博客、微博,应该间隔一段时间就重新进行一次整理,整理出最新时间段比较“出料”的网站、论坛,博客、微博的活跃账号后加以收藏和关注。针对微信,则应该潜心研究,加强监测。

二是借助搜索引擎,利用网络资源的“类聚性”开垦更多信息源“处女地”。在搜索引擎中输入某些关键字,可以找到相关网站和论坛,从而发现新的网络信息源。例如,如果你有一个非常喜欢的专业网站,并希望从互联网上找到更多同类的网站,这时怎么选择关键字最有效呢?或许搜索这个网站的内容类型会找到一些不错的站点,如使用“军事网站”、“医学站点”做关键字,但很多时候这种搜索方法也可能一无所得。实际上最有效的方法是抛砖引玉,用最喜欢的网站的站点地址作为关键字。因为链接到那个站点的往往是同类站点,用这种方法肯定能够找到一些相关的网站。由于网络资源具有明显的类聚性,某一网站、微博和论坛的链接通常指向同一类网站或相关联的网站,跟踪网站之间的链接可以发现一批同类网站。一些热点问题的报道往往也附有大量的网站链接,抓住这些链接我们就可以发现新的有价值的网站、素材和资料。

三是多浏览和关注微博、微信、博客、论坛和社区。网民常常会在这里交流一些新网站的网址,可以及时发现、更新网络信息源。随着互联网的迅速发展,网民的信息需求呈现多样化的趋势和特点,不同类型的网站便不断涌现以满足网民的需要。因此,要及时关注和跟踪新出现的网站,从而跟上网民的步伐,更新和丰富自己的信息源。在当下这样一个追求分享的互联网时代,一方面,网民如果发现新的、感兴趣的网站,便会在微博、微信、博客、论坛等进行分享;另一方面,新的网站为了扩大自身影响力,吸引用户,也会在其他网站进行宣传和营销。在日常工作中,网络舆情分析师可以多关注微博、微信、博客、论坛和社区等平台,特别是经常介绍新网站的用户、板块等,从而较快发现新的、有价值的信息源。

四、网民评论的获取

网民的评论往往较为分散,内容也是五花八门、天马行空,所以搜集和整理网民评论观点是一项繁重的工作。

网民评论的搜集,主要是在新华网、人民网、新浪网、搜狐网、腾讯网、凤凰网、网易等国内主要新闻和门户网站,“天涯社区”、“凯迪网络”、“强国论坛”等国内论坛上找到相关消息,进而通过链接找出网民评论及观点。此外,还需要在“新浪微博”、“腾讯微博”找出相关微博及网民评论。对于门户网站和论坛,按搜集效率从高到低排列,可采用以下几种方法查找相关消息:(1)直接登录门户网站和论坛,在IE菜单栏的编辑子菜单下选择“在此页上查找”,输入关键词,就能快速定位到相关消息在门户网站上的位置。(2)在“百度”的新闻搜索中输入“关键词+空格+ site: +网站”的方式搜索相关消息。(3)借助门户网站和论坛上自有的新闻搜索引擎搜索该网站的相关消息。(4)在“百度新闻”中选择搜索“新闻全文”并筛选出门户网站的消息。(5)在“百度新闻”中选择搜索“新闻标

题”,逐一点开新闻列表并筛选出门户网站的消息。依次使用以上5种搜索方式进行地毯式搜索,基本可以确保门户网站和论坛的所有网民评论的链接都能被搜集出来。微博网民的评论搜集则主要通过搜索核心关键词,然后选取最近1—3天的微博,点击“热门”,就可以按照转发评论的数量排列出相关微博了。

第二节 搜索引擎的使用技巧

互联网搜索引擎能够根据使用者的需求,迅速提供对网页、网站、新闻等信息的搜索结果,提供数量可观的有价值信息,是网络舆情分析工作中举足轻重的“利器”之一。“谷歌”被视为全球最强大的搜索引擎,拥有惊人的搜索能力和多语言版本,能够提供十分全面、详尽的搜索结果,并可搜索境内外微博、境外部分社交网站的实时信息,且自带论坛、博客搜索功能。“百度”侧重于中文网页的搜索,在境内新闻、网页、论坛和博客等信息上略胜一筹,但屏蔽了大量**信息。目前,“谷歌”、“百度”, “新浪微博”、“腾讯微博”内置搜索引擎均自带“高级”搜索功能,提供了搜索时间段、关键词、特定网站等功能,结果细化到某一网站、某一时间段、某一关键词,可以按相关性或时间顺序排序,基本能满足工作需要。

一、搜索引擎的定义及使用方法

搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将检索到的相关信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

当前,搜索引擎数量不少,谷歌、百度、搜狗、搜搜、必应、雅虎、有道等,各有千秋。在此,选取我们日常工作中最常用的谷歌和百度搜索引擎作简单介绍。搜索引擎的使用方法主要包括以下几种:

(一)简单查询

在搜索引擎中输入关键词,然后点击“搜索”就行了。例如我们要查询有关“两会”的信息就输入“两会”,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。

(二)高级查询

给要查询的关键词加上双引号(注意是半角,以下要加的其他符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。例如在搜索引擎的文字框中输入“全国两会”,它就会返回网页中有“全国两会”这个关键词的网址。在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上。例如,在搜索引擎中输入“全国+两会+开幕”就表示要查找的内容必须要同时包含“全国、两会、开幕”这三个关键词。在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词。例如,在搜索引擎中输入“空调-格力空调”,它就表示最后的查询结果中一定不包含“格力空调”。

(三)使用布尔检索

所谓布尔检索,是指通过标准的布尔逻辑关系来表达关键词与关键词之间逻辑关系的一种查询方法,这种查询方法允许我们输入多个关键词,各个关键词之间的关系可以用逻辑关系词来表示。

and,称为逻辑“与”,用and进行连接,表示它所连接的两个词必须同时出现在查询结果中。例如,输入“全国and两会”,它要求查询结果中必须同时包含“全国”和“两会”。

or,称为逻辑“或”,它表示所连接的两个关键词中任意一个出现在查询结果中就可以。例如,输入“全国or两会”,就要求查询结果中可以只有“全国”,或只有“两会”,或同时包含“全国”和“两会”。

not,称为逻辑“非”,它表示所连接的两个关键词中应从第一个关键词概念中排除第二个关键词。例如,输入“空调not格力空调”,就要求查询的结果中包含“空调”,但同时不能包含“格力空调”。

在实际的使用过程中,可以将各种逻辑关系综合运用,灵活搭配,以便进行更加复杂的查询。

(四)使用元词检索

大多数搜索引擎都支持“元词”(metawords)功能,依据这类功能把元词放在关键词的前面,这样就可以告诉搜索引擎你想要检索的内容具有哪些明确的特征。例如,你在搜索引擎中输入“title:全国两会”,就可以查到网页标题中带有“全国两会”的网页。在键入的关键词后加上“domainrg”,就可以查到所有以org为后缀的网站。其他元词还包括:image:用于检索图片;link:用于检索链接到某个选定网站的页面;URL:用于检索地址中带有某个关键词的网页。

(五)特殊搜索命令

intitle:是多数搜索引擎都支持的针对网页标题的搜索命令。例如,输入“intitle:格力空调”,表示要搜索标题含有“格力空调”的网页。

二、当前热门微博搜索引擎和传统搜索引擎概貌

近年来,境内微博,尤其是新浪、腾讯微博用户呈现爆炸式增长。微博已成为境内网民日常信息交流主要网络平台之一,亦由此快速取代传统网络媒体,成为网络舆情的主要传播渠道。因此,对微博自带的搜索引擎进行研究和挖掘已成为我们日常做网络舆情分析工作的必修课。这里,主要选取网民集中、信息量大的新浪微博和腾讯微博的搜索引擎作为研究对象。

微博虽然发展迅猛,但内容搜索非其强项,这也给传统搜索引擎带来了新的发展机遇。传统搜索引擎一直在不断更新索引,甚至努力发展微博的实时搜索,加之微博搜索引擎不具备全网搜索的功能,因而传统搜索引擎仍是我们获取**信息不可或缺的最重要工具。在此,选取我们日常工作中最常用的谷歌和百度搜索引擎作为重点研究对象。

(一)新浪微博搜索引擎对比腾讯微博搜索引擎

微博的快速发展凸显了对信息入口的争夺,从这个争夺过程来看,除了直接访问微博主页,看到我们所关注用户的信息外,利用微博自带的搜索引擎也是我们获取信息的重要手段。客观地说,微博搜索还在一个初级阶段,而且因自我监管比较严厉,从日常实践看,其搜索引擎尚不能满足我们日常信息上报工作所需。下面主要从两方面进行集中对比:

1.搜索类型:目前来看,新浪微博搜索引擎和腾讯微博搜索引擎都可通过内容和用户进行搜索,检索出的内容均可以按照“实时”和“热门”排序。除了相关的图片之外,两个搜索引擎还可以找到相关的视频和音乐。不过,在搜索的全面方面,新浪微博搜索引擎似乎略胜一筹,寻找到的微博内容较多,这可能与腾讯微博在逐渐边缘化,新浪微博成为国内微博的主导有关。另外,值得称赞的是,新浪微博搜索引擎不仅提供了与关键词有关的新闻文章,而且可以订阅关键词,这对我们日常工作提供了一定的便利。

2.**度状况:从实际测试结果来看,新浪微博的自我监管机制要严格得多,**词较腾讯微博要多,最突出的是在重大突发事件发生后,新浪微博有时甚至会将发生地的城镇名进行屏蔽,而腾讯微博在这方面要相对宽松,关键词的屏蔽速度也较新浪微博要慢,这就给我们获取涉稳**信息提供了很好的切入时机。如,海南乐东县莺歌海镇2012年4月11日发生因兴建煤电厂引发的群体性事件后,“莺歌海”直接被新浪微博搜索引擎列入**词,而在腾讯微博上,还可以用该关键词进行搜索,从而能较快获取相关信息。

(二)谷歌搜索引擎对比百度搜索引擎

谷歌搜索引擎和百度搜索引擎可以说是当今国内外各种搜索引擎中的翘楚。充分利用好谷歌和百度搜索引擎,更是我们日常信息上报工作最大的依仗。在此,特从两个方面对这两大搜索引擎的功能进行对比:

1.内容全面性:百度搜索引擎偏重于境内论坛、网页和博客等信息;谷歌搜索引擎则实现了跨越境内外的检索,可以搜索出境内外的信息,但比较而言还是较为偏重境外网页、博客的信息。不仅如此,谷歌搜索引擎还能按照“论坛”、“博客”进行分类检索,能有效减少我们的搜索时间,而百度搜索引擎暂时未能提供这一服务。

2.对微博的搜索能力:谷歌搜索引擎可实时搜索、抓取境内微博、境外“推特网”、“脸谱网”、“google+”等社交网站提供的实时信息;百度搜索引擎则仅提供境内微博的实时搜索。

三、搜索引擎一般的使用技巧

(一)关键词搜索

关键词搜索是信息获取的最基本技巧,也是所有舆情研究者的必备技能。在搜索引擎搜索框内输入需要查询内容的关键词,敲回车键,或者鼠标点击搜索框右侧的搜索按钮,就可以得到最符合查询需求的网页内容。下面就关键词搜索常用基础技巧做一简单介绍。

一是限定搜索范围提高查准率。(1)关键词精确匹配。在输入的查询词较长的情况下,给关键词加上双引号,可以避免被拆分,达到精确匹配的效果。(2)利用减号语法消去含有特定关键词的搜索结果。如在“百度”搜索“反日游行 -禁止”(注意减号与第一个关键词之间需有一个空格),结果就不包含与“禁止”反日游行有关的内容。(3)将搜索范围限定在网页标题中。利用“intitle:”可以把查询内容范围限定在网页标题中。(4)限定特定站点的搜索。有目的地把搜索范围限定在某个特定网站中,可以提高搜索效率。在查询内容后面加上“site:站点域名”即可实现。如在“新浪微博”搜索“实名举报”反腐信息,可以输入“实名举报site:weibo.com”。

二是掌握六种网络关键词。(1)网络新词。网络新词是被网民普遍接受、广泛使用的关键词形式。在网络舆情监测与分析工作中,网络新词是容易发现、也较容易掌握的网络关键词类型。例如“富二代”、“穷二代”、“高帅富”、“白富美”、“矮穷矬”,皆是网络新词。网络新词只是表达网民社会情绪的方式,并不刻意去规避网络监管。但对舆情工作来讲,掌握网络新词可跟进了解社会民意,知晓网民情绪,并可从新词发展趋势中分析网络情绪的发展态势,从而总结经验,并为引导网络舆论提供参考。(2)字母、数字替代关键词。此类关键词目的性明显,就是通过用字母、数字替代个别字词,逃避关键词监管。例如“B都督”、“十8大”、“拾捌大”等。对于网络舆情监测与分析工作来讲,字母、数字替代关键词可能都是**词,对此类关键词的监测我们要及时跟进,发现替代的新形式和新规律。(3)同音、谐音替代关键词。同音、谐音替代关键词与字母、数字替代关键词相似,一般来讲也是基于逃避关键词监管的目的。例如以“明珠”替代“民主”,以“滋扰”替代“自由”,以“河蟹”替代“和谐”。此类关键词一般为临时性网络词汇,且不断变化,不易掌握,可在相关时间点重点把握,根据当前热点事件来跟进。(4)代指关键词。代指关键词是以新的网络词汇来指代特别事件及人物。此类关键词大都带有一定的网络情绪,主要目的是为了表达对所指代事物或人物的某种感情。当然,这类关键词也有规避**词监管的功能。例如,以“不厚同志”指代“薄熙来”。代指关键词数量不大,也比较稳定,比较容易掌握。(5)语气关键词。语气关键词并不直接表达特定的含义,但可结合特定的网络语境来强化所要表达的观点。如近年来流行的网络语气词“你懂的”、“史上最”、“碉堡了”、“屌爆了”、“出大事了”等,语气关键词可使搭配的语义表达得更加隐晦,也更加深刻。需要注意的是,语气关键词在不同的语境中所表现的含义不一样。网络舆情监测与分析工作可将语气关键词和其他目标词汇结合起来进行检索,以提高检索的效率。(6)反监管特用关键词。这类关键词是专门针对网络监管创造出来的关键词。例如“转要快”、“赶紧下载”、“马上就删了”、“被和谐”等。此类关键词一般用在**的帖子和文章中,在舆情监测工作中,重点掌握它们,可提高挖掘信息的效率。此外,把握好此类关键词,可突破前面五种关键词类型的语境限制,扩大监测范围。

三是使用多个关键词来提高准确率。对于大部分的搜索任务来说,一般都能够通过搜索网站找到需要的网页,但是如果不细心选择关键词,搜索网站可能会返回很多并不是需要的结果。此时,如果将另外一个跟搜索目标相关的关键词加在一起搜索,返回的结果就会少很多,也更加准确。因此,很多时候需要使用多个关键词查询的方法来提高搜索准确率。但需要注意的是,搜索网站对关键词的个数可能会有限制。同时,也要注意搜索内容之间的逻辑关系是否合理。

(二)利用句子检索

句子检索法可有效提高文本检准率。在使用搜索网站时,不少人经常被“关键字”这个名称所限,而忘了关键字可以是一个字、一个词,甚至一句话。例如在搜索小说、文章等文本内容时,最简单的方法,是用文本的标题搜索,但最高效的方法,则是用文中的一句话来搜索,可以让搜索效率提高不少。

(三)中西结合检索法

在使用搜索网站时,灵活地结合中文和英文可以很好地完成某些搜索任务。除了可以将要翻译成中文的英文词汇用作关键字,并指定搜索网站只返回中文网页的结果,尝试将搜索网站当成翻译机器来使用,还可以将中文词汇的一部分翻译成英文,从而搜索到更多的有用信息。

四、实战:利用搜索引擎挖掘热点事件信息的技巧

(一)日常事件信息挖掘技巧

关键词的选择是使用搜索引擎至关重要的一步,事关我们在信息上报工作中能否有效挖掘日常事件信息。因此,选择合适的关键词变得越来越重要。而对于我们的网络舆情分析工作,搜索词的设置可分为两部分:一是重要日期的搜索词配置;二是日常监测的搜索词配置。通过这样的关键词配置,进行信息检索就可以达到事半功倍的效果。

(二)热点事件信息的挖掘方法

除了使用常用关键词进行检索外,在网络热点事件发生后,我们也应善于利用网络热点设定关键词进行检索。例如,在中日撞船冲突发生后,境内网民的反日

情绪高涨,这时我们应将关注重点放在可能发生反日游行涉稳信息方面,重点关注境内网民的抗议言论,可将“反日游行”、“日本驻华使馆抗议”、“游行抗议日本”等设为阶段性的监测关键词,重点利用搜索引擎挖掘反日游行抗议信息。

(三)重大突发事件信息获取方法

在自媒体时代,微博信息已成为突发事件信息的主要源头。因此,在突发性事件发生后,应密切留意境内外微博的动向。在可能的情况下,第一时间利用微博自带的搜索引擎进行搜索,搜集消息发布人、当地活跃的网民及散发者的账号,以便在日后持续了解最新动向。例如,在“乌坎事件”发生后,境内微博并未立刻将“乌坎”作为关键词进行屏蔽,这就给我们积累一些乌坎当地比较活跃的网民账号提供了时机。我们可乘机收集大量微博用户,以便在日后发现更多当地的涉稳情况。同时,在突发性事件发生后,应加强对百度贴吧的监测力度。鉴于百度贴吧可随意建立的特性和网络此消彼长的态势,如果微博的限制情况增加,百度贴吧上反而会出现一些有用的信息。在突发事件发生后,可到百度贴吧上搜寻是否存在相关贴吧和帖子,以便能发现更多的信息。

第三节 利用网络平台和工具获取信息

RSS订阅、邮件订阅、腾讯QQ群、微信等是互联网上信息传播的重要手段,也是网络舆情发现的有效途径。

一、利用RSS订阅发现信息

RSS是在线共享内容的一种简易方式(也叫聚合内容,Really Simple Syndication)。网站提供RSS输出有利于让用户获取网站内容的最新更新。用户可以使用RSS阅读软件,在不打开网站内容的情况下阅读输出的网站内容。RSS的最大作用是,让用户使用最少的时间来获得最需要的信息,而不用陷入信息的海洋里面。在时效性比较强的内容上使用,能够更加快速主动的获取信息。

目前RSS信息主要版本有0.91,1.0,2.0。RSS2.0在信息推送上能将图文全部内容推送到订阅软件,即使原文在网站上被删除,推送的内容仍保存在客户端,这为微博、论坛等**信息的抓取和保存提供了思路。

(一)RSS信息订阅

订阅RSS新闻内容要先安装一个RSS阅读器,然后将提供RSS服务的网站加入到RSS阅读器的频道即可。具体操作如下:选择有价值的RSS信息源、启动RSS订阅程序,将信息源添加到自己的RSS阅读器或者在线RSS、接收并获取定制的RSS信息。

(二)RSS信息源获取

RSS最为核心的就是有价值的信息源。在日常浏览中,尤其是境外媒体,在媒体网站下方或地址栏均有RSS提示符号,点击关注的网站及频道即可订阅。在订阅中,建议对网站关注的频道及所有频道进行分类,一类是日常经常浏览的频道,解决RSS海量信息浏览问题;另一类是全面搜集经常刊登有价值信息的网站,为二次搜索和二级平台的构建提供数据源。此外,建议留意网站的标志,尽量多搜集RSS推送源,除了媒体和博客、论坛等常见网站,新闻搜索引擎也会对搜索结果提供RSS源,这为媒体信息整合、避免关键字过滤、专项信息监测提供了重要思路,方便了有价值信息的整合和筛选。

(三)阅读器选择

目前,RSS阅读器基本可以分为三类。第一类是运行在计算机桌面上的应用程序,通过所订阅网站的新闻供应,可自动、定时地更新新闻标题。在该类阅读器中,有Awasu、FeedDemon和RSSReader这三款流行的阅读器;第二类是内嵌于已在计算机中安装的其他应用程序中。例如, NewsGator内嵌在微软的Outlook中,所订阅的新闻标题位于Outlook的收件箱文件夹中。第三类则是在线的WEB RSS阅读器,其优势在于不需要安装任何软件就可以获得RSS阅读的便利,并且可以保存阅读状态,推荐和收藏自己感兴趣的文章,如抓虾、鲜果等。这三类阅读器均有其优势和可取之处。软件阅读器虽然延时相对较长,但是拥有本地存储优势,为未来信息的本地筛选和回溯提供最基础的数据支持。内嵌阅读器整合在邮件中,为搭建、推送和整合**信息的小平台提供便利。在线浏览器刷新度快,服务器的支持解决了客户端接收数据的硬件问题,接收信息也流畅便利,有助于重点监测网站的浏览,但也面临安全性和回溯等问题。这三类RSS阅读器均带有自带的搜索引擎,在整合信息搜集后,进行二次搜索并无**关键词过滤的担忧。

二、利用邮件获取信息

利用邮件发现信息,主要是通过接收邮件的内容发现信息,或发现有价值的信息线索。英国《金融时报》、英国广播公司、美国之音、《华尔街日报》等境外媒体网站和境内多家网站都提供这种服务,订阅之后可以接收到当天该媒体上的主要新闻。部分国际组织、非政府组织、境外论坛等也利用邮件订阅作为推送消息的主要方式。此外,境外谷歌论坛将实时更新的内容发布至订阅邮件,脸谱等社交网站将关注对象动向推送至邮件,谷歌等搜索引擎也可将自定义搜索结果推送至邮件。订阅邮件虽然范围不及RSS,但是在信息的价值上不逊色于RSS。

邮件订阅多在网站首页及醒目位置标识,在谷歌论坛、脸谱、Google+等论坛及境外社交网站中,加入或关注即可订阅关注对象的最新动态。因境内外存在时差,此类信息更新时间多在中午12点后至晚间,多为下班时间。所以在此类信息的订阅上,除了通过电脑Outlook邮件,还可以借助黑莓、安卓等智能手机邮件客户端实时接收信息,让推送结果在可掌控的范围内第一时间收到。此类信息分类得越具体,在推送的第一时间获取的信息越有价值。

三、利用微信获取信息

(一)提高**性,及时搜集微信上的网络舆情

由于微信以点对点的方式传播,内容仅停留在传受双方的移动终端上,其他用户无法获知,这就使微信成为一个天然的私密媒体平台,信息传播更具隐蔽性,一些在微博上无法传播的内容很有可能通过微信公众号传播。这种小范围朋友圈内的转发,给过激言论和不良信息提供了相对宽松的生存环境,并且更易被用户相信,增加了舆论监管的难度。微信公众号的封闭交流还会导致某些舆情在微信圈子里悄然流行之时,外面的人还一无所知,当舆情发展到主流网站、论坛、微博中的时候,就直接给相关管理部门形成比较大的舆论压力。对于网络舆情分析师来说,应提高自身的**性,从终端上对微信朋友圈进行监测,及时搜集微信上的网络舆情。

(二)重点监测微信公众号

微信公众号于2012年8月诞生,至2014年底数量已经超过800万,并保持每天8000个的增长速度以及超过亿次的信息交互。随着微信公众号的迅速发展,一些公众微信号的订阅和服务用户已经超过百万,其大众传播属性和影响力已经十分明显。有舆情分析师认为,虽然现阶段微信主要在熟人圈交流互动,相对封闭,不易形成强力舆论场,但是微信公众号一般都有庞大的用户量,其在不良信息的传播扩散上的影响力不容忽视。特别是面对负面信息、突发事件时,容易造成大范围的扩散和曝光。对于网络舆情分析师来说,应尽可能搜集和订阅热门的微信公众号进行及时监测。搜集的方法有两种:一是可以参考目前市场上一些公司和机构提供的微信排行榜进行搜集。例如上海看榜信息科技有限公司就推出了“新媒体排行榜”,可以通过这个排行榜搜集到资讯类、生活类、政务类等分类的微信公众号。二是在监测微信公众号的过程中,细心留意出料多的公众号,逐步积累,从而获取更多的信息源。比如,微信上有一个“媒体札记”的微信公众号,每天对当天的热门舆情事情进行评论,通过浏览监测这个公众号,可以不断搜集和积累新的信息源。

(三)通过搜狗微信搜索进行搜索

目前,国内的搜索引擎里面,搜狗提供了微信搜索功能,通过搜狗微信搜索,可以搜索到微信公众号上的文章和公众号,这大大方便了我们对微信舆情的获取。除此以外,搜狗微信搜索还可以订阅搜索词,订阅后在“我的订阅”里面查看更新的文章,相当方便。

第四节 网络舆情监测系统

互联网作为一种信息传播方式已经深入人们的生活中,为民意民情的表达提供了一个新的载体,引领人类进入大数据时代。网上言论的活跃程度不可估量。只要是重大的事件,就能成为网上舆论,网民往往通过互联网来表达观点、传播舆论,进而产生舆论压力。互联网已成为舆论的放大器,网络舆情已达到任何部门和机构都无法忽视的境界。

网络舆情是通过互联网的新闻门户网站、论坛、博客、微博、微信、新闻跟帖等方式针对现实生活中的某些热点、焦点问题发布的影响性、倾向性的言论和观点。如果引导不善,将会产生负面的舆情,对社会安全构成威胁。如何在大数据浪潮中挖掘出重要的信息并有效利用、管理和引导,是政府、企业在互联网时代面临的全新挑战与机遇。可以说,网络舆情监测系统正是根据这个需求应运而生。

网络舆情监测系统是指通过相关的专业舆情软件按照一定的规则和算法将互联网上繁杂的数据信息当中用户所关注的信息抓取出来,并通过分析过滤等方式,最终呈现出与需求相匹配的舆情信息,并以舆情报告形式呈现。它主要分为8个部分:(1)热点话题、**话题识别。可以根据新闻出处权威度、评论数量、发言时间密集程度等参数,识别出给定时间段内的热门话题。利用关键字布控和语义分析,识别**话题。(2)倾向性分析。对于每个话题,对每个人发表的文章的观点、倾向性进行分析与统计。(3)主题跟踪。分析新发表文章、帖子的话题是否与已有主题相同。(4)自动摘要。对各类主题,各类倾向能够形成自动摘要。(5)趋势分析。分析某个主题在不同的时间段内,人们所关注的程度。(6)突发事件分析。对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。(7)报警系统。对突发事件、涉及内容安全的**话题及时发现并报警。(8)统计报告。根据舆情分析引擎处理后的结果库生成报告,可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。信息采集系统主要是通过网络页面之间的链接关系,从网上自动获取页面信息,并且随着链接不断向整个网络扩展。目前,一些搜索引擎使用这项技术对全球范围内的网页进行检索。舆情监控系统应能根据用户信息需求,设定主题目标,使用人工参预和自动信息采集结合的方法完成信息收集任务。信息分析系统使用系统的观点和方法,把复杂对象分解为简单组成部分,并确定这些组成部分的基本属性和关系。信息数据管理系统对收集到的信息进行最终处理,对搜索引擎数据集进行阶段性的数据维护。

目前,市面上的网络舆情系统有很多,功能虽然不尽相同,但主要构成依然是舆情数据抓取和分析系统。以下对主要的网络舆情系统做一个简单介绍。

一、人民网舆情监测系统

2010年,人民网舆情监测室研发并完善了具备个性化、垂直性监测功能的互联网舆情监测系统。该系统基于网络舆情传播规律,及时、全面地监测境内外新闻网站、论坛、报刊、电视、广播和知名博客、微博,并在此基础上进行数据的抓取、挖掘、聚类、分析和研判,方便舆情工作人员迅速获取舆情,提高舆情管理和舆论引导的水平。舆情监测平台涵盖五大舆情支持系统,即部委(纪检)、省(市)级、市(市)级、县(市)级和上市公司、央(国)企、外企、民企舆情支持系统,为客户实现网络声誉管理、舆情监测、**信息预警、内部风险管理评估、突发事件实时追踪和宣传工作评估考核等功能。

二、新华网舆情监测系统

新华网舆情监测系统舆情已拥有1500余台信息采集服务器,监测范围涵盖国内外2万多家门户网站、专业网站和政府网站数十万个频道, 50多家国内主流网站的300余个热点论坛、博客、微博,500余家国内报刊、20余家港澳台报刊,国内外百余家电视台的2000多个栏目,日采集量过亿条。新华网“舆情在线”网络舆情手机客户端服务平台实现了舆情监测PC用户端和手机浏览端的无缝连接,弥补了传统舆情监测在内容、空间和时间上的舆情死角,用户可自主设置监测关键字和发送时间,提供7×24小时全网监测和信息预警。

三、中青在线舆情监测系统

中青在线舆情监测系统提供舆情数据管理系统、舆情信息指挥系统、舆情综合管理平台、舆情管理手机客户端。24小时不间断信息采集,采用五级预警机制。

四、谷尼网络舆情监测分析系统

谷尼网络舆情监测分析系统依托自主研发的搜索引擎技术和文本挖掘技术,通过网页内容的自动采集处理、**词过滤、智能聚类分类、主题检测、专题聚焦、统计分析,实现各单位对自己相关网络舆情监督管理的需要,最终形成舆情简报、舆情专报、分析报告、移动快报,为决策层全面掌握舆情动态、做出正确舆论引导提供分析依据。

五、中国传媒大学网络舆情(口碑)研究所网络舆情监测系统

中国传媒大学网络舆情(口碑)研究所(英文简称IRI)是国内权威的专为政府服务的网络舆情研究和咨询机构。IRI自主研发了国内非常先进的网民评论抓取、网络舆情监测两套软件系统。i-Monitor网络舆情监测系统,是IRI自主开发并拥有知识产权的国内先进的软件集成式网络监测系统,能形成对首页、新闻、社区、论坛、博客、贴吧等网络主帖信息的自动扫描、监测,覆盖10万家以上站点。和i-Monitor形成有效互补的是,i-Catch网民评论抓取软件是IRI自主研发的国内最先进的专于网民评论抓取的软件,涉及新闻回评、论坛、博客、社区、视频等网上关于任何事件进行讨论的网民评论,在国内率先解决了动态的新闻回评等抓取问题。目前两类软件在IRI的工作过程中,扮演了非常重要的角色。

(本章完)