rrffyyy 发表于 2015-9-21 19:30:03

OCR将成为政府舆情监测的创新元素

网络舆情的重要性毋庸置疑,如何处理,常用说法是“网络舆情监控”。似乎“监控”比起警察24小时布点随时准备抓人,更有噱头,更唬人!http://img.china.alibaba.com/img/ibank/2015/143/895/2482598341_1984213216.jpg自从2014年视频文字识别系统开发包问世以来,我一直在联系各个互联网视频行业以及传媒行业的软件开发集成商,主要因为部门内分工,一直没把精力放在舆情监控领域进行推广。目前两大传媒行业的集成商都已经将我公司的产品进行集成投放市场,我想也该注重一下舆情监控领域了。
对于大多数人可能不太了解舆情监控,这个行业看似冷门,实际上作用还是非常大的:
1.根据互联网搜索引擎的搜索调查,目前主要需求舆情监控的用户大多是政府单位部门。因为他们需要实时把握民众的关注热点,需要及时阻止不良信息传播,适时针对谣言进行封锁并辟谣。所以很早就已经有人关注这方面的业务与应用,如下图,还是2012年网友的提问。
http://i00.c.aliimg.com/img/ibank/2015/082/106/2482601280_1984213216.jpg2.国内的一些大数据分析公司,也会专门针对互联网信息进行收集监测。我之前也接触过几家公司,他们主要是针对的大型集团企业,每天会不间断的到互联网上去爬去抓取各类信息,然后按照这些大型集团企业的要求按照各种关键词进行匹配和数据整理。比如,海尔集团会要求大数据分析公司重点关注有关海尔公司情况的软文和资料,主要是了解公众对海尔集团的看法。
http://i00.c.aliimg.com/img/ibank/2015/241/943/2483349142_1984213216.jpg3.还有一些特殊行业:比如军队,公安厅等他们也会去网上做一些侦查任务,也包括一些国际舆论的监测。
4.一些信息出口的小型公司企业,会需要做信息的输出监测,避免不良信息在他们的环境中随意传播或者泄露到互联网中,比如中小型论坛,博客网,网络空间等。
以上四种类型的用户目前在用的系统其实都是针对文字本身进行监测的,而对一些图片、视频中文字信息的处理则显得有些吃力,有些舆情监控领域的从业人员甚至认为图片过滤是理所应当的事,认为哪家同行业公司要是有图片非过滤监测技术反而不正常一他们已经习惯了没有图片文字监测技术的时代了。

我之前跟几个舆情系统公司人员聊过,问他们是否了解OCR识别技术,他们说这个技术不成熟,无法进行正常的业务使用。其实,这已经是很多年前的观点了,现在北京文通科技视频文字识别系统已经在这个方面做的相当成熟了。
http://img.china.alibaba.com/img/ibank/2015/338/076/2478670833_1984213216.jpg文通视频文字识别系统,包括后续要出品的互联网图片文字识别系统都可以对网络上传播的图片进行很好的文字识别、提取。不仅可以识别中、简、繁三种文字类型并输出文字在图片中的坐标信息,还可以识别英文以及中英混排,而且针对一些效果字体也可以很好的识别。
如下图所示是对加粗的特殊字体的识别。

http://i02.c.aliimg.com/img/ibank/2015/664/856/2478658466_1984213216.jpg如下2张图所示,图中的文字信息是彩色背景的,目前市面上能搜索找到的传统的ocr技术都无法识别,连文字都分析不出来,而新技术是可以的,处理下面的图,新技术可以自动定位到文字,然后进行字符切分识别,整个过程只用了0.2秒。



http://i02.c.aliimg.com/img/ibank/2015/310/706/2482607013_1984213216.jpghttp://i00.c.aliimg.com/img/ibank/2015/151/406/2482604151_1984213216.jpg文通文字视频识别系统对海量网络舆论信息进行分析,并识别其中的关键信息,及时通知到相关人员,从而第一时间应急响应,为正确舆论导向及收集群众意见提供帮助的一套信息化系统。而且各地政府单位已经陆陆续续注意到了这一点,并且尝试以创新的元素加入到现有的舆情监控领域中。

yyxr 发表于 2015-10-19 16:19:24

强:):):):):):):):):):):):):):):):)
页: [1]
查看完整版本: OCR将成为政府舆情监测的创新元素