审查互联网行业数据造假,还互联网行业一片晴空

发布时间:2019-08-06 来源:原数据

信息化时代,新的科技给人们带来便利的同时,信息纷繁复杂,也存在一些不良现象,良莠不齐,鱼目混珠,甚至造假手段更是层出不穷,手段五花八门,面对反造假,更是道高一尺魔高一丈。


原数据团队主要面向投资机构和监管机构提供信息数据尽职调查服务,针对互联网行业普遍存在的数据造假现象,究其原因,拆其伎俩,防止各投资机构中招。


一、    数据造假的利益链


天下熙熙皆为利来,天下攘攘皆为利往。任何经济行为,背后都有利益逻辑在。对于互联网产品,我们可以从投资方、运营方、用户三方,分析各自的利益,你会发现,数据造假之所能存在,是有利益链条在里边的。而且在不同时期,各方追求的利益关系不同,甚至会从对立变为统一。


在运营方融资前,为了吸引用户来关注、注册和使用产品或平台,通常会采用,注册、邀请奖励、赠送会员、优惠券等手段,这其实是一种买粉的形式。甚至为了顺利拿到较多融资,也会常用一些非常手段,比如,自动用户注册,自动评论等软件添加虚假数据,给投资方一种用户多而或活跃的感觉,从而提高企业估值。


还有为用户引流的一些广告服务商,按流量收费,也会存在虚假点击的现象,给广告投放用户带来经济损失,这是直接伤害用户的欺诈行为。


因此,在投资或并购过程中,作为投资机构,如果只是查看运营方的提供的数据和报表,难免陷入“误区”,寻求专业的数据尽职调查团队的帮助,是至关重要的。


二、    数据造假的方式手段


互联网经济是眼球经济,用户为王,这也是为什么很多新创公司,不惜烧钱,用免费、优惠手段,来吸引用户。从用户活跃度角度,包括用户量、用户活动量(点击量、阅读量、发帖量、回复量)、用户价值(充值、订单量、订单额)等运营KPI。不惜一切代价来提高这些数据的原因只有一个:吸引投资机构,并给予较好的估值和条件


除了因为注册、邀请奖励,等带来的一些新用户,经过一段时间自然形成的僵尸用户,更多大量虚假的僵尸用户,是由自动化注册软件带来的,用户信息是按照一定的规则,随机组合生成,再短时间内快速插入,成本极低。技术手段较高的,可能会使用动态ip、设置时间间隔来注册,以掩人耳目。甚至,有些软件推广者,通过插件的方式在,用户不注意的情况下,在用户电脑上默认勾选,自动安装,不是木马也算流氓软件。


直销电商运营者也通过刷单、退货(或返现),充值、退钱,充斥着虚假的订单和评论。在电商平台运营早期,平台为了吸引商家入驻,不收取平台服务费和销售额的分成,有些商家为了周转资金,创建虚假订单,用信用卡支付套现。电商消费,信用卡支付占据了最高的比例,即使很小套现比例,总量也是不小。


在2018 年“马蜂窝事件”中,备受质疑的一个数据造假“套路”是,不少用户在其他平台的旅行攻略、点评内容,通过爬虫程序,被搬运到马蜂窝上。实际上,此类做法并不新鲜。生活社区小红书通过官方微博指责大众点评大量抄袭其用户的内容。具体做法是批量建立虚假账号,抄袭及搬运用户在小红书发布的原创内容。据小红书估计,抄袭的数量在百万条量级。


2015年,有业内技术人员在知名社区“知乎”上爆料,通过反向编译蜻蜓FM安卓版本软件,他发现蜻蜓FM软件中隐藏有名为“普罗米修斯”和“宙斯”的强行自启代码。前者可以在用户不知情的情况下,在手机后台启动无窗口透明界面,后者则可以自主触发广告商的广告,并回传给第三方数据公司,从而完成“用户自主点击广告”的操作。


因为安卓系统的开放性,破解系统权限后,一台平板电脑设备上甚至可以装十多个同样的App,配合不需实名制的虚拟运营商电话卡,可以形成十多个看似真实、独立,实则批量化虚假的用户。而且,由于虚拟运营商的手机号可以包月使用,这样的造假手法成本得以进一步降低。


三、    数据造假的分析和判读


如果你关注互联网行业的投资机会,你很可能对此深恶痛绝但束手无策。原数据团队分享以下几点数据造假判别方法,希望能对你有所帮助。


首要的是,我们要建立综合考察互联网公司的运营指标体系,不能只用单一的指标来衡量。比如,从用户量,我们不能只重视用户量,还要分析活跃用户、高价值用户比例。从现金价值角度,不能只看订单金额,还要关注单用户消费额,看是否超出数值常理范围,营业额也可以结合第三方支付平台和税收来验证。


其次,我们不能只关注数据结果,还要审查追踪数据。比如,现有用户量,用了多久发展起来的,快速增长期的速度如何。充值类账户,是否有大量退款现象。商品消费类订单,物流信息是否都真实存在。


具体从技术层面,作为投资机构,可以要求取得目标公司的一定数据权限,通过数据库的安装、运行、数据日志上的信息,可以初步确定数据库是否异常改动现象。对用于用户注册信息,我们可以通过分析是否存在注册ip集中、注册时间集中,账号、账户名(昵称)存在异常,是否存在大量注册虚拟手机号,ip和手机号地域信息不匹配的情况。订单、充值附近时间是否有登陆、浏览记录等。


基于以上三点,虽然能够判别出一些造假信息,但是需要专业数据尽调团队撰写多种算法和模型,进行验证,才能给出相对准确的结论。


要杜绝解决互联网行业数据造假现象,需要行业从业者、投资机构、用户、市场监管机构等多方共同努力,从转变观念开始,建立诚信为本、健康可持续的发展观,相关部门也会制订出台相应的法规,并推行如区块链、第三方数字认证等防数据篡改技术应用,相信未来会形成健康的互联网产业环境。(原数据团队,微信Robot_Volke)

 

新闻中心