|
5月18日晚,浑水发布针对跟谁学(GSX.US)沽空报告,称该公司至少有70%的用户造假,且公司亏损惨重。此外,浑水还指出,董事长陈向东至少抵押了3.18亿美元的跟谁学股份,出借人是瑞士信贷。同时,该机构也是瑞幸咖啡的重要保证金出借人,长期持有跟谁学股票的投资者面临的风险是,保证金出借人会大举抛售股票,导致股价暴跌。
对此,跟谁学(GSX.US)立即发布回应声明,称浑水做空报告数据来源混乱,且充满了对公司业务的无知,并对此表示谴责。跟谁学方面郑重声明坚持合法经营,并已真实、完整地披露财务数据。
为便于投资者了解详细情况,智通财经编译该沽空报告全文如下,文中观点不代表智通财经观点。译者能力有限,有疏漏之处请读者海涵。
跟谁学:“机器人”崛起——僵尸用户的狂欢
l 我们做空跟谁学,因为我们认为这几乎是彻头彻尾的欺诈。
l 我们得出的结论是,跟谁学至少有70%的用户是假的,甚至怀疑这一数字至少有80%。
l 我们的结论基于跟谁学用户和出勤数据文件,是从超过200个付费K-12课程下载的数据,覆盖了54065个独立用户。
l 此外,一位前跟谁学经理证实了我们的分析,并解释了跟谁学广泛的机器人操作的各种细节。
l 基于几乎全部的虚假用户,我们假设跟谁学收入的欺诈部分至少等于欺诈用户的百分比,如果跟谁学业务的真实部分的ASP也被欺骗性地夸大,我们也不会感到惊讶。
l 我们得出的结论,跟谁学亏损惨重。因为没有用户,就没有收入。我们还得出结论,跟谁学欺瞒性地少报了费用。
l 董事长陈向东的做法让跟谁学的股票对多头来说更加危险:他至少抵押了3.18亿美元股票。长期持有跟谁学股票的投资者面临的风险是,保证金出借人会大举抛售股票,导致股价暴跌。
我们非常确信,在分析的54065个用户中,至少有73.2%是机器人,甚至很有可能至少有80.8%。
上个月,陈董事长奇怪地试图劝阻我们不要去盯跟谁学。在4月8日接受中国媒体采访时,他表示:“我觉得浑水他要是认真分析我们的数据的话,大概率我觉得浑水不会那么愚蠢,浑水那帮人的水平和智商还是蛮高的。”
这显然是虚张声势。
1
机器人的搜寻与识别
我们分析了在2020年上半年的463217个登录记录(超过54065个跟谁学和高途课堂用户,覆盖200多个付费K-12课程)。研究结果显示,我们识别出了三种我们高度确信的机器人模式,他们占了全部唯一用户的73.2%。如果加上第四个可能性较高的机器人模式,那么占比可以达到80.8%。如果将某些假设性条件更改为对公司不利的话,那么机器人占比将接近90%。这些虚假用户显然是由跟谁学的老师和导师、以及第三方控制的。
所有的付费学生都可以用过谷歌Chrome、iPhone和一个代理服务器合法的访问这些记录。我们在附录1中提供了如何访问这些记录的详细说明。
通过将四种机器人模式结合在一起,我们认为用户实际上是一个机器人。前跟谁学经理证实了我们的观察,并提供了有关跟谁学如何实施用户欺诈的进一步细节。我们将这四种类型的机器人用户称为:精确参与者(Precise Joiners)、爆发性参与者(Burst Joiners)、跟谁学IP参与者(GSX IP Joiners)、以及早期参与者(Early Joiners)。
2
精确参与者(Precise Joiners)
在我们的调查样本中,超过一半(52.8%)的唯一用户被确定为机器人,因为他们属于“精确参与者”或与之相关联。精确参与者是指在至少两个不同星期的同一时间(对第二位用户而言)加入同一堂课的用户、以及与之相连接的用户。我们认为,对于单一用户在一个课程中进行两次或多次这样的精确登录的概率是非常低的。除了(普通人)用户登录的时间方面的差异外,在跟谁学自己的网络中的互联网流量和数据的流动方式也存在瞬间差异,这使得在相隔一星期或者更久更精确的第二星期登录几乎是不可能实现的。对于我们来说,这类似于每周从城市A搭飞机飞往城市B,在完全相同的时间降落两次或者两次以上。
在分析的54065个独立用户的数据中,我们发现有5742个用户(10.6%)的登录记录符合这种精确的连接现象。还要注意的是,所有这些精确参与者都至少表现出了我们所讨论的其他机器人行为中的一种,这有力地证明了这种寻找机器人的方法。
虽然大多数的精确参与者只记录了一个精确的连接(在同一秒内登录两个不同的场合),但是我们的数据发现,1261个(21.6%)独特的精确参与者在两个或更多的场合执行了这个壮举,其中有一个精确参与者完成了9个精确的连接。
然后,我们将这些精确参与者与另外33145个共享相同IP的用户和在完全相同的时刻(通常作为爆发性参与者的一部分)加入课堂的用户结合起来,在减去10342个重复数后,我们认为有28545个用户(52.8%)是虚假的。
3
跟谁学IP参与者(GSX IP Joiners)
在加上“跟谁学IP参与者”后,高置信度的机器人用户总数达34534个,占比63.9%。跟谁学IP参与者声称是唯一学生用户,但也可以作为老师或者学生、或与之相关联的用户,因为他们共用相同的IP地址。由于跟谁学不再运营线下的实体学校或者学习中心,那么学生不可能与老师或者导师共享IP。然而,我们发现15239名学生用户(28.2%)至少有一次与老师或导师共享了IP。前跟谁学经理证实,一些老师或者导师为跟谁学运营者机器人网络。几乎三分之二的跟谁学IP参与者也是精确参与者,这加强了我们所得出的结论。
此外,有1364个独立用户与这些跟谁学IP参与者关联,通过这种方式识别的独立用户总数达到16603名,占比30.7%。另外1364个用户通过共享IP关联了15239个学生用户。
有10614个跟谁学IP参与者(63.9%)也是精确参与者。除去重复的唯一用户,我们高度确信的机器人总数占比达63.9%。
4
爆发性参与者(Burst Joiners)
我们统计了5016个爆发性参与者的机器人,使得高度确信的样本达到39550个,占比73.2%。爆发性参与者是指同一秒内涌入的用户(4,528 / 8.4%),比如在同一秒内有20或30个用户进入,以及通过共享IP链接到他们的其他用户(488 / 0.9%)。更为明显的是,这些用户的涌入经常发生在一段连续活动的中间节点。这一异常现象类似于我们在一小时内看到10列地铁经过,其中9列完全空着,1列全是人。这并不符合现实生活的逻辑。
为了加强我们的结论,62.8%的爆发性参与者至少表现出另一种高度确信的机器人行为。我们非常确信,当这些爆发性参与者在课程开始的前后5分钟以外的时间进入,这意味着一组机器人突然登录进入课程。我们认为,五分钟的截止时间是对公司有利的,被排除的时间段内突然加入的机器人的真实数量可能是巨大的。
给定课程的爆发性参与者模式可以通过一个图来表示,图上的Y轴是时间,单位是秒,X轴代表每个唯一的用户。当爆发性参与者现象发生时,此图会显示出很长的水平线。下图显示了在跟谁学平台上运行了几个月的一个小学高年级付费数学课程班的加入模式。下面的模式与我们的数据集中的课程模式是一致的。(请注意,水平白线代表课程开始的时间。)
在爆发点1上,有104个唯一用户在课程开始前9分40秒的4秒内加入。在爆发点1中有6个精确参与者。
为了对公司有利,我们不计算上课前5分钟到上课后5分钟的爆发事件。因此,尽管它们非常可疑,但我们不认为爆发点2中登录的是机器人,除非它们表现出一些其他的机器人行为(包括作为一个精确参与者在同一秒内加入)。
在上课前5秒至上课后3秒的9秒内,648名用户(包括37名精确参与者)加入进来。因此,我们没有将三分之二的这些用户中计算为机器人,因为它们没有在同一秒内作为精确参与者加入。
尽管爆发点3发生在开课后的4分7秒(在5分钟窗口期内),但我们将这些用户算作机器人,因为在这3秒内窗口期,96个迟到者中有3个是同时加入的精确参与者。
整体高可信度的机器人组合
在我们观察到的各种机器人使用模式之间存在明显的重叠。在独立的基础上,我们非常确信每个行为都指示了机器人。然而,当我们看到不同行为之间的重叠时,这些模式就更加牢固地建立起来了。三分之一的高可信度机器人表现出至少两种机器人行为特征。大约一半的数字显示所有三个标记。
机器人总数达到80.8%(包括提前参与者)
综合以上三类,73.2%为高可信度机器人。根据“提前参与者”的行为模式,我们认为另外7.7%(4143人)也很可能是机器人。
“提前参与者”指的是很早就登录在线课程的用户,因此我们认为这些用户很可能是虚假的。我们将截止时间设定在上课前30分钟以上。而在现实世界中,在课堂上看到一些学生提前30分钟以上是很正常的,但在网上我们预期并非如此。这类似于提前30分钟以上登录一个视频会议。然而,对于跟谁学来说,提前的参与者并不是罕见的异常。
在我们的样本中,独特的提前参与者总数为7579(14.0%),其中3676(48.5%)表现出至少一种其他假定的机器人行为,这加强了其作为机器人指标的价值。排除其他类别的重复结果,提前参与者人数达到3903人(7.2%)。新增共享IP地址的用户使提前参与者总人数达到了4143(7.7%)。
如果我们将截止时间减少到上课前15分钟以上,那么提前参与者将增加1962人(3.6%)。
5
“团体控制”——前经理的确证
一位前跟谁学经理证实了我们对虚假用户模式的观察。他展示了对跟谁学机器人业务的详细了解。他表示,该业务始于2015年。
他说,跟谁学使用软件绰号“群控制”(群控软件)来控制机器人网络。他说,群体控制显然可以提高出勤率。这种控制机器人登录模式的能力表明,跟谁学可能正在考虑如何伪装其机器人活动。
群控制的后端显然拥有引导学生出勤率的工具,比如安排机器人登录,并确定登录模式。作为典型的机器人农场,一个或多个服务器用于控制超过500到1000个或更多的手机(IMEIs)。每个设备将有一个单独的手机号码,微信号码,并被编程购买产品,或参加一个课程,等等。
跟谁学也利用外部公司来运营机器人网络。据这位前经理说,这些公司通常会根据所要求的任务获得约2%至5%的佣金作为补偿。有些公司专门提供上课服务。有些人专门注册课程并付费。跟谁学显然提供了使交易合法化所需的现金,并且通过销售和营销费用或销售线成本来记录生成这些机器人的大部分成本。这位前经理提到了三家独立的向跟谁学提供机器人用户的公司,包括Weishi(跟谁学旗下的一款应用)和BaijiaYoulian(跟谁学30%的投资人)。
下面是一个大约2.5分钟的不间断片段,提供了一些特别有趣的细节:
前经理:跟学谁自己都有怎么一个机房,一个机房里面大概有上万多的这样的机器,就是我们叫做群机器人,来自己去控制,一个人大概能控制一千多手机也没有问题,然后去远程也好,还是在机房也好,我可以控制所有的机器,然后去模拟真实的学生或者是真实的购物的数据,这个已经很成熟的技术。
Q:跟谁学他们自己有一个小的团队来操作吗?是这个意思吗?
前经理:对。一直都,一直都有存在个团队。
Q:一直是从哪一个阶段来开始?是什么17年,这样,从新的一个模式?
前经理:不是,我们在二零,二零15年开始就有了。因为那时候我们做O2O,我们给很多的机构引流,那时候学生特别少,我们要老师感觉来上课人不少,特别刚开始的时候,我们已经有这样的技术,比如说只报了五个学生然后剩下的500个我们就有机器人去,让流量很大,上网去听课,让他们感觉这个平台流量很大,从一五年开始就有。
Q:那这样学费是怎么做的呢?这个我有点不太了解,是给他们一个代码免费买课程吗?或者是这个小公司会怎么样付这个学费?
前经理:比如说我是跟谁学,我会跟另外一家公司,我会跟它签,我要投一百万的广告,然后我会承诺给你,比如说,其中百分之2,你可以自己留下来,比如说你可以留下两万块钱…
Q:两万快钱的佣金?
前经理:对,两万块钱的佣金,这个两外98万你必须通过这些虚拟的手机号或微信的账号然后购买我的课程就变成我的收入,是这样子。这是一部分。这是跟谁学至少要亏本2%对吧。这是一小部分。另外一个是跟一些老师合作……就比如我同样给你一百万,然后我也会签成市场费用,把你的,那你必须把一百万卖回来,为什么这些小机构要怎么做呢?是因为你帮我你让我操作这个动作,你自己在平台上或微师开课的时候,我可以在在平台帮你免费做免费的推广,或给你一些广告位,然后或者一些平台上的推广,我可以给你,但你必须把一百万买回来,一般不会给他钱,是它,你自己投一百万买回来,然后在后面我在市场上广告补给你,或怎么样把钱还给你。是这样的模式。这个时候跟谁学不会亏钱。就把一百万转一下,我用广告位换你刷单的这个。
6
学生和机器人活动数据获取和分析的方法总结
分析高途课堂和跟谁学网站需要两种不同的方法。我们在附录1中提供了更详细的步骤说明。
跟谁学平台有网站和桌面应用两部分可供学生使用。用户注册并登录后,打开Chrome浏览器的开发者工具,打开网络选项卡,切换到XHR,就可以看到浏览器和跟谁学网站之间的数据传递。在这些数据中,有大量的信息,包括每一个购买的课件的存档,这也是我们在两个平台上进行机器人活动分析时使用的数据。没有使用任何特殊的工具或技术来进行分析。
高途课堂在设计和功能上与跟谁学网站非常相似,与跟谁学网站共享一些域名和资源。在设置好账号和购买类目后,可以看到一些数据在浏览器中流动,很像跟谁学的情况。但是,高途课堂的数据并不能立即显示出班级引用,所以多了一个必须的步骤。如果使用iPhone,需要在手机上安装高途课堂应用,并且需要配置设备通过拦截式HTTP代理来发送数据。这种方法能让我们的数据分析员观看手机和跟谁学服务器之间的信息,看有哪些数据是来回传递,以此确定班级档案的路径。定位好班级档案后,我们对所购课程的档案进行了逐一下载和检查。
我们惊讶地发现,这里不仅有课件,而且有大量关于用户的资料,包括:
1、 用户号
2、 名字
3、 代称
4、 头像
5、 用户类型(0]1,2)
6、 课程ID和/或班级ID(高途课堂只有班级ID)
7、 加入和退出班级的时间
8、 IP地址
为了进行分析,我们的样本包括了2020年1月至3月期间购买的200多个K-12年级付费课程,几乎平均分配给了高途课堂和跟谁学网站。我们获得的班级信息涵盖了K-12年级的年级和学科。总的来说,我们分析了54065个独特用户(学生、辅导员和老师)的463217次登录。高途课堂比较繁忙,约占登录人数的三分之二。
在班级数据中,我们找到了用户号(也显示在班级考勤记录中),但也有用户类型。通过将班级数据与跟谁学网站上的老师和导师页面显示的数据进行交叉引用,我们发现,在我们的数据库中,100%的老师在跟谁学网站上列出的老师被标记为1型用户,100%的辅导员在跟谁学网站上列出的辅导员被标记为2型用户。关于这种方法的更深入的解释,请见附录2。
我们的用户数据库中,有29个1类用户(教师),371个2类用户(辅导员)和53,694个0类用户。由于我们确定1类和2类用户都是跟谁学的用户,所以我们得出结论,剩下的0类记录都是学生用户(非教师、非辅导员)。
董事长陈向东3.19亿元的抵押:
2020年3月3日,董事长陈向东通过旗下实体Ebetter International Group Ltd.抵押了600万股B类普通股。这相当于900万股美国存托凭证,市值3.19亿元。考虑到跟谁学近乎于完全的欺诈行为,此次质押给跟谁学的长线持有者带来了更大的突然损失风险。我们不排除他还抵押了其他股票的可能性。
以下是英属维尔京群岛公司登记处的抵押证明:
附录1:学生和机器人活动的分析方法分析高途课堂和跟谁学网站需要两种不同的方法来分析,下面我们介绍一下。
跟谁学网站
这个平台既有网站,也有学生可以使用的桌面应用。我们并没有分析这个平台上的任何移动应用,因为它不需要。用户注册并登录后,打开Chrome浏览器的开发者工具,打开网络选项卡,切换到XHR,就可以看到浏览器和跟谁学网站之间的数据传递。在这些数据中,有大量的信息,包括用户所购买的每一节课的存档,这也是我们在这两个平台上进行机器人活动分析时使用的数据。
要发现存档,需要在Chrome浏览器中完成以下步骤:
1、 登录到你的账户。
2、 点击任何一门已经结课的课程。
3、 点击课程视图按钮(见下面的截图),然后在Chrome开发者网络视图中选择playV2项。现在寻找每个课程的pcURL值。复制每一项。
4、 保持Google Chrome Developer工具打开,粘贴你复制的第一个pcURL值并浏览它。你会在Google Developer Tools的Network选项卡中看到数值活动。
5、 单击网络视图中的getPlaybackInfoV2项,在右侧面板上查看数据。
6、 继续查看数据,直到看到package_signal条目。这将包含存档文件的URL:
7、 现在可以下载该压缩文件,在Windows上使用7-zip或Mac OSX中的原生解压工具来查看内容。
高途课堂
高途课堂在设计和功能上与跟谁学网站非常相似,与跟谁学网站共享一些域名和资源。一旦用户注册了账号并购买了课程,就可以开始在浏览器中看到一些数据的流动,很像跟谁学网站上的数据。但是,在跟谁学网站上并没有看到任何关于课程档案的引用,所以需要进一步分析。
我们在iPhone上安装了高途课堂应用,并配置了拦截式HTTP代理发送数据。这样我们就可以观察到手机和跟谁学服务器之间的信息,以此观察来回传递的数据。通过分析,我们得出了高途课堂与跟谁学网站存档的路径是一样的。
发现班级档案后,我们随即下载了每一个购买的班级的档案,打开档案,检查了一下内容。我们惊讶地发现,里面不仅有班级资料,而且文件中还包含了学生信息、加入时间等详细信息。
打开并检查all.json文件,可以得到每个加入的学生信息,他们的用户号、IP地址和时间戳等。此外,还有其他关于学生何时退出课堂的信息,以及其他与教师行动相关的信息。
当你查看录制的课程时,浏览器也会检索到all.json文件。
通过拥有IP地址、时间戳和用户标识符,我们能够在跟谁学网站和高途课堂上进行数据分析和机器人检测。
附录2:在数据中区分教师、辅导员与学生的方法
通过用户号识别教师
在跟谁学网站上,每个老师都有自己的个人主页可以访问。这与高途课堂不同,高途课堂在其平台上仅拥有所有教师的大图片。点击教师的个人资料图片后,将直接进入他们的个人资料页面。
注意,URL中显示的号码是老师的用户编号。跟谁学网站和高途课堂上的每个用户都有自己独特的用户编号。
在这里我们可以看到教师的用户编号(teacher number)是330361798。这时我们可以在数据库的班级记录中查询到这个号码。
在数据集中识别所有的教师、导师以及学生
一旦我们有了用户编号,我们就能够在课堂的数据库中进行直接查询,以检查它们所参与的课堂,以及这些课堂的连接/离开模式。当我们从网站上查看老师和导师的记录时,我们注意到有一个用户“类型(Type)”字段同时出现在genshuixe.com和gaotu100.com的记录中。
在手动检查大量记录并将它们与识别的教师和导师的用户编号进行匹配之后,我们发现“用户类型(User type)”字段告诉我们,教师被标识为“type =1”,导师被标识为“type =2”,学生被标识为“type =0”。在包括29名教师和371名导师的数据集中,genshuixue.com上列出的教师100%被标记为Type 1,genshuixue.com上列出的导师100%被标记为Type 2。所有剩余的纪录类型为Type 0,我们得出的结论是学生用户(非教师、非导师)。gaotu100.com并没有发布最新的教师名单,只是发布了一些教师的海报式的年鉴风格的照片。但是,由于我们的数据集中genshuixue.com和gaotu100.com之间的所有字段(All fields)都是相同的,所以我们假设两个平台之间的类型字段(Type fields)是相同的。
然后,我们对每个特定类型的用户(类型0、1和2)执行查询,然后交叉检查所有用户,看看哪些用户与类型1和类型2(已知的教师和导师)使用的相同IP地址相匹配。下面是类型1、类型2和类型0的查询结果示例。
Type 1教师查询结果:
在上图,我们看到用户号码为813942178与张镇老师相匹配。在我们的数据中,我们还有一个Avatar字段(从上而下用于格式化)。这是一个账户的头像。对于上述用户,头像URL是:http://imgs.genshuixue.com/176512378_yc9r2tpn.png
这与Genshuixue.com教师页面上显示的这位老师的脸和头像相匹配。
Type 2导师查询结果:
在上图,我们看到用户号码为330361798,导师名为“B 岳雨豪~小雨老师”。“B”似乎表示他们被派往北京办事处。该用户的头像URL为: http://imgs.genshuixue.com/114226777_z0vg9fku.jpeg
这与Genshuixue.com教师页面上显示的这位老师的脸和头像相匹配。
验证Type 0用户是学生:
我们无法通过发现老师的方法来发现学生的档案。相反,我们通过从Genshuixue.com收集的评论,以帮助验证Type 0用户是否为学生。我们收集了948,158条评论,从这些评论中我们发现了5,789个用户在我们的用户活动数据库中进行评论,共计撰写了29,245条评论。其中,5787人(99.9%)为学生(Type 0),只有2位(0.03%)来自教师(Type 1)账户。我们没有发现来自导师(Type 2)的评论。因此,我们非常确信Type 0用户是学生。 |
|