去年10月,北京市公安局海淀分局警务支援大队接到辖区某互联网公司报案称,发现有人在互联网上兜售疑似为该公司的用户信息。根据这条线索,警方迅速开展调查,巧达科技(北京)有限公司非法窃取信息的犯罪事实逐渐浮出水面。今年3月,巧达科技被查封,涉案员工被警方依法刑事拘留。
警方查明,与正规招聘网站的简历由用户自己上传不同,巧达科技的简历数据库全部是通过非法手段爬取而来。“嫌疑人通过利用大量代理IP地址、伪造设备标识等技术手段,绕过招聘网站服务器防护策略,窃取存放在服务器上的用户数据。”网安总队办案民警李文涛说,从不同网站窃取来的信息被重新合并、排列,重名或是信息不全的信息经过“再比对”后形成完整的简历和用户画像。
针对爬虫获取简历的手段,一位巧达科技前员工告诉燃财经,巧达在智联、猎聘等网站上,建立了上千个企业账户,每天访问智联、猎聘的网站次数百万次,都是机器在模拟人工操作。这位员工称,他去年离开巧达之前,巧达依然在用爬虫手段获取简历。2017年6月1日,《中华人民共和国网络安全法》开始施行,其特别加强和明确了个人信息保护方面的要求。《网络安全法》中明确规定,网络产品、服务具有收集用户信息功能的,其提供者应当向用户明示并取得同意。未经被收集者同意,不得向他人提供个人信息。
巧达科技在某平台发布的招聘
据悉,巧达科技非法获取的简历超过2亿条。基于这些数据,公司开发了“72招浏览器”,将其简历数据库以13800元每年的价格卖给有需求的企业客户,客户就可以在浏览器上直接调取简历信息。
办案民警介绍,在巧达科技窃取数据过程中,还因传输数据量过大导致报案公司服务器数十次中断服务,影响上千万用户正常访问,带来严重的经济损失。
公开资料显示,巧达科技成立于2014年7月,号称拥有中国最大的简历数据库。燃财经(ID:rancaijing)曾经拿到一份巧达数据给客户的商务合作BP(商业计划书)。文件宣称巧达科技数据库有2.2亿自然人的简历、简历累计总数37亿份。此外,巧达科技还有超过10亿份通讯录,并且掌握着与此相关的社会关系、组织关系、家庭关系数据,也就是说,它掌握了超过57%的中国人的信息。
这些获取渠道并不正规的数据为巧达科技带来了过亿的收入。2016年,巧达科技全年收入1.2亿元,净利润4800万元;2017年,巧达科技全年收入4.11亿元,净利润1.86亿元,净利润率超过45%。
有律师告诉燃财经,不论是通过自有渠道还是第三方渠道,没有经过用户同意和违反用户意愿的数据交易,都属于擅自利用用户信息并可能侵犯隐私。
近年来,大数据行业中数据造假,窃取、买卖公民信息等乱象频发,不断触碰数据安全和法律监管底线。警方提醒互联网企业,在收集、存储、使用用户个人信息数据开展合法经营时,要严格按照国家法律法规,落实数据保护责任,采取必要的技术防范措施,确保用户信息数据的安全。
附《独家起底巧达科技》一文:
作者| 贺树龙刘素宏唐亚华
编辑| 苏琦赵力
一份巧达科技的文件,透露出的数据问题,令人十分震惊。
日前,有消息称招聘数据公司巧达科技被查封,全体员工被警方带走。一位巧达科技前员工告诉燃财经(ID:rancaijing),“(最近)陆续有HR等非核心员工回家,但核心高管依然失联中。”多位业内人士和律师认为,巧达科技出事可能与其未经授权获取和使用简历、“贩卖”简历信息等涉嫌侵犯用户隐私权、侵犯公民个人信息的行为有关。
公开资料显示,巧达科技成立于2014年7月,号称拥有中国最大的简历数据库,其主要数据来源为大数据产品矩阵“乔大招”。乔大招旗下拥有“爱伙伴”、“简历时光机”等多款招聘产品。巧达科技在2014年11月获得创新工场数百万美元A轮融资,2017年1月获得数千万人民币B轮融资。
燃财经(ID:rancaijing)拿到一份巧达数据给客户的商务合作BP(商业计划书)。这份文件宣称:巧达科技旗下有38个B端招聘产品、超过170万招聘者用户,巧达科技数据库有2.2亿自然人的简历、简历累计总数37亿份。此外,巧达科技还有超过10亿份通讯录,并且掌握着与此相关的社会关系、组织关系、家庭关系数据。结合简历、通讯录,以及外部获取的超过千亿条其他用户数据,巧达科技自称拥有超过8亿自然人的认知数据。也就是说,超过57%的中国人的信息都在巧达科技的数据库里面。
根据文件介绍,巧达科技将这些数据用在教培、保险、招聘等行业,某大型地产公司、某职业教育培训机构、某分类信息网站和几家招聘网站在这份文件里被列为典型案例。数据生意为巧达科技带来了大量收入。2016年,巧达科技全年收入1.2亿元,净利润4800万元;2017年,巧达科技全年收入4.11亿元,净利润1.86亿元,净利润率超过45%。
王成予在向一位客户介绍数据合规性时表示:巧达科技获取的数据大部分为“非敏感数据”,且数据使用时会经过脱敏处理。
但有律师认为,不论是通过自有渠道还是第三方渠道,没有经过用户同意和违反用户意愿的数据交易,都属于擅自利用用户信息并可能侵犯隐私。
燃财经(ID:rancaijing)尝试联系王成予,向其证实文件里信息的真实性,但其电话长时间处于关机状态。
· 在BP的管理团队介绍中,其董事长并非工商信息中的王成予,而是由百度风投管理合伙人齐玉杰担任。
· 假如某APP提供某用户手机号,巧达科技将其与自有的简历库进行匹配,便能反馈给APP这个自然人包括年龄、性别、行业、职业、户籍、收入、教育经历、工作经历、关系链等在内的信息。巧达科技即使没有掌握你的简历,它依然可以“算”出你的信息。
· 巧达科技宣称通过2.2亿+有简历的自然人、10亿+通讯录、100亿+用户识别ID组合和1000亿+用户综合数据,计算出了8亿+,也就是可能涉及到57%的中国人的多维度数据。
· 巧达科技提供的多项服务都指向用户个人,并且涉及在没有用户授权情况下对外许可,很可能涉及侵犯隐私。
高管多为百度出身
公司2017年净赚1.86亿元
根据工商信息,巧达科技(北京)有限公司(下称巧达科技)成立于2014年7月,注册资本1050万人民币,法定代表人为王成予。巧达科技登记有3名股东,其中王成予占股85.33%,刘炜占股12.19%,北京创新方舟科技有限公司占股2.48%。此外,王成予还担任经理和董事长。
燃财经(ID:rancaijing)发现,巧达科技将股权悉数质押给北京迈可伦科技有限公司,该公司成立于2015年2月,公司类型为有限责任公司(台港澳法人独资),注册资本1017.702万美元,法定代表人、董事长、经理亦为王成予。该公司唯一股东为2014年11月在香港成立的巧达数据集团有限公司。
巧达科技对外称,自己是“一家专注于商业数据服务领域前瞻性产品设计和技术研发的公司”。核心团队由“中国互联网元老级产品经理和技术极客”组成。PPT显示,巧达科技在2014年11月获得了来自创新工场的A轮融资,2016年2月获得了来自齐玉杰和创新工场的A+轮融资,2017年1月,获得了来自中 信产业基金、骊悦金实、创新工场的B轮融资。
创新工场方面对外表示,其仅是巧达科技的财务投资人,从未参与任何公司运营,巧达科技也早已搬离工场。
在BP的管理团队介绍中,其董事长并非工商信息中的王成予,而是由百度风投管理合伙人齐玉杰担任。其创始人“成予”曾任IBM WebSphere解决方案副总裁、百度早期产品部负责人、联想FM365产品经理;其联合创始人沈毅曾任百度爱乐活技术副总裁、百度电子商务事业部技术总监、百度有啊技术负责人。
此外,其他四位重要高管分别有在联想、阿里、百度、普华永道等知名企业的从业经验。巧达科技旗下爱伙伴产品负责人刘博曾经自诩不会侵犯用户隐私,并称巧达科技团队COO刘炜曾是中国最大的在线法律服务平台盈科律云的创始人,在法律方面把关格外严谨。
燃财经(ID:rancaijing)就此联系了齐玉杰,对方称,自己从未出任过巧达科技的董事长,从未参与过巧达科技的日常经营,“我只是巧达科技的小股东。”一位百度员工则告诉燃财经,巧达科技是齐玉杰去百度风投任职之前就投资的公司,跟百度没有关系。
该文件还展示了两组十分引人注目的数据。截至2016年12月,巧达科技完成了全年1.2亿元的营收,其中净利润4800万元。一年后,其收入和净利润完成了成倍的增长,截至2017年12月,其全年收入4.11亿元,净利润1.86亿元。
巧达科技号称拥有中国最大的简历数据库,其自有的互联网招聘工具便是“乔大招”,创始人为刘炜,法人为王成予,旗下拥有“爱伙伴”、“简历时光机”、“人才蛙”等10多款互联网招聘相关产品。
另外,刘炜在明易互通信息技术(北京)有限公司担任联合创始人,该公司主营“快火箭”和“妙招网”两款产品。
其中,曾在明易互通任职的叶锦生,是北京纷历数据技术有限公司的执行董事,“纷简历”是其主打产品。“纷简历”曾被知乎网友曝光称,5600多万份求职简历未经当事人允许便被非法兜售,导致个人信息严重泄露,致使不少当事人收到大量骚扰电话。
令人惊讶的数据库
2.2亿自然人简历
10亿通讯录、100亿用户ID
BP显示,巧达科技运营的是“以人为核心的大数据”,这其中的关键是自然人属性。
因为传统的用户画像靠行为来猜,依据的是上网特征、媒体及购物偏好、自定义标签等相对模糊的信息,很容易猜不准。而巧达科技通过自然人数据还原,能够精准地进行用户画像。
巧达科技的简历来源包括38个B端招聘产品和超过170万招聘者用户。简历解析后自然人的原生数据能够产生四项定位,包括角色画像(生活角色、家庭角色、职务角色)、轨迹变化(收入范围、消费趋势、社会地位)、社会关系(同学、同事、同乡、同行业、同职位)以及区域位置(生活区域、工作地点、教育培训),几乎涵盖了个人所有的数据维度。
自称拥有中国最大的自然人简历库,巧达科技手握2.2亿自然人的简历,简历累计37亿份。这也意味着,假如某APP提供某用户手机号,巧达科技将其与自有的简历库进行匹配,便能反馈给APP这个自然人包括年龄、性别、行业、职业、户籍、收入、教育经历、工作经历、关系链等在内的信息。
简历之外,巧达科技还通过自有产品获取用户授权,以及第三方合作授权等方式,累积了超过10亿“本机号不重复”的通讯录。有了这10亿通讯录和2.2亿自然人简历库,加上聚类分析,巧达科技可以给有通讯录数据但没有简历数据的自然人进行画像。也就是说,巧达科技即使没有掌握你的简历,它依然可以“算”出你的信息。
拿到自然人的资料后,巧达科技可以通过通讯录找到他的社会、组织、家庭关系,并进一步挖掘用户信息。在此基础上,将这些信息匹配平台的简历库,最终得出这些自然人及其周边关系的收入水平、潜在需求、关系影响等要素。这些数据可以再进一步分成运营商数据、消费数据以及行为数据,售与相关企业。
同时,公司将用户数据与其邮箱、微博号、微信号、QQ等社交ID组合,通过多个识别ID关联、多种设备关联、跨平台行为关联、线上线下数据互通,打通自然人与ID的关系。
至此,巧达科技宣称通过2.2亿+有简历的自然人、10亿+通讯录、100亿+用户识别ID组合和1000亿+用户综合数据,计算出了8亿+,也就是可能涉及到57%的中国人的多维度数据。
巧达科技称认识用户就可以预知未来,按照其业务逻辑,此话不仅不假,甚至十分恐怖。
掌握这么多信息,巧达科技将其应用在数据运营、大数据执法、教培、保险、招聘五大领域。
拿教培行业举例,某职业教育培训机构每日新增15万线索号码,但仅有手机号+简单信息,面临需求不明、付费率低、无效沟通增加成本、学员间转介绍困难等问题。巧达科技则可以自动补全意向学员的资料信息,将学员线索按照关系分配给课程顾问,并且发现学员通讯录中有培训需求的人。
据悉,该职业教育培训机构已积累2亿条咨询号码,但同样面临推荐错误形成骚扰、无法挖掘最大价值的困境。巧达科技则将公海里的号码进行关系影响建模,再将课程学员号码进行产品特征建模,最后进行匹配计算,得出潜在客户的分级标记,得出最适合每一位客户的前几位课程。
自诩“合法获得”数据
法律专家称站不住脚
在这份BP中,单独有5页讲述业务合规性。巧达科技称,数据获取于3个途径:
1,自有招聘网站。巧达科技自称合法取得,求职者用户直接授权,包括简历中敏感数据和非敏感数据。
2,招聘工具产品。巧达科技自称合法取得,HR/猎头用户授权,包括简历中敏感数据和非敏感数据。
3,第三方数据源。巧达科技自称合法取得,合作方授权,包括用户ID组合,通讯录,行为标签和偏好画像。
获得数据后,巧达科技将简历中敏感数据、用户ID组合、通讯录进行MD5脱敏,以及简历中非敏感数据、行为标签、偏好画像,一并放入数据库中。数据通过建模计算,结合用户的认知引擎,最后提供给客户。
法律专家、上海版权协会监事林华认为,巧达科技声称的“合法性”在事实和法律上来说都是站不住脚的。“合法”的前提是要有当事人的授权,即使巧达是通过自有招聘入口获取用户简历,使用用户信息也必须限于用户投简历的目的范围之内。超过为用户直接推荐工作机会之外的都是违反用户意愿,属于擅自利用用户信息并可能侵犯隐私。
如果巧达是从第三方获取用户数据,第三方本身不仅需要合法获得用户数据而且需要取得用户对转售简历的许可,这两个条件缺乏其一都不合法,从而导致购买和再利用数据的行为不具有合法性。
即使巧达以合法方式取得用户简历信息,对简历的使用也应是另一个独立行为。如果对汇总的用户信息经过数据脱敏,使信息不再和具体自然人而是和特定群体挂钩,即只在统计学意义上利用不包含个人身份的用户大数据,法学上基本认同这种使用方式不涉及隐私权。
但巧达科技对用户简历的使用应当不止于此,巧达科技提供的多项服务都指向用户个人,并且涉及在没有用户授权情况下对外许可,很可能涉及侵犯隐私。
此前已有贩卖简历被指控侵犯公民个人信息罪的先例。2017年,在求职网站智联招聘工作的员工先后私自出售15万份个人简历信息给“猎头”余秋云,每份简历信息售价2-2.5元,余秋云再将信息加价卖给他人。上述员工被抓获,公诉方指控三人犯侵犯公民个人信息罪。
一位行业人士告诉燃财经(ID:rancaijing),做数据生意的公司都很“低调”,属于“闷声发大财”,巧达科技也不例外。据他介绍,巧达科技为HR或猎头提供简历管理工具,并引导他们主动上传自己手中的简历以免费换取其他简历,巧达科技由此获得了大量的简历数据。
“数据交易行业里,简历数据属于比较贵的数据。”该行业人士猜测,巧达科技很可能拿着手中免费得来的简历数据和拥有其他类型数据的数据公司进行了交换,从而拿到了通讯录数据、消费数据等等其他数据。
多位行业人士告诉燃财经(ID:rancaijing),数据行业的“水很深”,个人隐私被用来非法牟利的例子比比皆是。对于此类事件,燃财经将持续关注。