行业震荡!大批数据公司被查:是爬虫之错还是暴力催收的“锅”?
过去一周,杭州、上海多家数据科技公司接连被查。其中杭州魔蝎科技公司(下称“魔蝎科技”)、杭州存信数据科技有限公司的办公地点已经被贴上了警方封条,魔蝎科技的官网也已经无法打开。
上海一位从事金融科技行业多年的资深人士告诉南都记者,上述公司被查的原因很可能与违规使用爬虫数据以及暴力催收有关。而就在几天前,一张网传截图显示,知名第三方数据服务公司聚信立宣布将暂停对外提供用户授权的运营商爬虫服务。
在网贷行业,数据提供方通过爬取用户的央行征信报告,水电煤气使用等生活信息,以及在运营商、电商平台、社交平台上留下的行为信息,经过清洗、聚合形成数据产品,再提供给网贷平台评估放贷风险。
作为常见的信息获取技术,爬虫在各个行业被广泛运用,为什么唯独在网贷行业碰了壁?使用爬虫批量获取信息的界限在哪里?是否获得了用户授权?催收公司有权利用爬取的他人电话号码催收吗?
9月11日晚,每日经济新闻报道称,国内知名币圈项目公信宝运营主体——杭州存信数据科技有限公司被贴上了封条,封条上印有“古荡派出所封”字样。公信宝股东之一、币圈知名人士李笑来当晚发微博称“做天使投资真的不是容易的事儿啊!”疑似回应公信宝被查。
公信宝官网显示,公司成立于2016年,是一家以区块链为核心技术的数据科技公司,旨在提供企业间、个人间、企业与个人之间的数据交换服务,建构底层公有链,同时为公众打造进入区块链世界的通行证。
事发后不到24小时,又有业内人士爆料称,12日上午11点多,天翼征信的总经理、副总经理以及市场人员被警察带走。据一本财经报道,有内部员工透露是因为天翼征信跟之前被调查的公司有合作,去主动说明情况。
天翼征信官网显示,该公司成立于2014年,是中国首家运营商旗下征信机构,属于电信控股的子公司。有数据行业从业者对一本财经表示,“连国企都开始被调查了,可见数据行业的整顿力度之大。”
而上文中提到的被调查的合作公司,应该就是此前已经出事的几家数据科技公司。还有接近监管的知情人士透露,有几十家大数据公司已进入调查名单。
据开放财经披露的一张《公信宝产品服务价格表》显示,公信宝提供了涵盖社保、学信网、京东、电信、移动、联通、智联招聘、芝麻信用分、微信、支付宝、人行征信数据等的爬虫抓取服务。
上述资深人士对南都记者指出,魔蝎科技等数据公司主要做的是爬虫业务,只需通过用户的账户名和密码,就可以爬取用户的所有通话明细,根据亲密度来提供给催收公司使用。
“爬虫这个技术本身是合规的,但是不代表机构就可以使用爬到的手机号催收”,他说。
数据公司提供的用户信息可以详细到什么程度?
2017年,南都记者曾在一家数据公司花3.8元买到了自己长达33页的运营商报告,内容涉及基本身份信息,近半年的通话记录详情、账单消费、出行信息和人脉关系等,并有详细的量化评分。
此外,报告中还能看到借款人的居住地址,入网时长,黑名单通信记录,民间借贷、银行、P2P平台与互联网小贷等通信记录,甚至还有公检法和澳门通信记录等。该公司还称可提供电商、社保、公积金、央行和学信网的数据。
不难发现,这些数据公司在提供风控服务的同时,将用户的个人隐私置于极大的风险当中。那么,利用爬虫技术采集和使用用户数据的界限到底在哪?
“在风控场景下,使用爬虫抓取公开数据进行比对虽然不是唯一手段,但的确非常重要”,北京安理律师事务所合伙人王新锐介绍,金融风控场景涉及到多种信息的交叉比对,比如检测用户是不是“羊毛党”或机器人。
确定是真实用户之后,还要调查之前有无违约记录、是否进入了其他公司的黑名单,需要用户自己提供更多个人信息,一些公司还会要求借款人授权爬取在其他平台的交易记录。
一名征信行业的从业者叶先生告诉南都记者,有爬虫业务的第三方数据公司本身不掌握数据源,只能对外爬取数据,别无他法。
南都记者了解到,网贷公司会先接入数据公司的API接口,出现授权页面后,让用户输入账号和密码。然后数据公司在自家服务器上用爬虫模拟用户行为,登录相关网站获取数据。
在网贷行业数据安全专家韩洪慧看来,这其实是一个非常取巧的行为——相当于用户自己打开了门,但他自己其实并不知道爬虫爬取了多少信息,也控制不了爬取的信息以后还会被用在哪里。
上海金融和法律研究院研究员傅蔚冈表示,爬虫爬取的信息分为公开和保密两种,前者如公开的网页信息,后者如任何公司都会采取保护措施的用户地址、交易记录甚至个人隐私等信息。“如果爬取的是后者,显然就涉及侵犯商业利益和个人隐私了”,他强调。
王新锐也提到,对于平台上非公开的后台数据,如果使用各种技术手段绕过反爬技术措施强行爬取,涉嫌侵入计算机系统,有可能构成犯罪。不过,在他看来,出现问题的公司的数据来源往往不仅仅是爬取公开数据,也可能来自数据交易。
《中华人民共和国网络安全法》第四十一条规定,网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意。
第四十二条规定,未经被收集者同意,不得向他人提供个人信息。
“两高”的《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》进一步明确,非法获取、出售或提供行踪轨迹信息、通信内容、征信信息、财产信息50条以上的即入罪。
曾有大数据公司的相关负责人对南都记者表示,“我们本身不生产数据,也不买卖数据。所有的数据都是由客户授权,我们收的只是技术服务费用。”
用户授权就能成为数据公司采集、使用甚至售卖的通行证吗?那可不一定。
在叶先生看来,用户授权并非就为爬虫业务披上了合法的外衣,过度爬取和不明使用信息的现象仍十分普遍。此外,一些第三方数据公司会把爬取的信息存储或缓存下来,再对外提供数据服务,这就违法了;如果涉及到买卖数据,更是触犯刑法。
“数据安全和隐私保护的问题日益凸显,目前的大数据风控行业更像是在刀尖上跳舞。”他说。
大量数据公司被查,波及的是整个大数据行业。
一位大数据专家告诉南都记者,大数据行业主要有三种业态:一种是提供数据服务的数据服务提供商;另一种是提供大数据软件、算法、引擎的大数据软件提供商;还有一种是将大数据、平台、服务、运营整合成体系的大数据集成服务提供商。
“目前壁垒低、需求大、来钱快的就是第一种,主要应用于精准营销和金融风控”,他说,金融风控主要服务于金融领域的风险控制,例如个人互联网贷款的风险控制,所以相关数据绝大部分都属于个人敏感信息,“也是现在黑市上卖得最好的”。
他透露,小型现金贷公司不像大型公司拥有海量数据,可是催收需要数据,业务和流量也需要数据,他们只能想方设法收集用户数据,比如从黑市购买,与其他公司交换数据,或非法爬取数据。
在这些数据中,借款人的通讯录数据是一个是个重灾区。
不少公司会利用各种手段抓取通讯录,日后用于催收,这种情况下就构成对联系人个人信息的非法获取。正式由于催收中经常有这类不规范的操作,长此以往几乎和暴力催收画上了等号,变成受人唾弃的行业。
对此,王新锐指出,催收是商业放贷中的正常环节,但一定要保护用户的个人信息。比如催收是不是获得了借款人的事前同意?是不是进行了人身威胁甚至使用暴力?有没有对不相干的他人造成骚扰?
“很多时候放贷公司会把催收委托给第三方催收公司,甚至直接把债务连同用户的联系人信息卖给催收公司”,他对南都记者表示,双方在放贷环节上可能缺乏合规意识,没有把催收环节提前说清楚。
在他看来,网贷平台要求借款人将直系亲属作为联系人还有合理性,但借款人不还钱就骚扰其手机联系人,就没有任何法律依据,还会引起反感,这也是目前催收整治的动因。
“现在都在强调合规经营,保护隐私。”一名催收公司负责人方先生告诉南都记者,自家催收业务很早就暂停了,因为公司的甲方(主要是网贷平台)基本已经倒闭了。
在他看来,目前针对大数据公司的监管,使得国内互联网金融行业大洗牌,至于洗牌之后的场景,谁也不知道。“现在的形势是行业出现恐慌,大家都不晓得何去何从。”他说。
一名网贷公司相关负责人也告诉南都记者,目前行业里的爬虫业务类数据公司基本都已暂停,这不免对相关企业造成影响,比如在进行风控时,一些特征数据将会缺失。
不过长远来看,他认为这次大数据行业整顿对行业是好事,尽早规范,就会减少很多不确定因素,让行业稳定发展。
本文系作者:
赵同学
授权发表,鸟哥笔记平台仅提供信息存储空间服务。
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》
如对文章、图片、字体等版权有疑问,请点击
反馈举报
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)