设为首页 加入收藏 繁体中文 网站地图 wap手机访问
热门搜索:网页游戏 火箭球赛 热门音乐 2018世界杯 互联网 演唱会
您现在的位置:首页 >> 互联网新闻 >> 内容

‘爬虫’技术是实现网页信息采集的关键技术之一

时间:2017/12/27 4:49:22 点击:

不到两个月,2018年春节要来了。

“往年我得早下手,抢张回家的低价机票。”在北京打工的小王对科技日报记者说,由于老家在云南,春节机票太贵,他都选择坐两天两夜的火车回去,长途跋涉,苦不堪言。

但是,就在小王摩拳擦掌,预备使出“洪荒之力”抢张廉价机票时,看到网上曝出这样一则音讯:航空公司放出的低价机票,80%以上被票务公司的“爬虫”抢走,普通用户很少能买到。

小王傻眼了,“爬虫”终究是什麼鬼?它又是怎样抢机票的?难道就没有方法管理吗?

借助超链接信息抓取网页

“‘爬虫’技术是完成网页信息采集的关键技术之一,浅显来说,‘爬虫’就是一段用来批量、自动化采集网站数据的顺序,简直不需求人工干涉。”北京理工大学网络迷信与技术研讨院副教授闫怀志通知科技日报记者。

闫怀志引见,“爬虫”又称网页“蜘蛛”、网络机器人,它是一种依照一定规则自动抓取网页信息的顺序或许脚本,通常驻留在效劳器上。在Web网页中,既包括可供用户阅读的文字、图片等信息,还包括一些超链接信息。网络“爬虫”正是借助这些超链接信息来不时抓取网络上的其他网页。

“这种信息采集进程很像一个爬虫或蜘蛛在网络上遨游,网络‘爬虫’或网页‘蜘蛛’因而得名。”闫怀志说,“爬虫”最早使用在搜索引擎范畴,比方谷歌、百度、搜狗等搜索引擎工具每天需求抓取互联网上数百亿的网页,它们需求借助庞大的“爬虫”集群来完成搜索功用。

以后,“爬虫”已被普遍用于电子商务、互联网金融等诸多范畴。比方,“爬虫”可以抓取航空公司官网的机票价钱,发现低价或紧俏机票后,“爬虫”可以应用虚伪客源的真实身份信息完成抢先预订。再有,很多互联网阅读器都推出了本人的抢票插件,以高订票成功率来推行阅读器。

依据抓取义务和目的的不同,网络“爬虫”可大致分爲批量型、增量型和垂直型。批量型“爬虫”的抓取范围和目的较爲明白,可以是网页的设定数量,也可以是耗费工夫的设定。增量型“爬虫”次要用于继续抓取更新的网页,以顺应网页的不时变化。垂直型“爬虫”次要是用于特定主题内容或特定行业的网页。

“爬虫”终究是如何抢票的

此前,在线票务效劳公司携程的“反爬虫”专家在技术分享中泄漏,某网站的一个页面,每分钟的阅读量是1.2万,真适用户只要500个,“爬虫”流量占比爲95.8%。

采访中,很多业内人士也表示,即便在“爬虫”活动的旺季,虚伪流量也占到订票网站总流量的50%,顶峰期更是在90%以上。

那麼,“爬虫”终究是如何完成抢票的呢?对此,闫怀志解释,次要是机票代理公司应用“爬虫”技术,不时抓取航空公司售票官网网页信息,假如发现该航空公司有低价票放出,“爬虫”即刻应用虚伪客源身份停止批量预定但不实践领取,以到达抢占低价票源的目的。由于“爬虫”的效率远远超越正常的手动操作,招致经过正常操作简直无法抢到票。

随后,机票代理公司会经过其本身销售渠道(包括公司网站、在线游览社、客户电话订购等)找到真正的客源,在航空公司允许的账期内,退订此前运用虚伪客源身份预定的低价票,然后运用真实身份信息停止订购,最初完成该低价票的加价转售。

假如未在航空公司规则的账期内找到真正客源,机票代理公司会在订单生效前再追加虚伪身份订单,持续“占领”该低价票,如此重复,直至找到真正客源售出爲止。

“下面的操作流程就构成了完好的机票销售链条。在这个进程中,航空公司售票零碎允许在账期内重复订、退票的规则爲机票代理公司应用‘爬虫’抢票并加价获利提供便当。这种抢票方式,被称爲技术‘黄牛’。”闫怀志强调。

确实,有业内人士表示,这些“爬虫”流量耗费了少量的机器资源,却不发生任何消费,这是每个公司最痛恨的东西。但是,由于怕误伤真适用户,各家公司的“反爬虫”战略做得十分慎重。

采用一定手腕 “爬虫”可防可控

任何事情都有两面,“爬虫”技术也不例外。

在闫怀志看来,“爬虫”既可爲正常的数据批量获取提供无效的技术手腕,也可被歹意运用以获取不当利益。假如“爬虫”技术被不合理应用,就会带来一定的危害。

首先,要挟数据平安。航空公司售票网站数据被歹意爬取,数据能够会被机票代理公司歹意应用,而且还存在被同业竞争对手获取的风险。

其次,招致零碎功能下降,影响用户体验。“爬虫”少量的抓取恳求会招致航空公司售票网站效劳器资源负载上升、功能下降,网站呼应变慢甚至无法提供效劳,对用户搜索和买卖体验形成负面影响。但由于存在宏大的灰色利益空间,同时“反爬虫”技术在与“爬虫”对立中作用无限,使得这种显失公道的“作弊”方式成爲扰乱机票市场次序的技术“顽疾”。

“从技术角度来看,阻击‘爬虫’可以经过网站流量统计零碎和效劳器拜访日志剖析零碎。”闫怀志说,经过流量统计和日志剖析,假如发现单个IP拜访、单个session拜访、User-Agent信息超出设定的正常频度阈值,则断定该拜访爲歹意“爬虫”所爲,将该“爬虫”的IP列入黑名单以回绝其后续拜访。

再就是设置各种拜访验证环节。比方,在可疑IP拜访时,前往验证页面,要求拜访者经过填写验证码、选取验证图片或许字符等方式完成验证。假如是歹意“爬虫”爬取,显然很难完成上述验证操作,进而可以封锁该“爬虫”的拜访,避免其歹意爬取信息。

互联网空间不能有“灰色地带”

以后,云计算、大数据等爲代表的新一代信息技术处在高速开展阶段。

“上述新技术假如被合法或许不当使用,则会发生严重的危害。互联网空间平安需求树立健全完善的维护体系,绝不能‘裸奔’。”闫怀志说。

2017年6月1日,我国《网络平安法》正式施行,明白了各方在网络平安保证中的权益与责任。这是中国网络空间管理和法制建立从质变到量变的重要里程碑,这部法律作爲依法治网、化解网络风险的法律重器,成爲我国互联网在法治轨道上安康运转的重要保证。

但是,目前关于高科技“黄牛”倒票行爲,尚未有明白规则,使得歹意爬取信息并不当获利行爲处在法律法规监管的“灰色地带”。

闫怀志引见,国际上,针对“爬虫”使用,专门制定了Robots协议(即“爬虫”协议、网络机器人协议等)。该协议全称爲“网络爬虫扫除规范”,网站可经过该协议告知“爬虫”可以爬取哪些页面及其信息,不能爬取哪些页面及其信息。该协议作爲网站和“爬虫”的沟通方式,用来标准“爬虫”行爲,限制不合理竞争。

作爲国际互联网界通行的品德标准,该协议的准绳是:“爬虫”及搜索技术应效劳于人类,同时尊重信息提供者的志愿,并维护其隐私权;网站有义务维护其运用者的团体信息和隐私不被进犯。这就规则了爬取者和被爬取者单方的权益和义务。

一位不愿具名的法律专家也表示,“反爬虫”不只要依托技术防备和业界自律,还应该经过完善管理和法律法规手腕来约束这种行爲,尤其是法律手腕才干彰显惩治力和震慑力。航空公司也要完善账期管理,不给“爬虫”抢票提供时机。

作者:不详 来源:网络
相关评论
发表我的评论
  • 大名:
  • 内容:
  • 关于我们 | 服务条款 | 法律声明 | 文章发布 | 在线留言 | 法律支援 | 人员认证 | 投诉建议 | 合作联盟 | 版权所有 | 本站wap手机访问
  • 江苏新闻网(www.zonepv.com) © 2018 版权所有 All Rights Reserved.
  • 有害短信息举报 | 阳光·绿色网络工程 | 版权保护投诉指引 | 网络法制和道德教育基地 | 江苏省通管局

  • 江 苏 网 版 权 所 有 ,未 经 书 面 授 权 禁 止 使 用
    苏ICP备10052642号-1