Semalt网站数据收集专家-好的和坏的机器人

Web抓取已经存在很长时间了,被认为对网站管理员,记者,自由职业者,程序员,非程序员,市场研究人员,学者和社交媒体专家有用。机器人有两种类型:好机器人和坏机器人。好的bot可以使搜索引擎将Web内容编入索引,并且市场专家和数字营销人员对它们具有很高的偏爱。另一方面,不良的bot毫无用处,目的是破坏站点的搜索引擎排名。网络抓取的合法性取决于您使用过哪种类型的漫游器。
例如,如果您使用的恶意机器人从不同的网页获取内容是为了非法使用,那么网络抓取可能是有害的。但是,如果您使用好的机器人,并避免有害活动,包括拒绝服务攻击,在线欺诈,竞争性数据挖掘策略,数据盗窃,帐户劫持,未经授权的漏洞扫描,数字广告欺诈和盗窃知识产权,那么网络抓取程序就很好,并且有助于您在Internet上发展业务。

不幸的是,大多数自由职业者和创业公司都喜欢烂机器人,因为它们是一种廉价,功能强大且全面的收集数据的方式,而无需建立合作伙伴关系。但是,大公司利用合法的网络抓取工具来获取收益,并且不想以非法的网络抓取工具破坏互联网上的声誉。关于网络爬网合法性的一般性意见似乎无关紧要,因为在过去的几个月中,很明显,联邦法院系统正在打击越来越多的非法网络爬网策略。
Web抓取是从2000年开始的一项非法程序,当时使用机器人和蜘蛛来抓取网站被认为是胡说八道。直到2010年,才采取了许多措施阻止该程序在互联网上传播。eBay首次针对Bidder's Edge提出了初步禁令,声称在该网站上使用漫游器违反了Chattels法案。法院很快批准了禁制令,因为用户必须同意网站的条款和条件,并且大量的机器人被停用,因为它们可能会对eBay的计算机造成破坏。诉讼很快在庭外和解,eBay禁止所有人使用机器人进行网页抓取,无论它们是好是坏。
2001年,一家旅行社起诉竞争对手,竞争对手利用有害蜘蛛和不良机器人从网站上抓取了其内容。法官们再次采取了打击犯罪的措施,对受害者表示了青睐,他们说,网络抓取和使用机器人程序都可能损害各种在线业务。
如今,对于学术,私人和信息聚合,很多人都依赖公平的Web抓取程序,并且在这方面已经开发了很多Web抓取工具 。现在,官员们说并不是所有这些工具都是可靠的,但是付费或高级版本中的工具要比免费的网页抓取工具好 。

2016年,国会通过了第一部针对不良机器人并青睐好机器人的立法。制定了《更好的在线票务销售(BOTS)法案》,该法案禁止使用可能针对该网站的非法软件,从而损害其搜索引擎排名并破坏其业务。有公平的问题。例如,LinkedIn在阻止或消除不良机器人并鼓励良好机器人的工具上花了很多钱。由于法院一直在试图裁定网络抓取的合法性,因此公司正在窃取其数据。