爬虫设计思考之一

news/2024/10/3 13:27:46 标签: 程序人生

爬虫设计思考之一

经常做爬虫的人对于技术比较的执着,尤其是本身从事的擅长的技术领域,从而容易忽视与之相近或者相似的技术。因此我建议大家在遇到此类问题的时候,可以采用对比分析的方式来理解。 本次的思考是基于国内最大的中文搜索引擎百度以及自动化的机器人执行技术RPA.

一、常规的爬虫与百度爬虫异同之处:

相同之处:
1.都是通过自动化的程序从网页中提取数据

2.都需要对网站的数据进行去重处理以及数据清洗

3.都需要持续完善并维护采集系统
不同之处:
1.数据量级不同,百度的数据量级达到TB或者PB的级别,也是国内最大的中文搜索。

2.系统复杂度不同,我们常规的爬虫是通过脚本或者使用开源框架编写的爬虫,更多的做的是垂直领域的数据采集,而百度搜索系统类似通用爬虫,可以抓取整个互联网上的信息,因此复杂度相对较高。

3.网站友好度,常规的爬虫是不会遵循robots协议的,因此会对目标采集网站的正常使用产生严重的影响,而百度搜索引擎,则会遵循这个君子协议,网站允许的则抓取,不允许的则放弃抓取。对用户的网站影响较小,并且有益于网站的收录。

4.在一些场景下常规的爬虫可以更加高效的通过爬虫脚本快速的完成网站页面的数据提取,相对更加的灵活,快速,高效。

5.常规的爬虫在垂直领域的数据抓取的质量要相对较高,而百度搜索数据量大但是数据相对较为分散,专业性较低,因此,有些大佬们会说现在的百度已经变成了僵尸站点,人们很难在上面获取到有价值的数据了。

6.常规的爬虫可以由开发者控制爬虫的并发性,例如在一段时间内需要完成大量的数据采集,就需要提高爬虫的并发以及使用分布式爬虫去调高采集的效率。这样的爬虫控制权在自己的手中,有利于短时间完成采集任务。而百度的采集一般用户是可以在百度站点提交采集的频率,已限制百度对网站的影响。

二、常规的爬虫和RPA的异同点:

不同之处:
1.技术层面的不同,rpa是机器人自动化执行一些操作。模拟用户的点击选中,操作一些重复性比较高的业务流程工作。

2.应用方向的不同,爬虫是通过自动化的程序完成网站页面的数据提取,而rpa更加的侧重执行企业重复的业务流程的自动化。

3.用户体验,rpa作为自动化的机器人执行工具,相较于编写爬虫脚本执行自动化的流程来说更加的容易,现在市面上也有很多的这样的工具例如八爪鱼,影刀rpa。

4.适用群体,RPA适合有明确的业务流程及操作的业务使用,并不适用于所有的业务,必须是标准的流程管理及控制。需要对员工培训rpa的使用。

相同之处:

1.rpa也可以用来执行一些网站数据提取的任务,也可以充当爬虫使用。

2.爬虫和RPA都可以模拟人的点击,输入,拖拽等操作爬虫可以通过自动化测试的工具实现这样的模拟浏览器的操作,提高工作的效率节省人力成本。

3.rpa和爬虫都需要不断的对各自的脚本代码进行更新,持续维护。

爬虫技术和rpa技术的结合

可以更好的发挥技术对于业务赋能的能力,同时这两者的界限并不是特别的明确,一些rpa工具也可以实现网页抓取的功能。一些爬虫也可以通过自动化测试的库来完成模拟人的点击,输入、拖拽的能力。这种现状将会使爬虫和rpa的技术更加的成熟,更好的服务用户及为业务赋予更多的可能性,开拓更多的应用场景。

人工智能的技术加持

未来的爬虫和rpa的联系更加的紧密,也将会有更多的创新,不仅自动化还更加的智能化,为更多的行业发展提供更好的技术服务的支持。

本文由 mdnice 多平台发布


http://www.niftyadmin.cn/n/5688458.html

相关文章

WDG看门狗在stm32中的应用

一,WDG看门狗的介绍 看门狗可以监控程序的运行状态,当程序因为设计漏洞、硬件故障、电磁干扰等原因,出现卡死或跑飞现象时,看门狗能及时复位程序,避免程序陷入长时间的罢工状态,保证系统的可靠性和安全性看…

Nginx基础详解5(nginx集群、四七层的负载均衡、Jmeter工具的使用、实验验证集群的性能与单节点的性能)

续Nginx基础详解4(location模块、nginx跨域问题的解决、nginx防盗链的设计原理及应用、nginx模块化解剖)-CSDN博客 目录 14.nginx集群(前传) 14.1如何理解单节点和集群的概念 14.2单节点和集群的比较 14.3Nginx中的负载均衡…

C++平台跳跃游戏

目录 开头程序Game.cpp源文件Player.h头文件Player.cpp源文件 程序的流程图程序游玩的效果下一篇博客要说的东西 开头 大家好&#xff0c;我叫这是我58。 程序 Game.cpp源文件 #include <iostream> #include "Player.h" using namespace std; void printma…

华为杯”第十二届中国研究生数学建模竞赛-D题:单/多列车优化决策问题的研究

目录 摘 要: 一、问题叙述 1.1 研究背景 1.2 要解决的问题 二、基本假设、名词约定及符号说明 2.1 模型假设 2.2 名词约定 2.3 符号说明 三、问题分析与模型准备 3.1 问题分析 3.2 数据处理 3.3 模型准备 3.3.1 列车运行动力学模型 3.3.2 列车运行耗能模型 四、问题一模型建立…

SAP HCM 组织与自定义组织事物一致性解决方案

1 背景 因为组织新增设计到hrp1000、hrp1001、hrp9xxx相关的表&#xff0c;而且这些信息类型创建是不同的函数组成&#xff0c;所以现在解决方案是每个单独的函数创建后&#xff0c;并不立刻更新数据库&#xff0c;等到一个指令后统一更新数据库&#xff0c;这个函数名是RH_UP…

4S店4S店客户管理系统小程序(lw+演示+源码+运行)

社会的发展和科学技术的进步&#xff0c;互联网技术越来越受欢迎。手机也逐渐受到广大人民群众的喜爱&#xff0c;也逐渐进入了每个用户的使用。手机具有便利性&#xff0c;速度快&#xff0c;效率高&#xff0c;成本低等优点。 因此&#xff0c;构建符合自己要求的操作系统是非…

JavaWeb——Vue组件库Element(3/6):常见组件:Dialog对话框、Form表单(介绍、使用、实际效果)

目录 Dialog对话框 介绍 使用 实际效果 Form表单 介绍 使用 实际效果 Dialog对话框 介绍 Dialog对话框&#xff1a;在保留当前页面状态的情况下&#xff0c;告知用户并承载相关操作。 Dialog 对话框组件可以在保留当前页面信息的状态下弹出一个对话框&#xff0c;并…

SQL进阶技巧:统计各时段观看直播的人数

目录 0 需求描述 1 数据准备 2 问题分析 3 小结 如果觉得本文对你有帮助&#xff0c;那么不妨也可以选择去看看我的博客专栏 &#xff0c;部分内容如下&#xff1a; 数字化建设通关指南 专栏 原价99&#xff0c;现在活动价39.9&#xff0c;十一国庆后将上升至59.9&#…