3.5 数据抓取

数据抓取是Uni Studio的一个重要功能,它让您仅通过简单的几步界面操作便可批量爬取网页中的数据。

1 选择第一个元素界面

img

点击“下一步”,进入开始选取状态。开始选取后,当鼠标移动到网页上的某一位置时,程序会自动判断该位置元素的信息,并用高亮的方式显示该元素以方便用户选取。

img

当选中目标元素后,点击鼠标左键,程序会自动记录该目标元素的信息。

2 选择第二个元素界面

img

第一个元素选取完毕后,还需要选择第二个元素。我们会自动计算两个元素描述信息的公共部分并记录下来,以便后续获得页面上所有具有该特征的元素信息,实现全数据的抓取。

3 列配置界面

img

第二个元素选取完毕后,若两个元素有公共信息,则会进入到配置列界面。该界面可配置提取信息的列名称等属性。同时,程序会在网页上将符合条件的所有元素更改为同一背景色。

img

4 数据预览界面

img

配置完成后,会进入数据预览界面,该界面会将当前页面下符合配置条件的元素形成的数据表展示出来以便查阅,同时还可以点击“提取相关数据”按钮添加页面中的其他列,添加其他列的方法与前文描述的方式一致。

5 提取整表

当选择第一个元素时,程序会自动判断所选元素是否属于一个表格中的一部分,若该元素属于一个表格,则会弹出提示框。

img

若选择是,则程序提取整个表,并直接跳转至数据预览界面;否则,进入选择第二个元素界面。

img

6 编辑数据定义

程序为具有一定计算机编程基础的用户也提供了高阶操作功能, 用户可以根据自身情况直接用代码描述数据定义,以得到更精准的抓取效果。

img