一般情况下,我们采集到的网页数据需要进行二次处理,比如替换关键词、移除空白字符、进一步提取、下载其中的图片等等。

点击字段的下拉框,选择数据处理。 然后点击新建 处理步骤。

dataproc

易搜可视化采集软件提供一下几种处理步骤

  1. 清除HTML标签,顾名思义,就是移除掉所有HTML标签。
  2. 正则匹配,使用正则表达式对内容进行提取。
  3. 文本替换,替换内容的指定字符,支持正则表达式
  4. 字符转码,包含了HTMLEncode,HTMLDecode,UrlEncode,UrlDecode,JSEncode,JSDecode, Base64等转码形式。ToDate为新增类型,可以转换时间戳为指定时间格式,可以从内容中提取去日期,并且格式化。
  5. 添加前后缀,对字段内容添加前后缀,通常用在拼接网址上。可引用改字段之前的字段值,引用方式{字段名称}
  6. 执行JavaScript,运行一段JavaScript代码,可以做一些复杂的数据处理,比如运算、字符串操作。可以引用其他字段值。
  7. 执行C#代码,运行一段 C# 代码,结果是返回的字符串类型。比如 return content.Length.ToString() 结果是当前字符串的长度。
  8. 正文提取, 通过正文提取算法,将页面中的正文和标题自动识别并提取。适用于一般的新闻、文章页面。
  9. 字符映射,对字段值进行一一替换,应用场景,将目标网站的分类、栏目映射为自己网站的分类。 比如把a,b,c 映射为1,2,3。
  10. HTTP请求,可以构造一个HTTP请求(支持POST,可以引用其他字段值),并将请求的响应作为处理结果。