一般情况下,我们采集到的网页数据需要进行二次处理,比如替换关键词、移除空白字符、进一步提取、下载其中的图片等等。
点击字段的下拉框,选择数据处理
。 然后点击新建
处理步骤。
易搜可视化采集软件提供一下几种处理步骤
- 清除HTML标签,顾名思义,就是移除掉所有HTML标签。
- 正则匹配,使用
正则表达式
对内容进行提取。 - 文本替换,替换内容的指定字符,支持
正则表达式
。 - 字符转码,包含了HTMLEncode,HTMLDecode,UrlEncode,UrlDecode,JSEncode,JSDecode, Base64等转码形式。
ToDate
为新增类型,可以转换时间戳为指定时间格式,可以从内容中提取去日期,并且格式化。 - 添加前后缀,对字段内容添加前后缀,通常用在拼接网址上。可引用改字段之前的字段值,引用方式
{字段名称}
。 - 执行JavaScript,运行一段JavaScript代码,可以做一些复杂的数据处理,比如运算、字符串操作。可以引用其他字段值。
- 执行C#代码,运行一段 C# 代码,结果是返回的字符串类型。比如
return content.Length.ToString()
结果是当前字符串的长度。 - 正文提取, 通过正文提取算法,将页面中的正文和标题自动识别并提取。适用于一般的新闻、文章页面。
- 字符映射,对字段值进行一一替换,应用场景,将目标网站的分类、栏目映射为自己网站的分类。 比如把a,b,c 映射为1,2,3。
- HTTP请求,可以构造一个HTTP请求(支持
POST
,可以引用其他字段值),并将请求的响应作为处理结果。
请先
!