数据处理

一般情况下，我们采集到的网页数据需要进行二次处理，比如替换关键词、移除空白字符、进一步提取、下载其中的图片等等。

点击字段的下拉框，选择数据处理。然后点击新建 处理步骤。

dataproc

易搜可视化采集软件提供一下几种处理步骤

清除HTML标签，顾名思义，就是移除掉所有HTML标签。
正则匹配，使用正则表达式对内容进行提取。
文本替换，替换内容的指定字符，支持正则表达式。
字符转码，包含了HTMLEncode,HTMLDecode,UrlEncode,UrlDecode,JSEncode,JSDecode, Base64等转码形式。ToDate为新增类型，可以转换时间戳为指定时间格式，可以从内容中提取去日期，并且格式化。
添加前后缀，对字段内容添加前后缀，通常用在拼接网址上。可引用改字段之前的字段值，引用方式{字段名称}。
执行JavaScript，运行一段JavaScript代码，可以做一些复杂的数据处理，比如运算、字符串操作。可以引用其他字段值。
执行C#代码，运行一段 C# 代码，结果是返回的字符串类型。比如 return content.Length.ToString() 结果是当前字符串的长度。
正文提取，通过正文提取算法，将页面中的正文和标题自动识别并提取。适用于一般的新闻、文章页面。
字符映射，对字段值进行一一替换，应用场景，将目标网站的分类、栏目映射为自己网站的分类。比如把a,b,c 映射为1,2,3。
HTTP请求，可以构造一个HTTP请求（支持POST，可以引用其他字段值)，并将请求的响应作为处理结果。