微微CMS文章采集接口使用文档


微微CMS从5.0开始就已经提供了采集接口,由于工作和其他原因,一直没来的几家写文档,今天就来详细解释一下使用方法。

采集是什么?

从别的网站直接通过爬虫采集工具自动抓取的过程就做采集。(一定要注意有些网站规定了不能采集,非法采集需要承担法律责任)

开启抓取配置

采集接口请求的时候需要在Header头部加入token字段,值为后台的token设定的值,token设置你可以在后台系统设置->后台访问token里面找到并进行配置

入库接口

请求地址 Post http://youerdomain/api_article_post

入库字段

请求字段是否必填说明

title

文章标题

description

否    文章描述

keywords

文章关键字

origin

采集网站的原始URL

tags

文章的tag,逗号分割

topics

文章归入专题,逗号分割

content

否   文章内容(采集里面包含图片的不要处理,清洗接口会去读取原始url自动抓取替换)

url

否   文章url重写
img文章封面图片

ext

文章扩展字段(k,v)

start_time

否  文章发布时间

author

文章作者

cate_name

否    文章归入分类


以上入库字段通过json/form 都可以正常传入


入库清洗

入库接口只负责入库,真正的清洗接口才会对数据进行归类处理。比如分类归档,tag标签归档,专题归档,图片远程抓取。等等。

请求地址 Get http://youerdomain/api_article_post