微微CMS文章采集接口使用文档
微微CMS从5.0开始就已经提供了采集接口,由于工作和其他原因,一直没来的几家写文档,今天就来详细解释一下使用方法。
采集是什么?
从别的网站直接通过爬虫采集工具自动抓取的过程就做采集。(一定要注意有些网站规定了不能采集,非法采集需要承担法律责任)
开启抓取配置
采集接口请求的时候需要在Header头部加入token字段,值为后台的token设定的值,token设置你可以在后台系统设置->后台访问token里面找到并进行配置
入库接口
请求地址 Post
http://youerdomain/api_article_post
入库字段
请求字段 | 是否必填 | 说明 |
---|---|---|
title | 是 | 文章标题 |
description | 否 | 文章描述 |
keywords | 否 | 文章关键字 |
origin | 否 | 采集网站的原始URL |
tags | 否 | 文章的tag,逗号分割 |
topics | 否 | 文章归入专题,逗号分割 |
content | 否 | 文章内容(采集里面包含图片的不要处理,清洗接口会去读取原始url自动抓取替换) |
url | 否 | 文章url重写 |
img | 否 | 文章封面图片 |
ext | 否 | 文章扩展字段(k,v) |
start_time | 否 | 文章发布时间 |
author | 否 | 文章作者 |
cate_name | 否 | 文章归入分类 |
以上入库字段通过json/form 都可以正常传入
入库清洗
入库接口只负责入库,真正的清洗接口才会对数据进行归类处理。比如分类归档,tag标签归档,专题归档,图片远程抓取。等等。
请求地址 Get http://youerdomain/api_article_post