导入数据
数据预处理
去重,恢复索引,df.info(),查看缺失值,对缺失比例严重的属性列直接删除,其余填补,根据业务情况可采取mean,median,算法填补。我昨天的文章写了如何使用随机森林填补某特征列的缺失值,这儿同样采用随机森林填补缺失值。
异常值处理 比如年龄为0岁的能向银行贷款?这种不符合常识的数据直接删掉。
more >>
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent:
meta: false
pages: false
posts:
title: true
date: true
path: true
text: false
raw: false
content: false
slug: false
updated: false
comments: false
link: false
permalink: false
excerpt: false
categories: false
tags: true