专题：爬虫：从入门到喜欢（二）

2021-04-15

1. Scrapy

我们已经知道如何获取网页源代码，解析数据。现在思考如何提高爬虫的规模，进而提高采集数据的“量”。Scrapy是基于Python的分布式爬虫框架。使用它可以非常方便地实现分布式爬虫。让开发者集中精力在数据的提取上。

（1）使用Scrapy获取网络源代码。

（2）在Scrapy中通过BeautifulSoup解析数据。

（3）在Scrapy中使用MongoDB。

（4）在Scrapy中使用Redis。

more >>

展开全文 >>

专题：爬虫：从入门到喜欢（一）

2021-04-15

1. 正则表达式

1.1 基本符号

符号	含义
.	一个点号可以代替除了换行符以外的任何一个字符，包括但不限于英文字母、数字、汉字、英文标点符号和中文标点符号
*	一个星号可以表示它前面的一个子表达式（普通字符、另一个或几个正则表达式符号）0次到无限次。
?	问号表示它前面的子表达式0次或者1次。注意，这里的问号是英文问号。
.*?	问号最大的用处是与点号和星号配合起来使用，构成“.*? ”。通过正则表达式来提取信息的时候，是用到最多的组合。
.* 和.*?	. * 是贪婪匹配，获取最长的满足条件的字符串。.*?是非贪婪，匹配一个能满足要求的最短字符串。
\	反斜杠需要和其他的字符配合使用来把特殊符号变成普通符号，把普通符号变成特殊符号。在使用了反斜杠以后，反斜杠和它后面的一个字符构成一个整体，因此应该将“\n”看成一个字符，而不是两个字符。
\d	正则表达式里面使用“\d”来表示一位数字。为什么要用字母d呢？因为d是英文“digital（数字）”的首字母。
()	小括号可以把括号里面的内容提取出来。

more >>

展开全文 >>

XGBoost

2021-03-31

1. 网格搜索

交叉验证只能导入没训练过的模型，

方差：稳定性

偏差：准确性

类StratifiedShuffleSplit

其创建的每一组划分将保证每组类比比例相同。即第一组训练数据类别比例为2:1，则后面每组类别都满足这个比例

2. xgboost库与XGB的sklearn API

2.1 使用xgboost库

import xgboost as xgb

2.2 使用sklearn中的API

from xgboost import XGBRegressor as XGBR

使用xgboost中设定的建模流程来建模，和使用sklearnAPI中的类来建模，模型效果是比较相似的，但是xgboost库本身的运算速度（尤其是交叉验证）以及调参手段比sklearn要简单。

3. 目标函数

XGBoost的目标函数=传统损失函数+模型复杂度

$Obj=\sum_{i=1}^{m}{l(y_i,\hat{y_i})}+\sum_{k=1}^{K}{\Omega(f_k)}\qquad (1)$

其中 $i$ 代表数据集中的第 $i$ 个样本， $m$ 表示导入第 $k$ 棵树的数据总量， $K$ 代表建立的所有树，当只建立了 $t$ 棵树时，式子应当为 $\sum_{i=1}^{t}{\Omega{f_k}}$ 。(1)中第一项代表传统的损失函数，衡量真实标签 $y_i$ 与预测标签 $\hat{y_i}$ 之间的差异，通常是RMSE，调节后的均方误差。(1)中第二项代表模型的复杂度，使用树模型的某种变换 $\Omega$ 表示，这个变化代表了一个从树的结构来衡量树模型的复杂度的式子。通过最小化 $Obj$ 求得最优的 $\hat{y_i}$ 。

在编程中，使用参数’objective’来确定目标函数第一部分中的 $l(y_i,\hat{y_i})$ ，也就是衡量损失的部分。

Xib.train()	Xib.XGBRegressor()	Xib.XGBClassifier
Obj:默认binary:logistic	objective:默认reg:linear	objective:默认binary:logistic

输入	选用的损失函数
reg:linear	使用线性回归的损失函数，均方误差，回归时使用
binary:logistic	使用逻辑回归的损失函数，对数损失log_loss，二分类时使用
binary:hinge	使用支持向量机的损失函数，Hinge Loss，二分类时使用
multi:softmax	使用softmax损失函数，多分类时使用

展开全文 >>

朴素贝叶斯

2021-03-22

联合概率：

在概率论中，我们可以证明，两个事件的联合概率等于这两个事件任意条件概率 * 这个条件事件本身的概率。

因为分类算法给出的是“样本标签更可能是某类的可能性”，而不是一种“确定”，比如决策树使用叶子结点占比较多的标签所占的比例（接口predict_prob），逻辑回顾使用sigmoid函数压缩后的似然(接口predict_prob)，SVM使用样本点到决策边界的距离(接口decision_function)，这些指标本质都是一种“类概率”的表示，通过归一化或sigmoid函数将这些指标压缩打0～1之间，让其表示模型对预测结果究竟有多大的把握(置信度)。但希望使用真正的概率来衡量可能性，使用概率算法：朴素贝叶斯。

more >>

展开全文 >>

latex数学公式

2021-03-18

1. 解决hexo不能正确渲染latex

原生hexo并不支持数学公式

在你的blog目录下执行该命令：

1	npm install hexo-math --save

然后在站点配置文件_config.yml中添加：

math:
  engine: 'mathjax' # or 'katex'
  mathjax:
    # src: custom_mathjax_source
    config:
      # MathJax config

在主题配置文件中 themes/xxx-theme/_config.yml 中添加：

more >>

展开全文 >>