【机器学习基础】对数似然回归(Logistic)对泰坦尼克号幸存者分类

it2025-03-31 52

对数似然回归(Logistic)对泰坦尼克号幸存者分类

Logistic Regression 即为对数似然回归，它可以看做是一个最简单的人工神经网络。它是通过对数据进行拟合，从而选择一条线（超平面）将数据集分成两个部分，从而实现分类。

文章目录

对数似然回归(Logistic)对泰坦尼克号幸存者分类一、对数似然回归理论知识1. 定义超平面（Hyper-Plane）2. 激活函数（Active Function）3. 损失函数（Loss Function）4. 梯度下降（Gradient Descent）5. 计算步骤二、数据（泰坦尼克号幸存者数据集）1. 数据特征说明2. 导入数据3. 可视化参考文献

一、对数似然回归理论知识

Logistic 回归的核心为下图所示，我们的目标是找到最优的w和b, w和b可以表示一条直线（超平面）用来将数据集划分为不同的部分。

1. 定义超平面（Hyper-Plane）

我们要找到一条线（超平面）来讲数据集划分成两个部分，对超平面的定义如下（其中w0和b等价）：

2. 激活函数（Active Function）

对于分类问题，就是要分类出数据所在的类别。对于一个二分类问题，我们要引入一个二值化的分类输出函数。对于输入的数据它只能是0或者1。接下来会介绍两种激活函数：Sigmod 和 Tanh 他们的图像如下（蓝色为Sigmode，红色为Tanh）。

对于sigmod，当我们输入一个值时，若带入sigmod函数>=0.5 我们则认为它为1，反之则为0。对于tanh，当我们输入一个值时，若带入tanh函数>=0 我们则认为它为1，反之则为0。 import numpy as np # 激活函数 # sigmod def sigmod(x): return np.array(1.0/(1.0 + np.exp(-x))) # tanh def tanh(x): return (np.exp(x) - np.exp(-x))/(np.exp(x) + np.exp(-x))

3. 损失函数（Loss Function）

由于要得到最优的超平面参数，我们需要定义一个损失函数，用来进行迭代，使得损失函数的值最小，获得最优的参数。损失函数的定义如下：其中y为预测值，y_hat 为实际值，y中包含w和b参数。

4. 梯度下降（Gradient Descent）

沿着梯度的方向进行迭代是最快收敛的。在这里进行反向传播更新w和b 图中的alpha表示学习率

5. 计算步骤

根据以上所述，可以得到整个计算步骤（需要指定迭代的次数）：梯度下降求参数代码如下：

# 梯度下降求解 def GD(input_data_x, input_data_y, alpha = 0.001, itera = 1000): [n, m] = input_data_x.shape # 初始化w,b w = np.ones((n, 1)) b = np.ones(1) for i in range(itera): z = np.dot(w.T, input_data_x) + b a = sigmod(z) # error dz = a - input_data_y # print(w, b) # 更新 w 和 b b -= alpha * (np.sum(dz))/m w -= alpha * np.dot(input_data_x, dz.T)/m # print(w, b) return w, b w, b = GD(train_data.T, train_label.T)

对测试数据集测试：

def test(test_data, test_label, w, b): sigmod_result = sigmod(np.dot(w.T, test_data) + b) result = [] # 判断分类 for sr in sigmod_result[0]: if sr >= 0.5: result.append(1) else: result.append(0) error = 0 for i in range(len(result)): if result[i] != test_label[0][i]: error += 1 print(error/len(result)) test(test_data.T, test_label.T, w, b)

本文实现的Logistic 回归对泰坦尼克号幸存者分类的错误率有0.23979591836734693

二、数据（泰坦尼克号幸存者数据集）

本文的数据集来自Kaggle/titanic

1. 数据特征说明

age 乘客年龄fare 船票票价sex 性别pclass 社会经济地位 1(上层) 2(中层) 3(底层)survived 是否幸存 1(幸存) 0(死亡)

根据乘客年龄，票价，性别，社会经济地位等对幸存者进行分类。

2. 导入数据

我们需要对导入的数据进行划分，划分成两个部分训练集和测试集训练集占总数据集的70%，其余为测试集。

import pandas as pd def load_csv_data(): csv_file = pd.read_csv(r'F:\UCAS\Work\Course\2020\ML\ML-Learning\ML_action\4.LogicRegression\data\titanic\train_and_test2.csv') data_set = np.array(csv_file) # 分类最后一行为是否幸存 survived = data_set[:, [-1]] survived = survived.astype(np.int) # 特征其中第1， 2， 3， 21列分别为年龄，船票，性别，社会经济地位 # input_data = data_set[:, [1,2,3,21]] input_data = data_set[:, [1,2]] return input_data, survived

数据划分

# 导入数据 input_data, label = load_csv_data() # ninput_data = normlize(input_data) # print(input_data, label) # 划分数据 m, n = input_data.shape train_size = int(m*0.7) # 训练集 train_data = input_data[0:train_size, :] train_label = label[0:train_size] # 测试集 test_data = input_data[train_size:-1, :] test_label = label[train_size:-1]

3. 可视化

下图为使用Logisitic 进行划分后的可视化图像其中红色表示死亡，绿色表示存活。横轴代表年龄，纵轴代表船票价格。大致可以得出年龄小，票价高的人存活率更高。还可以对性别或者其他的特征进行处理，这里不再赘述。

from matplotlib import pyplot as plt colors = ['green' for x in range(0, train_size)] for i in range(len(colors)): if train_label[i] == 0: colors[i] = 'red' x = np.linspace(0, 88) y = -(w[0]*x + b)/w[1] plt.plot(x, y, color='blue') plt.scatter(train_data[:, 0], train_data[:, 1], color = colors) plt.show()

参考文献

Andrew Ng 深度学习课程机器学习实战书籍国科大机器学习2020课程PPThttps://apachecn.gitee.io/ailearning/#/docs/ml/5

最新回复(0)