kaggle入门篇----titanic幸存者估计（1）

it2023-09-08 111

数据读取

数据处理

随机森林预测

数据读取

数据处理为机器学习入门基础，参考Kaggle比赛的数据库，开始简单入门数据处理，以titanic幸存者估计为例。

首先来看下训练集参数：

训练集规模为891个人的基本信息

Passengerid:表示乘客的ID

Survived:表示幸存者，0表示死亡，1表示存活

Pclass:表示该乘客所处的舱位等级，由高到低分为1,2,3等舱

Name:表示姓名

Sex:表示性别

SibSp:表示兄弟、姐妹、配偶数（sister、brother、spouse）

Parch：表示父母、孩子数(parent、chidren)

Ticket:表示乘客的船票号

Fare：表示票价

Cabin：代表乘客所在的舱位

Embarked：代表乘客登船口岸

数据处理

通过训练集参数可知，上述参数有些有缺省值，需特别注意对缺省值得处理。

查看表格中缺省值：返回值为true表示缺省，false表示不缺

#返回值为true表示缺省，false表示不缺 print(np.isnan(train_data["Age"]).any()) print(train_data.isnull().any()) print(test_data.isnull().any())

缺省值处理方式：

（1）采用0填充：data.fillna(0)

（2）删除缺省值：data.dropna(inplace=True)

需要从数据集中读取并计算性别为女性的存活率：

train_data = pd.read_csv("H:/kaggle compete/titanic/train.csv") #单独罗列出women的存活情况 women = train_data.loc[train_data.Sex == 'female']["Survived"] female_Survived_rate = sum(women) / len(women)

women的数据格式如下：第一列表示行索引值，这里没有行索引值，默认从0 开始，别和Passengerid搞混了，第二列表示Survived

注意到人员名称中有一系列头衔，如'Mr','Master'，'Major'等，所以可能职业对幸存者有一定的影响，先予以分析：

import re import pandas as pd import re train_data = pd.read_csv("H:/kaggle compete/titanic/train.csv") title_all_data = train_data.copy() # apply:当一个函数的参数存在于一个元组或者一个字典中时，用来间接的调用这个函数，并将元组或者字典中的参数按照顺序传递给参数 # lambda定义一个匿名函数，“：”前面的表示输入参数，后面的表示函数输出。 # str.replace('.','')表示用空字符替换掉"." title_all_data['title'] = title_all_data.Name.apply(lambda x: re.search('\w+\.', x).group()).str.replace('.', '') dic = { 'Mr': 'Mr', 'Mrs': 'Mrs', 'Miss': 'Miss', 'Master': 'Master', 'Don': 'Don', 'Rev': 'Rev', 'Dr': 'Dr', 'Mme': 'Mme', 'Ms': 'Ms', 'Major': 'Major', 'Lady': 'Lady', 'Sir' :'Sir', 'Mlle' : 'Mlle', 'Col' :'Col', 'Capt':'Capt', 'Countess': 'Countess', 'Jonkheer':'Jonkheer' } for titled_man in dic: survived = train_data.loc[title_all_data.title == titled_man]["Survived"] str=titled_man+":" print(str,sum(survived) / len(survived)) # print(title_all_data.head()) # unique函数去除其中重复的元素 # print(title_all_data.title.unique()) # print(title_all_data.info())

输出：可见，职业与存活率也有一定关系

随机森林预测

import pandas as pd from sklearn.ensemble import RandomForestClassifier # 读取训练数据 train_data = pd.read_csv("H:/kaggle compete/titanic/train.csv") # 读取训练数据 test_data = pd.read_csv("H:/kaggle compete/titanic/test.csv") y = train_data["Survived"] #使用以下5个标签数据 features = ["Pclass", "Sex", "SibSp", "Parch", "Fare"，"Age"] X = pd.get_dummies(train_data[features]) X_test = pd.get_dummies(test_data[features]) #对缺省数据进行填充，这里把测试集Fare填充为0，测试集和训练集的Age填充为20 X_test["Fare"] = X_test['Fare'].fillna("0") X_test["Age"] = X_test['Age'].fillna("20") X["Age"] = X['Age'].fillna("20") #采用随机森林模型进行预测 model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1) model.fit(X, y) predictions = model.predict(X_test) output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': predictions}) output.to_csv('my_submission.csv', index=False) print("Your submission was successfully saved!")

这样一个简单的机器学习程序在测试集的准确率在0.78468左右

原因：随机森林原理还有待进一步学习，这里仅仅进行调包操作，而且缺省值操作也是没有完全按照原则进行，如年龄就选取的很随意，参数选择也需要挑选

最新回复(0)