第四周周报

it2023-10-05  82

第四周周报

在上一周中,我完成的内容主要有:数据处理以及模型选择与数据训练。

数据处理

我对于原数据中一些字符型数据,转换为数值型数据,如:

employmentLength列中的< 1 year 与 10+ years,我首先将其转换为0 year与10 year,然后,只取数字部分,这样讲字符转换为了数值。对于subGrade,我将其从A1到G5映射到了1到35。

我还将原数据中一些列删除,降低数据的维度,加快训练速度,并同时排除掉一些与结果无关的列,如id’,‘isDefault’,‘policyCode’,‘grade’,这些列或者只是唯一标识,或者只有单一值存在,或者有更详细的列代替,因此我将这些列删除。

模型选择

我采用的是lightgbm模型,它是GBDT的高效实现,主要具有简洁高效,占用内存少,支持并行化处理的特征。 我利用sklearn的train_test_split函数,将训练集进行划分,用于度量训练结果。 对于目前初步得到的结果,在比赛中的排名是: 在接下来的时间里,我主要需要对模型的参数进行进一步的优化,可以采用贝叶斯或者其他方法进行调整。另外,我需要对数据进行进一步的处理,我觉得通过数据处理可以更好地取得更优秀的结果。

最新回复(0)