JC-Kaggle使用指南

it2025-04-07  17

目 录

前言新建文件操作界面简介version(save/commit)Add data!git clone Kaggle路径关于文件夹的可见性 下载数据集

前言

因为打算学习transfer_learning,找的的案例需要用到kaggle上的数据集,800+M懒得下了,就想着顺手学一下kaggle怎么用,以后也好在colab和kaggle之间切换。但是看网上的内容可能有的比较老了,对我这种新新手不是太友好,所以打算自己总结一份简易入门的手册。

新建文件

notebook文件指的是.ipynb文件,script文件指的是.py文件。accelerator指的是是否启用GPU。 上图中的所有设置,在创建文件后都还可以修改。 下面我们先以创建notebook为例。

操作界面简介

version(save/commit)

save的话是存储该文件的一种版本,比如你当前正在试错,你可以在试错前先存一份预留, commit是提交并运行的。你训练的网络,需要在commit后才能拿到输出模型。 查看历史版本内容,也可以go to viewer去编辑。

Add data

选择kaggle提供的数据集或者上传自己的数据集。

我们选择Dogs vs.cats竞赛数据集,点击Add后在input中会显示。 点击数据集中的一个文件,可在编辑栏看到他的路径和内容。

!git clone

克隆后的文件夹会放到output中。如果没有看到,请刷新。然后点击文件夹右侧复制路径,可以cd进入。

Kaggle路径

如果你不小心进入了一个你看不到的路径,并且使用Data处复制到的路径也cd不了,你可以尝试以下命令回到input或者working区域:

cd /kaggle/input cd /kaggle/working

在此补充一点:input和working可以看做是总目录kaggle下的并列的两层上层目录。

关于文件夹的可见性

我们在本地可以直接在电脑上新建文件夹,可视化地对文件进行分类,新建,移动等,还可以实现文件夹的分级操作。在colab上其实也是可以办到文件夹的可视化操作的。但是在kaggle上就完全不行,必须按照Linux的操作方式。 在某路径下新建文件夹需要用命令mkdir 路径名/新建文件夹名,具体例子如

mkdir ./new

删除某路径下的文件或文件夹,下边的new可以是文件或文件夹。

rm -r ./new

下载数据集

以colab为例,在colab上下载kaggle竞赛的数据集。 首先获取kaggle的下载权限(秘钥):在My Account中点击create new api token,会下载一个json文件,其中包含秘钥。同时会在网页上弹出图示的绿框,提醒我们必须要将此文件放在哪个路径下。 然后我们指定一个创建一个py或ipynb文件,执行以下命令,进入欲下载的目录和安装kaggle包。

按照如下操作,在指定位置放好刚才下载的json文件,并给予文件权限。注意我们对json文件的所有操作都是为了将其放在/.kaggle下。 然后我们到kaggle官网中寻找需要的数据集,并复制它的下载命令。如下所示: 接着我们指定下载路径,并粘贴下载命令即可完成下载。 打开目录,检查一下(当然了,他会给你放到一个competitions的文件夹下,这只能在后期修改,上面的命令中不能改):

在本地使用命令来下载kaggle的数据集时,如果出现json放到./kaggle出错的情况,可以参考这篇文章。

最新回复(0)