120种小狗图像傻傻分不清？用fastai训练一个分类器

互推小编 2023-04-26

作者：一杯奶茶的功夫
链接：https://www.jianshu.com/p/ab35ed21df87

这篇文章会讲解如何制作能够分类120种小狗的图像分类器。

这篇文章中所讲述的内容都是基于colab notebook和fastai技术的深度学习的应用。

为什么使用colab？

使用colab的好处是，你不需要有任何显卡GPU，colab中提供了一块免费的k80带12G显存的GPU
colab是google提供的一个免费的Jupyter notebook的环境，可以省去安装它的功夫

为什么使用fastai？

fastai是一种超级简洁的深度学习工具，代码上甚至比当前Keras还要简洁。
底层是pytorch，能够提供高速的处理性能。

和之前文章中的两个物种（猫和狗）的分类略有不同，这次使用的数据集全部是狗，需要把这些狗分到不同的类别中。也就是说，图片之间特征的区别的差异要比之前猫和狗分类的来的更加细微。

好吧，接下来我们看看如何动手制作。

1.在colab的作业本中配置fastai的环境

!curl https://course.fast.ai/setup/colab | bash

2.导入fastai包

from fastai import * from fastai.vision import *

3.加载kaggle.json

这里我们准备从kaggle下载所需要的狗的数据集，如果你可以从其他地方得到数据集，那么可以省略步骤3和4，按照自己的方法在环境中导入数据集即可。

!mkdir /content/.kaggle/ !mkdir /content/data/dogsbreed/ PATH = "/content/data/dogsbreed/" from google.colab import files # load from upload dialog uploaded = files.upload() for fn in uploaded.keys(): with open(f'/content/.kaggle/{fn}', 'wb') as f: f.write(uploaded[fn])

4.安装kaggle环境

!chmod 600 /content/.kaggle/kaggle.json !pip install kaggle !cp /content/.kaggle/kaggle.json ~/.kaggle/kaggle.json !kaggle config set -n path -v{/content} import kaggle !kaggle competitions download -p /content/data/dogsbreed/ dog-breed-identification

从结果中可以看到，我们已经从kaggle成功的下载了数据集文件。

5.验证GPU

torch.cuda.is_available() #True torch.backends.cudnn.enabled #True

6.解压缩文件

! cd /content/data/dogsbreed && unzip labels.csv.zip ! cd /content/data/dogsbreed && unzip sample_submission.csv.zip ! cd /content/data/dogsbreed && unzip test.zip ! cd /content/data/dogsbreed && unzip train.zip

7.读取label.csv

labels_df=pd.read_csv(f'{PATH}labels.csv') labels_df.head()

这里我们可以看到labels.csv中的前五条数据

8.查看狗的类别

labels_df.pivot_table(index='breed',aggfunc=len).sort_values('id',ascending=False)

这里可以看到一共有120行数据，也就是120种狗的类别，以及每种类别里面有多少条数据。

9.加载数据集并显示

data = ImageDataBunch.from_csv( PATH, folder='train', valid_pct=0.2, ds_tfms=get_transforms(), size=224, test='test', suffix='.jpg', bs=64).normalize(imagenet_stats) data.show_batch(rows=3, figsize=(10,12))