基于图像的物种自动识别:虚拟数据增强能否克服采样不足的问题?

it2024-08-11  36

Image-based Automated Species Identification: Can Virtual Data Augmentation Overcome Problems of Insufficient Sampling?

基于图像的物种自动识别:虚拟数据增强能否克服采样不足的问题?

Morris Klasen1, Dirk Ahrens*2, Jonas Eberle2,3, and Volker Steinhage1

 

摘要:

物种的自动识别和界定具有挑战性,特别是在稀有物种中,因此通常很少取样,这使得无法充分区分种下变异与种间变异。由于种间形态分化程度低或过大而引起的典型问题,最好采用机器学习的自动化方法,从训练样本中学习有效和有效的物种识别。然而,有限的种下采样仍然是机器学习中的一个关键挑战。

在这项研究中,我们评估了两级数据增强方法是否有助于克服自动视觉物种识别中训练数据不足的问题。第一级视觉数据增强采用经典的数据增强方法和使用GAN方法生成虚假图像的方法。描述特征向量来自VGG-16卷积神经网络的瓶颈特征,然后使用全局平均池和PCA逐步降维以防止过拟合。第二级数据增强采用向量空间过采样算法(SMOTE)在特征空间进行合成附加采样。在金龟子(鞘翅目)的两个具有挑战性的数据集上,我们的增强方法优于非增强深度学习基线方法和传统的二维形态测量方法(Procrustes分析)。

 

介绍:

对由种内变异和种间变异所定义的物种界限的稳健估计,需要对两个层次进行充分的抽样,以识别这些边界。

我们将评估数据增强方法,通过(1)基于手工数字化半标注的样本之间二维几何形态差异的传统研究和(2)基于深度卷积网络生成的瓶颈特征的深度学习物种识别方法   进行比较。

 

最新回复(0)