an image is worth 16*16 words: transformers for image recognition at scale

it2024-12-10  23

an image is worth 16*16 words: transformers for image recognition at scale 变压器 for 大规模图像识别。变压器用于自然语言处理,计算机视觉,变压器,图像分类,图像补丁序列时。自注意力,变压器的计算效率和可扩展性。在大规模的图像识别中ResNet50仍是最新的技术,由于自注意力加卷积的速度和可扩展性差。with the fewest possible modifications用最少的修改。 we split an image into patches and provide the sequence of linear embeddings of these patches as an input to a Transformer.Such models yield modest results这样的模型产生恰当的结果。归纳偏差,等方差和局部性,数据量不足的情况下。Transformers attain excellent results when pre-trained at sufficient scale and transferred to tasks with fewer datapoints.变压器 机器翻译 不了解变压器的先前应用 with 对整个图像的自注意力。iGPT将变压器应用于图像像素 after 减少图像分辨率 和颜色空间。 ResNet的中间特征图 被早期阶段所取代 一个通道的特征图被展开成一个序列 维度 变压器 分类输入嵌入和位置嵌入。

最新回复(0)