大发5分快3技巧HPAIC人类蛋白质图谱分类挑战赛金牌经验分享 | 雷锋网

  • 时间:
  • 浏览:7
  • 来源:彩神网快3网站-彩神8app官方

雷锋网按:本文由极链AI研究院投稿。

近期,由Kaggle主办,Leica Microsystems和NVIDIA赞助的HPAIC(Human Protein Atlas Image Classification)竞赛正式始于。比赛为期俩个 月,共有来自全球的2236个队伍参加,极链AI研究院与工程院最终获得挑战赛金牌。

比赛始于

蛋白质是人体细胞中的“行动者”,执行或多或少并肩促使生命的功能。蛋白质的分大发5分快3技巧类仅限于某种或几种细胞类型中的单一模式,很久为了全版理解人类细胞的多样化性,模型需用在一系列不同的人类细胞中对混合模式进行分类。

可视化细胞中蛋白质的图像通常用于生物医学研究,你你这个细胞还都还都可以 成为下俩个 医学突破的关键。然而,机会高通量显微镜的进步,你你这个图像的生成速率单位远远超过人工评估的速率单位。很久,对于自动化生物医学图像分析以加速对人类细胞和疾病的理解,需用比以往更大的需求。

真是这是生物学方面的竞赛,很久其本质是机器视觉方向的图像多标签分类问題,参赛队伍也包括或多或少机器视觉和机器学习领域的竞赛专家。

数据分析

官方给让我门歌词 歌词 提供了某种类型的数据集,一次责是512x512的png图像,一次责是2048x2048或3072x3072的TIFF图像,数据集最少 268G, 其中大发5分快3技巧训练集:31072 x 4张,测试集:11702 x 4张。

俩个 蛋白质图谱由4种染色法子 组成(red,green,blue,yellow),图像示累似 下:

让我门歌词 歌词 将俩个 通道合并成3通道(RYB)可视化的图像如下所示:

在本次竞赛中一共有28个类别,比如 Nucleoplasm、Nuclear membrane等,每个图谱图像都还都还都可以 有俩个 机会多个标签。标签数量统计如下:

还都还都可以 发现标签数量集中在1-俩个,很久仍然会有图像有俩个标签,给比赛增加了一定的难度。

另一方面的难点是数据集中样本数量很不均匀,图像最多的类别有12885张,而图像最少的类别必须11张图像,这给竞赛造成很大的困难,样本数量分布情况还都还都可以 在图中看出。

在比赛过程中逐步有参赛者发现官方的额外数据集HPAv18,并得到官方授权,你你这个数据集有105678张,很大程度的扩大了样本数量,并肩给让我门歌词 歌词 提供了很大的帮助。

环境资源

硬件方面让我门歌词 歌词 使用了4块NVIDIA  TESLA P30显卡,使用pytorch作为让我门歌词 歌词 的模型训练框架。

图像预出理

HPAv18 图像与官方给出的图像有一定的差别,真是也是由4中染色法子 组成,很久每个染色图像是俩个 RGB图像,而全版都是官方的单通道图像,很久RGB俩个 通道的值差别较大,让我门歌词 歌词 对你你这个图像做了预出理 ,对每个RGB图像只取俩个 通道(r_out=r,g_out=g,b_out=b,y_out=b),并将你你这个图像缩倒入512x512和1024x1024某种尺度。

对于TIFF文件,让我门歌词 歌词 用了一周的时间把你你这个数据集下载下来,很久将所有图像缩倒入1024x1024。

数据增广

让我门歌词 歌词 比赛中使用的增广法子 有Rotation, Flip 和 Shear某种;机会让我门歌词 歌词 别问我一张图像中的多个细胞之间否有有关联关系,或多或少或多或少比赛中那末使用随机裁剪的增广法子 。

模型

让我门歌词 歌词 最终使用的基础模型有Inceptionv3,Inceptionv4以及Xception某种,比赛前期让我门歌词 歌词 测试了VGG,ResNet,ResNext,SeNet,很久效果全版都是很好,很久比赛末期那末再进行进一步测试。

让我门歌词 歌词 使用了512,630和30某种尺度来增加网络对图像的理解,另外每个尺度进行10折交叉验证,保证验证集的划分对网络整体的影响,以及用验证集来评估模型预测的好坏和选择模型及其对应的参数。不同模型交叉验证时使用不同的随机种子划分验证集和训练集,以尽机会多的学到不同的样本组合。

Inceptionv3和Inceptionv4的512的结果不好(0.55+ public leaderboard 阈值0.15),很久那末做交叉验证,也不用512尺度训练了基础模型,并用在630和30的微调中。

模型修改:

1.第一层卷积的输入通道数由3修改为4,保持或多或少卷积参数不变,从而使网络应对4通道输入;

2.修改最后一的池化层为全局池化层,保证在多尺度时还都还都可以 使用同俩个 网络;

3.全局池化后增加一层128的全连接,很久接一层28的全连接。

训练

训练过程的参数如下:

loss: MultiLabelSoftMarginLoss

lr: 0.05(512,imagenet 预训练),0.01(630和30,512预训练); 

lrscheduler: steplr(gamma=0.1,step=6)

optimizer: SGD (adam,rms not well)

epochs: 25, 300和30一般在12-20直接提前始于,取loss最低的模型

10 folds CV

sampling weights:[1.0, 5.97, 2.89, 5.75, 4.64, 4.27, 5.46, 3.2, 14.48, 14.84, 15.14, 6.92, 6.86, 8.12, 6.32, 19.24, 8.48, 11.93, 7.32, 5.48, 11.99, 2.39, 6.3, 3.0, 12.06, 1.0, 10.39, 16.5]

scale:512,300,30

独立阈值

为每俩个 类别找到俩个 最少的阈值是一件很困难的事,很久多阈值是提升分数的关键,对我来说,最少还都还都可以 提升0.005~0.008。 让我门歌词 歌词 使用验证集来找阈值,让我门歌词 歌词 训练单模型xception 512 ,验证集占13%。调整每一类的阈值使得f1 score达到最优,不过让我门歌词 歌词 发现稀有类别的阈值普遍很高,public lb会变差,很久让我门歌词 歌词 只调整了验证集30张以上的类别,稀有类别控制阈值为0.15 通过你你这个法子 找到的阈值在或多或少模型机会集成的前一天同样有效。

测试

比赛始于前一天让我门歌词 歌词 将比赛中训练的模型重新提交查看private leaderboard成绩,得到如下结果:

比赛过程中让我门歌词 歌词 发现做了10 fold ensemble不一定比single fold好,很久让我门歌词 歌词 在最终集成的前一天次责模型只选择了次责fold (根据loss选择)。

检索

让我门歌词 歌词 使用检索的法子 (特性使用inceptionv4 30 的128维特性)查找test与hpa累似 的图片,使用余弦累似 度进行度量,让我门歌词 歌词 发现了或多或少累似 的甚至相同的图片,直接使用累似 度最高的30张图片的结果进行替换,分数在public lb上提升0.01~0.015,不过在private LB中并那末效果,官方在比赛过程中也说明次责test图像机会与HPA中次责图像重合,不再进行分数计算。

集成

让我门歌词 歌词 将inceptionv3 inceptionv4以及xception 30的10fold 模型的特性进行concat(先进行l2),得到3840维的新特性,并在此基础上设计了2层的全连接网络进行训练, 并做10 fold CV,训练过程中使用不容参数训练过程如图所示,让我门歌词 歌词 取了loss最低的参数。结果融合后private lb:0.5530 public lb:0.62791。

真是后面 法子 在public lb上分数较高,很久当与或多或少模型结果融合时,public LB的分数反而大发5分快3技巧降了,很久让我门歌词 歌词 降低了你你这个模型的权重。

最后的结果是通过加权融合的法子 得到的,权重根据模型的public lb分数设置, inceptionv4 30和inceptionv3 30的权重最高,xception 630 最低,并肩也用到了inceptionv4、xception或多或少尺度的次责fold。

雷锋网(公众号:雷锋网)按:比赛地址、solution

雷锋网特约稿件,未经授权禁止转载。详情见转载须知。