前列腺癌分级评估(PANDA)挑战

格里森评分数据集

Posted by 靳秋野 on June 25, 2020

前列腺癌

前列腺癌是世界上第二大男性常见癌症,每年有超过35万人死于前列腺癌。降低死亡率的关键是发展更精确的诊断方法。前列腺癌的诊断是基于前列腺组织活检的分级。这些组织样本由病理学家检查并根据格里森分级系统评分。在这个挑战中,你将开发模型来检测前列腺组织样本的图像上的PCa,并使用现有的Gleason分级中最广泛的多中心数据集来估计疾病的严重程度。

图1:例示包含前列腺癌的活检的格里森分级过程示意图。活检中最常见的(蓝色轮廓,格里森模式3)和第二最常见的(红色轮廓,格里森模式4)决定了格里森评分(此活检为3 + 4),然后将其转换为遵循国际泌尿外科病理学会的指导方针的ISUP等级(此活检为2级)。在此挑战中,不包含癌症的活检组织的ISUP等级为0。

分级过程包括根据肿瘤的结构生长模式发现癌症组织并将其划分为所谓的Gleason模式(3,4,5)(图1)。活检被赋予Gleason评分后,将其转换为1-5的ISUP评分。格里森分级系统是前列腺癌最重要的预后指标,而ISUP分级在决定患者应如何治疗时起着至关重要的作用。这既存在错过癌症的风险,也存在过度分级导致不必要治疗的巨大风险。然而,该系统在病理学家之间存在显著的观察者之间的差异,限制了其对个别患者的有用性。这种分级的可变性可能导致不必要的治疗,或者更糟糕的是,产生假阴性病例。

自动深度学习系统在精确评分PCa方面显示出了较大前景。最近的研究,包括主持这项挑战的小组独立进行的两项研究表明,这些系统可以达到病理学家水平的表现。然而,这些系统/结果没有在大规模的多中心数据集测试。

PANDA

PANDA提供了格里森评分中使用最广泛的多中心数据集。该训练集包括来自两个中心的大约1.1万张全幻灯片的数字化h&e染色活检图像。这是现有最大的公开的整张幻灯片图像数据集,大约是CAMELYON17挑战的8倍。CAMELYON17是最大的数字病理数据集之一,也是该领域最著名的挑战之一。此外,与之前的挑战相比,我们正在提供完整的诊断活检图像。使用一个相当大的多中心测试集,由专家泌尿病理学家评分,我们将评估挑战提交的适用性,以改善这一关键的诊断功能。

内梅亨大学医学中心和卡罗林斯卡学院与坦佩雷大学的同事合作组织了这次比赛。内梅亨大学医学中心的计算病理学小组(CPG)是一个研究小组,开发计算机算法来帮助临床医生。卡罗林斯卡学院的医学流行病学和生物统计学(MEB)包括一个跨学科的研究小组,以改进前列腺癌的诊断和治疗。他们希望进一步推进现有的研究,对前列腺癌患者的医疗保健产生重大影响。

挑战组织者团队:Wouter Bulten, Geert Litjens, Hans Pinckaers, Peter Strom, Martin Eklund, Lars Egevad, Henrik Gronberg, Kimmo Kartasalo, Pekka Ruusuvuori, Tomi Hakkinen, Sohier Dane, Maggie Demkin。

数据描述

在此竞赛中,您面临的挑战是从前列腺活检样品的显微镜扫描中对前列腺癌的严重程度进行分类。 相对于大多数比赛,此问题有两种不同寻常的转折:

  • 每个单独的图像都很大。我们很高兴看到您提出了哪些策略来有效地定位需要关注的区域以进行放大。
  • 标签不完美。这是病理学领域的一个充满挑战的领域,即使具有多年经验的该领域的专家也并不总是同意如何解释幻灯片。 这将使训练模型更加困难,但是增加拥有强大模型来提供一致评分的潜在医学价值。所有私人测试集图像和大多数公共测试集图像均由多位病理学家进行分级,但是这对于训练集是不可行的。 您可以在此处找到有关病理医生的标签匹配程度如何的其他详细信息。

文件格式

[train/test].csv

  • image_id: ID code for the image.
  • data_provider: The name of the institution that provided the data. Both the Karolinska Institute and Radboud University Medical Center contributed data. They used different scanners with slightly different maximum microscope resolutions and worked with different pathologists for labeling their images.
  • isup_grade: Train only. The target variable. The severity of the cancer on a 0-5 scale.
  • gleason_score: Train only. An alternate cancer severity rating system with more levels than the ISUP scale. For details on how the gleason and ISUP systems compare, see the Additional Resources tab.

[train/test]_images: The images. Each is a large multi-level tiff file. You can expect roughly 1,000 images in the hidden test set. Note that slightly different procedures were in place for the images used in the test set than the training set. Some of the training set images have stray pen marks on them, but the test set slides are free of pen marks.

train_label_masks: Segmentation masks showing which parts of the image led to the ISUP grade. Not all training images have label masks, and there may be false positives or false negatives in the label masks for a variety of reasons. These masks are provided to assist with the development of strategies for selecting the most useful subsamples of the images. The mask values depend on the data provider:

Radboud: Prostate glands are individually labelled. Valid values are: 0: background (non tissue) or unknown 1: stroma (connective tissue, non-epithelium tissue) 2: healthy (benign) epithelium 3: cancerous epithelium (Gleason 3) 4: cancerous epithelium (Gleason 4) 5: cancerous epithelium (Gleason 5)

Karolinska: Regions are labelled. Valid values are: 0: background (non tissue) or unknown 1: benign tissue (stroma and epithelium combined) 2: cancerous tissue (stroma and epithelium combined)

sample_submission.csv: A valid submission file. This is a notebooks-only competition; the downloadable test.csv and sample_submission.csv have been truncated. The full versions will be available to your submitted notebooks.

最后,值得一提的是,作为MICCAI2020的挑战赛,PANDA也在Kaggle上组织了比赛

结果可想而知,截至2020年6月,已经有不少大神把kappa系数刷到了0.9以上

说明本挑战赛庞大的数据量成功的帮助深度学习模型完成诊断任务