比赛背景介绍: 盐是我们生活中最常见也最不或缺的一种物质,我们平时了解最多的应该是食盐。食盐有不同的来源,比如海盐、井盐、矿盐、湖盐、土盐等。科学勘探表明,在地球地表下有着大量的沉积盐,这也是盐的重要来源之一。 但不幸的是,准确地知道大量的盐沉积在哪里是非常困难的。专用于此的地震波成像技术仍然需要专业人士去解析图像,从而找到盐的沉积体位置。这就使得最后的预测结果带有了很高的个人主观色彩,因为这样的预测结果会因决策者的自身经验和专业程度的高低而有很大的差异和变化,这种情况将会给油气公司的钻井工人带来潜在的危险。 图1-1地震波成像(图片来自网络)
而随着近年来机器学习的发展,这个问题有望得到解决。计算机拥有强大的计算能力和处理性能,如果通过机器学习的方法去训练一个能够准确识别地震波图像的模型,这将大大提高沉积盐识别的效率和准确性。 为了创建最精确的地震图像和3D效果图,TGS(世界领先的地球科学数据公司)希望Kaggle机器学习社区能够建立一个机器学习算法,自动准确地识别地下目标是否是盐沉积。 2. 奖池介绍: 图2-1奖金设置
3.比赛时间轴: 2018年10月12日——报名截止日期。为了参加比赛,你必须在此日期之前接受比赛规则。 2018年10月12日——团队合并截止日期。这是参与者可以加入或合并团队的最后一天。 2018年10月19日——最终提交截止日期。 4.数据集介绍: 4.1数据背景 地震数据是通过反射地震学方法(原理非常简单,我们已经知道空气中声波的速度,通过对水井释放声波,得到的声波的返回时间就可以计算出水井的深度。因此我们可以通过使用爆炸等方法在地表释放出一个声波,声波会在均匀的介质中向下传播。但是由于不同的地层,其速度和密度并不相同,这就会在地层界面上产生不同的反射波,和前面提到的回声一样。反射地震法测量的就是从人工震源到地下的反射界面,再回到检波器的双程旅行时间。[1]类似于x射线、声纳和回声定位。)来收集的。这种方法需要一个可控的震源,例如压缩空气或地震振动器,传感器记录地下界面的反射信号。然后对记录的数据进行处理,以创建地球内部的3D视图。 地震图像来自于岩石边界反射的信号。地震图像显示了不同岩石类型之间的边界。理论上,反射的强度与界面两侧物理性质的差异成正比,所以地震图像可以显示出岩石边界。但很遗憾,它们并没有办法反映出岩石本身的性质,所以有些岩石很容易辨认,有些则很难辨认。因为人的肉眼辨识度和经验等因素,这对于人类来说是一个繁琐而效率低下的任务。而借助机器学习的方法,这类问题有望取得新的突破。计算机相比于人类对物体轮廓有着更高的识别能力,它更能通过数以千万计的图片训练得出宝贵的经验,毫无疑问机器学习有着足够的能力去应对这场人类力不从心的挑战。 4.2数据 数据是在不同地点下随机选择的地下图像。这些图像的尺寸是101 x 101,每个像素都被划分为盐或沉淀物。除了地震图像外,还为每幅图像提供了成像位置的深度。比赛的目标是划分含有盐的区域。 训练集和测试集为两组数据集,其中图片如下所示。 图4-1测试集样例
图4-2测试集样例
还有一个包含了成像位置深度的的csv文件,第1列为图片序号,第2列为地表深度。
5.评价方法 本竞赛通过在IoU(交并比)阈值下模型所能达到的平均精度来进行评价。IoU计算公式为: 图5-1 IoU计算公式
评价时会遍历一系列的IoU阈值,在每个点计算平均精度值。阈值范围从0.5到0.95,步长为0.050.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95)。换句话说,在0.5的阈值下,如果预测对象与真实对象的交集大于0.5,则被认为是"准确"的。 在每个阈值t上,一个精确值是根据预测对象与所有真实对象的比较产生的true positives (TP), false negatives (FN), 和false positives (FP)计算出来的。 图5-2(单个点的精确值计算公式)
当一个预测对象与一个真实对象匹配时,如果该对象的IoU超过阈值,TP就会增加一次,最后的TP即为视为准确的点的数量。FN表示预测错误的点的数量。FP表示没有被预测到的点数量。然后,将单个图像的平均精度计算为每个IoU阈值下的上述精度值的平均值(thresholds为阈值): 图5-3(整个图像的精确值计算 )
6.参加比赛 图6-1 kaggle官网页面(https://www.kaggle.com)
图6-2比赛页面
图6-3 TGS竞赛页面
参考网站: [1]https://baike.baidu.com/item/%E5%8F%8D%E5%B0%84%E5%9C%B0%E9%9C%87%E5%AD%A6/4780119
|