摘要
砂砾质松散沉积物粒径组成复杂,钻探取心率低,导致对沉积相和相界面的判别准确度不高。本文结合岩心和测井资料,建立了松散沉积层基于支持向量机的测井数据岩性识别模型,分析了训练集样本数量对模型识别准确率的影响,并与BP神经网络模型进行了对比。结果表明,支持向量机模型的岩性识别准确率高,且对训练样本需求量低,可以有效地弥补钻孔取心率不足的问题,并降低钻探施工成本。在松散沉积物调查中,利用基于支持向量机的测井岩性识别模型自动识别沉积序列具有可行性,是实现绿色勘查的有益尝试。
松散沉积物主要分布于第四纪盆地内,面积广泛,构造变形微弱,连续的剖面出露程度差,沉积序列的建立需要借助揭露工程来实现。钻探是调查盆地内沉积地层序列最直接、最可靠和最常用方法,也是获取地下埋藏岩层实物的唯一手段,但面对松散沉积物,钻探施工主要存在2个方面的问题:一是松散的砂砾石层取心难度大,取心率低,施工成本较高;二是砂泥质含量及粒径组成复杂,松散易扰动,对于岩性及分层位置的判断,常常需要依靠地质人员的主观经验而易失真,难定量,且编录效率
测井曲线直接响应的是岩性变化,是迄今为止所能获得的分辨率最高、连续性最好的地质数
支持向量机(Support Vector Machine,SVM)是基于结构风险最小化原则提出的一种机器学习方法,具有严格的理论和数学基础,在小样本、非线性和高维模式识别等方面具有独特优
统计学习理论把机器学习的目标从经验风险最小化转变为结构风险最小化,这是统计学习理论与传统机器学习理论根本性的区别。支持向量机方法就是基于统计学习理论结构风险最小化原则建立的,它通过确定模型学习的复杂程度和学习结果的准确度之间的最佳折衷,保证模型具有更好的泛化能力即推广能力,学习的过程最终解决的是一个凸二次规划问题,因此理论上可以得到全局最优解,通过引入核函数解决非线性决策问题,避免了“维数灾难”且不增加计算的复杂程
支持向量机以解决二分类问题为出发点,寻求一个满足分类要求的最优超平面,使训练集中的点离分类面的距离尽可能的大。以

图1 支持向量机分类原理示意
Fig.1 Schematic diagram of the SVM classification principle
对于给定的训练集,},为类别标签,对应的最优分类线为(。由极大化间隔的思想,构造最优分类线转化为求解下列对变量ω和b的最优化问题:
(1) |
对于可以用线性划分但存在错分点的分类问题,可以引进松弛变量,放宽约束条件,将问题转化为:
(2) |
式中:C——惩罚参数,C越大表示对错误分类的惩罚越大。
目标函数为凸函数,约束条件为线性,所以这是一个凸二次规划问题,引入拉格朗日函数求解,满足KKT条件,并根据其极值条件得到优化问题的对偶形式,即:
(3) |
式中:α——拉格朗日乘子。
解得拉格朗日乘子的最优解,据此计算,从而构造决策函数:
(4) |
对于非线性分类的样本,通过某个映射将训练集样本变换到高维空间,从而在高维空间构造线性分类的超平面。通过引入核函数K(),实现计算低维空间非线性样本数据在高维空间的内积值,无需知道的具体形式且不增加计算的复杂度。支持向量机中常用的核函数有线性核函数、多项式核函数、高斯径向基核函数、sigmoid核函数等,本文选用非线性问题最普遍使用的高斯径向基(RBF)核函数,其表达式为:
(5) |
式中:g——核函数参数。
建立SVM模型的关键问题是找到最佳的惩罚参数C和核函数参数g,使得训练集和测试集的分类准确率都维持在一个较高的水平,即使得到的SVM分类器的学习能力和推广能力保持一个平衡,避免过学习和欠学习状况发生。
交叉验证(Cross Validation, CV)是用来验证SVM分类器性能的一种统计分析方法,将原始训练数据分为训练集和验证集两部分,首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型,以验证集的分类准确率作为评价分类器的性能指标。CV模式下搜寻SVM模型的最佳参数,可以采用网格搜索法,即让C和g在一定范围内依次连续取值,最终取验证集分类准确率最高的那组C和g作为最佳参
浑善达克沙地东邻大兴安岭,南靠阴山-燕山构造带,保存了厚层的第四系松散沉积物,沉积类型复杂,沉积相转变频繁,但因地势平坦,水流切割作用弱,故剖面露头
综合考虑对岩性变化反应敏感以及数据的易于获取性,本次研究选择了钻孔的自然电位(SP)、自然伽马(GR)、视电阻率(Rt)、声波时差(AC)4种物性参数。根据岩心及测井资料,不考虑各种过渡岩性,将松散沉积物按照粒度划分为砂砾石、粗砂、中砂、细砂、泥质细砂和粘土6类,并总结了不同粒度沉积层在测井曲线上的反映特征和对应的测井参数响应(

图2 浑善达克沙地东南缘第四系不同岩性平均测井响应雷达图
Fig.2 Radar map of average logging response of different lithology in the Quaternary at the southeast edge of Hunshandake Sandy Land
采用Libsvm工具箱建立SVM模
(6) |
式中:——分别为各维输入数据的最大值和最小值。
输出参数对应松散沉积物各种岩性,对其进行标签处理,分别为砂砾石-1、粗砂-2、中砂-3、细砂-4、泥质细砂-5、粘土-6。
Libsvm工具箱采用一对一算法将支持向量机二元分类模型推广至多元分类问题,即在任意两类样本之间设计一个SVM分类器,因此6类样本共需15个分类器,对未知样本分类时,将其分别输入到15个分类器中进行判别,对结果采用投票法或淘汰法完成识别。
选取“锡林郭勒盟-通辽地区基础地质调查”项目施工的标准孔BZK01为研究对象,该钻孔全孔取心及全孔裸眼测井,有准确的岩性及物性参数对应数据。根据岩心资料,该钻孔松散沉积物厚218.3 m,包含上述6类岩性,测井数据采样间隔为0.05 m,有效采样范围为6~218.3 m,共计得到4247组数据,并形成钻孔测井曲线(见

图3 BZK01钻孔松散沉积物测井曲线
Fig.3 Logging curve of unconsolidated sediments in BZK01 borehole
从中随机抽取2000组作为训练集,1000组作为测试集,建立支持向量机岩性识别模型。采用网格搜索法优选模型惩罚参数C和核函数参数g,在(

图4 SVM网格法寻优准确率等值线图
Fig.4 Contour map of accuracy of the SVM grid method

图5 BP神经网络训练过程
Fig.5 BP neural network training process
为验证该方法的适应性,选取研究区内另外两个标准孔BZK02、BZK03为研究对象,测井有效采样范围分别为6~196 m、6.5~283.65 m,有效数据分别为3801组及5544组,从中随机抽取数据作为训练集和测试集,分别建立SVM岩性识别模型,具体结果如
对于BZK01、BZK02、BZK03三个钻孔,SVM模型在训练集与测试集中均获得了很高的分类准确率,表明该岩性识别方法具备在工作区不同钻孔中推广应用的前景。
机器学习模型中,训练集样本数量及样本的完备性是影响模型分类效果与泛化能力的重要因素,为进一步测试训练集样本数量对模型分类效果的影响,针对BZK01钻孔,随机抽取1000组数据作为测试集,改变训练集样本数量,并建立其对应的测试集分类准确率(
SVM模型在单个钻孔的松散沉积物岩性识别中准确率很高,能够实现粘土、泥质细砂、细砂、中砂、粗砂及砂砾石6种不同岩性的自动分层,可以满足利用测井数据实现地层划分的地质需求,辅助人工分层,有效降低人为因素影响,并大幅提升工作效率。
更重要的是,在满足数据完备性的情况下,该方法对训练集样本数量的要求较低,具有良好的泛化能力,如BZK01钻孔中仅需4247组中的200组岩性测井数据,就可以实现90%以上的识别准确率,最多仅需2000组数据,不超过整个钻孔层数据的50%,就可以实现高达99.5%的识别准确率,这对于第四系松散沉积物的钻探施工具有实际的指导意义。
随着人们对第四纪地质、环境、气候和工程勘察等研究与调查的不断深入,定量和精细了解第四系沉积序列对钻探揭露工程提出了较高的要求,如《1∶5万覆盖区区域地质调查工作指南(试行)》中要求标准孔应全孔连续取心,且覆盖层取心率≮65%,一般应达到85%以上。这对于钻探施工提出了很大挑战,特别是松散沉积物厚度>100 m及含有大量砂层、砾石层的钻孔,取心护壁难度高,现场投入大量时间物力成本,但砂层及砾石层部分回次取心率仍达不到要求(

图6 BZK01部分松散地层取心效果
Fig.6 Cores from some loose strata in BZK01
更进一步,采用该方法还有望降低对钻孔取心工作的要求,由连续取心变为间隔取心,控制好分层精度的情况下减少取心工作量,从而实现降低成本、提高效率、低碳环保的绿色勘查目
本文建立的SVM岩性识别模型在单个钻孔内的应用获得了较好的效果,但还未推广至整个浑善达克沙地调查中,即利用训练好的模型对未参与训练的钻孔进行岩性识别与分层。主要是由于目前研究区内仅施工了3个标准孔,相比于第四纪盆地面积之广大,沉积类型之复杂多变,获得的测井数据及对应岩性样本数量还较少,完备性欠缺,此外,不同粒径砂层的测井数据分布过于杂合交错,非线性程度较高,这些都制约了目前模型的泛化能力,还有待开展进一步的研究。
后续仍需选择浑善达克沙地第四系不同构造单元内具有代表性、地层沉积序列较完整的地区开展标准孔施工,以建立研究区内尽可能完备的标准测井解释模型及不同岩性相的测井参数数据库,进一步优化SVM模型的各项参数,推动基于SVM的岩性识别方法在松散沉积层地质调查中的推广应用。
(1)本文基于岩心资料和测井数据建立了支持向量机岩性识别模型,该模型识别准确率高、训练样本需求量低。在第四系松散沉积层调查工作中,利用测井数据实现岩性自动识别具有可行性,为建立松散沉积物地层序列提供了有力支撑。
(2)针对单个钻孔,采用支持向量机模型识别无岩心井段地层的岩性,可以有效解决松散沉积层钻探施工取心率低的问题,一定程度上提高了钻孔沉积序列建立的准确性和完整性。
(3)该方法具备开展进一步研究的价值,通过提高模型的泛化能力,实现在第四系盆地沉积岩层精准调查的推广应用,并可以为类似钻孔的施工方案设计提供支撑,合理减少取心工作量,使钻探施工更加经济、高效、环保,实现绿色勘查。
参考文献(References)
岳永东,谭春亮,宋殿兰,等.基于绿色勘查的浅钻技术在浅覆盖区填图中的应用研究[J].探矿工程(岩土钻掘工程),2018,45(12):5-11. [百度学术]
YUE Yongdong, TAN Chunliang, SONG Dianlan, et al. Application of shallow drilling technology based on green exploration to geological mapping in thin overburden[J]. Exploration Engineering (Rock & Soil Drilling and Tunneling), 2018,45(12):5-11. [百度学术]
潘懋,徐建红.埋藏第四系的沉积相研究──地球物理测井解释在第四纪沉积研究中的应用[J].第四纪研究,1993,13(3):240-249. [百度学术]
PAN Mao, XU Jianhong. Facies study for buried Quaternary strata: Application of geophysical logging interpretation in Quaternary research[J]. Quaternary Sciences, 1993,13(3):240-249. [百度学术]
余继峰,李增学.测井数据小波变换及其地质意义[J].中国矿业大学学报,2003(3):336-339. [百度学术]
YU Jifeng, LI Zengxue. Wavelet transform of logging data and its geological significance[J]. Journal of China University of Mining & Technology, 2003(3):336-339. [百度学术]
付光明,严加永,张昆,等.岩性识别技术现状与进展[J].地球物理学进展,2017,32(1):26-40. [百度学术]
FU Guangming, YAN Jiayong, ZHANG Kun, et al. Current status and progress of lithology identification technology[J]. Progress in Geophysics, 2017,32(1):26-40. [百度学术]
肖波,韩学辉,周开金,等.测井曲线自动分层方法回顾与展望[J].地球物理学进展,2010,25(5):1802-1810. [百度学术]
XIAO Bo, HAN Xuehui, ZHOU Kaijin, et al. A review and outlook of automatic zonation methods of well log[J]. Progress in Geophysics, 2010,25(5):1802-1810. [百度学术]
李政宏,刘永福,张立强,等.数据挖掘方法在测井岩性识别中的应用[J].断块油气田,2019,26(6):713-718. [百度学术]
LI Zhenghong, LIU Yongfu, ZHANG Liqiang, et al. Application of data mining method in lithology identification using well log[J]. Fault-Block Oil and Gas Field, 2019,26(6):713-718. [百度学术]
张洪,邹乐君,沈晓华.BP神经网络在测井岩性识别中的应用[J].地质与勘探,2002,38(6):63-65. [百度学术]
ZHANG Hong, ZOU Lejun, SHEN Xiaohua. The application of BP neural network in well lithology identification[J]. Geology and Exploration, 2002,38(6):63-65. [百度学术]
赵建,高福红.测井资料交会图法在火山岩岩性识别中的应用[J].世界地质,2003,22(2):136-140. [百度学术]
ZHAO Jian, GAO Fuhong. Application of crossplots based on well log data in identifying volcanic lithology[J]. Global Geology, 2003,22(2):136-140. [百度学术]
张占松,张超谟.测井资料沉积相分析在砂砾岩体中的应用[J].石油天然气学报,2007,29(4):91-93. [百度学术]
ZHANG Zhansong, ZHANG Chaomo. Application of logging data and sedimentary facies analysis to the glutenites[J]. Journal of Oil and Gas Technology, 2007,29(4):91-93. [百度学术]
王祝文,刘菁华,任莉.基于K均值动态聚类分析的地球物理测井岩性分类方法[J].东华理工大学学报(自然科学版), 2009,32(2):152-156. [百度学术]
WANG Zhuwen, LIU Jinghua, REN Li. The method for lithology classification in geophysical well logging based on the K⁃means dynamic clustering analysis[J]. Journal of East China Institute of Technology (Natural Science Edition), 2009,32(2):152-156. [百度学术]
张平,潘保芝,张莹,等.自组织神经网络在火成岩岩性识别中的应用[J].石油物探,2009,48(1):53-56. [百度学术]
ZHANG Ping, PAN Baozhi, ZHANG Ying, et al. Application of self⁃organization maps network in identifying the lithology of igneous rock[J]. Geophysical Prospecting for Petroleum, 2009,48(1):53-56. [百度学术]
陈钢花,王军,程探探,等.粒子群算法在砂砾岩体岩性识别中的应用[J].测井技术,2015,39(2):171-174. [百度学术]
CHEN Ganghua, WANG Jun, CHENG Tantan, et al. Application of particle swarm optimization to glutenite lithology identification[J]. Well Logging Technology, 2015,39(2):171-174. [百度学术]
史清江,王延江,孙正义,等.小波变换和沃尔什变换在测井曲线分层中的联合应用[J].中国石油大学学报(自然科学版),2006,30(2):138-142. [百度学术]
SHI Qingjiang, WANG Yanjiang, SUN Zhengyi, et al. Joint application of wavelet transform and walsh transform for automatic segmentation of well logs[J]. Journal of China University of Petroleum (Edition of Natural Science), 2006,30(2):138-142. [百度学术]
邓呈祥,高文利,潘和平,等.庐枞矿集区科学钻探的岩性识别方法[J].物探与化探,2015,39(6):1144-1149. [百度学术]
DENG Chengxiang, GAO Wenli, PAN Heping, et al. Lithologic identification method in scientific drilling of the Luzong ore district[J]. Geophysical and Geochemical Exploration, 2015,39(6):1144-1149. [百度学术]
张昭杰,方石.基于遗传算法优化的支持向量机在岩性识别中的应用[J].世界地质,2019,38(2):486-491. [百度学术]
ZHANG Zhaojie, FANG Shi. Application of support vector machine in lithology identification based on genetic algorithm optimization[J]. Global Geology, 2019,38(2):486-491. [百度学术]
牟丹,王祝文,黄玉龙,等.基于最小二乘支持向量机测井识别火山岩类型:以辽河盆地中基性火山岩为例[J].吉林大学学报(地球科学版),2015,45(2):639-648. [百度学术]
MOU Dan, WANG Zhuwen, HUANG Yulong, et al. Application of least squares support vector machine to lithology identification: Taking intermediate/basaltic rocks of Liaohe Basin as an example[J]. Journal of Jilin University (Earth Science Edition), 2015,45(2):639-648. [百度学术]
Cortes C, Vapnik V. Support-vector networks[J]. Machine Learning, 1995,20(3):273-297. [百度学术]
张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42. [百度学术]
ZHANG Xuegong. Introduction to statistical learning theory and support vector machines[J]. Acta Automatica Sinica, 2000,26(1):32-42. [百度学术]
李航.统计学习方法[M].北京:清华大学出版社,2012. [百度学术]
LI Hang. Statistical learning method[M]. Beijing: Tsinghua University Press, 2012. [百度学术]
丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10. [百度学术]
DING Shifei, QI Bingjuan, TAN Hongyan. An overview on theory and algorithm of support vector machines[J]. Journal of University of Electronic Science and Technology of China, 2011,40(1):2-10. [百度学术]
袁颖,于少将,王晨晖,等.基于网格搜索法优化支持向量机的围岩稳定性分类模型[J].地质与勘探,2019,55(2):608-613. [百度学术]
YUAN Ying, YU Shaojiang, WANG Chenhui, et al. Evaluation model for surrounding rock stability based on support vector machine optimized by grid search method[J]. Geology and Exploration, 2019,55(2):608-613. [百度学术]
张岳敏,周亚利,黄春长,等.浑善达克沙地新生代以来古气候环境变迁[J].第四纪研究,2018,38(5):1068-1082. [百度学术]
ZHANG Yuemin, ZHOU Yali, HUANG Chunchang, et al. Palaeoclimate change of Qtindag sandy land since Cenozoic[J]. Quaternary Sciences, 2018,38(5):1068-1082. [百度学术]
Chih-Chung, Chang, Chih-Jen. LIBSVM: A library for support vector machines[J]. Acm Transactions on Intelligent Systems & Technology, 2011. [百度学术]
谭春亮,宋殿兰,岳永东,等.钻探-物探测井技术在覆盖区填图中的应用研究[J].探矿工程(岩土钻掘工程),2018,45(7):44-47. [百度学术]
TAN Chunliang, SONG Dianlan, YUE Yongdong, et al. Application research on drilling-geophysical logging for geological mapping of overburden area[J]. Exploration Engineering (Rock & Soil Drilling and Tunneling), 2018,45(7):44-47. [百度学术]