摘要
钻速预测是钻井优化的重要组成部分,机器学习算法是当前实现准确钻速预测的重要手段,准确的特征选择是保证机器学习精度的关键途径。基于南海某井眼的实际钻井数据,本文采用一种融合特征选择法从钻井特征参数中选出井径、钻井液出口温度、钻井液入口密度、钻井液出口密度、K值、塑性粘度、滤失量、上覆压力、孔隙压力、和喷嘴等效直径共10种参数。将优选出的参数作为模型输入,引入集成的梯度提升树(Gradient Boosting Decision Tree,GBDT)算法建立机械钻速预测模型。将建立的模型与常规机器学习算法模型进行对比试验。试验结果显示,所提出的融合特征选择算法模型精度较全特征模型高2%,较常用机器学习模型平均高14.5%,该研究为钻井参数的准确、快速寻优提供了有效解决方案,对提高钻进速率具有一定的指导意义和实际应用价值。
我国能源生产重点方向正在向超深层发展,随着钻井的深度增加,钻头进入更加复杂的地层,会使施工难度加大、钻井速度减慢、成本升高。在国内外的研究中,机械钻速一直是作为钻井作业整体水平的直观反映,准确预测机械钻速可以有效计算钻井成本和钻井时间,从而优化钻井参数、合理安排钻机工作人员,并为钻井设计人员提供依
传统的钻速预测研究中,一些研究人员考虑岩性、竖井直径和转速等作为主要因素,通过对多元化回归的分析,获得钻速方
综上,很多研究通过优化智能算法来提升模型精度,亦有很多研究者对大数据中特征选择方法进行了研究,然而专门针对机械钻速预测来完成特征选择部分的智能方法研究却相对较少。在进行钻速预测研究时,海量的钻井参数会耗费大量的计算资源和时间,且不易得到理想的模型精度,故亟需针对机械钻速特征选择进行专门研究。因此,本文提出一种融合特征选择法进行参数优选,再选用梯度提升树(Gradient Boosting Decision Tree,GBDT)算法进行钻速预测,并针对参数优选结果与预测精度设计对比试验进行验证。
本文先对采集到的数据进行整合预处理,然后基于设计的融合特征选择算法进行特征优选,最后针对特征优选结果建立GBDT钻速预测模型并设计对比试验进行验证,如

图1 融合特征选择算法钻速预测模型研究
Fig.1 Research on ROP prediction model with fusion feature selection algorithm
令钻井参数数量为n,井深为D,不同的钻井参数采集时最大密度为d,则整合后的数据矩阵为一个D/d行×n列矩
注: 带*参数为离散型参数(本文将参数取值为点集的参数定义为离散型参数),其余为连续型参数
数据清洗就是指利用数据分析将采集到的“脏数据”转化为符合要求的数
(1) |
式中:——欧式距离;——维空间;——第1个点的第维坐标;——第2个点的维坐标。
相关性分析的主要目的在于判定输入与输出变量之间的相关性以指导建模时下一步该采取何种操作,本文采用皮尔逊相关系数计算方法对所选变量进行相关性分析,筛选出高相关性参数组作为特征选择工作的第一步,计算方法如
(3) |
式中:——变量之间的相关性;——变量的协方差矩阵;、——变量各自的标准差;、——变量数据集中第个变量值;、——变量平均值;——变量的数据集大小。
的取值在区间[-1,1]上,取值为正时,表示两个参数之间呈现正的相关性,反之则表示两个参数呈负相关性,的绝对值越靠近1,说明之间的相关性越高,越靠近0,则说明两个变量之间的相关性越低,计算

图3 低、中相关性参数组
Fig.3 Low and medium correlation parameter groups

图4 高相关性参数组
Fig.4 High correlation parameter group
对计算结果进行统计,可按照皮尔逊相关性系数将除钻速之外的其他参数与钻速的相关性分为高相关性、中相关性和低相关性3
(1)高相关性参数:总共有24种,占所有参数的55.81%,该类参数与钻速的相关性系数计算结果的绝对值均位于[0.6,0.81]区间内。
(2)中相关性参数:总共有15种,占所有参数的34.88%,该类参数与钻速的相关性系数计算结果的绝对值均位于[0.1,0.6]区间内。
(3)低相关性参数:总共有3种,占所有参数的9.31%,该类参数与钻速的相关性系数计算结果的绝对值均小于0.1。
从相关性系数计算结果可以看到传统经验中如岩性等参数的相关性系数取值较低,这是因为皮尔逊相关性分析对线性相关的参数更为敏感,更容易选出线性关系更明显的特征,因此传统钻速研究中非线性相关的参数相关性系数值会相对较低。
在机器学习建模过程中,引入的参数相关性越高,建立高精度机器学习预测模型所需要的参数数量越
注: 带*号特征为方差过滤法选择结果,其余为被过滤参数
离散型特征选择结束之后,用互信息法从30个连续型参数中选出特征量相对较少且互信息估量较高的参数组,互信息定义如
(4) |
式中:——与的联合概率分布;、——边缘概率分布。
操作步骤是先对30个连续型特征进行离散化处理,然后计算出每一个参数的互信息估计量并排序,计算结果如
注: 带*特征参数为互信息法前向搜索策略特征选择结果,其余参数为被过滤参数

图5 基于前向搜索的互信息特征筛选
Fig.5 Mutual information feature screening based on forward search
融合皮尔逊相关性分析法、方差过滤法和互信息法进行特征选择,其操作步骤如

图6 特征选择过程示意
Fig.6 Schematic diagram of the feature selection process
操作可分为4步:
(1)对经清洗之后的数据进行皮尔逊相关性计算,按照皮尔逊相关性原理将所有特征参数划分为高相关性参数组、中相关性参数组和低相关性参数组,然后选择与钻速具有高相关性的高相关性参数组作为特征选择的融合算法的第一步选择;
(2)将所有特征参数中的离散类型参数按照方差过滤法原理进行方差过滤,然后选择方差值高的特征参数作为特征选择的融合算法的第二步选择;
(3)将所有特征参数中连续类型参数按照互信息法计算原理进行互信息估计量计算并按互信息估量值的大小进行排序,然后使用前向搜索策略结合模型验证来进一步进行特征筛选。
(4)将通过相关性过滤结果的参数组分别与方差过滤结果参数组和互信息过滤参数组结果分别取交集,最后将2个交集参数组取并集作为特征选择的融合算法的最终选择结果,它们与钻速的相关性系数、方差及互信息量如
在设计的融合特征选择算法中,利用皮尔逊相关性系数方法和方差过滤方法能够有效去除数据中的无关特征,使得模型的输入参数间会存在较大耦合。因此进行的第三步操作:将互信息法与前向搜索策略结合能够有效剔除部分相互耦合的特征。
GBDT算法属于集成学习算法的一种,它融合了装袋法(Bagging)与提升法(Boosting)的思想,由Firedman在2001年提出,既可用来解决分类问题,也可用来解决回归问

图7 GBDT算法原理示意
Fig.7 Schematic diagram of GBDT algorithm principle
GBDT算法的基学习器由决策树组成,单棵决策树的结构越复杂,GBDT算法的整体复杂度也会更高,使得计算缓慢且易过拟合。
(5) |
式中:L——损失函数用来度量预测值与真实值之间的误差;m——样本个数;——损失函数取得最小值时,计算取值;——基学习器。
选择平方误差(squared_error)作为GBDT算法的损失函数,因为此函数一阶导数连续,易于被优化,是一个鲁棒的损失函数,
(6) |
式中:——损失函数;——分别为每个样本(
在此基础上,将损失值的负梯度作为残差估计值,利用梯度提升技术对残差进行拟合:
(7) |
式中:——残差估计值;k——第k(k=1,2,……K)次迭代。
GBDT算法对基学习器进行集成时遵循的原则是依据上一个基学习器的结果,计算损失函数,并使用损失函数自适应的影响下一个基学习器的构建,集成模型的输出结果。其操作步骤是先确定每个叶节点区域对应损失函数最小化的最佳拟合值,然后更新学习器,最终构建GBDT模型如
(8) |
式中:——学习率;Cik(i=1,2,……I)——得到的第k棵树的叶节点区域;——每个叶子点区域确定使对应损失函数最小化的最佳拟合值;——GBDT模型最终拟合结果。
导入经融合特征选择算法所确定的特征参数进行机器学习建模,采用10折交叉验证法降低模型过拟合风险,使用决定系数(
将数据集等比例划分成10份,以其中的一份作为测试数据,其余9份作为训练数据,每次试验选取不同的测试集,剩下的作为训练集,重复进行10次试验,最后把10次测试集得分平均作为最终得分,其原理如

图8 10折交叉验证原理示意
Fig.8 Schematic diagram of the 10‑fold cross‑validation principle
均方根误差是预测值与真实值偏差的平方和的均值的平方根,其计算式如
(10) |
(11) |
10次试验的评分如
为了展示预测结果与真实值的拟合关系,提取出10次测试集的预测值绘制回归直线拟合关系图,如

图9 GBDT预测真实值拟合关系
Fig.9 Fitting relationship between GBDT predictions and true values
取10折交叉验证时划分为10部分数据中的第1部分和第2部分测试集的预测值和真实值对比,绘制GBDT模型预测值和真实值的关系图(

图10 钻速预测值与真实值对比
Fig.10 Comparison between the predicted ROP and the actual ROP
为验证融合特征选择算法在预测性能上的优势以及GBDT模型相较于传统机器学习算法模型的优势,建立全特征GBDT模型,并与特征选择结果的常用机器学习算法模型进行对比试验。
选择所有特征,使用10折交叉验证法,建立GBDT模型,通过比较模型在测试集上的各评估指标,发现使用全部特征作为模型输入时,模型在测试集上的泛化能力

图11 全特征模型与特征选择模型测试集得分对比
Fig.11 Comparison of test set scores between the full feature model and the feature selection model
选择适用于高维特征计算的支持向量回归、人工神经网络中具有代表性的BP神经网络回归、适用于处理线性关系的线性回归以及树模型的基础决策树回归算法结合10折交叉验证进行对比试验,各模型平均得分如
10个测试集各模型评估指标对比如

图12 GBDT模型与常见机器学习算法模型测试集对比
Fig.12 Comparison of the test sets between the GBDT model and the common machine learning algorithm model
准确的机械钻速预测是提高钻进效率、降低钻井成本的重要手段。本文以南海某井眼钻井数据为例,融合相关性分析、方差过滤、互信息法并结合前向搜索策略进行特征选择,然后建立GBDT模型对机械钻速进行预测,主要结论如下:
(1)针对钻速预测机器学习建模之前特征的选择,本文提出的融合特征选择算法能够准确地从大量特征参数中选择出对模型贡献最大的参数,从而降低特征空间的维度,与使用全部特征所建立的模型相比,经过融合特征选择算法选择的特征参数所建立的模型的精度优于使用全部特征所建模型的精度,表明融合特征选择算法能够为机械钻速准确预测选择出合适的参数,且该算法能够为智能钻井机械钻速预测提供科学依据。
(2)本文所建立的梯度提升回归树模型在测试集上能够达到85%的精度,即表明模型有较好的泛化性能,能够较好地拟合机械钻速,与常用的机器学习算法相比,GBDT算法模型的决定系数
(3)本文所融合的多种特征选择方法能够有效剔除数据中的无关特征,但并不能解决参数间的耦合问题,因此本文在融合的方法中结合了前向搜索策略,能够在一定程度上减少参数间的耦合。不足之处在于该算法侧重于对具有物理意义的参数进行选择,因此并没有针对最终的特征选择结果进行特征信息研究,将来的研究中可对此进一步优化。
参考文献(References)
于洋,黄凯,李卉.基于机器学习和多源数据预处理技术的机械钻速预测方法研究[J].中国石油和化工标准与质量,2021,41(20):133-136. [百度学术]
YU Yang, HUANG Kai, LI Hui. Research on prediction method of ROP based on machine learning and multi‑source data preprocessing technology[J]. China Petroleum and Chemical Standard and Quality, 2021,41(20):133-136. [百度学术]
Barbosa L F F M, Nascimento A, Mathias M H, et al. Machine learning methods applied to drilling rate of penetration prediction and optimization—A review[J]. Journal of Petroleum Science and Engineering, 2019,183:106332. [百度学术]
张维罡.基于机器学习算法的石油钻速研究[J].化工管理,2021(20):89-90. [百度学术]
ZHANG Weigang. Research on ROP of petroleum based on machine learning algorithm[J]. Chemical Management, 2020(20):89-90. [百度学术]
Amer M M, Dahab A S, El‑Sayed A A H. An ROP predictive model in nile delta area using artificial neural networks[C]//SPE Kingdom of Saudi Arabia Annual Technical Symposium and Exhibition. OnePetro, 2017. [百度学术]
赵颖,孙挺,杨进,等.基于极限学习机的海上钻井机械钻速监测及实时优化[J].中国海上油气,2019,31(6):138-142. [百度学术]
ZHAO Ying, SUN Ting, YANG Jin, et al. Extreme learning machine‑based offshore drilling ROP monitoring and real‑time optimization[J]. China Offshore Oil and Gas, 2019,31(6):138-142. [百度学术]
李莉,石可欣,任振康.基于特征选择和TrAdaBoost的跨项目缺陷预测方法[J].计算机应用,2022,42(5):1554-1562. [百度学术]
LI Li, SHI Kexin, REN Zhenkang. Cross‑project defect prediction method based on feature selection and TrAdaboost[J]. Journal of Computer Applications, 2022,42(5):1554-1562. [百度学术]
周翔,翟俊海,黄雅婕,等.大数据环境下的投票特征选择算法[J/OL].小型微型计算机系统,2022:1-9. [百度学术]
ZHOU Xiang, ZHAI Junhai, HUANG Yajie, et al. Voting feature selection algorithm in big data environment[J/OL]. Journal of Chinese Computer Systems, 2022:1-9. [百度学术]
康文豪,徐天奇,王阳光,等.双层特征选择和CatBoost‑Bagging集成的短期风电功率预测[J/OL].重庆理工大学学报(自然科学),2022:1-8. [百度学术]
KANG Wenhao, XU Tianqi, WANG Yangguang, et al. Short‑term wind power prediction based on double‑layer feature selection and catboost‑bagging integration[J/OL]. Journal of Chongqing University of Technology(Natural Science), 2022:1-8. [百度学术]
Dupriest F E, Koederitz W L. Maximizing drill rates with real‑time surveillance of mechanical specific energy[C]//SPE/IADC Drilling Conference. OnePetro, 2005. [百度学术]
Shi X, Liu G, Gong X, et al. An efficient approach for real‑time prediction of rate of penetration in offshore drilling[J]. Mathematical Problems in Engineering, 2016:20-16. [百度学术]
李谦,周长春,朱海燕,等.生产数据的整合与初步分析在钴井中的应用实例[J].钻探工程,2021,48(S1):97-107. [百度学术]
LI Qian, ZHOU Changchun, ZHU Haiyan,et al. Application of integration and preliminary analysis of production data in drilling[J]. Drilling Engineering, 2021,48(S1):97-107. [百度学术]
李洪烈,夏栋,王倩.基于回归模型的采集数据清洗技术[J].电光与控制,2022,29(4):117-120. [百度学术]
LI Honglie, XIA Dong, WANG Qian. A sample data clean technology based on regression model[J]. Electronics Optics & Control, 2022,29(4):117-120. [百度学术]
匡俊搴,赵畅,杨柳,等.一种基于深度学习的异常数据清洗算法[J].电子与信息学报,2022,44(2):507-513. [百度学术]
KUANG Junqian, ZHAO Chang, YANG Liu, et al. An outlier cleaning algorithm based on deep learning[J]. Journal of Electronics & Information Technology, 2022,44(2):507-513. [百度学术]
曹凯鑫,汤猛猛,葛建鸿,等.大气污染物PM_(2.5)缺失数据插值方法的比较研究:基于北京市数据[J].环境与职业医学,2020,37(4):299-305. [百度学术]
CAO Kaixin, TANG Mengmeng, GE Jianhong, et al. Comparison of methods to interpolate missing PM2.5 values: Based on air surveillance data of Beijing[J]. Journal of Environmental and Occupational Medicine, 2020,37(4):229-305. [百度学术]
王双敬,王玉杰,李旭,等.TBM掘进数据标准化预处理方法研究[J/OL].现代隧道技术,2022:1-8. [百度学术]
WANG Shuangjing, WANG Yujie, LI Xu, et al. Research on standardized preprocessing method of TBM tunneling data[J/OL]. Modern Tunnelling Technology, 2022:1-8. [百度学术]
屈峰涛.基于大数据和智能算法的钻井参数优选模型与应用研究[D].西安:西安石油大学,2021. [百度学术]
QU Fengtao. Research on establishment and application of drilling parameter optimization model based on big data and intelligent algorithms[D]. Xi’an: Xi’an Shiyou University, 2021. [百度学术]
李谦,曹彦伟,朱海燕.基于人工智能的钻速预测模型数据有效性下限分析[J].钻探工程,2021,48(3):21-30. [百度学术]
LI Qian, CAO Yanwei, ZHU Haiyan. Discussion on the lower limit of data validity for ROP prediction based on artificial intelligence[J]. Drilling Engineering, 2021,48(3):21-30. [百度学术]
殷豪,翟广松,王鹏,等.基于互信息特征选取-变分模态分解和长短时记忆网络的日前耦合市场电价预测[J/OL].电网技术,2022:1-9. [百度学术]
YIN Hao, ZHAI Guangsong, WANG Peng, et al. Electricity price forecast of day‑ahead coupled market based on mutual information feature selection and variational mode decomposition and LSTM[J/OL]. Power System Technology, 2022:1-9. [百度学术]