摘要
钻井过程中的生产数据是推动产业发展的重要驱动力,也是未来人工智能在钻井行业应用的基础。当前国内外行业巨头均已开始建立生产数据的收集与分析平台,但普通生产一线作业的数据整合与分析仍未引起重视。本文以采集自南海某区域10口井44种不同参数共21912条数据为例展现了生产数据从采集至定量分析的全流程。通过图像点采算法与数据插值补齐算法,实现不同格式数据的矩阵化整合。经过标准化与可视化的处理,可完成对整合数据的定性分析,明确生产数据的规律与趋势。在此基础上,通过统计分析、相关性分析与因子分析,可获得数据特征值,也能明确不同数据间的相互关系。分析结论实现了数据的分组与降维,在保证后续数据建模、人工智能等分析精度的同时降低了建模复杂度。
随着大数据、人工智能、5G等相关技术的飞速发展,数据已成为当前工业生产各领域发展的重要驱动力。而钻探钻井作业面对未知地层进行施工时,出于安全和成本的考虑,对数据的需求更不可同日而语。无论是石油钻井还是地质钻探行业,随着资源勘探的深入与钻探钻井技术的发展,生产一线均已累积了海量数据,为即将到来的大数据与人工智能的应用奠定了坚实的基础。
目前钻探钻井行业对数据的使用和分析处于蓄势待发的状态。来源于生产一线的数据内容繁多,数据形态各异,包含各类静态结构化表格、视频、图片与各种不同的工业数据标准。同时不同来源的数据量变化巨大,各类数据生成周期不同,采集方式各异,导致数据可管理性极差,难以用统一的数据模型容纳所有的完钻井数
尽管各大油企和油服均在企业层面推出了数据采集、分析相关整合服务平台,同时各大钻探钻井相关科研院所在数据处理分析、甚至机器学习、人工智能方向持续投入大量的研发精力。但是针对生产一线,尤其是距石油钻井还有一定差距的地质钻探生产一线,对现场数据的分析利用仍处在较为初级的水平。故本文以南海某区块相关钻井数据为例,在收集10口井合计5大类44种不同参数(见
数据的矩阵化整合是在完成数据收集后进行挖掘分析的必要环节。矩阵化整合数据的主要目的在于通过一定的技术手段,将所有待分析数据转化整合为同一个数据矩阵。以钻井数据为例,整合后的数据矩阵应以参数为列,深度为行。令整合后的参数数量为,深度为,不同参数间最小的深度采样间隔为,则转化后的数据矩阵应为列×行。但生产现场主要的问题在于数据格式并不统一,同时可能包含多种数据格式,需要通过不同的步骤进行数据的矩阵化整合。常见的整合方式包括图像点采和数据补齐算法。
由于各种不同的原因,生产现场的数据可能仅有数据曲线图片,而缺失相关的原始数据。据此研发图像点采算法,其主要目的在于根据图片刻度比例,通过计算获得原始图片文件中的初始数据。图像点采算法的核心在于建立图片像素点坐标与图示坐标系之间的比例关系,通过特征值的像素点坐标与图示坐标系坐标,反算得到指定位置的图示坐标系坐标。以
(1) |

图1 图像点采算法获取原始数据实例
注: 像素点坐标因随图片摆放位置而改变,故以字母代替
在获取图片在屏幕的位置后,鼠标点选指定点将获得该点在屏幕上的像素点坐标为,结合
(2) |
对同一口钻孔/钻井而言,不同类型的数据采集不可避免地存在不同数据密度。例如布设了实时数据监测的钻孔/井眼可能以每米1条的数据密度获得工程参数(钻压、转速、扭矩等)。但对于每日定时测量的钻井液性能而言,其记录数据密度应为每日1~2条数据(以测量频率为准)。对某些地质或测井资料而言,通常的数据形式为测井曲线,需要使用
选择常见的拉格朗日插值法作为基本的数据插值补齐算法,其基本原理在于对实际数据中的某物理量的个离散观测值(xk, yk),均可找到一个多项式,使其恰好在各点xk均取到观测值yk,据此其基本公式列举如
(3) |

图2 数据插值补全曲线与原始数据曲线的对比
生产实际现场采集的数据存在巨大的数量级差异,通过箱式图绘制本例中44组参数的数量级分布范围如


图3 统计所有参数数量级分布
数据标准化是消除各数据间数量级与单位差异的主要方法,其核心策略在于通过计算将所有数据压缩到同一区间。本例中采用min‑max规范法进行数据的标准化,其计算核心如
(4) |
式中:——完成标准化的数据;——标准化前的原始数据;——标准化前的整个数据列。

(a) 数据标准化前

(b) 数据标准化后
图4 数据标准化前后对比
数据可视化是针对生产数据进行定性分析的主要手段。数据可视化在于通过图形化的手段,对数据进行多维度观察,从而方便对数据进行更深入的分析,以求寻找数据变化的趋势与规律。在本文涉及的相关数据中,可观察的规律列举(但不仅限于)如下:
(1)寻找规律:如






图5 基于数据可视化发现同井区均存在明显的钻速突降点
(2)定性寻找影响因素:将10口井钻速曲线首尾相连,并将钻压、转速、泵量、钻井液密度等常规规程参数以同样的形式绘图进行对比如

图6 数据曲线对比寻找钻速下降的影响因素
统计分析是生产数据定量分析的必要方法之一。基于对生产数据的统计,可充分了解生产过程和对象的特征。如

图7 分析区域不同岩性的统计结果
结合如

图8 分析区域泥岩地层钻速与静液柱压力的统计关系
基本的数据可视化只能获取数据变化的基本规律与潜在影响因素分析,不能完全满足实际生产的需要。在此基础上,还需要定量计算数据之间的相关性,用以验证和精确判定前期定性分析的结论。本例使用Person相关系数法进行相关性的计算,则变量的相关性系数计算如
(5) |
式中:——变量的协方差矩阵;——变量各自的标准差;——变量数据集中第个变量值;——变量平均值;——变量的数据集大小。
分别计算

图9 各参数与钻速的相关性分析结果
(1)高相关性参数组(12种参数,占所有参数种类的27.9%),该组内所有参数与钻速相关性较高(),计算结果全部位于之间。
(2)中相关性参数组(15种参数,占所有参数种类的34.9%),该组内所有参数与钻速相关性中等(),其中有9种相关性系数位于之间。
(3)低相关性参数组(16种参数,占所有参数种类的37.2%),该组内所有参数与钻速相关性较低(),其中有8种相关性系数<0.1。
单从相关性进行分析,并非现场所有数据都与钻速高度相关,因此在后续建模分析中也可有针对性的使用高相关性数据,以求获得更精确的结果。同时由
在未明确影响钻速准确因素的前提下,收集生产资料将面对需要分析变量参数过多的问题,如本例所示高达43种相关变量。过多变量可通过因子分析算法进行分组和降维,从中寻找内部相关性较高的变量组合。因子分析的核心原理在于通过准确计算变量间的相关性,将变量间按照两两之间的相关性进行分组,使同组内的变量相关性较高,而不同组的变量之间相关性较低。同时,计算分析通过一个不可观测的基本结构来描述和定义划分好的每一个变量组合,这个基本结构称之为公共因子,如
(6) |
式中:——原始可观测的变量;——公共因子,不可观测变量;——特殊因子,用于衡量测量误差等因素;(lij)n×m——因子载荷矩阵,用以表示第i个变量对第j个因子的影响系数。
基于公共因子的定义,经过如因子旋转等数学变换就可以得到对应的,相对独立的综合指标,如
(7) |
式中:——转换后综合指标;(aij)n×m——因子得分矩阵,用以表示第i个变量在第j个指标中所占比例。
因子分析理论的核心在于使用有限个公共因子(低维)取代原有多维参数,因此在选择公共因子数量时不可避免地可能产生原始数据信息丢失的问题。通过公共因子贡献率(包含原有数据信息的信息量)可直观展示这种效应。依次计算从原始43种参数中提取不同公共因子数量后的贡献率如


图10 因子分析计算结果
基于计算得到的载荷矩阵(lij)43×20,载荷矩阵中每个公共因子对应列中超过0.8的参数值可确定为主要影响参数,据此可得如

图11 公共因子与原始参数的对应图谱
公共因子1:主要影响参数包括井径D、井深d、泵量Q、钻井液密度MI/MO/MW、钻井液pH值、固相含量SO、地层孔隙压力PP、地层破裂压力FP与地层上覆压力OP。由此可见,除井径和井深两个显而易见的影响因素外,最大的影响因素仍然是以密度为主的钻井液性能与地层压力,该结论也与定性分析和相关性分析的结论吻合;
公共因子2:主要影响参数为钻井液进出口温度TI与TO,说明该地层温度也具备一定的影响;
公共因子3:主要影响参数为钻进时间BT与泵送时间PT,泵时在一定程度上会影响钻井液当量密度,进一步说明钻井液密度对钻进的影响;
公共因子4:主要影响因素为井眼编号No.(指代井眼位置与对应地层条件)和钻井液钙离子含量CAC,由于此处钙离子含量为钻井液出口数据,在一定程度上也包含了地层信息,故公共因子4可认定为与地层性质相关。
对实际生产数据的整合与初步分析是提高生产效率的有效途径,同时也是进行后续大数据建模、人工智能甚至自动施工的必要基础。本文以南海某区块相关钻井数据为例,从数据采集、数据定性分析和定量分析3个完整流程对生产数据的初步分析进行了举例与展示,主要结论如下:
(1)面对不同的数据格式,可通过图像点采算法实现图像数据向矩阵化数据的转换;同时针对不同的数据密度,也可通过数据插值补齐算法进行统一。
(2)数据标准化算法能够消除不同数据参数间的数量级与单位差异,避免后续建模分析的误差;而数据可视化则可辅助定性地快速寻找数据规律与趋势。
(3)就定量分析而言,直接的统计分析可快速了解数据本质,获得特征性参数;相关性分析算法则可量化不同数据参数间的相关关系,为后期建模选择参数奠定基础;同时因子分析算法可对大量的数据参数进行分组归类,寻找不同数据参数间的公共因子并实现高维数据的降维,降低后期建模分析的难度。
参考文献
耿黎东.大数据技术在石油工程中的应用现状与发展建议[J].石油钻探技术,2021,49(2):72-78. [百度学术]
Zborowski M. How ConocoPhillips solved its big data problem[J]. Journal of Petroleum Technology, 2018,70(7): 21-22. [百度学术]
Al-Subaiei D, Al-Hamer M, Al-Zaidan A, et al. Smart production surveillance: production monitoring and optimization using integrated digital oil field[C]. SPE Kuwait Oil and Gas Show and Conference, 2019.10. [百度学术]
New AI technology, Sandynicknamed, to accelerate projects[EB/OL]. (2019-01-28) https://www.bp.com/content/ dam/bp/business-sites/en/global/corporate/pdfs/news-and-insights/press-releases/bp-invests-in-new-artificial-intellig ence-technology.pdf. [百度学术]
Shell expands strategic collaboration with Microsoft to drive industry transformation and innovation[EB/OL]. (2018-09-20) https://news.microsoft.com/2018/09/20/shell-expands-strategic-collaboration-with-microsoft-to-drive-indus try-transformation-and-innovation/. [百度学术]
ExxonMobil to increase Permian profitability through digital partnership with Microsoft[EB/OL]. (2019-02-22) https://corporate.exxonmobil.com/news/newsroom/news-releases/2019/0222_exxonmobil-to-increase-permian-profi tability-through-digital-partnership-with-microsoft. [百度学术]
匡立春,刘合,任义丽,等.人工智能在石油勘探开发领域的应用现状与发展趋势[J].石油勘探与开发,2021,48(1):1-11. [百度学术]
DELFI cognitive E&P environment[EB/OL]. (2021-05-18) https://www.software.slb.com/delfi. [百度学术]
AI by BakerHughesC3.ai[EB/OL]. (2021-05-18) https://www.bakerhughes.com/ai-bakerhughesc3ai. [百度学术]
Manage information and help turn data into action with DecisionSpace® 365[EB/OL]. (2021-05-18) https://w ww.halliburton.com/en/software/decisionspace-365-information-management. [百度学术]
中石油发布勘探开发梦想云平台[EB/OL].(2018-11-27) http://www.xinhuanet.com/2018-11/27/c_11237757 41.htm. [百度学术]
张志伟.国内外岩芯数字化信息发布平台建设进展[J].地质论评,2020,66(2):493-498. [百度学术]
JEON G. Lagrange interpolation for up sampling[J]. International Journal of Multimedia and Ubiquitous Engineering, 2015,10:339-350. [百度学术]
LI Q, LI J P, DUAN L C, et al. Prediction of rock abrasivity and hardness from mineral composition[J]. International Journal of Rock Mechanics and Mining Sciences, 2021,140:104658. [百度学术]
向东进,李宏伟,刘小雅.实用多元统计分析[M].武汉:中国地质大学出版社,2006. [百度学术]
WENDLER T, GRÖTTRUP S. Factor analysis[M]//Data Mining with SPSS Modeler. Springer International Publishing, 2021:547-622. [百度学术]