摘要
岩石类型的识别对于钻进工程的安全和经济效益具有重要意义。钻进过程中的岩石类型实时识别大多是通过随钻测井,但由于随钻测井成本昂贵,在地质勘探领域鲜见应用。本文挖掘深部探测Sinoprobe-05项目金川科钻的钻进多参数(钻速、钻压、转速、钻头扭矩、泵压力、泵量)数据,通过一种融合模型算法来识别岩石类型。首先采用Savitzky-Golay平滑滤波器降低钻进参数数据的噪声,然后对数据进行了归一化。最后运用融合模型预测和识别岩石类别。融合模型的初级学习器为支持向量机、人工神经网络和随机森林,通过次级学习器贝叶斯模型平均算法对每个模型的权重进行计算。结果表明,多模型融合算法准确率为0.9686,比每个单独的算法准确率高。
钻探是地质勘探的主要方
随钻测井价格昂贵,在地质勘探领域中并未推广使用。钻机上钻进参数易于获得,许多学者利用钻进参数预测岩石强度或识别岩石类型,在实验室做钻孔实验和收集数据来研究钻孔数据与岩石的关系。LABELLE
以上的模型都是基于实验室获得的钻进数据,在实际钻进现场应用中性能未知。对于实际钻进现场,ZHOU
以上模型基于少数类型的岩石和解析模型,泛化性能比较差。当岩石类型更多时,这些模型将难以识别。为了找到一种可靠的方法来识别实际钻进现场的岩石类型,依托金川科钻配套的钻进参数检测系统采集数据和19种岩石的实物取心,对信息进行融合和对比验证,比较了融合模型和单独的3种机器学习算法(支持向量机、人工神经网络、随机森林)的结果。与随钻测井不同,钻进数据(钻速、钻压、转速、扭矩、泵压和泵流量)通常会在钻进过程中记录,因此无需额外费用,是一种非常经济的识别岩石的方法。
数据源来自于金川科学钻探孔。甘肃金川科钻项目是大陆科学钻探选址与科学钻探试验项目的重点项目之一,隶属于国家科技部重点研发项目深部探测技术与试验研究项目(SinoProbe-05-01)。金川科钻立项的意义是:解决金川深层资源前景,研究中国镍、铜、铂族金属资源的可持续开发利用。完善创新知识体系,建立具有中国金川特色、具有独创性和全球影响力的成矿理论体系。解决古大陆板块边缘(或内部)构造单元等相关重大基础地质问

图1 金川科钻钻机、钻头及钻进参数采集系统
Fig.1 JCSD-1 drilling machine, bit and monitoring system
首先对数据的离群点采用3σ方法进行筛分,样本x和样本均值μ之间的距离为Z-score(x)=(x-μ)/σ,将不满足条件|Z-score(x)|<3的样本视为离群值。最终筛分出10177个数据,

图2 孔深126~1330 m岩石类型
Fig.2 The rock type histogram of drilling depth 126~1330m

图3 不同岩石种类的钻进参数箱线
Fig.3 Boxplot of each drilling parameters in each type of rock
1—灰白色蛇纹岩夹杂灰色条带;2—深灰色黑云母角闪岩夹层混合岩带;3—浅灰色中粒混合岩夹斜长角闪岩和大理石镜质体;4—紫红色粗粒混合花岗岩;5—深灰色角闪岩夹紫红色带状混合岩(片麻岩);6—灰白色带状混合岩与深灰色角闪岩;7—深灰色中细粒黑云母角闪岩;8—灰色角闪岩与浅肉质混合红色混合岩;9—紫红色钾长混合花岗岩夹灰色斜长角闪岩;10—角闪岩夹大理岩;11—紫红色中粒混合花岗岩;12—灰白色大理石与灰黑色中粒角闪岩;13—灰色角闪岩;14—灰色蛇纹岩;15—深灰色角闪岩;16—灰白色大理石;17—浅灰色钾盐混合岩断裂带;18—深灰色黑色云绿泥片岩;19—深灰色粗粒角闪岩变粒岩
从

图4 滤波前后对比
Fig.4 Comparison of original and denosied data
数据归一化是机器学习中的一项基本任务。每个钻进数据的数值大小不同,如果数据未进行归一化,训练时间会更长,数据驱动模型的性能会很差。需要对原始钻进数据进行归一化处理,消除对机器学习算法结果的影响。原始数据经过归一化处理后,各项指标处于同一数量级,适合综合比较评价。数据处理时,使用最小最大值归一化来归一化原始钻进数据,如
(1) |
式中:Xmax——样本数据的最大值;Xmin——样本数据的最小值。
归一化后,所有钻进数据值都落在[0,1]区间内。
钻进参数之间存在很强的相关性,如

图5 钻进参数的Pearson相关性
Fig.5 Pearson correlation of drilling parameters
模型融合是指将多个学习器进行融合。模型融合可以减少单个学习器的偏差。模型融合误差由一个取决于单个学习器的误差和模型融合策略算法,定义如下:
(2) |
式中:——个体学习者的泛化错误,它取决于个体学习者Ei的错误和组合策略算法;——个体学习器的差异性,取决于个体学习者Ai和融合策略算法。
从

图6 模型融合算法伪代码
Fig.6 Pseudocode of staked model algorithm
本文的算法框架如

图7 本文模型融合结构
Fig.7 Structure of stacked model
支持向量机方法是由Vanpik和贝尔实验室合作开发
分类任务通常涉及将数据分成训练集和测试集。训练集中的每个实例都包含一个“目标值”和几个“属性”。支持向量机的目标是建立一个模型,该模型仅在给定测试数据属性的情况下预测测试数据的目标值。给定实例标签对(xi,yi)的训练集,i=1,…,l。其中xi∈
(2) |
约束:
(3) |
将低维空间难以处理的非线性分类问题转化为高维空间,得到最佳分类超平面。为了将低维非线性问题映射到高维规划线性问题,开发了核函数。支持向量机具有不同的内核(线性内核、多项式内核、径向基函数内核等)来执行高维特征空间中的任务。
人工神经网络已被证明在解决许多超出经典数学和传统程序的计算能力的复杂工程问题方面提供了高水平的能力。人工神经网络模型由称为神经元的基本处理单元组成。人工神经网络由学习算法、传递函数和网络结构3部分组成。它至少由3层组成:输入层、隐藏层和输出层。人工神经网络建模的第一步是训练网络。数据通过输入层到达隐藏层,然后到达输出层。在输出层,将数据与实际数据进行比较。实际数据和预测数据之间的差异被传回模型,以更新每个连接之间的权重和每层的偏差。这样,所有数据集都会继续训练,直到平均误差降低到某个定义的限
人工神经网络在处理模糊数据、随机数据和非线性数据方面优势明显。特别适用于规模大、结构复杂、信息不清晰的系统。
随机森林是Bagging的扩展变体。基于Bootstrap Sample的Bagging是并行集成学习方法最著名的代
随机森林的基础学习器是决策树。在决策树的训练过程中进一步增加了随机属性的选择。具体来说,传统决策树在选择分区属性时会在当前节点的属性集中选择一个最优属性。在随机森林中,对于决策树中的每个节点,从节点的属性集中随机选择一个包含k个属性的子集,然后从子集中选择一个最优属性进行划分。随机森林简单,易于实现,计算开销低,在许多任务中具有强大的性能。被誉为“代表综合学习技术的方法”。随机森林中基本学习器的多样性不仅来自样本干扰,还来自属性干扰,通过增加每个学习器之间的差异程度来提高泛化性
贝叶斯模型平均是基于贝叶斯理论将模型自身不确定性考虑在内的统计分析方法。其由一个模型空间M={M1,M2,…,Mn}来生成:
(4) |
式中:——单个模型;——待估参数向量;K——模型空间中含有模型的个数。
模型后验概率为:
(5) |
(6) |
(7) |
(8) |
验证时,采用留一法来验证模型的性能。整个数据集的80%(8141点)作为训练数据集,20%(2036点)作为测试数据集。准确性用于验证模型的性能。对于样本数据集D,它是正确分类的样本在样本总数中的比例,定义为
(9) |
机器学习算法是使用scikit-learn库实现的。每种算法的性能和超参数如
超参数寻优范围 | 最优超参数 | 训练精度 | 测试精度 | |
---|---|---|---|---|
支持向量机 |
kernel: {'linear', 'poly', 'rbf', 'sigmoid', 'precomputed'} C: {1,10,100,1000,10000} |
kernel: rbf C: 10000 | 0.9529 | 0.9209 |
人工神经网络 |
solver: {'lbfgs', 'sgd', 'adam'} hidden_layer_sizes:{(64,64,),(128,128,),(256,256,),(512,512,),(1024,1024,), (2048,2048,)} |
solver: adam hidden_layer_sizes: (1024,1024,) | 0.9031 | 0.8826 |
随机森林 |
n_estimators: [ max_depth:[ |
n_estimators: 800 max_depth:22 | 1.0 | 0.9322 |
模型融合 | 0.9982 | 0.9686 |

图8 各模型训练集与测试集结果
Fig.8 Results of each model training set and testing set
本文提出了一种融合模型预测岩石类别。模型融合算法的初级学习器为支持向量机、人工神经网络和随机森林,通过次级学习器贝叶斯模型平均算法对每个模型的权重进行计算。结果表明,多模型融合算法准确率为0.9686,比每个独立的算法准确率高。支持向量机、人工神经网络和随机森林3个模型的差异大,适合对其进行融合以提高模型精度。贝叶斯模型平均方法适用于大信息集合,能够最大限度地运用和反映岩石类别信息。由于事前对所有可能的模型进行加权平均,所以贝叶斯模型平均方法能够避免人为主观遴选解释变量造成的信息损失。该方法以贝叶斯统计理论为基础严格推演出模型后验概率分布,并以此作为模型权重,有效地解决了不同模型的权重问题。
与随钻录井相比,该方法快速、经济,钻进数据监测系统可以将数据快速传输到计算机。通过钻进数据识别岩石类型在实际工程现场具有很好的应用价值。它可以帮助工程师控制钻进质量,优化钻进参数以获得最佳的钻速并判断是否到达目的层。基于同一区域的全部钻进数据,可以建立具有强泛化性能的模型。这样,通过高精度地识别岩石类型,可以高效、快速地完成钻进工程。
参考文献(References)
LI Y, SHE L, WEN L, et al. Sensitivity analysis of drilling parameters in rock rotary drilling process based on orthogonal test method[J]. Engineering Geology, 2020,270:105576. [百度学术]
QIN M, WANG K, PAN K, et al. Analysis of signal characteristics from rock drilling based on vibration and acoustic sensor approaches[J]. Applied Acoustics, 2018,140:275-282. [百度学术]
周长春,姜杰,李谦,等.基于融合特征选择算法的钻速预测模型研究[J].钻探工程,2022,49(4):31-40. [百度学术]
ZHOU Changchun, JIANG Jie, LI Qian, et al. Research on drilling rate prediction model based on fusion feature selection algorithm[J]. Drilling Engineering, 2022,49(4):31-40. [百度学术]
张欣,田英英,韩泽龙,等.基于机器学习算法的井漏预测与诊断理论模型研究[J].钻探工程,2022,49(2):58-66. [百度学术]
ZHANG Xin, TIAN Yingying, HAN Zelong, et al. Research on lost circulation prediction and diagnosis theoretical model based on machine learning algorithm[J]. Drilling Engineering, 2022,49(2):58-66. [百度学术]
程万,孙家应,尹德战,等.深层泥页岩井壁失稳机理与预测模型研究进展[J].钻探工程,2021,48(10):21-28. [百度学术]
CHENG Wan, SUN Jiaying, YIN Dezhan, et al. Research status of the wellbore failure mechanism and predicting model in deep mudstone and shale[J]. Drilling Engineering, 2021,48(10):21-28. [百度学术]
李谦,曹彦伟,朱海燕.基于人工智能的钻速预测模型数据有效性下限分析[J].钻探工程,2021,48(3):21-30. [百度学术]
LI Qian, CAO Yanwei, ZHU Haiyan. Discussion on the lower limit of data validity for ROP prediction based on artificial intelligence[J]. Drilling Engineering, 2021,48(3):21-30. [百度学术]
陈晓君,陈小根,宋刚,等.基于人工神经网络模型的岩石特性预测[J].探矿工程(岩土钻掘工程),2019,46(1):34-38. [百度学术]
CHEN Xiaojun, CHEN Xiaogen, SONG Gang, et al. Prediction of rock characteristics based on artificial neural network model[J]. Exploration Engineering (Rock & Soil Drilling and Tunneling), 2019,46(1):34-38. [百度学术]
董青青,梁小丛.基于优化的BP神经网络地层可钻性预测模型[J].探矿工程(岩土钻掘工程),2012,39(11):26-28. [百度学术]
DONG Qingqing, LIANG Xiaocong. A model for predicting formation drillability based on optimized BP neural network[J]. Exploration Engineering (Rock & Soil Drilling and Tunneling), 2012,39(11):26-28. [百度学术]
熊虎林,李谦.基于地层成分和钻进参数的钻速预测模型[J].探矿工程(岩土钻掘工程),2018,45(10):195-201. [百度学术]
XIONG Hulin, LI Qian. ROP prediction model based on formation composition and drilling parameters[J]. Exploration Engineering (Rock & Soil Drilling and Tunneling), 2018,45(10):195-201. [百度学术]
AO Y, ZHU L, GUO S, et al. Probabilistic logging lithology characterization with random forest probability estimation[J]. Computers & Geosciences, 2020,144:104556. [百度学术]
SABAH M, TALEBKEIKHAH M, WOOD D A, et al. A machine learning approach to predict drilling rate using petrophysical and mud logging data[J]. Earth Science Informatics, 2019,12(3):319-339. [百度学术]
LABELLE D, BARES J, NOURBAKHSH I. Material classification by drilling[C]//Proceedings of the 17th International Symposium on Automation and Robotics in Construction.(International Association for Automation and Robotics in Construction):10. Citeseer, 2000. [百度学术]
KALANTARI S, HASHEMOLHOSSEINI H, BAGHBANAN A. Estimating rock strength parameters using drilling data[J]. International Journal of Rock Mechanics and Mining Sciences, 2018,104:45-52. [百度学术]
KALANTARI S, BAGHBANAN A, HASHEMALHOSSEINI H. An analytical model for estimating rock strength parameters from small‑scale drilling data[J]. Journal of Rock Mechanics and Geotechnical Engineering, 2019,11(1):135-145. [百度学术]
FLEGNER P, KAČUR J, DURDÁN M, et al. Processing a measured vibroacoustic signal for rock type recognition in rotary drilling technology[J]. Measurement: Journal of the International Measurement Confederation, 2019,134:451-467. [百度学术]
SILVA A, NOGUEIRA R, SILVA A. Classification model of low‑strength mortars from drilling data[J]. Construction and Building Materials,2020,246:118484. [百度学术]
SHANGXIN F, YUJIE W, GUOLAI Z, et al. Estimation of optimal drilling efficiency and rock strength by using controllable drilling parameters in rotary non‑percussive drilling[J]. Journal of Petroleum Science and Engineering, 2020,193:107376. [百度学术]
ZHOU H, HATHERLY P, RAMOS F, et al. An adaptive data driven model for characterizing rock properties from drilling data[C]//IEEE, 2011:1909-1915. [百度学术]
HE M, ZHANG Z, REN J, et al. Deep convolutional neural network for fast determination of the rock strength parameters using drilling data[J]. International Journal of Rock Mechanics and Mining Sciences, 2019,123:104084. [百度学术]
HE M, LI N, ZHU J, et al. Advanced prediction for field strength parameters of rock using drilling operational data from impregnated diamond bit[J]. Journal of Petroleum Science and Engineering, 2020,187:106847. [百度学术]
OLORUNTOBI O, BUTT S. Application of specific energy for lithology identification[J]. Journal of Petroleum Science and Engineering, 2020,184:106402. [百度学术]
LU Y, LI C, HE Z, et al. Variations in the physical and mechanical properties of rocks from different depths in the Songliao Basin under uniaxial compression conditions[J/OL]. Geomechanics and Geophysics for Geo‑Energy and Geo‑Resources, 2020,6(3):43[2021-10-05]. [百度学术]
杨经绥,许志琴,汤中立,等.大陆科学钻探选址与钻探实验[J].地球学报,2011,32(S1):84-112. [百度学术]
YANG Jingsui, XU Zhiqin, TANG Zhongli, et al. Continental Scientific Drilling: Site selection and pilot holes[J]. Acta Geoscientica Sinica, 2011,32(S1):84-112. [百度学术]
董海燕, 欧阳志勇, 吴海霞,等.深部探测金川预导孔深孔钻探钻头的应用与分析[J].探矿工程(岩土钻掘工程),2013,40(9):41-46. [百度学术]
DONG Haiyan, OUYANG Zhiyong, WU Haixia, et al. Application of the bit for pre‑pilot hole deep drilling in Jinchuan deep exploration[J]. Exploration Engineering(Rock & Soil Drilling and Tunneling), 2013,40(9):41-46. [百度学术]
罗光强,胡郁乐.科学深钻DPI-1智能化多功能钻参仪的研制与应用研究[J].地质与勘探,2014,50(4):777-782. [百度学术]
LUO Guangqiang, HU Yule. Design and application of the DPI-1 intelligent drilling parameter instrument for scientific drilling[J]. Geology and Exploration, 2014,50(4):777-782. [百度学术]
GARCIA L P F, CARVALHO A C P L F De, LORENA A C. Neurocomputing effect of label noise in the complexity of classi fi cation problems[J]. Neurocomputing, 2015,160:108-119. [百度学术]
ASHRAFI S B, ANEMANGELY M, SABAH M, et al. Application of hybrid artificial neural networks for predicting rate of penetration (ROP): A case study from Marun oil field[J]. Journal of Petroleum Science and Engineering, 2019,175:604-623. [百度学术]
SAVITZKY A, GOLAY M J E. Smoothing and differentiation of data by simplified least squares procedures[J]. Analytical Chemistry, 1964,36(8):1627-1639. [百度学术]
VAPNIK V N, CHERVONENKIS A. A note on one class of perceptrons[J]. Automation and Remote Control, 1964,25(1):821-837. [百度学术]
BELLO O, TEODORIU C, YAQOOB T, et al. Application of artificial intelligence techniques in drilling system design and operations: A state of the art review and future research pathways[C]//Society of Petroleum Engineers—SPE Nigeria Annual International Conference and Exhibition, 2016. [百度学术]
Agwu O E, Akpabio J U, Alabi S B, et al. Artificial intelligence techniques and their applications in drilling fluid engineering: A review[J]. Journal of Petroleum Science and Engineering, 2018,167:300-315. [百度学术]
Efron B, Tibshirani R J. An Introduction to the Bootstrap[M]. New York: CHAPMAN & HALL, 1993. [百度学术]
Pavlov Y L. Random forests[J]. Machine Learning, 2001,45:5-32. [百度学术]