您的当前位置:首页正文

拉曼光谱的局域动态移动平均全自动基线校准算法

来源:汇意旅游网
第3 5卷,第5期 2 0 1 5年5月 光谱学与光谱分析 Vo1.35,No.5,pp1281—1285 May,2015 Spectroscopy and Spectral Analysis 拉曼光谱的局域动态移动平均全自动基线校准算法 高鹏飞 ,杨 蕊 ,季 江 ,郭汉明 ,瑚 琦 ,庄松林 1.上海市现代光学系统重点实验室,光学仪器与系统教育部工程研究中心, 上海理工大学光电信息与计算机工程学院,上海2.上海医疗器械高等专科学校医学影像工程系,上海200093 200093 摘要基线校准是极其重要的光谱预处理步骤,能够显著提高后续光谱分析算法的准确性。目前基线校 准算法大多数都是手动或半自动的,手动基线校准算法完全依赖于用户的经验,个人主观因素会严重影响 基线校准的准确性,半自动基线校准需要针对不同的拉曼光谱设置不同的优化参数,使用不便。提出了一种 局域动态移动平均(LDMA)全自动基线校准算法,并且详细阐明了该算法的基本思想和具体算法步骤。该 算法采用了改进移动平均算法(MMA)实现拉曼光谱峰的逐渐剥离,通过自动识别原始拉曼光谱的基线子区 间来将整个拉曼光谱区间自动分割为多个拉曼峰子区间,从而实现了在每个拉曼峰子区间中动态改变 MMA窗口半宽度和控制平滑迭代次数,最大程度地避免了基线校准过度和基线欠校准现象。无论对于凸形 基线、指数形基线、反曲线形基线模拟拉曼光谱,还是真实物质的拉曼光谱,LDMA全自动基线校准算法都 取得了很好的基线校准效果。 关键词拉曼光谱;基线校准;光谱平滑;窗口平均 文献标识码:A DOI:10.3964/j.issn.1000—0593(2015)05—1281—05 中图分类号:0657.3 一种不需要预先设置优化参数、不需要人工干预、对不同基 引 言 拉曼光谱分析算法被广泛用于物质的定性及定量分析, 并且得到了人们的广泛关注l1 ]。然而,拉曼光谱除了包含 代表物质成份的拉曼光谱峰以外,还包含有随机噪声及荧光 线类型的光谱均有良好的基线校准效果。然而,全自动基线 校准算法面临着校准模型选择、必要性参数选择、停止标准 以及校准结果评估等难题l7]。因此,全自动基线校准算法一 直是光谱分析算法研究的热点l7 ]。 本研究组在前一篇文章中提出了一种全自动的自适应多 尺度窗口平均平滑(AMwA)去噪算法,获得了更好的去噪 效果及准确性。在利用AMWA去除拉曼光谱噪音的基础 上,又提出一种局域动态移动平均(LDMA)全自动基线校准 背景信号[1 ]。荧光背景信号叠加到拉曼光谱峰上,使得拉 曼光谱存在基线偏移,严重影响了后续光谱分析算法的准确 性和可靠性。因此,基线校准算法【3蜘是极其重要的光谱预 处理步骤。 算法。该算法采用改进移动平均(MMA)算法实现拉曼光谱 峰的逐渐剥离,通过将整个拉曼光谱区间自动分割为多个拉 基线校准算法通常分为手动、半自动及全自动基线校 准。手动基线校准算法完全依赖于用户的经验,个人主观因 曼峰子区间(其定义详见1.1节)以及在该子区间中动态改变 素会严重影响基线校准的准确性。半自动基线校准,例如自 适应迭代惩罚最小二乘方法(airPLS)[ ,通常有很高的精 度,但是它的主要缺点是需要针对不同的拉曼光谱设置不同 MMA窗口半宽度和控制平滑迭代次数,实现了有效的全自 动基线校准。将LDMA算法与RIA全自动基线校准算法l9] 进行了比较。无论是模拟光谱还是实际光谱,LDMA算法都 取得了极好的基线校准效果。 的优化参数,这会给使用带来不便。全自动基线校准算法是 收稿日期:2014—10—21。修订日期:2015—01—25 基金项目:国家自然科学基金项目(61178079),霍英东教育基金会青年教师基金项目(121010),上海市教育委员会科研创新项目(138G47), 上海市研究生创新基金项目(JWCXSLI301),上海智能家居大规模物联共性技术工程中心项目(0Czx14O14)和沪江基金研究基 地专项(C14001)资助 作者简介:高鹏飞,1989年生,上海理工大学光电信息与计算机工程学院博士研究生 *通讯联系人 e-mail:hmguo@usst.edu.cn e-mail:gaoymnui623@126.COITI 1282 光谱学与光谱分析 第35卷 扫IsII 一窝骞∞ 如图1(a)所示,使用MMA多次迭代平滑时,拉曼光谱 1理论分析 1.1 LDMA基线校准的基本思想 峰会逐渐剥离。在有拉曼峰的位置,每进行一次MMA迭代 平滑,光谱曲线都会显著下降。并且在拉曼光谱峰被逐渐剥 离的过程中,每经过一次MMA平滑,平滑后光谱与平滑前 光谱有一部分是重叠的。不过这个重叠区域会越来越小,直 为了阐明LDMA基线校准的基本思想,首先研究模拟 拉曼光谱。模拟拉曼光谱可以由多个洛伦兹函数叠加而成, 其数学表达式为l8] N ^ 一 (1) 式中N是峰的总个数,变量r是拉曼位移;参数r0 , ,A。 分别是第i个峰的位置、半高宽(FWHM)和面积。另外拉曼 光谱的实际基线常常近似于凸形基线、指数形基线、反曲线 形基线l6 ],其模拟基线表达形式分别为 YB—aexp[-(r—rb) /b ],YB—aexp[-(r—YO)/6], 丑 YB一{1+exp[-(r--r0)/a3) 由于移动平均(MA)算法对光谱做平滑滤波获取基线 时,会使平滑后的光谱某些区域的值大于原始拉曼光谱的相 应值,而这是不符合实际的。因此,我们采用如下窗口半宽 度为w的改进移动平均MMA算法 1 弘一mm( 一,yk) (2) 图1描述了采用窗口半宽度 一7的MMA算法反复对 拉曼光谱峰及基线做平滑滤波处理的效果,其中5个拉曼峰 的参数为Ao 一[990,1120,240,520,1 11o], 一[31,23, lo,20,60],ro 一[3oo,441,490,560,960]。为了同时说 明三种典型基线的凸凹影响,图1使用了正弦型基线Ye一 300sin[n(r--50O)/1 ooo]+400。 400 8oo l 200 1 600 2 000 2 400 Ramsn shift/cm一0 Fig.1 Pictorial demonstration of the working of the modified moving averaging algorithm(MMA) (a):the synthetic Raman peak;(b):the synthetic baseline 至完全无重叠。图1(a)还表明,两个相距比较远的拉曼峰之 间(如位于560和960 cm )的光谱每次被平滑时的光谱差 值变化将很小。 从图1(b)可以看出,在MMA对基线多次迭代平滑时, 尽管基线的凸形区域会因为其频率较高而受MMA平滑影响 而逐渐降低,但是迭代5O次时,基线也只下降了约0.2 , 影响并不大。在200 ̄800 cm 以及1 300~l 600 cm 这两 段区域,由于基线的频率很低,MMA对这两段的平滑影响 非常小。在2 000 cm 左右的凹形区域,MMA算法由于会 强制取平滑前与平滑后这一点的最小值[见式(2)],所以 MMA算法对这一段凹形区域的基线没有影响。 因此,LDMA基线校准算法的基本思想就是首先判断拉 曼峰相距较远且基线校准成功的区间(简称为基线子区间), 利用基线子区间将整个拉曼光谱区间分割成多个子区间(简 称为拉曼峰子区间)。然后在每个拉曼峰子区间中对各段原 始拉曼光谱分别使用MMA算法迭代平滑,直至最后一次 MMA平滑时,平滑后光谱与平滑前光谱没有重叠区域。这 个拉曼峰子区间的平滑结果就是该区间的基线。将多个拉曼 峰子区间的基线和基线子区间的基线拼接就构成整个光谱区 间的基线。这样就可以最大程度地避免局部基线校准过度或 者欠校准的现象。 1.2 LDMA基线校准的算法 为了更准确地找到基线子区间,LDMA算法的第一步是 利用AMWA平滑去噪算法去除拉曼光谱的噪音,得到平滑 后的拉曼光谱XS。为了解决MMA算法平滑光谱时对光谱 两端位置小于窗口半宽度w的点保持其光谱值不变的问题, 在光谱XS的两端各添加一条直线,该直线是利用光谱两端 的”个光谱点分别用最小二乘法(LSM)拟合而成。所以LD— MA算法是针对光谱XS的两端添加长度L的直线后的延长 光谱XE寻找基线子区间。 LDMA算法的关键就是寻找基线子区间。模拟计算表 明,当原始拉曼光谱经过优(这里取m一50)次MMA迭代平 滑后,如果长度大于 (取l=20)的某段区间中平滑前与平滑 后的光谱差值xX小于阈值T (取T1一O.02Hp,Hp是最大 峰高),则这段区间必然存在基线子区间。考虑到噪音影响 以及MMA算法剥离光谱峰的原理,可以在上述光谱区间进 一步限定 <XX<丁2(取 一0.01H , 一0.001Hp), 其对应的区间看作基线子区间SS 。在基线子区间SS ,基线 校准效果正好,如果继续用MMA迭代平滑,则会出现基线 校准过度。 然后利用基线子区间SS 将整个拉曼光谱区间分割成多 个拉曼峰子区间S ,并且分别利用迭代MMA算法计算每 个拉曼峰子区间的基线。在该迭代过程中,平滑窗口半宽度 w(初值w一7)逐渐增加到最大值w (这里取w一一55)。 为了确保W=Wm. 时也能使用MMA算法,需要在每个拉曼 第5期 光谱学与光谱分析 算方式如下 ———~ 1283 峰子区间S 的两端分别添加w 个光谱数据。另外,考虑 到噪音影响,该迭代算法的终止条件是迭代中某一次平滑前 与平滑后的光谱重叠点数k小于3(近似完全不重合),或者 平滑窗口半宽度w达到最大值w 。详细的算法如图2所 V,RMSE一,、/ 1 (yi一 ) i一1 (3) 式中y是真实基线, 是预测的基线,P是拉曼光谱的总通 示。示  RawRmanaataXR H AMWA sm。。tntngXR ̄XS Add two lines with length L to both the end ofXSby the method of linear least square(LSM)fit to hte n data at thte end dof ofXSand get the extended spectrumXE. 1 Make m smoothing XE with MMA in I广————————一 talifn apel smoohting resultnd XEo ’,b ain岫H]I} l= Co肚 £ .m p ute,. 』 Find the subintervals&wiht ,<Tt(e g.Ti O.02 . is th。 maximum heightofpeak)and longer htan/.In the subintervals S,no peak exists. I Find all hte smaller subintervals SS,included by where the baseline XBi is successfully corrected,namely htere is < <T2(e..g.T2 .01np,T31np, T3 0.OOIO OIHp). Findall hte subinterva lsw ithpeaks品 th at are separa tedby山ebase lin e subintervalsSSi Correctthebasel ineo fXBpforXE’in eachsubinte rv al昂w ith mad dedtoboth e ndof品 .Sm oo th  XPin Swit hMMAof lIF indthenumbersko fwind0ww idth andgetXP,. z e r0inXP,-X P .e ogorithm(LDMA)for the fully automated baseline cot- rection 2结果与讨论 为了验证LDMA基线校准的效果,通过均方误差根 (RMsE)来评价基线校准的效果,同时与RI评A全自动基线校 准算法 。 做比较。RMSE越小,基线校准越准确。REMS计 道数。 本工作的拉曼位移是从200~3 000 cnl~ (步距l ClTI ),拉曼峰共有17个,其参数为A。 一[990,1 120,240, 520,600,900,450,1 600,1 350,1 250。l 110,510, 2 800,1 110,1 600,700,300], 一E31,23,lO,2o,30,, 1O,26,32,44,36,8O,3o,16,l8,24,7,zo],ro,=[300, 441,490,560,654,680,735,1 240,1 285,1 330,1 920, 2 200,2 256,2 294,2 560,2 600,2 8o0]。凸形基线a一 300,b=500,ro一1 100;指数形基线口一300,6—800,7o一 200;反曲线形基线n一300,6—500,ro一1 500。另外,在拉 曼光谱两端添加的直线长度L一60,它们是用拉曼光谱两端 的n一10个光谱点采用LSM方法拟合而成。噪音为信噪比 拟 SNR=15的高斯白噪声。拉曼峰、基线与噪音之和构成了原 始拉曼光谱。LDMA算法使用的其他参数见1.2节的说明。 图3描述了基线分别为凸形、指数形、反曲线形拉曼光 谱的LDMA与RIA算法的校准效果。RIA算法 使用的参 数是:拉曼光谱两端添加的直线长度L一600,添加的高斯峰 FWHM=30,高斯峰高度为拉曼光谱的最大值,两个高斯峰 的位置都在距离拉曼光谱两个端点的L/2处,使用的MMA 平滑窗口半宽度w一15,迭代终止条件为平滑后高斯峰峰高 降低到其初始值的0.1 。 在全自动基线校准算法中,最难解决的就是如何在避免 某段基线欠校准的同时,尽量避免另一段基线校准过度?在 图3(a)中,拉曼位移1 17O~1 380 crn 这一段的局部放大 图表明,RIA算法获得的基线(曲线4)与真实基线(曲线2) 比较接近,曲线4在曲线2的上方,表明这段基线处于欠校 准。而在拉曼位移240~780 cm 这一段,局部放大图显示 曲线4在曲线2的下方,表明这段基线处于校准过度。造成 这一现象的原因,就是由于RIA算法是在整个光谱区间采用 固定的平滑窗口半宽度W。LDMA算法由于采用了自动分 割拉曼峰子区间,而且在每个拉曼峰子区间中动态改变平滑 窗口半宽度和控制平滑迭代次数,所以能够最大程度地避免 ,基线校准过度现象。如图3(a)的两个局部放大图所示,LD— MA算法获得的基线(曲线3)与真实基线(曲线2)的重合度 更好。 图3表明,在同样的LDMA基线校准参数下,无论是凸 形基线[3(a)]、指数形基线[3(c)],还是反曲线[3(e)],LD— MA算法都取得了很好的基线校准效果[如图3(b),(d),(f) 所示]。而且在信噪比(SNR=15)较低的情况下,LDMA算 法仍然准确地识别了极小的拉曼峰(如在Yo 一735,1 920, 2 800 cm_1的三个拉曼峰)。曼  计算表明,对于凸形基线[3(a)]、指数形基线[3(c)]、 反曲线[3(e)]情况,LDMA算法基线校准的均方误差根 RMSE分别为1.21,1.710 6,1.277 4,而RIA算法基线校 准的RMSE分别为2.590 8,2.628 9,1.493 7。这说明LD— MA算法获得了更好的基线校准效果。 1284 光谱学与光谱分析 第35卷 为了进一步验证LDMA算法的有效性,利用自研的拉 三硫片拉曼光谱的基线近似为凸形基线[图4(a)],对乙酰氨 基酚片拉曼光谱的基线近似为指数形基线[图4(c)]。 苦 口 窝g∞ ll∞蛊 一矗时暑矗 曼光谱仪检测了茴三硫片(成都国嘉联合制药有限公司)和对 ;8lulg目盈 乙酰氨基酚片(江苏平光制药有限责任公司)的拉曼光谱。茴 加∞舳印蚰加0 120 釜3o0 100 80 60 40 20 喜3O0 昌 l z00 昌 黑200 器 100 i oo O 200 600 1 0001 4001 8002 200 2 6003 000 Raman shilf/em 0 200 600 1 0001 4001 8002 200 2 6003 000 Ra㈣shifl/cm- 200 600 1 0o01 400l 8o022o0 2 6o03 o0O Raman shift/era。。 鲁30O 兽 童200 写 100 0 200 600 1 000l 4001 8002 200 2 6003 000 Rlllnan shift/era’ 200 601)1 o00l 4001 8002 2o0 2 6003 000 Roaman shifl/cm。 200 600 l 0001 41)01 8002 200 2 6003 000 Raman shill&m- Fig.3 Raw synthetic Raro.an spectra with(a)convex,(c)exponential and(e)si ̄oidal baselines,where the curves 1,2,3,and 五 ∞岛 最_蠹g母 4 are the raw synthetic RaII硼spectrum,the synthetic b, ̄elme,the baseline recovered by LDMA,mad the baseline recovered byRIA,respectively.TheRm peaI【s recovered bytheLDMA(the curve 2)andtheRIA(the Culwe 3)fromthe res0ec‘  peal‘ tive rdw spectra are shown in the panels(b),(d)and(f),respectively,and where the ̄lll ̄e 1 is the synthetic Rm茸目苫一目目日 加∞蛐∞∞加0 从 L ㈣ 200 6oo 1 000 l 400 1 800 2 200 200 600 1 000 l 400 l 800 2 200 Raman shift/era一 Raman shiffcm" 200 600 1 000 l 400 l 800 2 200 200 600 1 000 1 400 1 800 2 200 Raman shiPdcm一 Raman shift/cm一 Fi昏4 Rm洲 spectra of(a)the anethole tlithione tablet(the tulle 1)and(c)the parace ̄ol tablet(the Clll ̄e 1),where the es 2 and 3 are the baselines recovered by LDMA and RIA,respectively.The RaInan peal‘s recovered by the LDMA(the clli ̄e 1)and the RIA(the Clll ̄e 2)from the respective raw spectra are shown in the panels(b)and(d),respectively 图4表明,LDMA算法对茴三硫片和对乙酰氨基酚片拉 显示的拉曼峰校准则有所不足,它将这个拉曼峰强制拉低, 曼光谱都取得了较好的基线校准效果。尤其是对于信噪比更 高的茴三硫片[见图4(a)],LDMA算法获得的基线与人工 与预期不符。 对乙酰氨基酚片拉曼光谱[见图4(c)]的噪音比较大, LDMA算法和RIA算法获得了比较接近的基线校准效果。 不过与高信噪比的茴三硫片拉曼光谱相比,LDMA算法和 RIA算法对低信噪比的对乙酰氨基酚片拉曼光谱的基线校准 预期的基线走势非常相符。而且LDMA算法对于茴三硫片 在200 cm 附近那个只部分显示的拉曼峰也做出了符合预 期的基线校准[见图4(a)和4(b)]。而RIA算法对这个部分 第5期 光谱学与光谱分析 1285 效果都略有不足。这也是现有全自动基线校准算法面临的一 曼光谱的基线子区间来将整个拉曼光谱区间自动分割为多个 拉曼峰子区间,从而实现了在每个拉曼峰子区间中动态改变 MMA窗口半宽度和控制平滑迭代次数,最大程度地避免了 基线校准过度和基线欠校准现象。无论对于模拟拉曼光谱, 还是真实物质的拉曼光谱,LDMA全自动基线校准算法都取 得了很好的基线校准效果。而且相比于RIA全自动基线校准 个通病。因此,在进行拉曼光谱分析时,最好先平滑去噪, 再进行基线校准。 3结论 提出了一种LDMA全自动基线校准算法。该算法采用 了MMA算法实现拉曼光谱峰的逐渐剥离,通过自动识别拉 Rererences 算法L9j,LDMA算法也获得了更优的基线校准效果。 Ea]CHEN Shan,Id Xiao-ning,HANG Yi—zeng,et al(陈析),2010,30(8):2157. 珊,李晓宁,梁逸曾,等).Spectroscopy and Spectral Analysis(光谱学与光谱分 [2] Urbas A A,Choquette S J.Applied Spectroscopy,2011,65(6):665.  C,Elliott S Journal of Raman Spectroscopy,2011,42:363 E3] Rowlands M,Bt ̄rmen M,Toma ̄evie D,et a1.Applied Spectroscopy,2012,66(10):1128. [4] Kosecmin,Chen Shah,Liang Yizeng.Analyst,2010,135:1138. E5] Zhang Zhik A,Shen A,et a1.Journal of Raman Spectroscopy,2011,42:1987. E63 Back S,Parze H G,Foist R B,Okuda K,et a1.Applied Spectroscopy,2012,66(7):757. E7] Schul Y C.Analyst,2011,136:313O. E8] Prakash B D and Weishna H,Majumder S K,Gupta P K.Journal of Rama, ̄Spectroscopy,2012,43:1884 [9] KriLocally Dynamically Moving Average Algorithm for the Fully Automated Baseline Correction of Raman Spectrum GAO Peng-fei ,YANG Rui ~,JI Jiang ,GUO Han-ming ,HU Qi ,ZHUANG Song-lin 1.Shanghai Key Lab of Modern Optical System,and Engineering Research Center of Optical Instrument and System,Ministry of Education,School of 0ptical-Electrical and Computer Engineering,University of Shanghai for Science and Technology, Shanghai 200093,China 2.Department of Medical Imaging Engineering,Shanghai Medical Instrumentation College,Shanghai 200093,China Abstract The baseline correction is an extremely important spectral preprocessing step and can significantly improve the accura~ cy of the subsequent spectral analysis algorithm.At present most of the baseline correction algorithms are manual and semi —auto ・ mated.The manual baseline correction depends on the user experience and its accuracy is greatly affected by the subjective fac— tor.The semi-automated baseline correction needs to set different optimizing parameters for different Raman spectra,which will be inconvenient to users.In this paper,a locally dynamically moving average algorithm(LDMA)for the fully automated baseline correction is presented and its basic ideas and steps are demonstrated in detail.In the LDMA algorithm the modified moving av— eraging algorithm(MMA)is used to strip the Raman peaks.By automatically finding the baseline subintervals of the raw Roman spectrum to divide the total spectrum range into multi Raman peak subintervals,the LDMA algorithm succeed in dynamically changing the window half width of the MMA algorithm and controlling the numbers of the smoothing iterations in each Raman peak subinterva1.Hence,the phenomena of overcorrection and under-correction are avoided to the most degree.The LDMA al— gorithm has achieved great effect not only to the synthetic Raman spectra with the convex,exponential,or sigmoidal baseline but also to the rea1 Raman spectra. Keywords Roman spectrum;Baseline correction Spectrum smoothing;Window average *Corresponding author (Received Oct.21,2014;accepted Jan.25,2015) 

因篇幅问题不能全部显示,请点此查看更多更全内容