| 
前 言
为实施2000版ISO9000系列标准中有关统计技术的思想,现编制《统计技术应用手册》,以便机械制造企业工程技术人员能较好地理解“统计技术”在质量控制中潜在的、软件的深刻作用,并能借助本《统计技术应用手册》在质量控制的全过程中选定、应用统计方法,以助于不断改进、提高产品质量。本博客为探讨“数学”中统计技术方面在企业实际中的应用,每次将有关章节提出,与大家讨论! 编著: 倪福男
第二章 回归分析
回归分析对于实验数据的处理、经验公式的建立;产品质量控制;技术标准的测定;各种现象的统计预报;自动控制中数学模型的确定等,是一种应用极为有效而广泛的数理统计工具。本章重点讲述了一元线性、非线性回归和显著性检验,并举例进行了计算、检验、分析,及如何在生产实践中利用回归方程进行质量的预测和控制。
一、什么是回归分析
在生产实践和科学实验中,经常遇到一些同处于一个统一体中的变量,在这个统一体中,这些变量是相互联系、相互制约的,也就是说它们之间客观上存在着一定的关系,为了深入了解事物的本质,往往需要找出描述这些变量之间依存关系的数学表达式,在微积分中,我们研究完全确定的函数关系。如下图:
I 电流
V 电压
然而在许多实际问题中,不是由于变量之间的关系比较复杂,使我们无法得到精确的数学表达式,就是由于生产或实验过程中不可避免地存在着误差影响,而使它们之间的关系具有某种不确定性。例如:炼钢厂冶炼某种钢材,炼钢炉中钢液含碳量与冶炼时间这两个变量,它们之间就不存在确定性关系,这就是说,对于相同的含碳量,在不同炉次中冶炼时间常不相同,反之,冶炼时间相等的两炉钢,初始的含碳量一般也不相同,造成这种情况,是因为在实际生产中各种工艺因素的影响是复杂的,冶炼时间并不由含碳量一个因素确定,钢水的温度或其它操作因素都可以使冶炼时间缩短或延长。那么是不是多考虑一些变量会有所帮助呢!的确是这样,一般说,多考虑一些变量会减少所考察的因变量(例如冶炼时间)的不确定性。
如果我们经过多次的实践和调查研究,我们就会发现许多变量之间确实存在着某种客观规律,如平均说来,较高的含碳量对应于较长的冶炼时间,因此需要我们用统计方法,在大量的试验和观察中,寻找隐藏在上述随机性后面的统计规律性,这类统计规律称为回归关系。有关回归关系的计算方法和理论通称为回归分析。它是数理统计的一个重要分枝,在生产和科研中有着广泛的应用。比如 ① 求经验公式; ② 建立质量方程; ③ 分析质量波动规律; ④ 确定最佳生产条件(工艺参数); ⑤ 预报气象与病虫害; ⑥ 制定自动控制中的数学模型等等,都要用到回归分析的工具。
回归分析主要解决以下几个方面的问题:
① 确定几个特定的变量之间是否存在相关关系,如果存在的话,找出它们之间合适的数学表达式。
② 根据一个或几个变量的值,预测或控制另一个变量的取值,并且知道这种预测或控制可达到什么样的精确度。
③ 进行因素分析,例如在对于共同影响一个变量的许多变因(因素)之间,找出哪些是重要因素,哪些是次要因素,这些因素又有什么关系等等。
二、回归直线的求法
1 、散点图与回归直线
现在我们就来讨论变量之间的相关关系 ,首先考虑最简单的两个变量的情况,一个变量(记为 Y )的值在某种程度上是随着另一个变量(记为 X )的值变化而变化的,通常称前者为因变量,称后者为自变量,通过实验,我们可得出关于 X 、 Y 两个变量的若干对数据,我们的目的是找出能描述这两个变量之间关系的定量表达式。
如下例:精炼时间对熔毕碳的回归计算。
首先测得某平炉熔毕碳与精炼时间的记录。为了研究精炼时间与熔毕碳这两个变量之间的关系,一个常用的也是最直观的办法是作图。把熔毕碳作为自变量 X t ,精炼时间作为因变量 Y t ,在坐标系上作成图,每组数据( X t , Y t )在图中以一个点来表示,这种图叫散点图,从图中可以看出精炼时间随熔毕碳的增大而增加,且它们之间大致成一线性关系,但正如上所表明过的那样,这两个变量之间的关系并不是确定性的线性函数关系,对应于相同的熔毕碳数值,精炼时间并不相等,反之,具有相等精炼时间,熔毕碳可以不相等,因此这两个变量之间的关系是一种相关关系。
对于具有相关关系的变量,如何进一步用数学公式来表示它们之间的关系呢?既然散点图表明,熔毕碳与精炼时间之间大致成线性关系,那么很自然我们想到可以用一条直线来表示两者的关系: Y = a + bX 它称为精炼时间 Y 对熔毕碳 X 的回归直线,也称为 Y 对 X 的回归方程。回归直线的斜率 b 称为回归系数,它表示当 X 增加一个单位时, Y 平均增加的数量,在本例中, b=1.27 ,这就是熔毕碳每增加一个单位,精炼时间平均提高 1.27 分钟。 A 为直线方程的常数项,本例中经计算 a=-32.37 ,于是精炼时间对熔毕碳的回归方程为:
Y = -32.37+1.27X 。
2 、用“最小二乘法”求回归直线方程
若( X t , Y t )( t=1,2,3 …… n )表示一组观测数据即 n 个观测点,而任意一条直线方程可写成如下形式:
Y=a+bX
如果用这条直线代表 X 与 Y 的关系,则对每个已知的观测点( X t , Y t )用同一横坐标 X t 在直线上的点对应的纵坐标为:
Y=a+bX t
Y t ( 观测点 ) - Y( 直线上的纵坐标 ) 的误差为:
δ t = Y t - Y = Y t - a - bX t
n 个观测点的误差 δ t 就构成了总误差,显然这个总误差不能用这些 δ t 的代数和:
来表示,因为这些误差中有正有负,单纯地相加则会由于正负抵消而不能代表真正的误差。用误差的绝对值之和:
来表示误差可以避免这个缺点,但这种表示会给以后的数学处理带来麻烦,因此,我们转而采用每个误差的平方和即:
作为总误差 Q 称为剩余平方和,(或残差平方和;或偏差平方和)。
回归直线是在所有的直线中误差平方和Q最小的一条直线,回归直线的系数 b 及常数项 a 的取值使Q达到极小值。根据数学分析中的极值原理,要使Q达到极小值,只需在⑴式中分别对 a 、 b 求偏微商,令它们等于零,从而求得 a 、 b 。


对⑵式化简:


∴ a = Y - b X
对⑶式化简:


现令: 称 X 、 Y 的离差乘积和



故证得:

现令:


故证得:

则:
a 、 b 都可从观测数据中计算得出。
因此,回归直线方程为:
|