统计学基础知识
产品的质量是否符合要求,或者生产过程是否处于正常状态,往往需要通过生产过程、产品质量数据来反映和描述。统计学就是将一系列的复杂的数据减少为几个能够起到描述作用的数字,并用这些有代表性的数字来代表所有数据。这样在面对一大堆数据时,你可在不知道所有数据的情况下,就能知道数据的整体情况。
关于统计技术的基础知识,我们主要学习四个部分:(1)质量特性数据的特点和分类(2)随机数据分布的定量表示及计算(3)数据的收集与整理(4)几种常用的概率分布。
正如前述,产品的质量是否符合要求,或者生产过程是否处于正常状态往往需要通过生产过程、产品质量数据来反映。企业的质量分析、质量控制、质量策划及质量改进等一系列质量管理活动是建立在大量的质量数据基础上才能实现的。任何企业的质量管理活动都不是凭主观想象做出结论或决策的,而是基于反映客观实际的数据的一系列科学管理活动。质量特性数据是反映某产品的某项质量指标的原始数据。如:不合格品的件数, 尿素的含氮量,米袋的重量,燃油的燃烧率,手机的使用寿命,等等。补充说明的是,第一,同一产品质量特性数据可能不止一个,比如手机:手机的使用寿命,充满电量所需的时间等等这些都是属于手机的特性数据。第二,采集的数据是原始数据。
上图是尿素单包重量数据表,我们可以看出这100包尿素的重量是不完全相同的,但是大体都是在40.02,40.30两个数值内上下小幅度波动,再仔细看每一个数据会发现大部分数据都集中在40.10和40.25之间。由此,我们可以得出质量数据的特点:波动性和规律性。波动性体现在数值不完全相等,数值在一定范围波动。规律性体现在数值会接近某些数值,上图数值接近40.02,40.30,绝大部分数据集中在某些数值上,上图大部分数据都集中在40.10和40.25之间。
我们来了解一下波动性以及引起数据波动的原因。波动性是指不等同性、随机变化、变化幅度不大的起伏波动。引起波动的原因分为随机因素和系统因素。随机因素是难以避免属于正常波动,产生原因时大量、不易确定和难以消除,对质量影响小,允许的(控制的前提下),具有无方向性反复经常的特点。比如测温度时会受到白噪声的干扰造成温度的微小变化。系统因素则是可以避免的,属于异常活动,它影响大,容易查明,不允许存在,应该要立即查明消除波动,它具有方向性,周期性,突然而至的特点。比如,道具磨损、机器共振、违规操作、原材料的变化。
具体一点,波动产生的原因通常称为5E1M,5E指的是人力(Man)、机器(Machine)、物料(Material)、方法(Method)、测量(Measurement), 1E则指的是环境(Environment)。下面简单讲讲每一项产生数据波动的原因。人力:比如人们用眼睛读数会产生读数的误差。机器:比如机器长时间使用会受到磨损,这样生产出的产品会有误差。物料:比如说这一轮的生产会用到上一轮产品而上一轮产品不同批次性能也会有偏差。方法:比如同一款芯片的制造,不同的公司采用不同的工艺路径,造出来的芯片性能也会有差异。测量:不同量度的尺子测量同一个桌椅高度也会有数据的波动。环境:几乎所有的设备都会受到环境的影响,比如说热胀冷缩。
规律性是说质量数据的分布具有一定的规律,比如,采集的数据往往呈现出中间多、两边少的正态分布,这就是一个规律。
就质量数据的分类,一般分为计量值和计数值两大类。而计数值又分为计点值和计件值两个小类。计量值表现为数轴上所有点的形式,是可带小数的、连续取值的数据。在质量控制中计量数据是用计量器具测量得到的数据,因此它会涉及到有效位的问题。如:长度、面积、体积、重量、压阻流、湿度。具体的,计量数据的特点是:1.任意两个数值间可以插入无穷个数值;2.一般服从或近似服从正态分布。
计数值是数轴上的整数形式,可以用件数、个数、点数等整数计值的数据。间断取值,有限的区间仅能取有限个值(自然数)如:不合格品数。其特点是:非连续性。计数值根据质量特性本身的特点,又分为计件值和计点值。计点值:一段时间(已发生的过去时间,强调静态性)或者空间范围内某种特性值的集合数,如砂眼个数、疵点数,一般服从泊松分布。计件值:时间序列(注意考察过程,强调动态性)上某种特性值的集合数,如不合格品数,一般服从超几何或二项分布。
在某些特殊场合,质量数据又可分顺序数据、点数数据、优劣数据等。顺序数据:如把产品按评审标准顺序排列成1,2,……,10,这样的数据就是顺序数据。在对产品进行综合评审而又无适当仪表进行测量的场合常用这类数据。点数数据:以100或10点等记为满点进行评分的数据。在评比的场合常用这类数据。优劣数据:例如,有甲乙两种产品,比较哪种质量好而得出的结果就是优劣数据。
质量管理强调用数据说话,因此即使在无适当测量仪表的场合,也应当按照取得顺序数据或点数数据等方法,尽量用数值把研究对象定量地表示出来。具体就是,我们要把我们所关注的产品特性收集足够时数据,然后在数据分析的基础上处理这些数据得出结论,最后用数值把研究对象定量地表示出来。
当我们要检验一批产品的质量,有两种方式,一种是全数检验,即检验每一个产品。这里就会涉及到破坏性检验,就是一旦检验就会破化产品,比如牛奶、灯泡之类,因此这些不适用全数检验。这时就需要另一种检验,抽样检验,即抽取一部分检验来推断整批质量。把所研究对象的全体称为总体,也称为母体。组成总体的每一个单位称为个体。通常总体的单位数用N来表示,称为总体容量,样本单位数用n来表示,称为样本容量。我们可以用X1、 X2、X3 …Xn表示样本数据的取值。总体可以分为有限总体和无限总体。实际上所有东西都是有限的,但是总有些东西有限但是我们却无法准确得知数量,因此可以将其称为无限总体,比如说,纽扣、圆珠笔头。
样本数据的统计特征,主要有集中程度和离散程度。集中程度的表征:(1)样本均值:
我们将所有的样本数值相加再除以样本数,这样得出的就是样本均值。这种方式适用于数据比较集中的时候,若是数据离散,那么样本均值无法体现离散的数据,这时我们考虑用样本中位数。(2)样本中位数:X1、X2、X3 … Xn按照从小到大排序之后取中间位置的数据。如果n为奇数,那么我们取(n+1)/2处的数;如果n为偶数,那么取n/2和n/2+1两处的平均值。离散程度的表征:(1)样本极差R:R=Xmax一Xmin,这是最大值减去最小值, 用于样本信息利用不够或者易受极端数据影响的情况下。(2)样本方差与标准差s:
这是用每一个数减去样本均值的平方和再除以n-1,用来表示离散程度,作为总体的方差估计。且S越大,离散程度越高。
那收集数据有什么用呢?我们收集数据用于控制现场,实时监控过程产品的质量,一旦出现问题及时修正。我们收集数据用于分析,分析某些质量参数与工程控制参数之间的关系。我们收集数据用于调节,比如自动控制中的闭环控制,如恒温控制,我们通过调节温度数据使环境温度在正常工作范围之内。我们收集数据用于检查,来确定批量货物合不合格以决定接受或拒收。包括我们买东西的时候也要收集数据来确定商品是否满足自己的需求。
怎样进行数据收集?比如大家的健康数据,由于人数太多不可能逐个检验,那么就可以抽样检验,即抽取一部分检验来推断整批质量。随机抽样,即以一定的概率随机抽取一定的样本,用样本的特性代表总体的特性。由于抽样是随机的,就避免主观原因导致的误差,比较客观准确。随机抽样分简单随机抽样、系统随机抽样、分层随机抽样和整群随机抽样等。
简单随机抽样的总体中每一个个体被抽到的机会是均等的。随机抽样有放回的随机抽样也有无放回的随机抽样(N>>n)。比如一共有10个人,如果是有放回的随机抽样,第一个人抽到的概率是1/10,放回后第二个人抽取的概率还是1/10,被抽到的概率是一样的。同样10个人不放回的抽取,第一个人抽到的概率是1/10,因为第一个人没有抽到的所以第二个人的概率是9/10*1/9=1/10还是1/10,被抽到的概率还是一样的。需要注意的是,这里的1/10很多时候在质量抽样是没有意义的。因为在质量控制中,产品是有好与不好的划分的,有放回抽样中涉及放回去的是好的还是不好的,无放回抽样只能在总体数量远大于样本数量时看作简单随机抽样。简单随机抽样,我们也有很多种方式,可以抓阄,这种方式简单直观,适用于大件已有编号的产品。从批量N= 500的产品批中,抽取一个n=10的样本。先对这500个产品从1-500进行编号。制作签号为1-500的签,并随机混合,任意抽取10个签,得10个签号,然后按所得签号从产品批中抽取对应签号的10个产品,就是所需要的样本。也可以查随机数表,比如要从100产品中抽取10个,先编号,然后确定随机数,最后取出,这种方式程序就比较复杂。随机数法 也是根据随机数表来进行取样的。随机数表也称乱数表,是由随机生成的从0-9十个数字所组成的数表,每个数字在表中出现的次数是大致相同的,它们出现在表上的顺序是随机的。它是统计工作者借助计算机生成的随机数,并保证表中每个位置上出现哪个数字是等概率的,利用随机数表抽取样本保证了各个个体被抽取的概率相等。还可以掷骰子,随机骰子法先对待检产品批中的每个产品一一编号, 根据掷出骰子的点子数来确定哪一个产品被抽取到。
从100件产品中随机抽取10件组成样本。我们可以采用简单随机抽样,首先把这100件产品从1开始编号直至100。然后查《随机数表》或用抽签的方法从中确定编号毫无规律的10个号码,假定抽到的编号为4,33,68,77,17,91,44,27,37,51等10个,则把这10个编号的产品取出来组成样本。
系统随机抽样,这种抽样方式方便,同时还保证样本分布均匀,能保证代表性,适合大批最流水线操作。举例说明,比如:某工序每天生产200件产品,规定巡检员在一天中抽取n=10的样本进行检查,试用系统随机抽样确定抽取的样本号码。我们要抽取10个样品,首先要给这200件产品编号,分成10组,从每一组中抽样一个。根据算式N/n=20可以知道每20件为一组,第一个样品号码用抽签法在1-20间确定为13,则被抽取的样品号码为13、33、53、…、193,这样即可完成抽样。这种方式也有其局限性,若周期性波动与抽样间隔同步,则会产生系统误差。
分层随机抽样是事先按产品批已有的某些特征,将其分成几个不同的部分,每一部 分就称为一层,再分别在每一层中随机抽样,合在一起构成一个样本,这种方法称为分层随机抽样。例如,将产品批按不同的生产班组、生产设备、生产时间等进行分层。这种方法充分利用了总体的已有信息,因而是一种非常实用的抽样方法。对于一个产品批如何分层,分多少层,要视具体情况而定。一个总的原则是,同一层内的单位产品的差异要少,而层与层之间的差异要越大越好。例如:某批产品批量为N为1600,由A、B、C三条生产线加工而成,NA=800,NB=640,NC=160。取n=150的样本。则nA=n*NA/N=75,以此类推,nB=60,nC=15,也就是说各条生产线中抽取的样本数与原来各条生产线占总体的份额是一致的。
整群随机抽样就是在总体中不是抽取个别个体,而是随机抽取整群产品。这种方法先将总体按照某个标志(车间,时间)分成若干个群,然后随机的抽取若干群,并由抽中的群中的所有个体组成样本。这种方式实施方便,容易抽取。例如:估计某居民区现有的电话拥有率。全体居民→若干栋楼→居民。我们要调查某居民去现有的电话拥有率,全体居民调查是费时费力的,那么我们看到居民区里有若干栋楼,我们可以从这若干栋楼挑选一栋调查居民去调查现有的电话拥有率,来反映整个居民区现有的电话拥有率。又例如:调查某地区小学生视力状况。某地小学生→某所小学→小学生。我们要调查某地区小学生视力状况,所有小学生调查是费时费力的,那么我们看到这个地区有很多小学,我们可以从很多小学中挑选一所小学去调查小学生视力状况,来反映整个地区小学生视力状况。但是这种随机抽样的方式样本来自个别群体,代表性差,即使是一栋楼,一所小学他的样本量还是很大。
在随机抽样中,就数据的可靠性与收集数据的注意事项有:1、明确收集目的与整理方法。因为不同的目的可能对应着不同的处理数据的方法,所以明确目的才能更好的确定适合的处理数据的方法;2、记录完整、真实。如应记录何人、何时、从何处、用何方法、用何测量仪表、记录何数据、如何处理等;3、记录、计算过程必须保存;4、字迹清晰;5、记录、计算过程必须保存;字迹清晰。
精密测量时,记录测得数据的位数有一定限制,不宜太多,也不宜太少,太多可能使人误认为测量精度太高,太少则会损失精度,为此需要对规定精确程度范围以外的数字修约。我们采取“4舍6入5单双”的原则。总的规则是:4舍6入5考虑,5后非0则进1,5后皆0视奇偶,5前为偶应舍去,5前为奇则进1。具体可以通过示例来说明。由于有效数字的末位是不可靠的,就出现了书写的规则:用有效数字书写的修约数字与未修约的数字之差的绝对值不超过该数字末位数值的半个单位。比如:1350=>14×(这个是百位修约,百位的半个单位是50,也就是说该数字末位数值不能超过50)。再举几个例子:(1)15.34453保留2位小数,小数点后第三位是4,根据4舍,那么将数字修约为15.34;(2)15.34637保留2位小数,小数点后第三位是6,根据6入,将4加1数字修约为15.35;(3)15.34501保留2位小数,小数点后第三位是5,5后面是01,根据5后非0则进1,将4加1数字修约为15.35;(4)15.33500保留2位小数,小数点后第三位是5,5后面是00,全0看5前面的数奇偶,5前面是3,是奇数,根据5后皆0视奇偶,5前为偶应舍去,5前为奇则进1,将3加1数字修约为15.34;(5)15.34500保留2位小数,小数点后第三位是5,5后面是00,全0看5前面的数奇偶,5前面是4是偶数,根据5后皆0视奇偶,5前为偶应舍去,5前为奇则进1,将500舍去数字修约为15.34;(6)15.30500保留2位小数,小数点后第三位是5,5后面是00,全0看5前面的数奇偶,5前面是0是偶数,根据5后皆0视奇偶,5前为偶应舍去,5前为奇则进1,将500舍去数字修约为15.30。再举几个例子:修约为百位数,就是修约为X,同时注意百位的半个单位是50,也就是说该数字末位数值不能超过50。(1)1517中第三位是1,舍去,数字修约为15;(2)1483中第三位是8,那么进1,4+1=5,数字修约为15;(3)1450.7中第三位是5,5后面是0.7非全0,那么进1,4+1=5,数字修约为15;(4)1350中第三位是5,5后面全0,5前面是3为奇数,那么进1,3+1=4,数字修约为14;(5)1450中第三位是5,5后面全0,5前面是4为奇偶数,那么舍去,数字修约为14。同时我们可以将数字修约前与修约后进行减法运算,确保每个插值都在半个单位之间,也就是这里确保在50以内。
运算中的凑整,主要有这么五个方面。1、加减法:在各数中以小数位数最少的为准,其余各数均凑成比该数多一位。例如:60.4+2.02+0.222+0.0467=60.4+2.02+0.22+0.05 =62.69。60.4、2.02、0.222、0.0467这四个数字中小数位数最少的是60.4,是一位小数,因此要统一修约为两位小数。2、乘除法:在各数中,以数字各数最少的数为准,其余各数及积(商)均凑整比该因子多一个数字,且与小数点位置无关。例如:603.21× 0.32/4.011=603× 0.32/4.01=48.1。乘除法看的是数字的位数,603.21、 0.32、4.011这三个数,数字位数最少的是0.32两个数字,因此其余各数及积(商)均凑整为三个数,603.21修约为603,4.011修约为4.01,结果也要修约为三位数字。3、数平方或开方:结果可比原数多一位。例如:6962=4844×,可以多一位的意思是少一位也是没有关系,也是正确的。写484也是可以的。4、用对数运算时: n位数字的数值应该用n位对数表,以免损失准确度。例如:lg5.273+lg3.685=0.7221+0.5664=1.2885。5、查三角函数时:所用函数表的位数随角度误差的减小而加多。角度误差为10″、1″ 、0.1″、0.01”相应三角函数表位数应选择5、6、7、8位。另外,计算机运算时,中间运算数据多取一位或几位,时运算结果准确度尽可能高些。
数据的整理可以按照有序排列,即X1<X2<X3… <xn< span=””>,从小到大排列;也可以是按照频数分布,也可以说是频次分布,就按照某一个数出现的次数进行整理数据,比如直方图,他就用到了频数分布。数据整理的方式有:直方图、茎叶图、箱线图等等。</xn<>
直方图(Histogram),是用一系列等宽不等高的长方形来表示数据,宽度表示数据范围的间隔,高度表示在给定间隔的数据出现的频数,变化的高度形态反映了数据的分布情况。下面用一个例子说明。
用直方图进行数据整理第一步,首先收集数据。一般来讲,样本量要大于100,这里汽车活塞环直径数据我们取样本数n=125。第二步,找出最大值Xmax=74.030 ,最小值Xmin=73.967,则数据散布范围 [S,L]= [Xmin,Xmax]=[73.967,74.030],在此基础上计算极差R: R=Xmax一Xmin=0.063。第三步,根据样本数n决定分组数k和组距h。我们可以根据以往的经验进行分组,比如:数据个数在50-100,推荐组数k就差不多是 7-8,数据个数在101-200,推荐组数k就差不多是 8-9,数据个数在201-500,推荐组数k就差不多是 9-10,数据个数在501-1000,推荐组数k就差不多是 10-11;也可以使用经验公式: k=1+3.322lgn h=R/k,本例中:k=8 , h=0.063/8约等于0.07。第四步,决定各组的组界和组中值,组界:[a0, a1],(a1, a2],……, (ak-1, ak],aj= ak -h*(k-i)或ai= a0+h*i,其中,i=0,1,2,…,k。补充说明的是,我们之前的样本数现在全部都在组里面,也就是全覆盖,而且一个数只能在一个组里面,这也就是在这里我们使用开区间和闭区间的原因。就汽车活塞环直径数据而言,a0=S= 73.967, ak=L= 74.030。组中值:yi=(ai-1+ai)/2,组中值是每一组的最大值加最小值(此时按租界全为中括号计)除以2的出来的,在直方图中横坐标就是标的组中值。第五步,统计落入各组中的个数(频数)ni,并计算其频率:fi=ni/n。
根据之前的步骤我们可以得出这样的表格,125个数据根据经验我们分为8组,算出组距h,写出组限区间,算出组中值。之后对照数据采集表格进行频数统计,得出频数,将本区间的频数加上前面所有区间的频数得出累计频数。根据频数/样本数=频率和累计频数/样本数=累计频率算出频率和累计频率,至此完成上述表格。我们将组中值作为横坐标,频数作为纵坐标进行直方图的绘制,绘制出下面的直方图。我们可以看出这是呈现中间大两边小的正态分布。
在作图时要注意所作图纵横比例要合适,图中各数据必须标注。
茎叶图能显示数据分布形态,保留了原始数据信息。画图时把一个数据分成二部分:高位部分称为“茎”,低位部分称为“叶”,来反映数据的分布情况。例如:某型号20辆汽车每加仑行使的里程数数据 29.8、27.6、28.3、28.7、27.9、29.9、30.1、28.0、28.7、27.9、28.5、29.5、27.2、26.9、28.4、27.9、28.0、30.0、29.6、29.1。以上数据基本在26~31之间,对数据作如下划分,比如第一个数29.8,我们把29和8分开,把29作茎,把8作叶。
画图时先将茎依次从小到大写在一条竖线的左边,然后将每个数据的叶写在竖线的边,并将它们按从小到大的次序排列,再给出叶的单位,就构成了茎叶图。注意相同的数字不可以省略,比如上面的27.9出现了三次,要写三次9,因为茎叶图不仅反应大小也反应数字的个数。
当要对同一指标的两组数据进行比较时,可以用背靠背茎叶图。举个例子,为比较日班与夜班产量情况,收集同一时期的15个班次的产量数据如下:日班:84 85 69 75 87 73 92 70 74 79 70 95 79 89 80,夜班:78 82 74 68 79 84 90 59 71 85 66 69 83 89 75。
我们把十位数写在中间的茎上,个位上数按从小到大排列两侧的叶上。左边是日班,右边是夜班。左边叶上数据从小到大是从右往左,就是说最小的数写在最右边最大的数写在最左边;右边叶上数据从小到大是从左往右,就是说最小的数写在最左边最大的数写在最右边。需要注意的是,当数据过多(成千上万)或数据横跨几个数量级分散时不适宜用茎叶图。
箱线图,利用数据中的五个统计量最小值,第一四分位数,中位数,第三四分位数,最大值来描述数据的分布轮廓的一种图示法。可以粗略看出数据的对称性,分散程度等信息,特别适用于对多个样本的比较。第一四分位数是最小值与中位数之间的数据的中位数,用Q1表示;第三四分位数=最大值与中位数之间的数据的中位数,用Q3表示。
举例说明一下,某型号20辆汽车每加仑行使的里程数数据29.8、27.6、28.3、28.7、27.9、29.9、30.1、28.0、28.7、27.9、28.5、29.5、27.2、26.9、28.4、27.9、28.0、30.0、29.6、29.1。(1)将数据按从小到大排列 26.9、27.2、27.6、27.9、27.9、27.9、28.0、28.0、28.3、28.4、28.5、28.7、28.7、29.1、29.5、29.6、29.8、29.9、30.0、30.1。(2)看出最小值x(1)=26.9,最大值x(20)=30.1,中位数Xm=[x(10)+x(11)]/2=(28.4+28.5)/2=28.45(因为是偶数,中位数就用第十位数和第十一位数的平均值代替),注意,第一四分位数,不是用最小值与中位数相加除以2,而是排序之后的坐标中间的数,这里第一四分位数就是第五位和第六位的平均值。(3)第一四分位数Q1—[x(5)+x(6)]/2=(27.9+27.9)/2=27.9,同理,第三四分位数,不是用最大值与中位数相加除以2,而是排序之后的坐标中间的数,这里第三四分位数就是第十五位和第十六位的平均值。(4)第三四分位数Q3—[x(15)+x(16)]/2=(29.5+29.6)/2=29.55。(5)作图:先作一矩形,上端位于Q3=29.55;下端位于Q1=27.9,宽度无意义:中位数=28.45位于箱中一横线处:引上垂线,终端在最大值=30.1:引下垂线,终端在最小值=26.9。也就是说,这个矩形的上端线是第三四分位Q3,下端线是第一四分位Q1,矩形宽度没有意义随意宽度,矩形中有一根中位线,矩形引上垂线至最大值,引下垂线至最小值,这样一个箱线图就完成了,箱就是矩形,线就是上下垂线。
下面我们来看看箱线图的一些特性。
我们将箱线图转90,在其余条件不变的情况下,我们观察它的中位线可以看出数值是右偏还是左偏还是对称。
日常生活中也会用到箱线图,比如说股票。若要对多批数据进行比较,则可在同一张纸上同时划出这些批数据的箱线图,如图为某产品20天的数据图。我们可以清楚看出数据的高低大小,及时是两天差不多的容量我们也可以根据中位线判断是上偏还是下偏。
随机事件,每一个可能的结果通常用A、B、C表示。比如我们可以将摇骰子到1点为随机事件A,将摇骰子到2点为随机事件B,将摇骰子到3点为随机事件C。随机事件加随机事件也可能是随机事件。所以说随机事件可能是具体的一个,也可以是一个范围。
概率就是刻画事件发生可能性大小的数量指标。其特点是事件固有的,可以表达成:
这个P是一个常值,所以出现的频率理论上是固定的。事件的概率具有以下的性质:0≤P(A)≤ 1,P(Q)= 1,P(?)= 0;事件A、B不会同时发生,即AB = ?,则P(A+B)= P(A)+P(B) ,此为互斥事件;事件A、B独立,则P(AB)= P(A)P(B) ,此为独立事件;当A不发生,A就发生,则P(A)+P(A)= 1 ,此为对立事件。
小概率事件实际不可能性原理。小概率:P(A)<0.05 or 0.01 or 0.001。小概率事件特点:不是不可能事件,只是一次实验出现的可能性很小,不出现的可能性很大,实际上可以看成不可能事件。统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理,这是假设检验的基本依据。
用来表示随机现象结果的变量称为随机变量。常用大写字母X、Y、Z……表示。在掷骰子时,用X表示掷得的点数,则有P(X =1)={1点},P(X<3)={(1点}+{2点}< span=””>。当然,P(X<1)< span=””>则是没有意义的。对于随机变量而言,分为离散型随机变量和连续型随机变量,他们在表达概率分布的时候是有所区别的。
对于离散型随机变量的分布,其数学表达式: P(X = xi)= pi,i = 1,2,3 …列表写出分布列看得更加清楚,此处略。
对于连续型随机变量的分布,如果连续型随机变量X在区间[a, b]上取值概率的表达式为:
则f(x)为X的概率分布密度函数,对应的曲线为概率分布曲线。其特点为:
下面介绍几个常见的概率分布。
第一个是正态分布。公式:
数学描述为:
括号里依次是样本数据的均值和方差,由公式我们可以看出概率分布密度函数只与均值和方差有关。我们将概率分布密度函数进行积分得到概率分布函数:
画出图像可以看出这是一个近似直线但不是严格意义上的直线。
正态分布的特征,即概率密度函数呈单峰、对称的特征,由均值和方差两个参数决定整个概率密度函数。均值越大,函数图像向右偏的程度也就越大;方差越小,正态分布的数据越集中,图形表现越,方差越大,数据的离散程度越大,分布的范围也就越大,偏向两边的概率也就越大。
举个例子,包装纸的抗拉强度是一个重要的质量特性。假定包装纸抗拉强度服从正态分布N(3,0.04)。现购买厂家要求抗拉强度不低于2.5,问购买该包纸能满足厂家要求的概率是多少?我们可以这样解答:求2.5之后的概率分布,可以转换成1-P(2.5)之前的概率分布,即
因为
所以我们可以不用在意那个等于号,但严格来说,在数学表达上应该是。然后进行标准化,即有:
查表有?(2.5)=0.99379,则
总结一下,标准正态分布为:
但不是每个都是标准的,所以我们要将其标准化,标准变化的公式
第二个分布是超几何分布。在产品质量检验的不放回抽样当中,若N件产品中有D件不合格品,则检测n件时所得不合格品数X出现的概率服从超几何分布。注意一定是不放回的抽样。其概率分布函数及期望和方差分别为:
举个例子,设有100件产品,已知其中有5%的不合格品,现在从中不放回的随机抽取15件,求恰有2件不合格品的概率。解答过程如下:100件产品中有不合格品数=100×5%=5件,随机抽取的15件产品所出现的不合格品数x服从超几何分布,直接将D=5,K=2,N=100,n=15代入上面得公式,即可得概率0.1377。
第三个分布是二项分布,来源于独立重复试验,也就是放回抽样,即相同条件相将一次实验独立重复的做n次,N>>n时,不放回抽样接近于放回抽样,超几何分布可用二项分布代替。其概率分布函数及期望和方差分别为:
二项分布的概率曲线图与超几何分布的概率曲线图相似,一般是非对称的,受样本容量n和不合格率p的影响。举个例子:生产玻璃瓶的过程。过去的历史数据表明,1%的瓶子有一个或多个瑕疵。如果从生产过程中取10个瓶子,那么没有不合格品的概率是多少?解答过程:这里n=10,p=1%,x=0,代入公式,得出P(0)=0.904。
第四个分布是泊松分布,其随机变量只取0和正整数。其概率分布函数及期望和方差分别为:
只有当≥20近似于X~N,即近似于正态分布。举个例子:观察产品装配过程中发现的缺陷,经统计每台产品的平均装配缺陷数λ=0.5,试求在检验中发现恰有1个缺陷的概率是多大?解答过程很简单:此时的λ=0.5,x=1,直接将其代入公式,得出答案P(x=1)=0.303。