附件1
统计学分析要点
1检验数据的统计描述 1.1统计表。统计表是以表格形式简明阐述数据关系的一种方式。一张表只表达一个中心内容。统计表标题表达的主词放在表的左侧,作为横标目;宾词放在表的右侧,作为纵标目;数字内容一般用小数点对齐,符号内容一般居中,无内容时用“-”表示,数据缺失时用“…”表示;表格一般不设纵线。 1.2统计图。统计图是以图型直观阐明数据关系的方式。 统计地图:统计地图用于表述统计量在不同地域的分布情况,数据用散点或颜色来表示。 饼图:饼图是以圆形面积作为100%,以若干个(两个以上)扇形表示事物内部构成所占的比例。 条图:条图是用相同宽度、不同长度的直条表示相互独立的统计量的大小,条图横坐标一般为定性变量,纵标为定量变量。 频数分布图(直方图):频数分布图是以各直方面积描述各组频数的分布情况。频数分布图直观简洁,是定量资料分析的重要方法,可以发现数据的分布情况,便于发现特异数据,估计正常值,初步评价限度设定的合理性等。 散点图:散点图表示两个定量变量之间的大致关系,判断两变量之间是否存在某种关联或分布模式。 折线图:折线图是用线段表示数据值的变化,用于描述统计量随另一连续变量变化的趋势,通常是随时间的变化趋势。 箱式图:箱式图是探索数据的重要分析工具,其给出的信息量更丰富。箱式图用于多组数据平均水平和变异程度的直观分析比较,每组数据均可呈现其最小值、最大值、中位数、下四分位数和上四分位数,可以反映数据的变异程度,观察数据的分布特征,如:正态分布、左偏分布、右偏分布还是其他类型的分布。简单的箱式图是以下四分位数和上四分位数为箱型方框的上下边,以最大值、最小值为线的上下端,在箱型方框中标出中位数的位置。 2两组数据均数比较的t检验 两组数据均数比较的t检验方法有:总体方差相等的t检验、总体方差不等的t’检验和配对t检验。 同一批样品在两个不同地方抽检数据的比较,或者同一批样品在两个不同时间的抽检数据的比较,应使用配对t检验。 3多组数据均数比较的方差分析 超过两组数据的均数比较应使用方差分析(F检验)。 两组以上完全随机设计数据的均数比较应使用完全随机设计资料的方差分析。完全随机设计资料的方差分析结果只能反映出各组数据均数是否有差异,如有差异,不能说明两两之间都有差异。如需进一步分析两两之间是否有差异,则应进行多组样本均数间的多重比较分析。 用完全随机设计资料的方差分析结果显示多组数据均数有差异时,用LSD-t检验和SNK-q检验进行两两之间的比较。 4聚类分析 聚类分析是将随机数据归类的统计学分析方法。适用于对数据规律尚不清楚,不知道应分为几类的数据分类分析。聚类分析的方法较多,应根据专业知识选择合适的聚类分析方法。 聚类分析常用于数据的探索性分析,其结果应密切结合专业知识,一般可尝试多种聚类方法分类,以得出较为科学的结论。 聚类分析的步骤一般有:①选择一种聚类方法进行计算;②对计算的结果用专业知识进行解释;③如果分类结果无法以专业知识解释,尝试另一种聚类分析方法,直至分类结果符合专业知识的解释(如:中药材或中成药中某种成分定量测定的数据,由于中药成分的变化差异较大,可以用聚类分析将测定的数据进行分类)。 5相关分析 相关分析是研究变量与变量之间关系的统计方法,包括二元线性相关分析、多元相关分析和典型相关分析。 二元相关分析是研究一个变量与另一个变量相关性的统计方法。药品检验中,样品溶液的颜色与有关物质是否相关,有关物质是否是与贮存时间相关等分析应使用二元相关分析。 多元相关分析是研究一个变量与多个自变量相关性的统计方法。上例中,有时样品溶液的颜色可能与原料的质量、晶型、有关物质、贮存时间、贮存的温度与湿度等因素存在关系,这时应使用多元相关分析。多元相关分析要求应变量是连续变量,自变量可以是连续变量也可以是分类变量或有序变量。 典型相关分析是研究两组变量之间相互关系的统计方法。例如,上例中,有时样品溶液的颜色、澄清度等可能与原料的质量、晶型、有关物质、贮存时间、贮存的温度与湿度等因素存在关系,这时应使用典型相关分析进行数据分析。 相关分析步骤一般有:①将需分析的参量输入统计软件进行分析计算;②对计算的结果中不相关的参量剔除,剩余参量重新输入统计软件进行分析计算;重复此步骤,直至剩余参量均相关。 |