统计学中的基本概念

  • A+
所属分类:数据分析

1、描述统计推断统计

描述统计(Descriptive Statistics):用表格、图形和数字来概括、显示数据特征的统计方法。

例1:2005年我国出生人口性别比(男:女)已经升高到119.92,与正常值106相比有严重的偏离。

例2:中国经济增长的起伏

推断统计(Inferentia Statistics): 从总体中抽取样本,并利用样本数据来推断总体特征的统计方法。

总体(popuation):由统计研究所涉及的那些同质个体(也称单位)所形成的集合。

样本(sampe):所研究总体的一部分。

统计学中的基本概念

例1: 2003年人口变动抽样调查以全国为总体,在全国抽取了990个县(市、区)、3734个乡(镇、街道)、6544个调查小区的126万人。根据调查结果推算,2003年末全国总人口为129227万人,出生人口为1599万人,死亡人口为825万人,净增人口为774万人。

例2:一家大公司的会计部门会从所有的发票中选择一部分来检查公司所有发票的准确性。

统计学中的基本概念

2、数据和变量类型

统计学中的基本概念

(1)、定类尺度 (Nomina Scae)

  • 也称列名尺度、名义尺度、分类尺度
  • 例如:性别、民族、职业
  • 数据表现为“类别”
  • 各类之间无等级次序
  • 各类别可以用数字代码表示
  • 根据定类尺度得到的数据为分类数据。

(2)、定序尺度(Ordina Scae)

  • 也称顺序尺度
  • 例如健康状况、质量等级
  • 数据表现为“类别”
  • 可对等级、大小等排序
  • 未测量出类别之间的准确差值
  • 根据定序尺度得到的数据为顺序数据。

(3)、定距尺度   Interva Scae

  • 也称间隔尺度
  • 例如年份、摄氏温度
  • 数据表现为“数值”
  • 可以进行加减运算
  • “0”是只是尺度上的一个点,不代表“不存在”
  • 根据定距尺度得到的数据为间距数据。

(4)、定比尺度  Ratio  Scae

  • 也称比率尺度
  • 例如体重、身高
  • 数据表现为“数值”
  • 可以进行加减、乘除运算
  • “0”表示“没有”或“不存在”
  • 根据定比尺度得到的数据为比率数据。

定距尺度与定比尺度的区别

定距尺度中“0”表示一个具体数值,不表示“没有”或“不存在”,定比尺度中“0”表示“没有”或“不存在” 。

在实际应用中定距尺度与定比尺度差别微不足道,往往不作区分。 例如在SPSS Statistics软件中,数据的计量尺度被分为3类:名义(Nomina)、有序(Ordina)、 度量(Scae )

四种计量尺度的比较

1、四种尺度所包含的信息量是依次递增的,级别由低到高。

2、根据较高层次的计量尺度可以获得较低层次的计量尺度。

3、不同的尺度数据对应这不同数据显示方法和分析方法。

统计学中的基本概念

数据和变量类型:总结

变量的概念和类型

变量是用来描述现象某种令人感兴趣的特征的概念。

品质变量是描述个体有关属性特征的变量,本质上不能用数字来表示。例如性别。

数量变量是描述个体有关数量特征的变量,都是用数字来表示的。例如人数,年龄等。

离散型变量指的是有限个数值或诸如0,1,2……之类无限可列值的变量。

如果某一变量可以取某一区间或多个区间中任意数值,则该变量称为连续型变量。

横截面、时间序列和面板数据

横截面数据(Cross-sectiona data)是在同一时点或是大约在同一时点所收集的数据。

例如2016年我国各直辖市的GDP 。

时间序列数据(Time series data)是按时间顺序取得的一系列数据。

例如我国历年的GDP。

面板数据(Pane Data):对多个事物在不同时期或时点上进行测量得到的数据 。如1996-2016年全国各个省份的GDP

3、统计指标的概念

一般有两种理解和两种使用方法:

1统计指标是指反映现象数量特征的概念。如年末人口数、商品销售额、劳动生产率等。

2统计指标是反映现象数量特征的概念和具体数值。如我国2016年的国内生产总值 。

(1)总量指标

也称为绝对数:以绝对数形式表现现象规模和水平的统计指标。可以分为时点数和时期数。

例如,2007全年入境旅游人数13187万人次 ;2007年全年国内生产总值246619亿元 ;2007年末全国参加城镇基本养老保险人数为20107万人 .

(2)时点数和时期数

时点数:是描述某种现象在某一个特定时刻(某一瞬间或某一时点)数量表现的数据。

例如,2007年年末全国总人口为132129万人 。

时期数:是描述某种现象在某一个特定时间范围内所实现的成果的数据。例如,2004年我国全年各种运输方式完成货物运输周转量66698亿吨公里。

区分数据是时点数还是时期数的方法之一看其加总后的结果是否有意义。若有意义则该指标必定是时期数。反之,则必定是时点数。

(3)相对数和平均数

相对指标:采用两个有联系的数值进行对比而得到的比值。也称为相对数,如产业结构比例、性别比、人口密度等等。

平均指标:也称为平均数,反映现象在某一时间或空间上的平均数量水平。例如职工的平均工资,平均考试成绩,等等。

中国大数据生态图谱&大数据交易市场专题研究报告
R语言神经网络模型银行客户信用评估数据
误差分位数的默示有效估计与\ 自回归时间序列的预测区间
精选各名校数学专业考研初试试卷

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: