熵权法
熵的概念:
- 信息论中,熵是对不确定性的一种度量,可判断一个事件的随机性及无序程度。
- 用熵值判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响越大。
适用赛题
- 数据全面,但缺少文献或主观依据的题目
- 例如,评价河流的水质,已知河流的含氧量、pH值、细菌密度、生物密度等数据
- 但缺乏评价水质的文献资料,或者文献内的说法不一
- 即文献很难帮助我们确定影响水质最重要的因素是哪一个,也很难告诉我们其余指标的重要程度如何衡量
- 此时即可使用熵权法,根据数据本身建立评价体系
注意事项
- 熵权法与其他方法 (如AHP、TOPSIS法等) 最大的区别就是完全客观
- 难以将数据之外的因素考虑进去
1.数据标准化
标准化的原因:
- 评价体系中,存在数值越大越好的正向指标,和数值越小越好的负向指标
- 不同指标数量级也可能不同;且求熵的公式中用到对数函数,变量不允许有负值
正向指标标准化:
$ a_{ij} = \frac{ x_{ij}- \min(x_{1j},…,x_{nj} )}{\max(x_{1j},…,x_{nj})-\min(x_{1j},…,x_{nj})} $
负向指标标准化:
$ a_{ij} = \frac{ \max(x_{1j},…,x_{nj}) - x_{ij} }{\max(x_{1j},…,x_{nj})-\min(x_{1j},…,x_{nj})} $
不难发现,标准化之后,$a_{ij}$ 所有值在 $[0,1] $ 区间之内,且都是数值越大、现实意义越好。
2.指标的熵值和变异程度
①每个评价对象在各个指标中的比重:
可理解为统计意义上某种情况出现的概率
$p_{ij} = \frac{a_{ij}}{\sum_{i=1}^{n} a_{ij}}$
②熵值
对于第 $i$ 个指标,其熵值 $e_j$ 为:
$e_j = -\frac{1}{\ln n} \sum_{i=1}^{n} p_{ij} \ln p_{ij}$
③变异系数
- 第 $j$ 个指标的变异系数: $g_j = 1 - e_j$ .
- 显然熵值越大、变异系数越小,代表该指标越有序,该指标的信息量也就越小。
3.权重与评分
变异系数求权重
- 计算第 $j$ 个指标的权重: $w_j = \frac{g_j}{\sum_{j=1}^{m} g_j} $ .
- 指标的变异系数越大、信息量越大,相应指标的权重也越大。
综合评分
计算第 $i$ 个评价对象的综合评价值
$s_i = \sum_{j=1}^{m} w_j p_{ij}$
该公式对不同科目加权求和,得到每个人的平均值,评价值越大越好。
$p_{ij}$ 和 $w_j$ 都是原始数据 (成绩) 求得的,完全客观,不掺杂主观成分。