Samxander's home

You shall see the difference now that we are back again!

0%

熵权法

熵权法

熵的概念:

  • 信息论中,熵是对不确定性的一种度量,可判断一个事件的随机性无序程度。
  • 用熵值判断某个指标的离散程度,指标的离散程度越大该指标对综合评价的影响越大

适用赛题

  • 数据全面,但缺少文献或主观依据的题目
    • 例如,评价河流的水质,已知河流的含氧量、pH值、细菌密度、生物密度等数据
    • 缺乏评价水质的文献资料,或者文献内的说法不一
    • 即文献很难帮助我们确定影响水质最重要的因素是哪一个,也很难告诉我们其余指标的重要程度如何衡量
    • 此时即可使用熵权法,根据数据本身建立评价体系

注意事项

  • 熵权法与其他方法 (如AHP、TOPSIS法等) 最大的区别就是完全客观
  • 难以将数据之外的因素考虑进去

1.数据标准化

标准化的原因:

  • 评价体系中,存在数值越大越好的正向指标,和数值越小越好的负向指标
  • 不同指标数量级也可能不同;且求熵的公式中用到对数函数,变量不允许有负值

正向指标标准化:

$ a_{ij} = \frac{ x_{ij}- \min(x_{1j},…,x_{nj} )}{\max(x_{1j},…,x_{nj})-\min(x_{1j},…,x_{nj})} $

负向指标标准化:

$ a_{ij} = \frac{ \max(x_{1j},…,x_{nj}) - x_{ij} }{\max(x_{1j},…,x_{nj})-\min(x_{1j},…,x_{nj})} $

不难发现,标准化之后,$a_{ij}$ 所有值在 $[0,1] $ 区间之内,且都是数值越大、现实意义越好。

2.指标的熵值和变异程度

①每个评价对象在各个指标中的比重:

  • 可理解为统计意义上某种情况出现的概率

    $p_{ij} = \frac{a_{ij}}{\sum_{i=1}^{n} a_{ij}}$

②熵值

  • 对于第 $i$ 个指标,其熵值 $e_j$ 为:

    $e_j = -\frac{1}{\ln n} \sum_{i=1}^{n} p_{ij} \ln p_{ij}$

③变异系数

  • 第 $j$ 个指标的变异系数: $g_j = 1 - e_j$ .
  • 显然熵值越大、变异系数越小,代表该指标越有序,该指标的信息量也就越小。

3.权重与评分

变异系数求权重

  • 计算第 $j$ 个指标的权重: $w_j = \frac{g_j}{\sum_{j=1}^{m} g_j} $ .
  • 指标的变异系数越大、信息量越大,相应指标的权重也越大。

综合评分

  • 计算第 $i$ 个评价对象的综合评价值

    $s_i = \sum_{j=1}^{m} w_j p_{ij}$

  • 该公式对不同科目加权求和,得到每个人的平均值,评价值越大越好。

  • $p_{ij}$ 和 $w_j$ 都是原始数据 (成绩) 求得的,完全客观,不掺杂主观成分。

Insist on writing original high-quality articles. Your support is my biggest motivation.