某个词t和某个类别Ci传统的互信息定义如下: 互信息是 计算语言学 模型分析的常用方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的 区分度 。互信息的定义与交叉熵近似 [2] 。互信息本来是 信息论 中的一个概念,用于表示信息之间的关系, 是两个随机变量 统计相关性 的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之间的测度,如果特征词属于该类的话,它们的互信息量最大。由于该方法不需要对特征词和类别之间关系的性质作任何假设,因此非常适合于 文本分类 的特征和类别的 配准 工作 [2] 信息论 中的互信息 一般而言,信道中总是存在着噪声和干扰,信源发出消息x,通过信道后信宿只可能收到由于干扰作用引起的某种变形的y。信宿收到y后推测信源发出x的 概率 ,这一过程可由 后验概率 p(x|y)来描述。相应地,信源发出x的概率p(x)称为 先验概率 。我们定义x的后验 概率 与先验概率比值的 对数 为y对x的互信息量(简称互信息) [4] 根据熵的连锁规则,有