• 1 
预览模式: 普通 | 列表

余弦定律的文本相似判断

  最近很忙,很久没有更新上面的内容了。今天就记录点东西吧,最近在做一个系统想到做一个近似的判断的功能来处理数据库中现在有数据的冗余。

  文本包含的各个词及其出现的频率可以构成一个表示该段文本的特征向量,而通过余弦定理可以计算任何两个向量的夹角,夹角越小就说明二者越接近。

  貌似没有比这个更好更体现数学之美的算法了,可是,判断两断内容的相似程度是简单的,如果是20万段内容,判断其两两之间的相似程度,又该怎么做呢?进行简单的两两选择,一共会有将近400万条数据,而可以确定的是,其中大部分都是没用的。

  • 1