貌似没有比这个更好更体现数学之美的算法了,可是,判断两断内容的相似程度是简单的,如果是20万段内容,判断其两两之间的相似程度,又该怎么做呢?进行简单的两两选择,一共会有将近400万条数据,而可以确定的是,其中大部分都是没用的。
己末 's blog Powered By F2blog v1.2 build 03.01 CopyRight 2006 - 2009 XHTML | CSS | Archiver
On The Way Design by jimo Skin from pjblog | Processed in 0.036412 second(s), 2 queries,
《中华人民共和国电信与信息服务业务经营许可证》编号:粤ICP备06099092号