2025年5月16日 星期五 乙巳(蛇)年 二月十八 夜 设为首页 加入收藏
rss
您当前的位置:首页 > 计算机 > 编程开发 > Python

【Python】计算文本相似度

时间:04-13来源:作者:点击数:36

【Python】计算文本相似度

  • import jieba
  • import numpy as np
  • import re
  • def get_word_vector(s1,s2):
  • """
  • :param s1: 句子1
  • :param s2: 句子2
  • :return: 返回句子的余弦相似度
  • """
  • # 分词
  • cut1 = jieba.cut(s1)
  • cut2 = jieba.cut(s2)
  • list_word1 = (','.join(cut1)).split(',')
  • list_word2 = (','.join(cut2)).split(',')
  • # 列出所有的词,取并集
  • key_word = list(set(list_word1 + list_word2))
  • # 给定形状和类型的用0填充的矩阵存储向量
  • word_vector1 = np.zeros(len(key_word))
  • word_vector2 = np.zeros(len(key_word))
  • # 计算词频
  • # 依次确定向量的每个位置的值
  • for i in range(len(key_word)):
  • # 遍历key_word中每个词在句子中的出现次数
  • for j in range(len(list_word1)):
  • if key_word[i] == list_word1[j]:
  • word_vector1[i] += 1
  • for k in range(len(list_word2)):
  • if key_word[i] == list_word2[k]:
  • word_vector2[i] += 1
  • # 输出向量
  • return word_vector1, word_vector2
  • def cos_dist(vec1,vec2):
  • """
  • :param vec1: 向量1
  • :param vec2: 向量2
  • :return: 返回两个向量的余弦相似度
  • """
  • dist1=float(np.dot(vec1,vec2)/(np.linalg.norm(vec1)*np.linalg.norm(vec2)))
  • return dist1
方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门