向量模型是一种用于信息检索的模型,旨在克服布尔模型中二元权重的限制,提出了一种更适合部分匹配的框架。该模型通过对索引术语赋予非二元的权重,能够更好地反映文档与查询串之间的相关度,并按相关度降序排列搜索结果。向量模型的优势在于其返回的结果集更能满足用户的需求。
基本原理
向量模型的基本原理是将文档和查询串分别表示为高维向量,并通过余弦相似度衡量它们之间的相关性。具体而言,文档Dj和查询串q均表示为t维向量,其相关性的计算采用余弦相似度公式:
其中,|Dj|和|q|分别为文档和查询向量的范数。这个公式考虑到了文档和查询向量的规范化,使得向量模型可以根据查询的相关度来标记文档的秩,而不是像布尔模型那样仅有相关或不相关的二元状态。
索引术语权重
向量模型中,索引术语的权重可以通过多种方法获取,通常涉及聚类算法。这些算法的目标是将对象集C划分为与模糊描述集合A相关的对象集和不相关的对象集。在信息检索领域,这一过程被视为聚类问题,其中文档集C对应于对象集,查询串q对应于模糊描述集合A。向量模型通过计算术语在文档中的出现频率以及逆文档频率(IDF)来量化内聚相关度和相异性。术语的规格化频率由如下公式给出:
其中,N为总文档数,n(t)为包含术语t的文档数,f(t,d)为术语t在文档d中出现的次数,|d|为文档d中所有单词的数量。术语t的倒置文档频率IDF(t)定义为:
术语t相对于文档d的权重w(t,d)由此得出。查询术语的权重也可以通过类似的方式计算。
优点
向量模型的主要优势包括:
- 提供了更为精确的术语权重算法,提升了检索性能;
- 实现了部分匹配的策略,使搜索结果更贴近用户需求;
- 根据查询串与文档的相关度,通过余弦排名公式对结果文档进行排序。
参考资料
网络信息检索(一)检索模型:布尔,向量,概率检索.CSDN博客.2024-11-05
相似度计算方法(三) 余弦相似度.CSDN博客.2024-11-05
万物皆可Embedding,深入理解向量索引的构建和检索.CSDN博客.2024-11-05