NLP学习笔记10-文本表示-白红宇

NLP学习笔记10-文本表示

阅读量：142 次

发布时间：2019-02-26

本文共 1116 字，大约阅读时间需要 3 分钟。

一序

本文属于NLP学习笔记系列。

这是一个经典的算法，将每个词表示为一个长向量，其维度等于词典的大小。向量中绝大部分元素为0，只有一个位置的值为1，表示当前词的位置。

以7个词为例，实际应用中词典可能包含几十万个词。这种表示方式虽然简单，但存在一个主要缺点：对词语的重要性缺乏体现。

通过一维向量表示，词典中的每个词对应一个位置。如果词在句子中出现（无论出现次数），则该位置标记为1。这种方式虽然直观，但难以反映词语的重要性。

将词典视为一个一维向量，若词在句子中出现，则对应位置标为1。这种表示方式忽略了词语的出现频率。

在上述基础上，增加了词语出现次数的统计。通过对词频进行加权，可以更准确地反映词语的重要性。

主要应用场景包括问答系统、信息检索和分类任务。

欧氏距离是计算两个向量之间真实距离的度量方法。在文本表示中，欧式距离可以直接用于衡量句子或文档之间的相似度。

公式为：d=|s1-s2|，其中s1和s2分别为待比较的两个向量。欧式距离越小，表示两个向量越接近，句子相似度越高。

余弦相似度考虑了向量的方向性，计算方法为：cosθ = (A·B)/(||A|| * ||B||)。其中A和B为待比较向量，A·B为向量的点积，||A||和||B||分别为向量的模长（范数）。这种方法不受向量长度的影响，能够更准确地衡量向量间的夹角，从而反映文本的相似度。

优点是可以消除向量长度的影响，缺点是对高频词的过度依赖，可能导致重要性不够的词语对相似度评估产生较大影响。

TF-IDF是Term Frequency-Inverse Document Frequency（词频-逆文档频率）的缩写。其核心思想是：一个词在文档中出现的频率越高，其对文档的重要性可能越低。因此，我们需要通过计算逆向文档频率来增强低频词的重要性。

具体计算公式为：TF-IDF(w) = TF(w) * IDF(w)。其中，TF(w)表示词w在文档中出现的次数，IDF(w)则表示在所有包含词w的文档中，文档的数量。

这种方法的核心优势在于能够有效提升低频词的重要性，确保高频和高重要性词的权重都能得到充分体现。

缺点是对高频词过度依赖，可能导致高频但无意义词的影响较大。

总结：One-hot表示方式虽然直观，但难以反映词语的重要性；TF-IDF表示方式则通过词频和逆向文档频率的结合，能够更全面地反映词语的实际重要性。

转载地址：http://ldcy.baihongyu.com/

你可能感兴趣的文章