博客
关于我
NLP学习笔记10-文本表示
阅读量:142 次
发布时间:2019-02-26

本文共 1116 字,大约阅读时间需要 3 分钟。

一 序

本文属于NLP学习笔记系列。

二 one-hot 文本表示

这是一个经典的算法,将每个词表示为一个长向量,其维度等于词典的大小。向量中绝大部分元素为0,只有一个位置的值为1,表示当前词的位置。

以7个词为例,实际应用中词典可能包含几十万个词。这种表示方式虽然简单,但存在一个主要缺点:对词语的重要性缺乏体现。

2.1 单词的表示形式

通过一维向量表示,词典中的每个词对应一个位置。如果词在句子中出现(无论出现次数),则该位置标记为1。这种方式虽然直观,但难以反映词语的重要性。

2.2 句子的表达形式(不统计词频)

将词典视为一个一维向量,若词在句子中出现,则对应位置标为1。这种表示方式忽略了词语的出现频率。

2.3 句子的表达形式(统计词频)

在上述基础上,增加了词语出现次数的统计。通过对词频进行加权,可以更准确地反映词语的重要性。

三 文本的相似度

主要应用场景包括问答系统、信息检索和分类任务。

3.1 基于欧式距离的文本相似度

欧氏距离是计算两个向量之间真实距离的度量方法。在文本表示中,欧式距离可以直接用于衡量句子或文档之间的相似度。

公式为:d=|s1-s2|,其中s1和s2分别为待比较的两个向量。欧式距离越小,表示两个向量越接近,句子相似度越高。

3.2 余弦相似度

余弦相似度考虑了向量的方向性,计算方法为:cosθ = (A·B)/(||A|| * ||B||)。其中A和B为待比较向量,A·B为向量的点积,||A||和||B||分别为向量的模长(范数)。这种方法不受向量长度的影响,能够更准确地衡量向量间的夹角,从而反映文本的相似度。

优点是可以消除向量长度的影响,缺点是对高频词的过度依赖,可能导致重要性不够的词语对相似度评估产生较大影响。

四 TF-IDF 文本表示

TF-IDF是Term Frequency-Inverse Document Frequency(词频-逆文档频率)的缩写。其核心思想是:一个词在文档中出现的频率越高,其对文档的重要性可能越低。因此,我们需要通过计算逆向文档频率来增强低频词的重要性。

具体计算公式为:TF-IDF(w) = TF(w) * IDF(w)。其中,TF(w)表示词w在文档中出现的次数,IDF(w)则表示在所有包含词w的文档中,文档的数量。

这种方法的核心优势在于能够有效提升低频词的重要性,确保高频和高重要性词的权重都能得到充分体现。

缺点是对高频词过度依赖,可能导致高频但无意义词的影响较大。

总结:One-hot表示方式虽然直观,但难以反映词语的重要性;TF-IDF表示方式则通过词频和逆向文档频率的结合,能够更全面地反映词语的实际重要性。

转载地址:http://ldcy.baihongyu.com/

你可能感兴趣的文章
MySQL是如何做容器测试的?
查看>>
mysql更改数据库表utf-8_修改mysql数据库为 utf-8
查看>>
mysql更改表引擎INNODB为MyISAM的方法总结
查看>>
mysql更新一个表里的字段等于另一个表某字段的值
查看>>
Mysql更新时间列只改日期为指定日期不更改时间
查看>>
MySQL更新锁(for update)摘要
查看>>
mysql更新频率_MySQL优化之如何了解SQL的执行频率
查看>>
mysql替换表的字段里面内容
查看>>
MySQL最多能有多少连接
查看>>
MySQL最大建议行数 2000w,靠谱吗?
查看>>
MySQL有哪些锁
查看>>
MySQL服务器安装(Linux)
查看>>
mysql服务器查询慢原因分析方法
查看>>
mysql服务无法启动的问题
查看>>
MySQL杂谈
查看>>
mysql权限
查看>>
mysql条件查询
查看>>
MySQL条件查询
查看>>
MySQL架构与SQL的执行流程_1
查看>>
MySQL架构与SQL的执行流程_2
查看>>