博客
关于我
NLP学习笔记10-文本表示
阅读量:142 次
发布时间:2019-02-26

本文共 1116 字,大约阅读时间需要 3 分钟。

一 序

本文属于NLP学习笔记系列。

二 one-hot 文本表示

这是一个经典的算法,将每个词表示为一个长向量,其维度等于词典的大小。向量中绝大部分元素为0,只有一个位置的值为1,表示当前词的位置。

以7个词为例,实际应用中词典可能包含几十万个词。这种表示方式虽然简单,但存在一个主要缺点:对词语的重要性缺乏体现。

2.1 单词的表示形式

通过一维向量表示,词典中的每个词对应一个位置。如果词在句子中出现(无论出现次数),则该位置标记为1。这种方式虽然直观,但难以反映词语的重要性。

2.2 句子的表达形式(不统计词频)

将词典视为一个一维向量,若词在句子中出现,则对应位置标为1。这种表示方式忽略了词语的出现频率。

2.3 句子的表达形式(统计词频)

在上述基础上,增加了词语出现次数的统计。通过对词频进行加权,可以更准确地反映词语的重要性。

三 文本的相似度

主要应用场景包括问答系统、信息检索和分类任务。

3.1 基于欧式距离的文本相似度

欧氏距离是计算两个向量之间真实距离的度量方法。在文本表示中,欧式距离可以直接用于衡量句子或文档之间的相似度。

公式为:d=|s1-s2|,其中s1和s2分别为待比较的两个向量。欧式距离越小,表示两个向量越接近,句子相似度越高。

3.2 余弦相似度

余弦相似度考虑了向量的方向性,计算方法为:cosθ = (A·B)/(||A|| * ||B||)。其中A和B为待比较向量,A·B为向量的点积,||A||和||B||分别为向量的模长(范数)。这种方法不受向量长度的影响,能够更准确地衡量向量间的夹角,从而反映文本的相似度。

优点是可以消除向量长度的影响,缺点是对高频词的过度依赖,可能导致重要性不够的词语对相似度评估产生较大影响。

四 TF-IDF 文本表示

TF-IDF是Term Frequency-Inverse Document Frequency(词频-逆文档频率)的缩写。其核心思想是:一个词在文档中出现的频率越高,其对文档的重要性可能越低。因此,我们需要通过计算逆向文档频率来增强低频词的重要性。

具体计算公式为:TF-IDF(w) = TF(w) * IDF(w)。其中,TF(w)表示词w在文档中出现的次数,IDF(w)则表示在所有包含词w的文档中,文档的数量。

这种方法的核心优势在于能够有效提升低频词的重要性,确保高频和高重要性词的权重都能得到充分体现。

缺点是对高频词过度依赖,可能导致高频但无意义词的影响较大。

总结:One-hot表示方式虽然直观,但难以反映词语的重要性;TF-IDF表示方式则通过词频和逆向文档频率的结合,能够更全面地反映词语的实际重要性。

转载地址:http://ldcy.baihongyu.com/

你可能感兴趣的文章
mysql_real_connect 参数注意
查看>>
mysql_secure_installation初始化数据库报Access denied
查看>>
MySQL_西安11月销售昨日未上架的产品_20161212
查看>>
Mysql——深入浅出InnoDB底层原理
查看>>
MySQL“被动”性能优化汇总
查看>>
MySQL、HBase 和 Elasticsearch:特点与区别详解
查看>>
MySQL、Redis高频面试题汇总
查看>>
MYSQL、SQL Server、Oracle数据库排序空值null问题及其解决办法
查看>>
mysql一个字段为空时使用另一个字段排序
查看>>
MySQL一个表A中多个字段关联了表B的ID,如何关联查询?
查看>>
MYSQL一直显示正在启动
查看>>
MySQL一站到底!华为首发MySQL进阶宝典,基础+优化+源码+架构+实战五飞
查看>>
MySQL万字总结!超详细!
查看>>
Mysql下载以及安装(新手入门,超详细)
查看>>
MySQL不会性能调优?看看这份清华架构师编写的MySQL性能优化手册吧
查看>>
MySQL不同字符集及排序规则详解:业务场景下的最佳选
查看>>
Mysql不同官方版本对比
查看>>
MySQL与Informix数据库中的同义表创建:深入解析与比较
查看>>
mysql与mem_细说 MySQL 之 MEM_ROOT
查看>>
MySQL与Oracle的数据迁移注意事项,另附转换工具链接
查看>>