博客
关于我
NLP学习笔记10-文本表示
阅读量:142 次
发布时间:2019-02-26

本文共 1116 字,大约阅读时间需要 3 分钟。

一 序

本文属于NLP学习笔记系列。

二 one-hot 文本表示

这是一个经典的算法,将每个词表示为一个长向量,其维度等于词典的大小。向量中绝大部分元素为0,只有一个位置的值为1,表示当前词的位置。

以7个词为例,实际应用中词典可能包含几十万个词。这种表示方式虽然简单,但存在一个主要缺点:对词语的重要性缺乏体现。

2.1 单词的表示形式

通过一维向量表示,词典中的每个词对应一个位置。如果词在句子中出现(无论出现次数),则该位置标记为1。这种方式虽然直观,但难以反映词语的重要性。

2.2 句子的表达形式(不统计词频)

将词典视为一个一维向量,若词在句子中出现,则对应位置标为1。这种表示方式忽略了词语的出现频率。

2.3 句子的表达形式(统计词频)

在上述基础上,增加了词语出现次数的统计。通过对词频进行加权,可以更准确地反映词语的重要性。

三 文本的相似度

主要应用场景包括问答系统、信息检索和分类任务。

3.1 基于欧式距离的文本相似度

欧氏距离是计算两个向量之间真实距离的度量方法。在文本表示中,欧式距离可以直接用于衡量句子或文档之间的相似度。

公式为:d=|s1-s2|,其中s1和s2分别为待比较的两个向量。欧式距离越小,表示两个向量越接近,句子相似度越高。

3.2 余弦相似度

余弦相似度考虑了向量的方向性,计算方法为:cosθ = (A·B)/(||A|| * ||B||)。其中A和B为待比较向量,A·B为向量的点积,||A||和||B||分别为向量的模长(范数)。这种方法不受向量长度的影响,能够更准确地衡量向量间的夹角,从而反映文本的相似度。

优点是可以消除向量长度的影响,缺点是对高频词的过度依赖,可能导致重要性不够的词语对相似度评估产生较大影响。

四 TF-IDF 文本表示

TF-IDF是Term Frequency-Inverse Document Frequency(词频-逆文档频率)的缩写。其核心思想是:一个词在文档中出现的频率越高,其对文档的重要性可能越低。因此,我们需要通过计算逆向文档频率来增强低频词的重要性。

具体计算公式为:TF-IDF(w) = TF(w) * IDF(w)。其中,TF(w)表示词w在文档中出现的次数,IDF(w)则表示在所有包含词w的文档中,文档的数量。

这种方法的核心优势在于能够有效提升低频词的重要性,确保高频和高重要性词的权重都能得到充分体现。

缺点是对高频词过度依赖,可能导致高频但无意义词的影响较大。

总结:One-hot表示方式虽然直观,但难以反映词语的重要性;TF-IDF表示方式则通过词频和逆向文档频率的结合,能够更全面地反映词语的实际重要性。

转载地址:http://ldcy.baihongyu.com/

你可能感兴趣的文章
oauth2-shiro 添加 redis 实现版本
查看>>
OAuth2.0_JWT令牌-生成令牌和校验令牌_Spring Security OAuth2.0认证授权---springcloud工作笔记148
查看>>
OAuth2.0_JWT令牌介绍_Spring Security OAuth2.0认证授权---springcloud工作笔记147
查看>>
OAuth2.0_介绍_Spring Security OAuth2.0认证授权---springcloud工作笔记137
查看>>
OAuth2.0_完善环境配置_把资源微服务客户端信息_授权码存入到数据库_Spring Security OAuth2.0认证授权---springcloud工作笔记149
查看>>
OAuth2.0_授权服务配置_Spring Security OAuth2.0认证授权---springcloud工作笔记140
查看>>
OAuth2.0_授权服务配置_令牌服务和令牌端点配置_Spring Security OAuth2.0认证授权---springcloud工作笔记143
查看>>
OAuth2.0_授权服务配置_客户端详情配置_Spring Security OAuth2.0认证授权---springcloud工作笔记142
查看>>
OAuth2.0_授权服务配置_密码模式及其他模式_Spring Security OAuth2.0认证授权---springcloud工作笔记145
查看>>
OAuth2.0_授权服务配置_资源服务测试_Spring Security OAuth2.0认证授权---springcloud工作笔记146
查看>>
OAuth2.0_环境介绍_授权服务和资源服务_Spring Security OAuth2.0认证授权---springcloud工作笔记138
查看>>
OAuth2.0_环境搭建_Spring Security OAuth2.0认证授权---springcloud工作笔记139
查看>>
oauth2.0协议介绍,核心概念和角色,工作流程,概念和用途
查看>>
OAuth2授权码模式详细流程(一)——站在OAuth2设计者的角度来理解code
查看>>
OAuth2:项目演示-模拟微信授权登录京东
查看>>
OA系统多少钱?OA办公系统中的价格选型
查看>>
OA系统选型:选择好的工作流引擎
查看>>
OA项目之我的会议(会议排座&送审)
查看>>
OA项目之我的会议(查询)
查看>>
Object c将一个double值转换为时间格式
查看>>