词向量

摘要:

向量

1.向量概念:
2.向量的相似度计算:

词向量:

1: 词向量 概念?
2: 词向量 有什么用?
3: 词向量维度计算?

向量

1. 向量概念: 在数学中,向量(也称为欧几里得向量、几何向量、矢量),指具有大小(magnitude)和方向的量。它可以形象化地表示为带箭头的线段。箭头所指:代表向量的方向;线段长度:代表向量的大小。与向量对应的只有大小,没有方向的量叫做数量(物理学中称标量)

2.向量的相似度计算:
2.1 皮尔逊相关系数(Pearson Correlation Coefficient)
2.2 欧几里德距离(Euclidean Distance)
2.3 Cosine 相似度(Cosine Similarity)
2.4 Tanimoto 系数(Tanimoto Coefficient)
2.5 曼哈顿距离
2.6 马氏距离
2.7 兰氏距离公式
2.8 切比雪夫距离公式
2.9 余弦距离
余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。
向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。
余弦定理描述了三角形中任何一个夹角和三个边的关系。给定三角形的三条边,可以使用余弦定理求出三角形各个角的角度。假定三角形的三条边为a,b和c,对应的三个角为A,B和C,那么角A的余弦为:

如果将三角形的两边b和c看成是两个向量,则上述公式等价于:

词向量

1: 词向量 概念?
把语言单词嵌入到向量空间中就叫词嵌入(word embedding),是一种词的分布式表示技术。

2: 词向量 有什么用?

3: 现有词的分布式表示技术:
3.0 one-hot形式的词向量
一般就是统计词库包含的所有V个词,然后将这V个词固定好顺序,然后每个词就可以用一个V维的稀疏向量来表示,向量中只有在该词出现的位置的元素才为1,其它元素全为0。比如下面这几个词,第一个元素为1的表示中国,第六个元素为1的表示美国,第五个元素为1的表示日本

中国 [1,0,0,0,0,0,0,0,0,……,0,0,0,0,0,0,0]
美国 [0,0,0,0,0,1,0,0,0,……,0,0,0,0,0,0,0]
日本 [0,0,0,0,1,0,0,0,0,……,0,0,0,0,0,0,0]

 

3.1 分布式表示
分布式词向量(distributed word representation)。 分布式词向量则干脆直接用普通的向量来表示词向量,而元素的值为任意实数,该向量的维数可以在事前确定,一般可以为50维或100维。这时的词向量类似如下(这里假设用5维来表示):

中国 [1.25, 0.2, 0.3, 0.5, 0.6]
美国 [0.1, 0.3, 0.5, 0.1, 1.5]
日本 [2.2, 0.2, 0.4, 0.6, 1.0]

3.1.1 基于矩阵的分布表示
3.1.2 基于聚类的分布式表示(分布聚类)
3.1.3 基于神经网路的分布式表示(词向量)
3.2 神经网路词向量表示技术
经网络语言模型即用神经网络来训练语言模型,最经典的模型是Bengio等人提出的三层神经网络,它思路大概是对于语料C任意一个词w,取它的前n-1个词作为输入,这个跟n-gram的思路是同样的,而w则为它的输出,有了输入和输出就组成了训练样本了。

3.2.1 神经网路语言模型 NNLM
3.2.2 log 双线性语言模型 LBL
3.2.3 循环神经网络语言模型 RNNLM
3.2.4 C&W 模型
3.2.5 CBOW模型 和 Skip-gram 模型
3.2.6 Order 模型

Leave a Reply

Your email address will not be published. Required fields are marked *