矩阵

选取上下文
最常见的有三种方法:

第一种,将词所在的文档作为上 下文,形成“词-文档”矩阵 [56]

第二种,将词附近上下文中的各个词(如上 下文窗口中的 5 个词)作为上下文,形成“词-词”矩阵 [70, 90];

第三种,将 词附近上下文各词组成的 n 元词组(n-gram)作为上下文

Skip-gram

NLP 在情感分析上的研究:

博文1:本文重点对电影推文进行情感分析(https://www.analyticsvidhya.com/blog/2016/02/step-step-guide-building-sentiment-analysis-model-graphlab/)

博文2:本文重点对印度金奈洪水期间的推文进行情感分析。(https://www.analyticsvidhya.com/blog/2017/01/sentiment-analysis-of-twitter-posts-on-chennai-floods-using-python/)

论文1:本文采用朴素贝叶斯的监督学习方法对IMDB评论进行分类。(https://arxiv.org/pdf/1305.6143.pdf)

论文2:本文利用LDA的无监督学习方法来识别用户生成评论的观点和情感。本文在解决注释评论短缺的问题上表现突出。(http://www.cs.cmu.edu/~yohanj/research/papers/WSDM11.pdf)

资料库:这是一个很好的包含相关研究论文和各种语言情感分析程序实现的资料库。(https://github.com/xiamx/awesome-sentiment-analysis)

数据集1:多域情感数据集版本2.0(http://www.cs.jhu.edu/~mdredze/datasets/sentiment/)

数据集2:Twitter情感分析数据集(http://www.sananalytics.com/lab/twitter-sentiment/)

竞赛:一个非常好的比赛,你可以检查你的模型在烂番茄电影评论的情感分析任务中的表现。(https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews)

常见分词方法:
1:词典匹配
匹配方式可以有正向(从左到右)
逆向(从右到左)
最少切分(使每一句中切出的词数最小,单个词的长度最长)

简单易懂,不依赖训练数据,可以做到和下游的应用紧密结合 (机器翻译中的phrase table,TTS中的词典等等),易于纠错等等

2:相邻汉字的特征值
通过语料数据中的一些统计特征(如互信息量)去估计相邻汉字之间的关联性,进而实现词的切分。
不依赖词表,具有很强的灵活性,特别是在对生词的发掘方面,但是也经常会有精度方面的问题

相关算法:

相关模型:
MEMM
CRF