分词

分词(tokenization)是将文本分解为单个词语的过程。词窗口也是由词例(token)组成的。Word2Vec可以输出文本窗口,作为定型样例输入神经网络,如下文所示。

以下是用DL4J工具进行分词的示例:


//采用词形还原、词性标注、语句切分的分词 
	TokenizerFactory tokenizerFactory = new UimaTokenizerFactory(); Tokenizer tokenizer = tokenizerFactory.tokenize(“mystring”);

	//对词例进行迭代
    while(tokenizer.hasMoreTokens()) {
      	   String token = tokenizer.nextToken();
    }
      
    //获得整个词例列表
    List<String> tokens = tokenizer.getTokens();

上述代码创建了能够进行词干提取的分词器。

我们推荐在Word2Vec中采用这种方式生成词汇表,如此可以避免词汇表出现异常,比如同一个名词的单数和复数形式被记为两个不同的词。