分词

分词(tokenization)是将文本分解为单个词语的过程。词窗口也是由词例(token)组成的。Word2Vec可以输出文本窗口,作为定型样例输入神经网络,如下文所示。

以下是用DL4J工具进行分词的示例:

        //采用词形还原、词性标注、语句切分的分词 TokenizerFactory tokenizerFactory = new UimaTokenizerFactory(); Tokenizer tokenizer = tokenizerFactory.tokenize(“mystring”);

      //对词例进行迭代
      while(tokenizer.hasMoreTokens()) {
      	   String token = tokenizer.nextToken();
      }
      
      //获得整个词例列表
      List<String> tokens = tokenizer.getTokens();

上述代码创建了能够进行词干提取的分词器。

我们推荐在Word2Vec中采用这种方式生成词汇表,如此可以避免词汇表出现异常,比如同一个名词的单数和复数形式被记为两个不同的词。

与我们在Gitter聊天