LIUPENG BLOG
Liupeng
Feb 24, 2020
It takes 2 minutes to read this article.

IMDB电影评论情感分类

来自IMDB的25,000条电影评论的数据集,以情感(正/负)标记。评论已经过预处理,并且每个评论都被编码为单词索引(整数)序列。为了方便起见,单词以数据集中的整体频率进行索引,因此,例如,整数“ 3”对数据中的第3个最频繁出现的单词进行编码。这样可以进行快速过滤操作,例如:“仅考虑前10,000个最常用的词,而排除前20个最常用的词”。

按照惯例,“ 0”不代表特定单词,而是用于编码任何未知单词。

用法:

from keras.datasets import imdb
(x_train, y_train), (x_test, y_test)=imdb.load_data(path="imdb.npz",
 num_words=None,
 skip_top=0,
 maxlen=None,
 seed=113,
 start_char=1,
 oov_char=2,
 index_from=3)
  • 返回值:

    • 2个元组:
      • x_train,x_test:序列列表,它是索引(整数)列表。如果num_words参数是特定的,则最大可能的索引值为num_words-1。如果指定了maxlen参数,则最大可能的序列长度为maxlen。
      • y_train,y_test:整数标签(1或0)的列表。
  • 参数:

    • path:如果您没有本地数据(位于'~/.keras/datasets/' + path),则会将其下载到此位置。
    • num_words:整数或无。需要考虑的最常见单词。频率较低的单词将oov_char在序列数据中显示为值。
    • skip_top:整数。最容易忽略的最常见单词(它们将oov_char在序列数据中显示为值)。
    • maxlen:整数 最大序列长度。更长的序列将被截断。
    • 种子:int。种子用于可重现的数据改组。
    • start_char:整数。序列的开始将以该字符标记。设置为1是因为0通常是填充字符。
    • oov_char:整数。由于num_wordsskip_top限制而被删去的单词将被替换为该字符。
    • index_from:int。使用此索引和更高的索引来索引实际单词。