IMDB电影评论情感分类

Liupeng

Feb 24, 2020

It takes 2 minutes to read this article.

IMDB电影评论情感分类

来自IMDB的25,000条电影评论的数据集，以情感（正/负）标记。评论已经过预处理，并且每个评论都被编码为单词索引（整数）序列。为了方便起见，单词以数据集中的整体频率进行索引，因此，例如，整数“ 3”对数据中的第3个最频繁出现的单词进行编码。这样可以进行快速过滤操作，例如：“仅考虑前10,000个最常用的词，而排除前20个最常用的词”。

按照惯例，“ 0”不代表特定单词，而是用于编码任何未知单词。

用法：

from keras.datasets import imdb
(x_train, y_train), (x_test, y_test)=imdb.load_data(path="imdb.npz",
 num_words=None,
 skip_top=0,
 maxlen=None,
 seed=113,
 start_char=1,
 oov_char=2,
 index_from=3)

返回值：
- 2个元组：
  - x_train，x_test：序列列表，它是索引（整数）列表。如果num_words参数是特定的，则最大可能的索引值为num_words-1。如果指定了maxlen参数，则最大可能的序列长度为maxlen。
  - y_train，y_test：整数标签（1或0）的列表。
参数：
- path：如果您没有本地数据（位于'~/.keras/datasets/' + path），则会将其下载到此位置。
- num_words：整数或无。需要考虑的最常见单词。频率较低的单词将oov_char在序列数据中显示为值。
- skip_top：整数。最容易忽略的最常见单词（它们将oov_char在序列数据中显示为值）。
- maxlen：整数最大序列长度。更长的序列将被截断。
- 种子：int。种子用于可重现的数据改组。
- start_char：整数。序列的开始将以该字符标记。设置为1是因为0通常是填充字符。
- oov_char：整数。由于num_words 或skip_top限制而被删去的单词将被替换为该字符。
- index_from：int。使用此索引和更高的索引来索引实际单词。