Liupeng
Feb 24, 2020
IMDB电影评论情感分类
来自IMDB的25,000条电影评论的数据集,以情感(正/负)标记。评论已经过预处理,并且每个评论都被编码为单词索引(整数)序列。为了方便起见,单词以数据集中的整体频率进行索引,因此,例如,整数“ 3”对数据中的第3个最频繁出现的单词进行编码。这样可以进行快速过滤操作,例如:“仅考虑前10,000个最常用的词,而排除前20个最常用的词”。
按照惯例,“ 0”不代表特定单词,而是用于编码任何未知单词。
用法:
from keras.datasets import imdb
(x_train, y_train), (x_test, y_test)=imdb.load_data(path="imdb.npz",
num_words=None,
skip_top=0,
maxlen=None,
seed=113,
start_char=1,
oov_char=2,
index_from=3)
-
返回值:
- 2个元组:
- x_train,x_test:序列列表,它是索引(整数)列表。如果num_words参数是特定的,则最大可能的索引值为num_words-1。如果指定了maxlen参数,则最大可能的序列长度为maxlen。
- y_train,y_test:整数标签(1或0)的列表。
- 2个元组:
-
参数:
- path:如果您没有本地数据(位于
'~/.keras/datasets/' + path
),则会将其下载到此位置。 - num_words:整数或无。需要考虑的最常见单词。频率较低的单词将
oov_char
在序列数据中显示为值。 - skip_top:整数。最容易忽略的最常见单词(它们将
oov_char
在序列数据中显示为值)。 - maxlen:整数 最大序列长度。更长的序列将被截断。
- 种子:int。种子用于可重现的数据改组。
- start_char:整数。序列的开始将以该字符标记。设置为1是因为0通常是填充字符。
- oov_char:整数。由于
num_words
或skip_top
限制而被删去的单词将被替换为该字符。 - index_from:int。使用此索引和更高的索引来索引实际单词。
- path:如果您没有本地数据(位于