使用 LSTM 进行多变量时间序列预测的保姆级教程开发者社区

使用 LSTM 进行多变量时间序列预测的保姆级教程

来源：DeepHub IMBA本文约3800字，建议阅读10分钟本文中我们将使用深度学习方法 (LSTM) 执行多元时间序列预测。

import numpy as npimport pandas as pdfrom matplotlib import pyplot as pltfrom tensorflow.keras.models import Sequentialfrom tensorflow.keras.layers import LSTMfrom tensorflow.keras.layers import Dense, Dropoutfrom sklearn.preprocessing import MinMaxScalerfrom keras.wrappers.scikit_learn import KerasRegressorfrom sklearn.model_selection import GridSearchCV

df=pd.read_csv("train.csv",parse_dates=["Date"],index_col=[0])df.head()


                     
                      
                      
                     
                     
                      df.tail()
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      

                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     

                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 现在让我们花点时间看看数据：csv文件中包含了谷歌从2001-01-25到2021-09-29的股票数据，数据是按照天数频率的。
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 [如果您愿意，您可以将频率转换为“B”[工作日]或“D”，因为我们不会使用日期，我只是保持它的现状。]
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 这里我们试图预测“Open”列的未来值，因此“Open”是这里的目标列。
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 让我们看一下数据的形状：
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      df.shape(5203,5)
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 现在让我们进行训练测试拆分。这里我们不能打乱数据，因为在时间序列中必须是顺序的。
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      test_split=round(len(df)*0.20)df_for_training=df[:-1041]df_for_testing=df[-1041:]print(df_for_training.shape)print(df_for_testing.shape)
(4162, 5)(1041, 5)
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 可以注意到数据范围非常大，并且它们没有在相同的范围内缩放，因此为了避免预测错误，让我们先使用MinMaxScaler缩放数据。(也可以使用StandardScaler)
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      scaler = MinMaxScaler(feature_range=(0,1))df_for_training_scaled = scaler.fit_transform(df_for_training)df_for_testing_scaled=scaler.transform(df_for_testing)df_for_training_scaled
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     




    

                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 
                                  
                                   
                                  
                                 
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 将数据拆分为X和Y，这是最重要的部分，正确阅读每一个步骤。
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      def createXY(dataset,n_past):  dataX = []  dataY = []  for i in range(n_past, len(dataset)):          dataX.append(dataset[i - n_past:i, 0:dataset.shape[1]])          dataY.append(dataset[i,0])  return np.array(dataX),np.array(dataY)
trainX,trainY=createXY(df_for_training_scaled,30)testX,testY=createXY(df_for_testing_scaled,30)
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 让我们看看上面的代码中做了什么：
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 N_past是我们在预测下一个目标值时将在过去查看的步骤数。
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 这里使用30，意味着将使用过去的30个值(包括目标列在内的所有特性)来预测第31个目标值。
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 因此，在trainX中我们会有所有的特征值，而在trainY中我们只有目标值。
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 让我们分解for循环的每一部分：
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 对于训练，dataset = df_for_training_scaled, n_past=30当i= 30：
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                      
                     
                     
                      data_X.addend (df_for_training_scaled[i - n_past:i, 0:df_for_training.shape[1]])
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 从n_past开始的范围是30，所以第一次数据范围将是-[30 - 30,30,0:5] 相当于 [0:30,0:5]
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 因此在dataX列表中，df_for_training_scaled[0:30,0:5]数组将第一次出现。
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 现在, dataY.append(df_for_training_scaled[i,0])
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 i = 30，所以它将只取第30行开始的open(因为在预测中，我们只需要open列，所以列范围仅为0，表示open列)。
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 第一次在dataY列表中存储df_for_training_scaled[30,0]值。
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 所以包含5列的前30行存储在dataX中，只有open列的第31行存储在dataY中。然后我们将dataX和dataY列表转换为数组，它们以数组格式在LSTM中进行训练。
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 我们来看看形状。
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      print("trainX Shape-- ",trainX.shape)print("trainY Shape-- ",trainY.shape)
(4132, 30, 5)(4132,)
print("testX Shape-- ",testX.shape)print("testY Shape-- ",testY.shape)
(1011, 30, 5)(1011,)
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 4132 是 trainX 中可用的数组总数，每个数组共有 30 行和 5 列， 在每个数组的 trainY 中，我们都有下一个目标值来训练模型。
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 让我们看一下包含来自 trainX 的 (30,5) 数据的数组之一 和 trainX 数组的 trainY 值：
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      print("trainX[0]-- \n",trainX[0])print("trainY[0]-- ",trainY[0])
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 
                                  
                                   
                                  
                                 
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 如果查看 trainX[1] 值，会发现到它与 trainX[0] 中的数据相同（第一列除外），因为我们将看到前 30 个来预测第 31 列，在第一次预测之后它会自动移动 到第 2 列并取下一个 30 值来预测下一个目标值。
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      
                       
                        
                         
                          
                           
                            
                             
                              
                               
                                
                                 让我们用一种简单的格式来解释这一切：
                                
                               
                              
                             
                            
                           
                          
                         
                        
                       
                      
                     
                     
                      trainX — — →trainY
[0 : 30,0:5] → [30,0]