Ia

Réseau LSTM à convolution: une approche d'apprentissage automatique pour la prévision immédiate des précipitations

Convolutional Lstm Network



Cet article donnera une introduction généraleConvLSTMLes principes de base et les scénarios d'application. Je pense personnellement que parfois une amélioration d'algorithme sera grandement inspirée par des scénarios d'application, comme celui-ci à dire maintenant. Je ne sais pas si l’auteur de l’article a pensé à cette idée à l’époque.

1. L'idée centrale de la thèse

Imaginons d'abord un tel scénario d'application: à partir des données de précipitations historiques d'une ville, pour prédire la quantité de précipitations à un certain instant t. Selon les idées de l'auteur:



  • une première division de la ville en Cellules, chaque cellule représente une petite zone (par exemple ) ;
  • b. La valeur de chaque grille représente les précipitations dans un certain intervalle de temps (par exemple, 6 minutes)

Comme indiqué ci-dessous:





Par conséquent, à chaque instant En termes de, ils correspondent tous à une matrice composée de précipitations dans chaque petite zone , Individuellement pour chaque matrice En d'autres termes, la précipitation de chaque petite zone doit avoir une certaine relation avec la précipitation de la petite zone environnante (similaire à un certain pixel de l'image, elle doit être liée aux pixels environnants). Par conséquent, sur la base de cette idée, nous pouvons utiliser la convolution pour extraire des caractéristiques pour chaque matrice individuelle. En même temps, à partir de l'axe des temps, chaque matrice de précipitations Il y a aussi une connexion dans la dimension temporelle. Par exemple, les précipitations actuelles dans une petite zone affecteront certainement les précipitations dans l'intervalle de temps suivant. Par conséquent, LSTM peut être utilisé pour extraire des entités de la dimension temporelle.

Ce qui précède est l'idée centrale du document. Jetons un coup d'œil à d'autres facteurs considérés par l'auteur.



2. Résumé de la thèse

Tout d'abord, l'amélioration du papier n'est pas basée sur l'original LSTM (mémoire à long court terme) Mais les papiers Générer des séquences avec
Réseaux de neurones récurrents
La structure référencée change, l'auteur l'appelle 'FC-LSTM', comme le montre la figure suivante:

On peut constater que ce 'FC-LSTM' est ajouté avec une connexion peep ' connexions judas «LSTM:

Deuxièmement, l'auteur propose les principaux inconvénients suivants pour l'auteur de la structure de réseau existante:

1. couche LSTM (FC-LSTM) entièrement connectée adoptée par leur modèle ne prend pas en compte la corrélation spatiale
Bien que la couche FC-LSTM se soit avérée puissante pour gérer la corrélation temporelle, elle contient trop de redondance pour les données spatiales

Ensuite, l'auteur a proposé ConvLSTM basé sur FC-LSTM. La méthode de connexion principale du réseau ConvLSTM est la même que celle de FC-LSTM, mais la différence est que la méthode d'extraction des fonctionnalités est différente. Le premier utilise la méthode de convolution pour extraire des caractéristiques, tandis que le second est toujours entièrement connecté.

Dans le même temps, à en juger par les graphiques donnés dans la thèse de l'auteur (ci-dessous), à travers , Faites la convolution puis combinez obtenir , Et puis comparez les résultats avec Traitement, obtenez Etc.

Et, a déclaré l'auteur: Pour ConvLSTM, il est toujours possible d'adopter l'empilement multicouche comme les autres RNN pour rendre le modèle plus prévisible. Comme le montre la figure ci-dessous, l'auteur prend l'exemple du ConvLSTM à deux couches pour entraîner le réseau à deux couches avant de l'utiliser pour la prédiction.

Enfin, l'auteur a mené des expériences pertinentes. Malheureusement, aucun des ensembles de données existants n'est disponible. De plus, quelques petits détails du processus de mise en œuvre seront présentés dans le prochain article.