Tutoriel de démarrage rapide MRJob, utilisez Python pour jouer à Hadoop

Mrjob Quick Start Tutorial



image

Si vous voulez qu'Hadoop exécute intelligemment les programmes Python, apprendre mrjob est probablement le moyen le plus simple et le plus simple, et vous n'avez même pas besoin de déployer des clusters Hadoop par installation. Mrjob possède de nombreuses excellentes fonctionnalités telles que:



  • Prise en charge du flux de travail de tâches MapReduce en plusieurs étapes



  • Prise en charge d'Amazon en ligne, local, distant et Hadoop



  • Facile à déboguer sans prise en charge de l'environnement de tâches

Ce tutoriel appelle hadoop pour traiter les données via le module mrjob en python. Grâce à cette expérience, vous pouvez démarrer avec mrjob et écrire facilement mr pour utiliser hadoop. Principaux points de connaissance:

  • Installation du module Python MRJob



  • Hadoop - Introduction aux modules Python

  • Implémenter des statistiques de texte à l'aide de MRJob

  • Fonctionnement de Python MRJob

  • Réécriture de la fonction MRJob pour implémenter des traitements de données complexes

Montrer les résultats . La signification des données d'affichage est de compter et de sortir les films (vid) que chaque utilisateur (cuid) a vus via mrjob.

image

Mrjob prend en charge python2 et python3. Mrjob peut être installé directement via pip, ou il peut être installé via setup.py en téléchargeant le code source. Reportez-vous aux instructions d'installation de mrjob. Dans cette expérience, utilisez le compte shiyanlou pour installer via les privilèges sudo. Instructions d'installation du pip:

image

Le framework Python commun actuel comprend les éléments suivants. Voici une brève introduction aux caractéristiques générales de chaque framework. Je veux en savoir plus sur les blogs. Streaming Hadoop . Pour fournir un moyen d'utiliser d'autres exécutables comme mappeur ou réduire pour Hadoop, vous devez lire les données à partir de l'entrée standard à l'aide de la sémantique spécifiée, puis générer les résultats vers la sortie standard. Un inconvénient de l'utilisation directe de Streaming est que lorsque l'entrée de reduction est groupée par clé, elle est toujours itérative dans une ligne et la frontière entre la clé et la clé doit être reconnue par l'utilisateur.

mrjob . Le framework Python open source encapsule le flux de données de Hadoop et développe activement Yelp. Étant donné que Yelp fonctionne entièrement sur Amazon Web Services, l'intégration de mrjob avec EMR est incroyablement fluide et facile (en utilisant le package boto).

image

Dumbo . Utilisez également le framework de wrapper de flux Hadoop. Dumbo est apparu plus tôt, mais en raison du manque de documentation, des difficultés de développement. Ce n'est pas aussi bon que mrjob. Dumbo effectue la sérialisation via typedbytes, permettant un transfert de données plus concis ou une lecture plus naturelle de SequenceFiles ou d'autres formats en spécifiant JavaInputFormat

hadoopy . C'est un package de streaming compatible avec dumbo. Il utilise également typedbytes pour sérialiser les données et écrire des données typedbytes directement sur HDFS. Il dispose d'un excellent mécanisme de débogage, dans lequel il peut écrire des messages directement sur la sortie standard sans interférer avec le processus de streaming. Il est très similaire à dumbo, mais la documentation est bien meilleure.

pydoop . Comparé à d'autres frameworks, pydoop encapsule le pipeline de Hadoop (Pipes), qui est l'API C ++ de Hadoop. Pour cette raison, le projet prétend pouvoir fournir une interface Hadoop et HDFS plus riche, ainsi que les mêmes bonnes performances. Notez que toutes les entrées et sorties doivent être une chaîne.

Autre -happy, Disco, octopy, Mortar, Luigi, etc.

Ce qui suit est une introduction à l'utilisation de mrjob pour obtenir des statistiques de phrase et de multiples modes de fonctionnement de mrjob. Le tutoriel complet a été accompagné d'exercices qui peuvent être appris à la gare principale du bâtiment du laboratoire.

Description: ce didacticiel est destiné aux membres de l'étude uniquement. Parce que c'est une nouvelle classe juste en ligne, il reste encore un jour de temps libre, tout le monde peut apprendre que les étudiants intéressés peuvent: Pointez-moi pour étudier

suggestion connexe:

Premiers pas avec le framework MyBatis

Python3 implémente l'outil d'enquête sur les billets de train

Python3 pour la reconnaissance d'images érotiques

Gaode API + Python résout les problèmes de location

Code de vérification de fissure Python

Plus de tutoriels gratuits, veuillez entrer shiyanlou.com

image