Un flux de dades POC que utilitza Airflow

Bloc

Un flux de dades POC que utilitza Airflow

Què és Airflow?

Airflow és una plataforma de gestió de flux de treball creada per Airbnb el 2014. Va començar com una solució a causa de l’augment de fluxos de treball complexos a Airbnb. El flux d’aire s’escriu en ** _ Python _ ** i els fluxos de treball es creen mitjançant scripts Python. Airflow segueix el principi de configuració com a codi i utilitza gràfics acíclics dirigits (DAGS) per gestionar l’orquestració del flux de treball.

A causa de la guia tutorial de bé a Airflow, no il·lustraré el procés d’instal·lació aquí.

A mesura que instal·leu Airflow correctament, només cal que executeu l'ordre següent per iniciar Airflow.

$ airflow initdb $ airflow webserver $ airflow scheduler

Propòsit

El meu propòsit és rastrejar el preu de les accions d’una empresa (amb Asus com a objectiu) de Yahoo Finance i inserir el resultat a MongoDB cada 10 minuts.

Podem veure el treball en visualització gràfica o en arbre a través de la interfície web Airflow, tal com es mostra a la imatge següent.

Imatge per publicar

Vista de gràfics

#mongodb #data #airflow #python #dataflow

medium.com

Un flux de dades POC que utilitza Airflow

Airflow és una plataforma de gestió de flux de treball creada per Airbnb el 2014. Va començar com una solució a causa de l’augment de fluxos de treball complexos a Airbnb. El flux d’aire s’escriu en Python i els fluxos de treball es creen mitjançant scripts Python. Airflow segueix el principi de configuració com a codi i utilitza gràfics acíclics dirigits (DAGS) per gestionar l’orquestració del flux de treball.