Cómo explicar qué es Apache Spark a un niño de 9 años.

Parte 1: Explicación de Big Data y procesamiento distribuido

Supongamos que tiene que sumar dos números. 4 + 6. Puedes calcular la respuesta en tu mente, 10.

Ahora asume que tienes que sumar mil números. Encuentra a cien amigos de tu escuela. Ahora dales 10 números cada uno. Escribes 10 números de los 1000 en un pedazo de papel. Cada amigo calcula la suma de sus 10 números, escríbelo en un papel y se lo da a usted.

Ahora agregue estos 100 números (ya sea por usted mismo, o dándoles las partes a sus amigos para que los calculen nuevamente). Finalmente escribes la suma en el papel.

Escribir los resultados en un papel cada vez más es un trabajo tedioso. Imagina que soy uno de los cien amigos. Tengo que agregar 1 + 2 + 1 + 2 + 1 + 2 + 1 + 2 + 1 + 3. Aunque podría hacerlo en mi mente, pero se supone que debo poner mis resultados en papel cada vez. Si hay millones de números, recuerda cuánta lectura y escritura debes hacer. Esto desperdicia el tiempo.

Parte 2: Ignora el papel y calcula en tu mente.

Repite el experimento. Tienes los mil números en tu mano. Usted, siendo el proceso del conductor, decide qué partes de los 1000 números se le van a dar a cada amigo. Usted dirá los números, ellos agregarían, y agregaría los números de ellos. Aquí es donde los humanos pueden fallar, pero las máquinas funcionan como magia.

Parte 3: Optimización proporcionada por Spark

Tus amigos no te están esperando idealmente. Tampoco tienes un solo trabajo que hacer. Digamos que te dieron tres listas de 1000 números, por ejemplo, A, B y C. Digamos que tenemos una operación más complicada:
1. Suma todos los números impares en la serie A
2. Suma cada número par en la serie B
3. Agregue el resultado calculado en (1) y (2)
4. Suma todos los números en la serie C
5. Escribe la suma de los números de la serie C en un papel.
6. Salir

Aquí es donde la chispa realmente ayuda. Ir a través de estos 6 pasos de nuevo. Verás que hay operaciones que no son necesarias en absoluto. Este es un caso muy simplificado y realmente no ocurre en el escenario de la vida real. Esta vez, no le darás a tus amigos listas de números impares en A o números pares en B y les pedirás que agreguen. Descubriría la manera de hacer esto, establecer el contexto y, como todos los perezosos de 9 años, abstenerse de calcular la respuesta a menos que su profesor lo solicite. Leería los pasos del 1 al 4, pensaría cómo hacerlo, pero en realidad no lo haga. Cuando su profesor finalmente le pide que realice el paso 5, es cuando realmente procesa el paso 4 y escribe la respuesta en el paso 5. Verá, ahorra mucho tiempo con su hábito de evaluación perezosa.

Si el niño de 9 años requiere una explicación más detallada, debe consultar estos libros:

Amazon.in: Compre Learning Spark: libro de análisis de grandes datos a la velocidad de la luz a precios bajos en la India

Mike Frampton: Amazon.in: Tienda Kindle