Tu Primer Análisis de Datos con Python
— Salarios en España —
Guía paso a paso para principiantes. Aprende Python analizando datos reales del INE sobre sueldos, brecha salarial y diferencias por comunidad autónoma.
¿Cuánto gana de media un español? ¿Cuánto menos cobran las mujeres? ¿Qué comunidad autónoma tiene los mejores sueldos? Vamos a responder estas preguntas desde cero usando Python, explicando cada línea de código como si nunca hubieras programado.
1 ¿Qué es Python y por qué usarlo?
Imagina que tienes una hoja de Excel con 3,000 filas de datos de salarios. Podrías pasar horas haciendo filtros y fórmulas... o podrías escribir 5 líneas de código que hagan todo el trabajo por ti.
Python es un lenguaje de programación que parece casi inglés. Mira este ejemplo:
¿Ves? mean() significa "media". print() significa "mostrar". Es casi como leer una
frase en inglés.
- Gratis: No pagas licencias como con Excel avanzado o SPSS
- Potente: Empresas como Netflix, Spotify y Google lo usan
- Demandado: Es la skill #1 para analistas de datos en España
- Fácil: Es el lenguaje más recomendado para principiantes
2 Instalar Python — Solo 5 Minutos
Hay dos formas de empezar. Te recomiendo la primera si nunca has programado:
Opción A: Google Colab (recomendada)
No instalas nada. Abres el navegador y listo:
- Ve a colab.research.google.com
- Inicia sesión con tu cuenta de Google
- Haz clic en "Nuevo cuaderno"
- ¡Ya puedes escribir código Python!
Opción B: Instalar en tu ordenador
Si prefieres tenerlo en local:
- Descarga Anaconda (incluye todo lo necesario)
- Instálalo como cualquier programa
- Abre "Jupyter Notebook" desde el menú inicio
Para este tutorial usaremos datos reales del INE sobre salarios en España. Descárgalo aquí:
🐍 Infografía: Los 5 pasos para analizar datos con Python
3 Cargar tu Primer Dataset
Ahora viene lo emocionante. Vamos a cargar los datos de salarios en Python. Cada línea está explicada:
¿Qué significa "importar"? Python viene con funciones básicas, pero para trabajar con datos
necesitamos herramientas extra. pandas es la herramienta #1 para esto.
¿Qué es un DataFrame? Piensa en él como una hoja de Excel dentro de Python. Tiene filas y columnas, y puedes filtrar, ordenar y calcular cosas.
¡Perfecto! head() muestra las 5 primeras filas. Vemos que tenemos:
- year: Año (2008-2017)
- state: Comunidad autónoma o "nationwide" (nacional)
- gender: Género (male, female, both)
- statistic: Tipo de estadística (mean, median, percentiles)
- gross_income_euros: Salario bruto anual en euros
4 Explorar los Datos
Antes de analizar, necesitamos entender qué tenemos. Estos comandos son tu "checklist" para cualquier dataset:
Traducción: 3,241 filas y 5 columnas. Cada fila es una combinación de año + comunidad + género + estadística.
- 10th_percentile: El 10% peor pagado gana esto o menos
- median (50%): La mitad gana más, la mitad gana menos
- 90th_percentile: Solo el 10% gana más que esto
5 Análisis: Salarios en España
Ahora sí, vamos a responder preguntas interesantes. Cada análisis tiene el código explicado paso a paso.
📊 Pregunta 1: ¿Cuál es el salario medio en España?
📈 El salario medio creció de €21,883 (2008) a €23,646 (2017), un aumento del 8% en 10 años.
Pero ojo: la inflación en ese período fue de ~10%, así que en realidad el poder adquisitivo bajó.
📊 Pregunta 2: ¿Existe brecha salarial de género?
⚖️ Infografía: Brecha salarial de género en España (2008-2017)
📊 Pregunta 3: ¿Qué comunidad paga mejor?
🏆 País Vasco lidera con €28,157 de media, un 19% más que la media nacional.
Las 5 comunidades peor pagadas son Extremadura, Canarias, Andalucía, Murcia y Castilla-La Mancha.
📊 Infografía: Ranking de salarios medios por comunidad autónoma (2017)
❓ Preguntas Frecuentes
Ponte en contacto conmigo
📧 Contacto