...

Cómo crear Datasets sintéticos con IA

Tener buenos datasets para practicar SQL o análisis de datos puede ser complicado. Los datos reales suelen estar protegidos por privacidad, no siempre son accesibles y, además, no cubren todos los casos que necesitas.

Aquí es donde la Inteligencia Artificial se vuelve una excelente herramienta de apoyo.

Actualmente puedes generar datasets completos, coherentes y escalables usando IA: tablas relacionales, datos numéricos, fechas, casos especiales, duplicados, valores nulos e incluso escenarios complejos para practicar funciones avanzadas.

En este artículo se describen:

  • Qué son los datasets sintéticos
  • Cómo generarlos con IA
  • Cómo convertirlos a SQL listo para db-fiddle.com
  • Cómo exportarlos a CSV o Excel
  • Buenas prácticas para datos sintéticos realistas

¿Qué es un dataset sintético?

Un dataset sintético es un conjunto de datos ficticio pero realista, generado automáticamente, que respeta:

  • Coherencia de campos
  • Relaciones entre tablas
  • Tipos de datos
  • Distribuciones estadísticas
  • Patrones del mundo real

Beneficios:

✔️ No compromete datos personales
✔️ Es ideal para enseñar, practicar y crear demos
✔️ Permite construir escenarios extremos (outliers, duplicados, anomalías)
✔️ Se genera en segundos usando IA


¿Cómo generar datasets sintéticos con IA?

Paso 1 — Define el contexto

Describe:

  • Qué tablas necesitas
  • Cuántos registros
  • Relaciones (1 a muchos, muchos a muchos)
  • Campos obligatorios
  • Campos calculados

Ejemplo de prompt recomendado:

Genera un dataset sintético con 2 tablas:
1. empleados (id, nombre, departamento, salario, fecha_ingreso)
2. departamentos (id, nombre)
- Debe haber relación 1:N entre departamentos y empleados.
- Entregame los datos en formato SQL (INSERT INTO) para usar en db-fiddle.com.
- Quiero 15 empleados y 4 departamentos.
- Motor de base de datos: PostgreSQL 16.

Paso 2 — Solicita el dataset en formato SQL listo para pegar

Ejemplo generado:


-- Crear tablas
CREATE TABLE departamentos (
    id SERIAL PRIMARY KEY,
    nombre VARCHAR(50) NOT NULL
);

CREATE TABLE empleados (
    id SERIAL PRIMARY KEY,
    nombre VARCHAR(100) NOT NULL,
    departamento INT REFERENCES departamentos(id),
    salario NUMERIC(10,2),
    fecha_ingreso DATE
);

-- Insertar departamentos
INSERT INTO departamentos (id, nombre) VALUES
(1, 'Recursos Humanos'),
(2, 'Finanzas'),
(3, 'Tecnología'),
(4, 'Marketing');

-- Insertar empleados
INSERT INTO empleados (id, nombre, departamento, salario, fecha_ingreso) VALUES
(1, 'Ana López', 1, 18500.00, '2020-03-15'),
(2, 'Carlos Pérez', 1, 19200.00, '2019-07-10'),
(3, 'María Torres', 2, 21000.00, '2021-01-20'),
(4, 'Jorge Ramírez', 2, 22500.00, '2018-11-05'),
(5, 'Laura Sánchez', 2, 19800.00, '2022-06-12'),
(6, 'Pedro Gómez', 3, 28000.00, '2017-09-30'),
(7, 'Sofía Herrera', 3, 29500.00, '2020-12-01'),
(8, 'Luis Morales', 3, 31000.00, '2019-04-18'),
(9, 'Andrea Díaz', 3, 27000.00, '2021-09-25'),
(10, 'Miguel Castro', 4, 19000.00, '2020-02-14'),
(11, 'Paula Fernández', 4, 20500.00, '2018-08-22'),
(12, 'Hugo Martínez', 4, 21500.00, '2021-05-30'),
(13, 'Valeria Ruiz', 4, 20000.00, '2022-03-17'),
(14, 'Fernando Vargas', 1, 18800.00, '2019-12-09'),
(15, 'Isabel Romero', 2, 22000.00, '2020-07-28');

📌 Los ejemplos pueden ejecutarse en db-fiddle.com.


Paso 3 — Solicita versiones en CSV o Excel

Para Excel (Office 365 o Excel 2021) puedes pedir un formato como este:

Genera este mismo dataset en formato Excel, con fórmulas para fecha aleatoria en una columna:
=RANDBETWEEN(DATE(2018,1,1),DATE(2024,1,1))

Ejemplos adicionales avanzados

Dataset con valores nulos

INSERT INTO empleados (id, nombre, departamento, salario, fecha_ingreso) VALUES
(10, 'Sandra Medina', NULL, 19800, NULL);

Dataset con outliers para análisis

(11, 'Carlos Álvarez', 3, 999999, '2020-06-18'),
(12, 'Ana Landa', 1, 500, '2023-01-01');

Buenas prácticas para generar datasets sintéticos con IA

✔️ Incluye valores reales y extremos

No solo datos “bonitos”.

✔️ Mantén coherencia relacional

IDs válidos, claves foráneas correctas.

✔️ Solicita volumen variado

Ej: 50, 500, 50,000 filas según la práctica.

✔️ Indica siempre el motor SQL

Para que la IA genere el tipo de dato correcto.

✔️ Pide formato ejecutable

SQL listo para db-fiddle.com, CSV limpio o tabla de Excel.


Conclusión

La IA facilita la creación de datasets sintéticos profesionales de forma rápida. Son perfectos para demos, análisis y laboratorios de SQL. Con la técnica adecuada, puedes generar datos de calidad que te permitan practicar cualquier tema: JOINs, agregaciones, funciones, CTEs, índices y más.

Deja un comentario

Seraphinite AcceleratorOptimized by Seraphinite Accelerator
Turns on site high speed to be attractive for people and search engines.