¡Cuidado! Loco suelto.

 

locura

Dicen que uno de al lado de Bilbao, que se llamaba Modesto, comenzó, hace años, a manejar grandes cantidades de datos para elaborar sus pronósticos.

No creía en la bola de cristal; era incapaz de ver nada a su través, ni siquiera una imagen difuminada.

Admiraba la sapiencia de los estadísticos y los tenía por genios. Habían desarrollado técnicas de inferencia y modelos con los que resolver problemas inmanejables por su tamaño o por el trabajo que requerían. Las soluciones que daban no eran exactas; tenían un margen de error. Sabían que disminuía a medida que aumentaba la cantidad de información que manejaban. Modesto lo comprendía, pero no estaba preparado para realizar esos trucos.

Una prueba de estas teorías se tenía en el ámbito político. Los candidatos sacaban partido de estas ideas para conocer, por encuestas, lo que opinaban de ellos sus electores y así obtener la máxima ventaja frente a sus contrincantes. O para saber aproximadamente y por anticipado los escaños que un partido obtendría en una Cámara. Los vaticinios de las encuestas han tenido serios reveses en ciertas ocasiones. De ahí que algunos candidatos afirmen, prudentemente, que la mejor encuesta se obtiene de las urnas, es decir, que el error desaparece por completo con todos los votos contados.

Modesto fue paciente. Creía que llegaría un día en el que los errores serían pequeños. La luz se fue haciendo poco a poco, a medida que la microelectrónica admitía operar a más velocidad.

Mientras tanto, las empresas, en general, usaban los muestreos como fuente de pronósticos. Los operadores logísticos tomaban unos cuantos documentos, anotaban algunos datos de interés y hallaban el contenido medio de un documento, que se daba por válido para todos los documentos y sobre el que construían sus ofertas de precios de servicios. Las políticas de márgenes, nacidas de la experiencia, salvaban sus cuentas de resultados. Los beneficios reales eran bastante menores que los esperados. La explicación se buscaba, casi siempre, en que el contenido medio del documento había cambiado, o en un nivel de actividad no era el mismo que cuando se hizo el pronóstico. Realmente, se sabía que no se sabían las causas verdaderas; había que encontrarlas.

La intuición va guiando hacia la repetición de pronósticos con muestreos más amplios. El contenido medio del documento no es el mismo que el de una muestra más pequeña. Curiosamente, los beneficios esperados disminuyen con el tamaño de la muestra.

¿Qué resultados se obtendrían si los contenidos medios se llevaran a los extremos? Se sabe, casi con seguridad, que en esos rangos se trabaja de modo distinto a donde se encuentra la media. Lógicamente, los resultados esperados también serán distintos. Se avanza un paso, consistente en ordenar la muestra grande, trocearla por rangos, elaborar un pronóstico para cada rango y ponderar los pronósticos.

Hacer manualmente este trabajo mecánico es tedioso, consume mucho tiempo y requiere atención para no cometer errores. Los primeros resultados sorprenden mucho; muestran una variación notable, y a peor, frente a los obtenidos para el contenido medio. La aplicación del procedimiento en otros escenarios reales arroja resultados parecidos: trabajar con muestras troceadas apunta a valores peores que sin trocear, del orden de un 20 %. Esto explica una parte importante de la diferencia entre los beneficios esperados y los reales.

Afortunadamente, la llegada del ordenador personal facilitó mucho esta tarea.

Capturar datos en un ordenador aburre a cualquiera, pero su necesidad está más que justificada. El tiempo que consume se evita pidiendo la extracción de datos en bruto de un gran ordenador. Conseguirla se convierte en una odisea; la petición se pone en la cola y no avanza por las urgencias y prioridades que marcan desde la cúpula de la empresa. El asunto se complica todavía más si se piden los datos a otra empresa.

Los progresos en la informática han acortado mucho los tiempos de obtención de datos. En otras épocas era habitual que el receptor de la petición pusiera toda clase de trabas para darlos, especialmente si se piden los de un año completo de actividad, algo tremendamente útil en logística. Su primera reacción era cuestionar la cordura del demandante. Después preguntaba para qué se querían tantísimos datos y si no era suficiente con bastantes menos.

Es fantástico disponer de gran cantidad de datos de un ordenador, y poder tratarlos con programas o rutinas creadas para la ocasión. Se pueden sacar conclusiones muy pronto y, al examinarlas, casi siempre aparecen cosas extrañas que frenan las ansias de progreso. Los datos están contaminados con registros incompletos, incongruencias, errores de captura o datos falsos con los que se engaña al sistema para salir airoso de casos no previstos. Manipular datos con errores conduce a resultados falsos.

Limpiar la basura resulta, pues, obligado. Una parte es evidente y se quita fácilmente por procedimientos mecánicos, mientras que otra hay que encontrarla examinando uno a uno los registros, con suma paciencia. Esto que parece una pérdida de tiempo, no lo es en absoluto. Mirar así los registros y reflexionar sobre su contenido da muchas pistas sobre el comportamiento de la realidad a gran escala y marca el camino a seguir cuando no se sabe muy bien qué se busca.

Proceder así es independiente de la cantidad de datos disponibles. Es natural que si solo se cuenta con una muestra, su comportamiento no coincida con el que se conoce de la población a la que pertenece. Avanzar a partir de la información de la muestra lleva, sin duda, a resultados sobre la población con algún error, de tamaño desconocido. Es posible reducirlo “cocinando” debidamente todas las partes de la muestra, de modo que el comportamiento de la muestra modificada coincida con el de la población, lo que no significa que haya coincidencia plena entre muestra y población. Es otra labor ingrata, como la limpieza de datos, pero también necesaria.

Alcanzado este punto, ya se pueden manipular los datos a gusto. Todo el tiempo que, otrora, se dedicaba a capturar y calcular datos, ahora se emplea en limpieza de errores, en detectar comportamientos y en simular un escenario de trabajo equivalente, en lo fundamental, a la realidad. No parece que el paso del tiempo haya hecho más eficiente esta tarea. Sin embargo, aporta importantes ventajas, en forma de muchos menos errores en las conclusiones y menos riesgos; eso, a la postre, es dinero.bits

Colecciones de datos de más de un millón de registros se han empleado para decidir el empaquetado óptimo de productos perecederos, con el que aprovechar al máximo la capacidad de los vehículos que los transportan. También han servido para diseñar los almacenes y su operativa en grandes empresas de productos de consumo y bienes duraderos. Han sido la base sobre la que se han dimensionado flotas de distribución de neumáticos y productos de gran consumo en la Península Ibérica; y yendo al extremo, la fuente de inspiración de modelos logísticos de productos terminados para grandes minoristas.

Manejar ingentes cantidades de datos tiene sentido si se quieren limitar los errores al mínimo. Hay operaciones en las que cuestan fortunas y no son permisibles.

Hoy en día, se sigue tachando de locos a quienes, como Modesto, piden grandes cantidades de datos para resolver algunos problemas de la vida real. Antiguamente, el estado de la informática era una excusa perfecta para no darlos; hoy no. Quienes tienen la llave para entregarlos piensan que esos problemas se resuelven de otra manera, sin saber cómo. O intuyen que entregarlos les puede traer alguna consecuencia negativa.

Si, por casualidad, han oído hablar del big data, muchas de sus reticencias desaparecen; lo que antes eran trabas, hoy son facilidades. ¡Lo que consiguen las modas!

La información por la información no sirve de nada; tiene que ser útil. Ahora que hay un maremágnum de información por doquier, se pueden hacer maravillas con ella. Quienes la buscan, ¿sabrán cuál necesitan y cómo manipularla para lo que persiguen?

Modesto y otros pocos locos como él andan sueltos. Disfrutan de su locura y con sus locuras. Son muy peligrosos y hay que vigilarlos estrechamente. Sus vaticinios han ahorrado mucho dinero y pueden ahorrar mucho más si siguen sueltos.

5 comentarios

Replica a Osmar Cortez Cancelar la respuesta

Este sitio utiliza Akismet para reducir el spam. Conoce cómo se procesan los datos de tus comentarios.