Volver a la lista
Artículo
Demand Management Replenishment
Other

Cómo abordar los datos de tu empresa para poder trabajar con modelos de aprendizaje automático?

La clave para basarse en los datos son los datos. Es lo que permite a retailers y fabricantes aprovechar la inteligencia artificial y los algoritmos de aprendizaje automático que abren oportunidades totalmente nuevas para crecer y aumentar las ganancias. ¿Cómo se recopilan y organizan los datos para aprovechar todo su potencial?

Hoy en día, el mundo empresarial está inmerso en una transformación digital masiva, relacionada, entre otras cosas, con la digitalización, la automatización y la implantación de la inteligencia artificial. Según el informe de Siemens ‘DIGI INDEX 2021. El nivel de digitalización de la producción en Polonia‘ , las empresas han aumentado la inversión en digitalización: del 6,5% en 2020 a más del 9% en 2021. El porcentaje promedio de utilidades que las empresas destinan a la digitalización también ha aumentado – del 6,48% al 9,12% anual. Para implantar con éxito soluciones innovadoras en una empresa, se necesitan datos. Al fin y al cabo, son los datos los que impulsan toda la infraestructura digital y, en el caso de la industria minorista y manufacturera, son el combustible para realizar pronósticos eficaces y precisos de la demanda y las ventas en almacenes y tiendas.

¿Qué tipo de estrategia de gestión de datos debe poner en marcha una empresa? ¿Cómo y durante cuánto tiempo recopilarlos? ¿Qué significa «datos valiosos»? He aquí cuatro consejos clave para preparar adecuadamente los datos empresariales para su uso eficaz en modelos de aprendizaje automático.

Recopilación consistente de datos

El mayor potencial de negocio reside en unos datos completos y recogidos de forma consistente. En el caso de los datos de ventas, lo óptimo es disponer de datos históricos de al menos 2-3 años. Un historial de ventas suficientemente largo, sobre el que los modelos de aprendizaje automático (ML) buscan ciertas regularidades, permite desarrollar una solución mejor e influye positivamente en la calidad de los pronósticos generados a partir de algoritmos de inteligencia artificial (IA). Sin embargo, conviene subrayar que disponer de datos con un historial más corto -como es el caso de muchos minoristas en crecimiento- no niega la posibilidad de utilizar algoritmos avanzados de ML e IA. Esta condición incide en el proceso de generación de modelos y en los resultados obtenidos, pero sigue acercando a emprendedores y empresas a la mejora de procesos y a alcanzar mejores resultados de negocio.

También es clave que los datos sean completos. Cuanto más completos sean los datos, mejor será la calidad de los pronósticos. ¿Qué significa esto en la práctica? Por ejemplo: si el proveedor de una plataforma de pronóstico de demanda y ventas requiere información sobre precios para productos individuales, entonces cada SKU debe introducirse en el sistema con su correspondiente precio. Esto también es aplicable a los precios promocionales. Así, si un minorista ofrece promociones, programas de lealtad o descuentos discrecionales a los clientes, cualquier actividad de este tipo que beneficie a los clientes debe registrarse en los datos. Esto es crucial, ya que si el precio de venta registrado en el recibo difiere del precio de lista, las relaciones entre estos precios, tal y como las capta el modelo, pueden ser erróneas, lo que provocaría un trastorno en el proceso de planificación de la producción y la distribución de dicho producto. Además, desde el punto de vista de la exhaustividad de los datos, también hay que disponer de datos análogos que tengan en cuenta el futuro. Por ejemplo: si estamos pronosticando la demanda de un producto con un mes de antelación, deberíamos elaborar datos históricos: precios, promociones, momento de la temporada, fiestas especiales, e incluir exactamente los mismos elementos variables para el mes siguiente.

Conviene recordar que, aunque hayamos recopilado sistemáticamente datos completos, los modelos de ML no pueden pronosticarlo todo. No funcionan como una bala mágica. Los modelos se entrenan a partir de los datos existentes y de los patrones y regularidades aprendidos de esos datos, por lo que si se producen cambios estructurales en los fenómenos objeto de modelado, cambios en el entorno interno y externo o, por último, acontecimientos aleatorios ordinarios, el modelo no los pronosticará de antemano. Por ejemplo: si una ciudad ha tenido hasta ahora una tienda de ultramarinos y ahora se han establecido dos tiendas competidoras, el modelo no pronosticará el impacto de la competencia en las ventas a partir de la fecha de su lanzamiento. Al mismo tiempo, como los modelos se alimentan de datos, pueden, en función de las necesidades, hacer análisis que tengan en cuenta las nuevas condiciones comerciales, incluso en el horizonte de un día. Por tanto, son capaces de reaccionar instantáneamente a los cambios, sólo necesitan datos de alta calidad.

Consistencia e historia

Para empezar a trabajar con modelos de inteligencia artificial y aprendizaje automático y utilizarlos en los pronósticos de demanda y ventas del retail, es necesario disponer de datos valiosos, es decir, recopilados de forma coherente, completa y consistente. Los datos estructurados y metódicamente organizados son para los modelos de ML como el aceite para una máquina: hacen que funcionen con rapidez y eficacia.

¿Con qué datos debemos empezar? Se necesitan datos de recibos, facturas u otros datos de ventas, que constituyen la base para calcular qué se vende, dónde y cuándo. Además, necesitarás listas de precios, información promocional y diccionarios de productos, que incluyan tanto los actuales como los históricos, porque el pronóstico no puede hacerse sin información del pasado. Por ejemplo, cómo afectará el precio a las ventas de un determinado producto en el próximo periodo se determina en función de cómo ha afectado a las ventas en meses y años anteriores, teniendo en cuenta factores como el momento de la temporada, las tendencias de consumo, el tiempo, los cambios de precios o las campañas de marketing. Esto se debe a que todas estas variables afectan significativamente al interés por un producto, o a la falta del mismo. Es importante que los datos históricos incluyan no sólo los datos de recibos (ventas reales), sino también información sobre existencias y tiendas.

Para los minoristas puede resultar difícil recopilar datos y mantener un registro coherente, sobre todo cuando hay muchos puntos de venta y están dispersos geográficamente a escala internacional. A menudo, los empleados anotan la información, por ejemplo sobre el inventario de las tiendas o el nivel de existencias, en trozos de papel y la introducen en el sistema tarde, en función del tiempo de que dispongan. Esto provoca muchas discrepancias que afectan negativamente al trabajo de los sistemas de pronóstico basados en algoritmos de IA y ML. Por lo tanto, merece la pena asegurarse de que se define una política de recopilación de datos clara y precisa para recibir pronósticos de alta calidad lo antes posible. 

Evita los datos basura

En cualquier empresa -independientemente de su sector o tamaño-, la calidad de los datos de entrada determina el resultado que se obtiene en los pronósticos de demanda y ventas. Ningún algoritmo de inteligencia artificial ni modelo de aprendizaje automático, por muy sofisticados y perfeccionados que sean por la tecnología utilizada en el proceso de creación y formación, encontrarán soluciones a los retos empresariales si los datos son irregulares, incompletos, incoherentes y falseados. En terminología informática, esta relación se conoce por el dicho » garbage in, garbage out» (basura entra, basura sale).

Se dice que los datos incompletos, almacenados en distintos formatos o sistemas, se convierten en «basura». Si se han introducido en los sistemas de forma irregular, de manera no uniforme, el modelo de aprendizaje automático trabajará sobre lo que ha recibido, tratando de encontrar relaciones entre los volúmenes de ventas y los factores que influyen en ellos. Esto conducirá a una situación en la que el modelo posea un conocimiento falso de las relaciones históricas entre ventas, precios y promociones y, en última instancia, a pronósticos poco fiables e inexactos. Por lo tanto, conviene considerar los datos como un jardín que hay que cuidar con regularidad. Sin estos cuidados, desarrollará malas hierbas, especies vegetales invasoras y perderá así su encanto. Sin embargo, si se toma el tiempo necesario para cuidarlo, podrá disfrutar de su belleza y aprovechar al máximo el potencial que ofrece.

Por lo tanto, desde el punto de vista de un cliente potencial de una plataforma de pronóstico de la demanda y las ventas, es crucial equiparse adecuadamente con datos y definir las propias expectativas. Hay que preguntarse por qué y para qué se va a implantar una solución concreta y qué beneficios se espera que aporte a la empresa. El conocimiento de los datos y su calidad, así como la definición de las necesidades empresariales, son necesarios pero también suficientes para empezar a trabajar con modelos matemáticos.

A generalizar (con nuestra ayuda)

Desde un punto de vista técnico, un modelo de aprendizaje automático es un programa que genera pronósticos para el futuro a partir de relaciones y reglas establecidas, basadas en datos históricos. Está optimizado para calcular automáticamente valores que se han seleccionado cuidadosamente de antemano para abordar retos empresariales clave.

El equipo de data science desempeña un papel clave en la creación y el entrenamiento de los modelos. Mientras que las grandes cadenas de distribución disponen de los recursos humanos adecuados, los minoristas pequeños y medianos no suelen emplear a personas con esas habilidades. Sin embargo, esto no les impide beneficiarse del potencial de la IA y el ML. Cuando eligen una plataforma de pronóstico de ventas y demanda como Occubee, reciben los conocimientos técnicos y el apoyo del proveedor del sistema, tanto durante la implementación como posteriormente a lo largo del ciclo de vida, mientras permanecen bajo el cuidado de experimentados científicos de datos.

El científico de datos es responsable de introducir todos los datos del cliente en el modelo y de seleccionar la información que pronosticará el futuro con los mejores resultados. Esto se debe a que no todos los datos serán útiles desde el punto de vista del modelo ML, aunque todos los datos y variables deben recopilarse cuidadosamente. Es necesario un proceso de selección y… generalización de la información.

Paradójicamente, una información demasiado detallada no será útil en absoluto. Sólo hay un cierto nivel de generalidad de la información que tenga un impacto significativo en las predicciones. Si el modelo se alimenta con demasiados datos matizados, puede llegar a «sobreaprender», lo que afectará negativamente a los resultados de salida. El aprendizaje de un modelo de ML puede compararse con el estudio para un examen. Cuando estudiamos para un examen de matemáticas, no nos aprendemos cada frase de memoria junto con los valores que se dan en la tarea. En tal situación, reprobaremos el examen muy rápidamente. Debemos aprender algunas relaciones generales que sean ciertas en todas las condiciones. El proceso de aprendizaje correcto consiste en generalizar la información que nos llega y no prestar atención a la información incidental o insignificante, exactamente el proceso que queremos replicar cuando se trata de aprendizaje de modelos de ML.

Otro ejemplo: si queremos pedir un préstamo bancario, el banco necesita nuestros datos. La decisión de conceder un crédito se toma en función de nuestra edad u ocupación, entre otras cosas. Si el banco hiciera depender la decisión de crédito, por ejemplo, sólo del sexo, sería una categoría demasiado general. Si, por el contrario, hiciera depender la decisión de un nombre concreto, el nivel de datos sería demasiado detallado. 

Por eso, al entrenar el modelo, el análisis se basa en precios, que a veces se redondean con cierta aproximación (por ejemplo, a décimas) para encontrar un equilibrio en la generalización y el detalle de los datos. Los modelos de aprendizaje automático necesitan probar el nivel de detalle de la información sobre precios y promociones, ya que puede resultar que un cambio mínimo en el precio no afecte en absoluto al pronóstico y, por el contrario, mantener un nivel de detalle muy alto resulte fatal. También cabe señalar que en todo proceso de entrenamiento de un modelo ML llega un momento en que se alcanza un límite a partir del cual ni siquiera los ajustes de la configuración a lo largo de muchos meses cambiarán los resultados del pronóstico. Sin embargo, es difícil estimar de antemano cuándo se llegará a ese límite.

Hay empresas que operan con fuentes y entornos de datos muy ricos, de los que se tarda más en extraer información sobre las características de los productos, las promociones, los eventos, las vacaciones o las ventas históricas. Cuando la información de la que disponemos se basa principalmente en ventas históricas, el tiempo para desarrollar el modelo también será menor. Por tanto, es difícil determinar el plazo en el que obtendremos pronósticos de demanda y ventas satisfactorios, pero podemos identificar el elemento que los hará satisfactorios. Se trata, por supuesto, de los datos. Todo el proceso empieza con ellos.

El aprendizaje automático y la estadística funcionan mejor cuando confluyen muchos factores independientes de menor importancia y una decisión individual no afecta significativamente al número final de operaciones de venta al final del día. Por lo tanto, los datos históricos que sean coherentes, valiosos, se recopilen sistemáticamente y tengan en cuenta los detalles de la venta tendrán un gran impacto en la precisión de los pronósticos de referencia, y determinarán el poder de la inteligencia artificial y el aprendizaje automático para impulsar el crecimiento del negocio.

¿Quieres saber más?

Únete a nuestro boletín

Los boletines se envían por correo electrónico, como máximo una vez al mes o inmediatamente en caso de noticias/cambios/contenido educativo importantes. Más información en los términos y condiciones.