Współczesny biznes jest w trakcie ogromnej transformacji cyfrowej, związanej m.in. z digitalizacją, automatyzacją i wdrażaniem sztucznej inteligencji. Jak wynika z raportu Siemens „DIGI INDEX 2021. Poziom digitalizacji produkcji w Polsce”, firmy zwiększyły nakłady na cyfryzację – z 6,5 proc. w 2020 r. do ponad 9 proc. w 2021 r. Wzrósł także średni odsetek zysków, który przedsiębiorstwa przeznaczają na digitalizację – z 6,48 proc. do 9,12 proc. w skali roku. By skutecznie zaimplementować w firmie innowacyjne rozwiązania, trzeba posiadać dane. To one napędzają bowiem całą infrastrukturę cyfrową, a dla branży retail i produkcyjnej stanowią paliwo do skutecznych i trafnych prognoz popytu i sprzedaży w magazynach i sklepach.
Jaką strategię zarządzania danymi wprowadzić w firmie? W jaki sposób i jak długo je gromadzić? Co oznacza pojęcie „wartościowe dane”? Oto cztery kluczowe wskazówki, które umożliwiają prawidłowe przygotowanie danych biznesowych do skutecznego użycia ich w modelach Machine Learning.
Gromadź dane konsekwentnie
Największy potencjał biznesowy posiadają dane, które są kompletne i konsekwentnie gromadzone. W przypadku danych sprzedażowych, optymalnym horyzontem dla danych historycznych jest okres przynajmniej 2-3 lat. Odpowiednio długa historia sprzedaży, na której modele Machine Learning wyszukują prawidłowości przyczynowo-skutkowe, pozwala na opracowanie lepszego rozwiązania i pozytywnie wpływa na jakość prognoz generowanych w oparciu o algorytmy sztucznej inteligencji (AI). Warto jednak podkreślić, że dysponowanie danymi o krótszej historii – co zdarza się w przypadku wielu rozwijających się retailerów – nie przekreśla możliwości zastosowania zaawansowanych algorytmów ML i AI. Taki stan rzeczy oddziałuje na proces modelowania oraz otrzymywane wyniki, ale nadal przybliża przedsiębiorców i firmy do doskonalenia procesów i osiągania lepszych rezultatów biznesowych.
Kompletność danych również jest kluczowa. Im pełniejsze dane, tym lepsza jakość prognoz. Co to oznacza w praktyce? Dla przykładu: jeśli dostawca platformy do prognozowania popytu i sprzedaży wymaga informacji o cenach poszczególnych produktów, to każdy SKU powinien zostać wprowadzony do systemu z odpowiednio oznaczoną ceną. Dotyczy to także cen promocyjnych, oznaczeń zwrotów czy sprzedaży hurtowej. Zatem jeśli dany detalista prowadzi akcje promocyjne, programy lojalnościowe czy oferuje klientom rabaty uznaniowe, to każdą taką pro-kliencką aktywność należy ujmować w danych.
Ma to zasadnicze znaczenie, bowiem jeśli cena na paragonie różni się od tej w oficjalnym cenniku, to zależności wychwytywane przez model bywają błędne, w efekcie czego proces planowania produkcji i dystrybucji jest zakłócony.
Machine Learning to nie magiczna kula
Ponadto, z punktu widzenia kompletności danych, należy posiadać także analogiczne dane uwzględniające przyszłość. Przykładowo: jeśli prognozujemy popyt na towar z miesięcznym wyprzedzeniem, powinniśmy opracować dane historyczne: ceny, promocje, moment sezonu, święta szczególne i uwzględnić dokładnie te same elementy zmienne na miesiąc w przód.
Warto pamiętać, że nawet jeśli posiadamy konsekwentnie gromadzone, kompletne dane, to modele ML nie przewidzą wszystkiego. Nie działają jak magiczna kula. Modele trenowane są w oparciu o istniejące dane oraz schematy i prawidłowości wyuczone na podstawie tych danych, zatem jeśli dochodzi do zmian strukturalnych modelowanych zjawisk, zmian otoczenia wewnętrznego i zewnętrznego czy wreszcie do zwyczajnych zdarzeń losowych, model nie zaprognozuje ich z wyprzedzeniem.
Przykładowo: jeśli w danym miasteczku działał dotychczas jeden market spożywczy, a obecnie powstały dwa konkurencyjne sklepy, to z dniem ich uruchomienia model nie zaprognozuje wpływu konkurencji na sprzedaż. Jednocześnie, ponieważ modele są zasilane danymi, to – w zależności od potrzeb – nawet w horyzoncie jednego dnia mogą dokonać analiz uwzględniających nowe warunki prowadzenia biznesu. Są zatem w stanie błyskawicznie zareagować na zmiany, potrzebują tylko wysokiej jakości danych.
Pamiętaj o spójności i historii
By rozpocząć pracę ze sztuczną inteligencją i modelami machine learningowymi oraz wykorzystywać je w prognozowaniu popytu i sprzedaży w retailu, należy posiadać wartościowe dane, czyli konsekwentnie zbierane, kompletne i spójne. Uporządkowane, metodycznie ustrukturyzowane dane to dla modeli ML olej dla maszyny – dzięki nim działają szybko i sprawnie.
Od jakich danych zacząć? Potrzebne będą dane paragonowe czy sprzedażowe, cenniki, informacje dot. promocji. Ponadto słowniki produktów, z uwzględnieniem zarówno produktów dostępnych aktualnie w ofercie, jak i historycznych. Przykładowo: to, jak cena wpłynie na sprzedaż danego produktu w najbliższym okresie, ustala się na podstawie tego, jak wpływała na sprzedaż w poprzednich miesiącach i latach, biorąc pod uwagę czynniki takie jak: moment sezonu, trendy konsumenckie, pogoda, zmiany cen, akcje marketingowe. Wszystkie te zmienne znacząco oddziałują bowiem na zainteresowanie produktem, bądź jego brak. Co ważne, dane historyczne powinny obejmować nie tylko dane paragonowe (faktyczną sprzedaż), ale także informacje o stanach magazynowych i sklepowych.
Kompletowanie danych i przestrzeganie spójnych zasad ich gromadzenia może sprawiać retailerom trudności, zwłaszcza w sytuacji, kiedy punktów sprzedaży jest wiele i są rozproszone geograficznie w skali międzynarodowej. Często bowiem informacje np. o stanach sklepowych lub magazynowych, notuje się na na kartkach i wprowadza do systemu z opóźnieniem, w zależności od dysponowania wolnym czasem pracowników. To powoduje wiele rozbieżności, które niekorzystnie wpływają na pracę systemów prognozujących w oparciu o algorytmy AI i Machine Learning. Warto zatem zadbać o określenie jasnej i precyzyjnej polityki gromadzenia danych, aby w jak najszybciej otrzymywać prognozy wysokiej jakości.
Nie zaśmiecaj danych
W każdym biznesie – niezależnie od branży i wielkości – o tym, jakie dane wyjściowe otrzymuje się w prognozach popytu i sprzedaży, decyduje jakość danych wejściowych. Żaden algorytm sztucznej inteligencji i model machine learningowy, niezależnie od stopnia zaawansowania i wykorzystanej technologii w procesie tworzenia i trenowania, nie znajdzie rozwiązań na wyzwania biznesowe, jeśli dane są poszatkowane, niepełne, niespójne i wybrakowane. W terminologii informatycznej tę zależność określa się powiedzeniem: „garbage in, garbage out”.
O danych niekompletnych, zapisywanych w różnych formatach czy systemach, mówi się, że stają się „śmieciowe”. Jeśli zasilano nimi systemy nieregularnie, w niezunifikowany sposób, to model machine learningowy będzie pracował na tym, co otrzymał, próbując odszukać zależności pomiędzy wielkością sprzedaży a czynnikami na nią wpływającymi. Doprowadzi to do sytuacji, w której model posiądzie fałszywą wiedzę na temat historycznych relacji między sprzedażą, cenami i promocjami, a finalnie do nierzetelnych i nietrafionych prognoz. O danych warto zatem myśleć jak o ogrodzie, który wymaga regularnego pielęgnowania. Bez tej opieki, pojawią się w nim chwasty, inwazyjne gatunki roślin, a tym samym straci swój urok. Jeśli jednak poświęcimy mu czas, zadbamy o niego, będziemy mogli cieszyć się jego pięknem i w pełni korzystać z potencjału, który oferuje.
Dlatego, z punktu widzenia potencjalnego klienta platformy prognozującej popyt i sprzedaż, kluczowe jest odpowiednie wyposażenie w dane oraz zdefiniowanie swoich oczekiwań. Należy zadać pytania, po co i w jakim celu chcemy wdrożyć konkretne rozwiązanie i jakie korzyści ma przynieść biznesowi. Wiedza na temat danych i ich jakości oraz określenie potrzeb biznesowych są niezbędne, ale i wystarczające do rozpoczęcia pracy z modelowaniem matematycznym.
Uogólniaj (naszymi rękami)
Model uczenia maszynowego z technicznego punktu widzenia to program, który na podstawie ustalonych zależności i zasad, w oparciu o dane historyczne, generuje prognozy na przyszłość. Jest zoptymalizowany tak, by automatycznie wyliczać wartości, które wcześniej starannie wyselekcjonowano, aby odpowiadać na najważniejsze wyzwania biznesowe.
Kluczową rolę w tworzeniu i trenowaniu modeli pełni zespół data science. O ile większe sieci handlowe coraz częściej dysponują odpowiednim zapleczem kadrowym, o tyle mali i średni retailerzy często nie zatrudniają osób o takich kompetencjach. To jednak nie przekreśla ich szansy na korzystanie z potencjału AI i ML. Wybierając platformę do prognozowania sprzedaży i popytu, taką jak Occubee, otrzymują know-how i wsparcie dostawcy systemu – zarówno w trakcie wdrożenia, jak i później w całym okresie użytkowania, pozostając pod opieką doświadczonych data scientistów.
Data scientist jest odpowiedzialny za to, by wszystkie dane klienta wprowadzić do modelu i wybrać te informacje, które z najlepszym skutkiem zaprognozują przyszłość. Nie każda informacja będzie bowiem przydatna z punktu widzenia modelu Machine Learning, choć każdą daną i zmienną należy starannie gromadzić. Konieczny jest proces selekcji i… uogólnienia informacji.
Paradoksalnie, aż nadto szczegółowa informacja wcale nie będzie użyteczna. Istnieje tylko pewien poziom ogólności informacji, który ma istotny wpływ na prognozy. Jeśli zasilimy model zbyt wieloma zniuansowanymi danymi, to często dochodzi do jego „przeuczenia się”, które niekorzystnie wpłynie na rezultaty wyjściowe.
Machine Learning na przykładach
Uczenie modelu ML można porównać do nauki przed egzaminem. Studiując materiał do egzaminu z matematyki, nie uczymy się każdego zdania na pamięć wraz z wartościami podanymi w zadaniu. W takiej sytuacji bardzo szybko oblejemy egzamin. Powinniśmy nauczyć się pewnych ogólnych zależności, prawdziwych w każdych warunkach. Prawidłowy proces nauki polega na uogólnianiu informacji do nas docierających i niezwracaniu uwagi na informacje przypadkowe czy nieznaczące – dokładnie taki proces chcemy odtworzyć w przypadku uczenia modeli ML.
Inny przykład: jeśli decydujemy się na kredyt bankowy, bank potrzebuje naszych danych. Decyzja o przyznaniu kredytu podejmuje się m.in. na podstawie naszego wieku czy zawodu. Jeśli bank uzależniałby decyzję kredytową np. tylko od płci – byłaby to kategoria zbyt ogólna. Jeśli zaś uzależniałby decyzję od konkretnego imienia – poziom danych byłby zbyt szczegółowy.
Dlatego też podczas trenowania modelu analizuje się ceny, które bywają zaokrąglane do określonej wartości przybliżonej (np. do części dziesiątych), by znaleźć balans w uogólnianiu i uszczegółowieniu danych. Modele Machine Learning muszą testować poziom szczegółowości informacji o cenach i promocjach, bowiem może okazać się, że minimalna zmiana ceny nie wpłynęła w żaden sposób na prognozę, a przeciwnie – zachowanie bardzo wysokiego poziomu szczegółowości stało się zgubne. Warto też zauważyć, że w każdym procesie treningu modelu ML przychodzi moment, w którym dochodzi się do granicy, po której nawet wielomiesięczne korekty ustawień nie zmienią wyników prognozowania. Trudno jest jednak z góry oszacować, kiedy do niej dojdziemy.
Kiedy oczekiwać efektów?
Są biznesy, które operują na bogatych źródłach danych i środowisku, z których dłużej trzeba wyłuskiwać informacje o cechach produktów, promocjach, wydarzeniach, świętach czy historycznej sprzedaży. Gdy informacje którymi dysponujemy bazują głównie na historycznej sprzedaży, to i czas opracowania modelu będzie krótszy. Trudno zatem określić czas, w którym uzyskamy zadowalające prognozy popytu i sprzedaży. Możemy jednak określić element, dzięki któremu ich jakość będzie zadowalająca. To oczywiście dane. Od nich zaczyna się cały proces.
Machine Learning i statystyka najlepiej działają wtedy, gdy wiele niezależnych, pomniejszych czynników składa się w całość, a indywidualna decyzja nie wpływa znacząco na finalną liczbę transakcji sprzedaży na koniec dnia. Dlatego też dane historyczne, spójne, wartościowe, konsekwentnie gromadzone i uwzględniające szczegóły sprzedaży, będą miały zasadniczy wpływ na trafność prognoz wyjściowych, a także będą decydowały o sile oddziaływania sztucznej inteligencji i uczenia maszynowego na rozwój biznesu.