4 najczęstsze błędy przy testach A/B lub wieloczynnikowych

Jeżeli dobrze zaplanowaliśmy swoje testy A/B lub wielowymiarowe z dużym prawdopodobieństwem uda nam się uniknąć większości popełnianych zazwyczaj błędów.

Największą uwagę powinniśmy jednak zwrócić na cztery, najczęściej popełniane, błędy:

1. „Testowanie jest kompletnie darmowe! Nie trzeba nad nim myśleć – trzeba działać”

Testy A/B lub wielowymiarowe są praktycznie darmoweWe wszystkich naszych postach, tak na temat danych jakościowych jak i również testów online piszemy, że nie ma wymówek przed ich wykorzystywaniem, ponieważ można to robić praktycznie za darmo.

Praktycznie, nie oznacza jednak, że w pełni. Oczywiście, znajdziemy świetne narzędzia, które są darmowe i poświęcimy swój czas, aby przeanalizować dane i przygotować nowe propozycje. Nasz czas jednak kosztuje. I nie jest on bynajmniej jedynym elementem, za który przyjdzie nam zapłacić.

Nie wszystkie propozycje dadzą pozytywny efekt.

Testy online pomagają nam w szybszym popełnianiu błędów i wyciąganiu z tego konstruktywnych wniosków. Powoduje to jednak, że przez pewien okres – zanim poprawimy konwersję – będziemy tak naprawdę zarabiać mniej.

Wyobraźmy sobie sytuację w której testujesz propozycje A (oryginalna), B i C. Po dwóch tygodniach otrzymujemy następujące wyniki: A – 2,5% B – 3% C – 1,1%

Jeśli każda z wersji otrzymała 33% ruchu, to średni współczynnik konwersji przez okres dwóch tygodni jest równy 2,2% (średnia z trzech liczb: 2,5%, 3%, 1,1%). Gdyby testów nie było ten współczynnik równałby się 2,5%. Oznacza to 12% gorszy współczynnik konwersji niż gdybyśmy testów nie przeprowadzali!

W długim okresie na pewno wygramy. Nie odbędzie się to jednak zerowym kosztem.

W gorszej sytuacji znajdujemy się, jeśli testowane przez nas kombinacje mają wynik słabszy niż wersja oryginalna. Oznacza to nie tylko, że naraziliśmy się na niższy dochód ze swojej witryny internetowej przez okres testu, ale również poniekąd straciliśmy zainwestowany do tej pory czas, ponieważ wnioski z analizy okazały się niepoprawne. Tak czasem się zdarza – nie powinniśmy się jednak załamywać. W takich wypadkach trzeba przeanalizować co nie odpowiadało naszym użytkownikom i wystartować z nowym testem, który będzie wolny od tych błędów.

Nieudany test Google Website Optimizer

Należy sobie również odpowiedzieć na pytanie, czy testy są w tym momencie priorytetem? Koszt alternatywny innych działań może przewyższyć przychód z ich przeprowadzenia. Powinniśmy pamiętać o priorytyzacji.

Z powyższych powodów nie należy traktować testów, jako kompletnie darmowego rozwiązania.

2. „Zróbmy szybsze testy A/B. Po co testować interakcje pomiędzy elementami i tracić czas? Czuję, że ich nie ma!”

Testy A/B i wieloczynnikowe porównujące skuteczność jedynie wybranych kombinacji zakładają, że nie ma interakcji pomiędzy poszczególnymi zmiennymi. W Internecie bardzo często nie jest to prawdą.

Aby łatwiej było wyobrazić sobie interakcje pomiędzy zmiennymi zerknijmy na poniższy przykład.

Mamy dwie zmienne. Obrazek oraz nagłówek.

Nagłówek ma tylko jedną odmianę: Samochody Ferrari są najszybsze

Obrazek ma natomiast dwie odmiany:

Interakcja pomiędzy zmiennymi test A/B

Źródło: http://www.sportscarcup.com/; http://www.lotustalk.com/

W obu przypadkach z tym samym nagłówkiem będziemy mieli zupełnie różne przekazy.

Jak to może wpłynąć na przeprowadzane przez nas testy? Jeżeli przykładowo założymy, że pomiędzy elementem X i Y nie ma interakcji możemy przeprowadzić testy A/B w których zmienimy połączenie tych dwóch elementów (traktujemy je jako jedna zmienna). Testy dają pozytywny wynik wzrostu konwersji o 12,5% – świętujemy sukces.

Tak naprawdę, nie wiemy w tym momencie, czemu zawdzięczasz sukces. Może być tak, że w zwycięskiej wersji zmiana elementu X zwiększała konwersję o 50%, natomiast zmiana elementu Y obniżała ją o 25% i stąd wziął się wynik 12,5%. Jak widzimy nie jest to wynik optymalny, ponieważ nie zmieniając elementu Y konwersja zostałaby poprawiona o 50% (a nie liche 12,5% ;) ).

Oznacza to, że należy mocno przyglądać się możliwym interakcjom pomiędzy zmiennymi i je monitorować, ponieważ zakładając z góry, że tych interakcji nie ma – można narazić się na niepełne wykorzystanie potencjału testowanych elementów.

3. „Po dwóch dniach mam statystycznie istotne wyniki! Mamy zwycięzcę, więc startujemy z kolejnym testem.”

Zbyt krótki test Google Webste Optimizer

Zbyt krótki okres zbierania danych może prowadzić do przesadnego hurraoptymizmu. Przy zbieraniu danych będziemy obserwowali fluktuacje i nic na to nie poradzimy.

Zbyt częste sprawdzanie wyników testu na początku jego trwania może nas doprowadzić do błędnych wniosków. Na początku możemy święcić triumfy, a po kilku dniach okaże się, że jednak poprawa była mniejsza niż wskazywały na to wstępne dane.

Dzięki statystyce, zebranie coraz większej liczby danych powinno ustabilizować nam szacowane współczynniki konwersji na rzeczywistym poziomie. Zmniejszą się wtedy zakresy błędu szacunkowego, który zawsze powinniśmy brać pod uwagę analizując dane z testu.

Margines błędu Google Website Optimizer

Patrząc na powierzchownie na powyższe dane widzimy, że wersja próbna daje o 33% gorsze wyniki – jej wynik to współczynnik konwersji na poziomie 12,5%, natomiast wersja oryginalna zanotowała wynik rzędu 18,9%. Różnica wynosi 6,4 punkta procentowego!

Jeśli jednak weźmiemy pod uwagę błąd szacunkowy, może okazać się że różnica ta jest jednak znacznie mniejsza. Minimalny wynik współczynnika konwersji dla wersji oryginalnej to 15,7% (18,9% – 3,2%), natomiast maksymalny wynik dla wersji próbnej to 15,2% (12,5% + 2,7%). Różnica to 0,5 p.p. Różnica w poziomie konwersji już nie jest tak jednoznaczna i powalająca, prawda?

Z powyższych powodów powinniśmy zawsze czekać aż uda nam się uzbierać większą ilość danych. Test, który będzie dla nas podstawą do wdrożenia zmiany nanaszej witrynie, powinien trwać ok. 2 tygodnie. Do tego czasu zakres błędu mocno się ograniczy, a prezentowanym wynikom będzie można uwierzyć.

4. „Przecież moje testy trwają tylko 2 tygodnie. Po co mam brać pod uwagę sezonowość?”

Najgorszym możliwym typem testowania jest prezentowanie przez np. tydzień wersji strony A, a przez kolejny tydzień wersji strony B. Możemy mieć pewność, że z porównania takich danych nic dobrego nie wyjdzie, ponieważ zbyt wiele czynników jest zmiennych.

Niektóre z nich mają również bardzo poważny wpływ przy przeprowadzaniu testów równoległych. Nawet ci sami ludzie odwiedzając nasza witrynę w różnych okresach mogą zachowywać się różnie. Maja na to wpływ takie czynniki jak np. znajomość naszego produktu czy działania konkurencji.

W związku z tym powinniśmy pamiętać o tym, aby testy:

  • przeprowadzać na stabilnych źródłach ruchu – nie zmieniać ich zestawu w trakcie prowadzonego testu (segmentujmy ruch),
  • starać się ominąć sezony sprzedażowe – np. święta (chyba, że testujemy specjalnie pod nie).

A co Wy dopisalibyście do powyższej listy 4 najczęściej popełnianych błędów? Czy nie zgadzacie się z którymś punktem? Zapraszam do komentowania.

Ciekawym dopełnieniem powyższej listy 4 najczęstszych błędów, związanych z testowaniem, jest post Mateusza na temat tego, jaki model współpracy w ramach projektu optymalizacji konwersji należy wybrać.

Chcesz dowiedzieć się więcej o optymalizacji konwersji? Przeczytaj nasz artykuł o tym jak poprawić swój proces testowania i poznaj sprawdzone sposoby na poprawę swoich testów A/B.

UWAGA: Z dniem 1 sierpnia 2012 roku Google Website Optimizer został zastąpiony przez Eksperymenty Google Analytics

Autor: Paweł

Paweł optymalizuje konwersję, szkoli, wdraża analitykę i dodatkowo zajmuje się marketingiem w Conversion. Jednak przede wszystkim Paweł jest nieskończoną kopalnią pomysłów, które napędzają naszą firmę. Jest absolwentem Szkoły Głównej Handlowej na kierunku Zarządzanie. Możecie przeczytać całą masę artykułów, które napisał oraz posłuchać go na konferencjach branżowych.





  • Michał Małaj

    Jest pewne niebezpieczeństwo w sytuacjach gdy wynik testu A/B jest "remisowy" w takich sytuacjach potrzeba wyjaśnienia dlaczego nie dochodzi do wyłonienia istotnej statystycznej wersji. Może dlatego że nie ma czynnika determinującego sukces testu. (albo inaczej każdy z tych czynników które testujemy nie ma wyraźnej korelacji z innymi czynnikami)

    Niestety tam gdzie nie bardzo można "wyjaśnić" klientowi niuanse statystyczne. Często trzeba sięgnąć po dane z Google Analytics. Wcześniej przed testami A/B (czy multiwariancyjnymi) trzeba napisać tak skrypty JavaScript do zbierania danych o przebiegu testu. Wtedy można śledzić wpływ testu A/B wg ustawień celów GA wtedy przy "remisowych" sytuacjach można wyjść do klienta z wynikami o ile nie z samego testu tylko wpływu testu na dane zbierane przez eCommerce. Robię tak świadom że dane z eCommerce / słów kluczowych z GA mogą służyć do przeinterpretowania danych z testów dokonywanych Optymalizatorem Witryny.

    Kiedyś próbowałem założyć ze same dane z Google Analytics wystarczą do przeprowadzenia testów A/B czy multiwariancyjnych. W teorii jest to możliwe dla aplikacji mocno wykorzystujących AJAX czy technologie RIA, badz na urządzenia mobilne. Ale przede wszystkim trzeba odpowiednio przed testami poustawiać Google Analytics i przygotować odpowiednie skrypty.

    1. Uważam że największa barierą przy testach są silniki na których są stawiane sklepy czy portale. Często jest tak że koszt modyfikacji silnika będzie tak wysoki że nie opłaci się przeprowadzać testów

    2. Testy maja sens jak znamy możliwości danego silnika CMS czy CRM. Wychodzenie do klienta z testami gdy nie będziemy znali możliwości programistycznych może skończyć się porażką

    3. Ponieważ Optymalizator Google pracuje na tym samym silniku co Google Analytics w ciągu 48 godzin od rozpoczęcia testów następują anomalie w wynikach wiec warto to brać pod uwagę, Więc tak naprawdę 14 dni testów to w praktyce oznacza 11 dni uporządkowanych danych + 3 ostatnie dni gdzie mogą wystąpić anomalie.

x

Pobierz najnowsze case study

Przeczytaj jak Limango Polska wykorzystuje potencjał analityki internetowej w swojej organizacji.

Pobierz case study
Przeczytaj poprzedni wpis:
Powrót do postaw: Cele w Google Analytics

Cel powinien być nadrzędnym elementem strategii analityki internetowej. Wielokrotnie zwracaliśmy na to uwagę, że każda strona w Internecie istnieje w...

Zamknij