Przeglądasz posty otagowane: ‘Testy A/B’

Jaki model współpracy wybrać: co jeśli nie możemy przeprowadzać testów?

Jaki model współpracy wybrać: co jeśli nie możemy przeprowadzać testówOptymalizacja konwersji łączy się z przeprowadzaniem testów. Niestety mają one swoje ograniczenia. A głównie jedno – potrzebny jest wystarczająco duży ruch, aby testy A/B lub wielowymiarowe przyniosły wyniki w rozsądnym czasie. Czy jeżeli nasz serwis nie przekroczył tej granicy powinniśmy siedzieć z założonymi rękoma? Jak rozliczyć się z firmą, która ma ten serwis poprawiać?

Często spotykamy się z tego typu pytaniami w trakcie rozpoczynania pracy z częścią naszym Klientów. Niestety Polska to nie USA i liczba użytkowników odwiedzających serwisy w niektórych niszach jest nie tak duża.

Ten artykuł stanowi część drugą Buyers’ Guide by Conversion. Tutaj zapoznanie się z poprzednią częścią: Jaki model współpracy wybrać w ramach projektu optymalizacji konwersji? – warto to zrobić przed lekturą poniższego artykułu.

Magiczna granica wielkości ruchu

Granica testowania

zdjęcie od FHgitarre

Zaczęliście się pewnie zastanawiać czy istnieje coś takiego jak magiczna granica ruchu, który pozwoli na testy?

Niestety muszę Was rozczarować, ponieważ takiej granicy nie ma. Dlaczego? Ponieważ możliwość testowania zależy nie tylko od wielkości ruchu, ale też od jego specyfiki, czyli obecnego współczynnika konwersji. Zależy również od tego jaki wzrost współczynnika konwersji oczekujemy. Dlatego, mówiąc o granicy wielkości ruchu, myślimy bardziej o jego parametrach (dowiedz się na czym dokładnie polega statystyka w testach A/B i jakie elementy ruchy brane są pod uwagę).

Sklep internetowy może mieć współczynnik konwersji poniżej 1%, a strona docelowa kampanii ubezpieczyciela ponad 8%. Jeżeli w obu przypadkach będziemy planowali wzrosty o 30%, granice liczby odwiedzin będą się znacząco różniły. Do ich wyliczenia możemy wykorzystać kalkulator długości trwania testu.

Jeżeli miałbym polecić niepisaną zasadę, która rozdziela serwisy na których uda Wam się przeprowadzić testy w rozsądnym okresie czasu (10-14 dni) to powiedziałbym, że potrzebujecie ok. 100 konwersji na każdą testowaną kombinację na tydzień.

Czyli, jeżeli planujecie test A/B w którym będzie tylko wersja oryginalna i jedna wersja testowa, to będziecie potrzebowali do tego około 200 konwersji w dwa tygodnie. Można powiedzieć, że to 200 konwersji w 2 tygodnie jest absolutnym minimum do przeprowadzania testów (bo nie możemy testować mniejszej liczby różnych rzeczy niż 2 – sprawdźcie o czym jeszcze trzeba pamiętać przed rozpoczęciem testów A/B i wielowymiarowych.

Co jeśli takiego ruchu nie posiadamy?

Na pewno nie wszyscy z Was opiekują się stronami, które spełniają warunek 200 konwersji w dwa tygodnie. W takim przypadku przeprowadzanie testów jest zazwyczaj niemożliwe.

Mateusz pisał, że istnieją dwa modele rozliczania się za współprace z firmą w zakresie projektu optymalizacji konwersji:

  • rozliczanie za efekt końcowy projektu – gdy wynagrodzenie firmy doradczej uzależnione jest od ostatecznego wyniku potwierdzonego testami A/B lub wielowymiarowymi (a nie porównaniem dwóch okresów!)
  • rozliczanie za wkład pracy – gdy wcześniej ustalone wynagrodzenie jest wypłacane po zakończeniu projektu za godziwie wykonaną pracę

Jeżeli testy w obrębie witryny można przeprowadzać, to wtedy pierwsza z wymienionych wyżej opcji jest znacznie lepsza. Dlaczego? Ponieważ daje gwarancje uzyskanych wyników. Niestety, nigdy gdy nie jest tak, że 100% rekomendacji jest trafionych. Właśnie dzięki testowaniu, rozliczenie za efekt pozwala zminimalizować ryzyko „wdepnięcia” w te nietrafione rekomendacje.

Z drugiej strony, jeżeli testów nie możemy przeprowadzać, możemy:

  1. postarać się zwiększyć ruch na czas trwania testów – ważne jest, aby pozyskać ruch analogiczny do tego, który na co dzień odwiedza nasz serwis
  2. rozliczyć się za wkład pracy

W przypadku braku możliwości przeprowadzania testów, często pojawia się trzecie rozwiązanie. Jest to pokusa, aby rozliczyć się za „efekt końcowy” projektu optymalizacji konwersji. Albo agencje, albo klienci proponują, aby sukces był liczony w inny sposób – za pomocą porównania dwóch okresów czasu – przed wdrożeniem poprawek i po ich wdrożeniu.

W artykule o modelu współpracy przy projektach optymalizacji konwersji przeczytacie, dlaczego to podejście jest niepoprawne, a jego wyniki są wypaczane przez czynniki zewnętrzne.

Dlaczego więc, pojawia się czasem pokusa wśród firm, aby podsunąć potencjalnemu Klientowi model współpracy w modelu opartym o sukces gdy testów przeprowadzać się nie da?

Zazwyczaj model ten daje wyższe wynagrodzenie za przeprowadzone prace. Jeżeli dzięki pracy udowodniony jest wzrost sprzedaży o kilka tysięcy złotych to łatwiej jest uzasadnić Klientowi wysoką zapłatę za projekt.

Jednak tak jak pisaliśmy, przy porównaniu dwóch okresów czasu istnieje bardzo wiele innych czynników, które mogły wpłynąć na wzrost współczynnika konwersji. Jeżeli poprawa strony miała na to mały wpływ, to będąc klientem możemy płacić agencji za sukces, na który miała znikomy wpływ.

Dość powiedzieć, że pewnego razu w trakcie spotkania z Klientem dowiedzieliśmy się o agencji, która gwarantowała podniesienie współczynnika konwersji w jego sklepie internetowym bez przeprowadzania testów. Sposób liczenia wzrostu z porównaniem dwóch okresów był niepoprawny, ale najzabawniejszy był fakt, że agencja planowała wdrożyć zmiany w połowie listopada. Jest to okres kiedy w branży w której działał ten sklep internetowy współczynnik konwersji z okazji przedświątecznej gorączki rokrocznie wzrastał o kilkadziesiąt procent. Prawda, że był to bezpieczny ruch ze strony firmy doradczej? :)

Kliknij na zdjęcie, aby powiększyć

Jaki jest przebieg projektu w obu modelach: rozliczenia za efekt oraz rozliczenia za włożoną pracę

W obu modelach, działania, które są podejmowane są niemal identyczne. W przypadku rozliczenia za efekt kroki są następujące:

  1. zebranie danych i wnikliwa analiza (analiza danych ilościowych – Google Analytics, jakościowych – ankiety, testy użyteczności, analiza ekspercka)
  2. zaplanowanie usprawnień użyteczności i przekazu marketingowego (ustalenie priorytetów i wybór niektórych z nich do testów)
  3. przygotowanie szkiców proponowanych zmian
  4. przygotowanie projektów graficznych (po stronie Klienta lub firmy doradczej)
  5. wybór narzędzia do testów, ich zaprogramowanie i przeprowadzenie
  6. analiza wyników testu i powrót do kroku pierwszego

Kroki przy optymalizacji konwersji rozliczanej za wkład pracy różnią się niewiele. Dokładnie różnią się dwoma elementami:

  • w kroku drugim w przypadku rozliczenia za czas projektowy nie wybiera się jedynie kilku zmian do wdrożenia, lecz wdraża się wszystkie, które wynikły w trakcie badań z kroku pierwszego
  • z racji braku przeprowadzania testów krok piąty i szósty nie są realizowane

Oznacza to, że w projektach rozliczanych za przepracowany czas, efektem końcowym są szkice zmian lub gotowy, poprawiony projekt graficzny serwisu. Są w nim wdrożone wszystkie rekomendacje, które poprawiają problemy użytkowników wykryte na podstawie badań i analiz przeprowadzonych w kroku pierwszym.

Niemal na pewno ich wdrożenie przyniesie wzrost współczynnika konwersji. Niewątpliwym plusem jest szybkość realizacji takiego projektu.

Niestety, nikt, nigdy nie może być w 100% pewny czy zaproponowane na podstawie takiego badania zmiany rzeczywiście podniosą współczynnik konwersji (ani tym bardziej o ile). Rodzi to niepewność, która może być zlikwidowana tylko za pomocą testów a/b albo wielowymiarowych. Dzięki nim wiemy czy i o ile wzrósł współczynnik konwersji w wyniku zmian zaproponowanych w efekcie pracy.

Podsumowując: co nam pozostaje?

  1. Jeżeli mamy wystarczająco duży ruch – 200 konwersji w dwa tygodnie – przy optymalizacji konwersji powinniśmy rozliczać się z agencjami w modelu opartymi o sukces potwierdzony poprzez testy A/B lub wielowymiarowe. Tutaj znajdziecie więcej wskazówek na ten temat
  2. Jeżeli nie mamy wystarczająco dużego ruchu – rozliczajmy się w wynagrodzeniu za wykonaną pracę, której efektem najlepiej, żeby były rekomendacje w postaci szkiców i tekstów na Twojej witrynie, a nie suchy raport wypisujący same wnioski z badania (lub zgrubnie wskazujący błędy)

Pamiętajmy przy tym: optymalizacja konwersji to nie (tylko) poprawa użyteczności!

Jaki model współpracy wybrać w ramach projektu optymalizacji konwersji?

Jaki model współpracy przy optymalizacji konwersji?

Zastanawiasz się nad tym, jak podnieść współczynnik konwersji swojej witryny? Poszukujesz specjalistów, którzy będą w stanie Ci pomóc? Pierwsze zapytania ofertowe wysłane, konkretne propozycje otrzymane – zastanawiasz się, co teraz? Nie wiesz, jak wybrać konkretnego partnera biznesowego i na co właściwie należy zwrócić uwagę? W takim razie zapraszam do lektury tego posta.

Powstał on na bazie niedawnej rozmowy z potencjalnym Klientem, który był na takim właśnie etapie procesu decyzyjnego. Postaram się rozwiać Twoje wątpliwości – dokładnie tak, jak to zrobiłem podczas rozmowy ;) obiecuję, że będzie krótko i na temat.

Właściwy model współpracy to podstawa

W rzeczywistości, decydując się na współpracę z firmą doradczą w zakresie projektu optymalizacji konwersji masz do wyboru dwa modele współpracy:

  • rozliczasz się za efekt końcowy projektu – tzn. ostateczne wynagrodzenie dla firmy doradczej uzależnione jest bezpośrednio od tego, jak dobrze funkcjonować będzie witryna po wdrożeniu zarekomendowanych zmian,
  • rozliczasz się za wkład pracy – tzn. ostateczne wynagrodzenie, które otrzyma firma doradcza, zostaje ustalone w momencie podpisywania umowy i nie ma związku z tym, jak sprawować się będzie poprawiony serwis.

Który model wybrać?

Jaki model współpracy z firmą doradczą wybrać?

Nie zamierzam Cię oszukiwać – dla Ciebie, jako Klienta, zdecydowanie lepszy jest pierwszy model. Wiesz, że otrzymane rekomendacje, rzeczywiście działają – wiesz, za co płacisz (inaczej mówiąc, płacisz tylko za ewentualny sukces projektu, stąd angielska nazwa tego modelu rozliczeń, czyli success fee).

Niestety, nie zawsze będzie istniała możliwość rozliczenia się za efekt końcowy współpracy. Dlaczego?

Nigdy nie porównuj wartości współczynnika konwersji z dwóch okresów czasu

Zlecasz projekt optymalizacji konwersji. Odbierasz wyniki projektu – najczęściej w postaci raportu, zawierającego listę rekomendacji, mających zwiększyć efektywność Twojego serwisu. Proponowane zmiany zostają wdrożone. Czekasz. Porównujesz aktualną wartość współczynnika konwersji z wartością, zanotowaną przed zmianami. Błąd.

Nie należy porównywać wartości współczynnika konwersji w czasie

W międzyczasie, na współczynnik konwersji Twojej witryny miała wpływ ogromna liczba czynników. Zmiany, które wdrożone zostały w efekcie współpracy z firmą doradczą, to tylko jeden z nich – być może nawet nie ten decydujący. Oprócz tego, wpływ na wartość współczynnika konwersji mogło mieć przykładowo:

  • wprowadzenie do sprzedaży nowego produktu – jeżeli produkt ten zyskał uznanie w oczach kupujących, liczba zamówień notowana przez Twoją witrynę wzrosła, a razem z nią wzrósł współczynnik konwersji,
  • przeprowadzenie agresywnej kampanii reklamowej na łamach jednego z for branżowych, przez co forum to stało się nagle jednym z ważniejszych źródeł ruchu dla Twojego serwisu – wpływ na wartość współczynnika konwersji mogło to mieć pozytywny lub negatywny, wszystko zależy od tego, jakimi kupującymi okazały się osoby, odwiedzające Twój serwis za pośrednictwem tego forum,
  • rozpoczęcie sezonu sprzedażowego – przykładowo, jeżeli prowadzisz sklep z artykułami RTV/AGD, wzrost współczynnika konwersji w okresie listopad-grudzień masz zagwarantowany, ze względu na okres przedświąteczny i zwiększoną liczbę zamówień,
  • zmiana mody i preferencji kupujących – jeżeli Twoje produkty przestały być modne, notowana przez Twój serwis liczba zamówień spadnie, podobnie jak wartość współczynnika konwersji,
  • zmiana cen u Twojego największego konkurenta – jeżeli konkurencja obniżyła ceny, to prawdopodobnie część Twoich klientów zdecyduje się na zmianę dostawcy i Twój współczynnik konwersji spadnie,

Wpływ części z powyższych czynników jesteś w stanie wykluczyć. Możesz przykładowo nie uwzględniać dodatkowego źródła ruchu, które pojawiło się w międzyczasie. Możesz pominąć w trakcie analiz nowy, nadzwyczaj dobrze się sprzedający produkt, który wprowadziłeś przed kilkoma dniami do oferty. Nigdy nie będziesz jednak w stanie wyeliminować wpływu wszystkich czynników, które w danym okresie czasu mogły mieć pozytywny lub negatywny wpływ na współczynnik konwersji Twojej witryny.

To wszystko powoduje, że porównywanie wartości współczynnika konwersji, obliczonej dla dwóch różnych okresów czasu, nie jest właściwe i może prowadzić do błędnych wniosków.

Nie przekonałem Cię? Pozwól, że posłużę się przykładem. Poniższy zrzut ekranu przedstawia wartość współczynnika konwersji e-commerce dla dwóch dwutygodniowych okresów czasu w przypadku jednego ze sklepów internetowych dla którego pracujemy. W okresie 06.09-19.09.2010 wartość współczynnika konwersji e-commerce wyniosła 2,37% – natomiast w okresie 06.12-19.12.2010 uplasowała się ona na poziomie 3,33%. Łatwo można obliczyć, że wzrost wyniósł ponad 40%! Dodam jeszcze, że w międzyczasie nie zostały wdrożone jakiekolwiek modyfikacje w obrębie witryny – zmiana współczynnika konwersji miała związek z.. no właśnie. Z oddziaływaniem czynników zewnętrznych, o których pisałem powyżej.

Zmiana wartości współczynnika konwersji w czasie

Kliknij na zdjęcie, aby powiększyć

Jak zatem należy oceniać efekty pracy firmy doradczej w ramach projektu optymalizacji konwersji? Jedyną metodą dającą poprawne rezultaty jest zastosowanie testów online. Jeżeli nie wiesz, czym są testy online, polecam tekst Pawła opisujący testy A/B oraz testy wielowymiarowe.

W dużym skrócie, testowanie polega na przygotowaniu określonej liczby wersji testowanej strony, a następnie zaszufladkowaniu każdego internauty, odwiedzającego serwis do jednej z kilku grup – członkowie pierwszej grupy widzą pierwszą wersją witryny, drugiej – drugą wersję, trzeciej – trzecią itd.

Wyboru najbardziej efektywnej wersji serwisu dokonuje się poprzez porównanie ze sobą wartości współczynnika konwersji, zanotowanych przez każdą z testowanych wersji witryny. Wszystkie te wartości pochodzą z tego samego okresu czasu, co gwarantuje ich porównywalność i eliminuje problem, o którym pisałem wcześniej.

No dobrze – ale co właściwie otrzymujemy w efekcie przeprowadzenia sesji testowej? Załóżmy, że testowaliśmy dwie wersje witryny (wersja A versus wersja B). Po zakończeniu testu otrzymaliśmy dwie wartości współczynnika konwersji – wersja A zanotowała 5%, wersja B uzyskała 4%. Łatwo obliczyć, że wersja A okazała się być o 25% efektywniejsza od wersji B. Oznacza to, że decydując się na ostateczne wdrożenie wersji A serwisu, notować będziesz liczbę zamówień o 25% większą w stosunku do tego, co byłoby po wdrożeniu wersji B witryny.

Testowanie nie zawsze jest możliwe

Problem z testami online jest taki, że nie zawsze można je przeprowadzić – a nie wiedząc, jaki wpływ wdrożenie zarekomendowanych zmian miało na wartość współczynnika konwersji Twojego serwisu, nie będziesz w stanie zastosować modelu success fee.

Wszystko zależy tutaj od tego, jaki serwis chcemy optymalizować oraz jaki dokładnie test chcemy przeprowadzić.

Załóżmy ponownie, że testujemy dwie wersje witryny (wersja A versus wersja B), a test nie powinien trwać dłużej niż 14 dni. Aktualna wartość współczynnika konwersji dla naszego serwisu to 1%, do udziału w teście kwalifikujemy wszystkich internautów odwiedzających naszą witrynę. Naszym celem jest wzrost współczynnika konwersji o 20-30%. Aby tak przygotowany eksperyment pozwolił nam podjąć racjonalną decyzję, dotyczącą wyboru efektywniejszej wersji strony, nasz serwis powinien być odwiedzany przez około 40 000 unikalnych użytkowników miesięcznie.

Dużo? Chcąc testować trzy wersje strony, powinniśmy dysponować ruchem na poziomie 60 000 unikalnych użytkowników miesięcznie. Nasz współczynnik konwersji aktualnie wynosi tylko 0,5%? Przy dwóch wersjach witryny, testowanie będzie miało sens tylko pod warunkiem, że notujemy około 80 000 unikalnych odwiedzin miesięcznie.

Co jeżeli nie dysponujesz wystarczającą liczbą unikalnych wizyt? Czy wtedy przeprowadzenie danej sesji testowej nie jest w ogóle możliwe? Nie – zdecydowanemu wydłużeniu ulegnie jednak czas jej trwania. Polecam w tym miejscu darmowe narzędzie od Google – kalkulator długości trwania sesji testowej. Po wprowadzeniu wszystkich parametrów testu, który chcemy przeprowadzić, narzędzie wyświetla nam optymalny czas trwania całej sesji w dniach.

Jeżeli więc na wyniki testu możesz poczekać kilka miesięcy, to w zasadzie nie jest istotne to, jak duży ruch notuje Twoja witryna. Pamiętaj jednak – im dłuższa sesja testowa, tym więcej czynników zewnętrznych ma wpływ na współczynnik konwersji Twojej witryny, co ma negatywne przełożenie na jakość uzyskanych wyników. Poza tym, internet zmienia się z godziny na godzinę – czy naprawdę stać Cię na to, żeby proces optymalizacji Twojej witryny trwał tak długo?

Co koniecznie należy wiedzieć na temat testów online

Wiesz już, że testy online są jedyną metodą, pozwalającą sprawdzić, jaki wpływ wdrożone w obrębie serwisu zmiany miały w rzeczywistości na wartość współczynnika konwersji.

Co jeszcze warto wiedzieć na temat testów online? Co jeszcze powinno zostać ustalone z firmą doradczą przed przystąpieniem do współpracy?

Poziom istotności testu

Czym jest poziom istotności testu? To procentowa wartość, określająca prawdopodobieństwo tego, że podjęta na podstawie wyników testu decyzja okaże się błędna.

Przeciwieństwem poziomu istotności jest tzw. poziom ufności, który określa prawdopodobieństwo tego, że kierując się wynikami testu, podejmujemy prawidłową decyzję.

Przykładowo, poziom istotności testu na poziomie 5% oznacza, że wybierając bardziej efektywną wersję serwisu na podstawie jego wyników masz 5% szansy na to, że wybór ten będzie niewłaściwy. Dodam jeszcze dla porządku, że poziom ufności dla tego testu wynosi 95%.

Poziom istotności sesji testowej

Kluczowe jest ustalenie przed rozpoczęciem procedury testowania, jaka wartość poziomu istotności będzie Cię satysfakcjonowała. Inaczej mówiąc, musisz ustalić, jaki poziom ryzyka akceptujesz. Następnie, warto dowiedzieć się, czy podobnymi wartościami operuje Twój potencjalny partner biznesowy ;)

Rekomendowany przez nas maksymalny poziom istotności, który jako Klient możesz zaakceptować, to 5%. Jest to powszechnie przyjęty standard, jeżeli chodzi o dopuszczalny poziom ryzyka, związanego z wynikami projektu – nie tylko w odniesieniu do analityki internetowej, ale także w odniesieniu np. do badań marketingowych. Jeżeli współpracujesz już z agencją badań rynku, możesz mieć pewność, że wyniki wszystkich badań ankietowych, które są Ci dostarczane, obarczone są właśnie takim ryzykiem błędu.

Czas trwania testu

Jak długo powinien trwać test? Tak naprawdę, wszystko zależy tutaj od osób, nadzorujących procedurę testowania – to one ostatecznie decydują o tym, kiedy test można zakończyć bez szkody dla wartości dostarczonych przezeń wyników.

Czas trwania sesji testowej

To, czego należy unikać, to zbyt pochopne i zbyt szybkie kończenie sesji testowej – tylko dlatego, że jedna z testowanych wersji zdążyła do tego czasu zanotować wyróżniający się wynik. To wcale nie oznacza, że rzeczywiście właśnie ta wersja serwisu jest najefektywniejsza.

Absolutnym minimum jest kontynuowanie testu do chwili osiągnięcia założonego na początku poziomu istotności – większość narzędzi do testowania online pokazuje tę wartość na bieżąco, więc nie powinno stanowić to problemu. Osiągnięcie przez test ustalonego poziomu istotności oznacza, że jego wynik może być przyjęty przy założonym i akceptowalnym poziomie ryzyka.

Z naszego doświadczenia wynika, że optymalny czas trwania jednej sesji testowej to 10-14 dni. Z punktu widzenia witryny e-commerce, te dwa tygodnie to wystarczający okres czasu, aby uwzględnione zostały krótkookresowe wahania sprzedażowe. Jednocześnie jest to okres czasu akceptowalny dla naszych Klientów, ponieważ wyniki testu pojawiają się stosunkowo szybko.

Podsumowanie

Podsumowując wszystko to, co napisałem powyżej.

Dla Ciebie, jako Klienta firmy doradczej, najkorzystniejszym modelem współpracy jest model zakładający rozliczenie na podstawie osiągniętego wyniku, mierzonego zmianą współczynnika konwersji optymalizowanego serwisu.

Jedyną prawidłową metodą, pozwalającą ocenić wpływ wdrożonych w obrębie serwisu zmian na wartość jego współczynnika konwersji, jest przeprowadzenie testów online.

Decydując się na przeprowadzenie testów online musisz ustalić, czy ich przeprowadzenie będzie możliwe w przypadku Twojego serwisu oraz jaki poziom ryzyka (mierzony poziomem istotności testu) akceptujesz. Pamiętaj również o tym, aby testowanie trwało przez odpowiedni okres czasu – absolutnym minimum jest odczekanie, aż test osiągnie założony poziom istotności.

Mam nadzieję, że ten post pomoże Ci wybrać właściwego partnera do realizacji projektu optymalizacji konwersji ;) już teraz zapowiadam, że to pierwszy post z serii Buyers’ Guide by Conversion – zachęcam do uważnego śledzenia bloga oraz zasubskrybowania naszego kanału RSS.

A może nadal coś jest dla Ciebie niejasne? Zapraszam do komentowania.

Statystyka w testach A/B

Czy zastanawialiście się kiedyś, na jakiej teorii statystycznej oparte są wyniki w Google Website Optimizer? Ja ostatnio nie wytrzymałem i zacząłem dociekać, aby dowiedzieć się w jaki sposób narzędzie ocenia czy wynik danego testu można uznać za statystycznie istotny, czy też nie. Na pierwszy ogień poszła specyfikacja techniczna Google Website Optimizera, ale niestety nie znalazłem konkretnej odpowiedzi na nurtujące mnie pytanie.

W związku z tym postanowiłem otworzyć podręczniki ze studiów i znaleźć teorię, na której bazuje optymalizacja stron internetowych pod konwersję. Nie twierdzę, że jest to rozwiązanie stosowane w Google Website Optimizer, ale dzięki niemu na pewno można wyjaśnić statystyczne podstawy testów optymalizacyjnych. Podejrzewam, że podobnie jak w przypadku artykułu o o statystycznych podstawach funkcjonowania alertów w Google Analytics post ten będzie dla Was pewną ciekawostką. Nie ukrywam również, że liczę na komentarze (zwłaszcza osób, które są bardziej „statystyczne”) dotyczące mojego odkrycia:)

Zrozumienie podstaw – na czym polega optymalizacja konwersji

Jak dobrze wiecie, współczynnik konwersji jest stosunkiem liczby użytkowników, którzy wykonali zaplanowaną przez nas akcję (kupili produkt, wysłali formularz zapytania ofertowego, zapisali się do newslettera) do liczby wszystkich użytkowników. Metryka ta wyrażona jest w procentach i z prostych powodów nie może być większa niż 100%.

Optymalizacja stron internetowych pod konwersję jest działaniem czy też zestawem działań, które mają na celu zwiększenie współczynnika konwersji. Jej efektem jest to, że witryna konwertuje nie 3 na 100 użytkowników, a 6 na 100 tzn. jest dwa razy lepsza w zamianie odwiedzających na klientów. Co więcej nie ma ograniczenia, co do wzrostu współczynnika konwersji (oczywiście nie może on być większy niż 100%), jednak im dalej w las, tym trudniej. Na wielkość współczynnika konwersji wpływ ma wiele aspektów – opisaliśmy je w naszym modelu oceny heurystycznej witryny.

Zadaniem narzędzi służących do testowania stron internetowych pod konwersję jest wyłonienie zwycięskiej kopii strony, która charakteryzuje się większym współczynnikiem konwersji.

Moje pytanie, na które poszukiwałem odpowiedzi brzmi – na jakiej zasadzie jest wyłoniona zwycięska wersja? Cała wątpliwość, która we mnie tkwiła dotyczącą etapu testowania można zamknąć w dwóch pytaniach:

  • Czy współczynnik konwersji testowanej kopii jest większy?
  • Czy na podstawie przeprowadzonych testów wynik można uznać za statystycznie istotny?

Warto zaznaczyć, że jedynie odpowiedź na drugie pytanie pozwoli nam jednoznacznie rozstrzygnąć test. Cóż z tego, jeżeli współczynnik konwersji będzie większy, jeżeli nie jesteśmy pewni czy ta różnica jest statystycznie istota.

Co decyduje o statystycznej istotności

Cytując za pomocą Google AdWords:

Różnica istotna statystycznie to taka, której przypadkowe wystąpienie jest mało prawdopodobne.

Mówiąc bardziej ogólnie, możemy powiedzieć, że wynik statystycznie istotny to taki, który sprawdzony na podstawie testu (mniejszej próby) wystąpi z określonym (zazwyczaj wysokim) prawdopodobieństwem w rzeczywistości (w całej populacji), czyli możemy być pewni, że wynik testu przełoży się na rzeczywistość.

Co w związku z tym może decydować o statystycznej istotności testu optymalizacyjnego?

Na pewno jest to liczba osób, które biorą udział w eksperymencie (próba statystyczna). Im więcej osób „potwierdzi” w fazie testów, że dana kopia strony jest charakteryzuje się większym współczynnikiem konwersji, tym bardziej prawdopodobne, że tak będzie w rzeczywistości.

Jednak nie możemy czekać w nieskończoność, aby jak najwięcej osób wzięło udział w eksperymencie – test nie powinien trwać dłużej niż miesiąc. Musimy zdecydować jak najszybciej, która strona przyniesie nam większy dochód i natychmiast ją zaimplementować. Dlatego tak istotna jest wiedza na temat momentu, w którym wynik jest statystycznie istotny.

Przełożenie pojęć statystycznych na optymalizację konwersji

W statystyce istnieje pojęcie określane mianem frakcji (częstości, proporcji). Podając za Wikipedią jest to stosunek liczby obserwacji mających pewną właściwość do liczebności całej próby statystycznej.

Widzimy, że współczynnik konwersji jest niczym innym jak frakcją – w końcu liczba obserwacji mających pewną właściwość odpowiada liczbie użytkowników, którzy podjęli zaplanowaną przez nas akcję (zakupili produkt, wysłali formularz zapytania ofertowego, zapisali się do newslettera), a liczebność całej próby statystycznej to nic innego jak liczba wszystkich użytkowników, którzy odwiedzili naszą witrynę.

Na tej podstawie stwierdziłem, że najodpowiedniejszym testem do badania statystycznej istotności różnicy współczynników konwersji (różnicy frakcji, proporcji) będzie test dla proporcji.

Testowanie hipotez statystycznych

Pierwszą decyzją jaką musimy podjąć jest rodzaj testu, który wykorzystamy do zbadania rozpatrywanego zjawiska. W przypadku optymalizacji konwersji zdecydowałem już, że będzie to test proporcji.

Następnie musimy postawić hipotezy dotyczące naszego testu – zawsze są to dwie hipotezy: zerowa (H0) i alternatywna (H1). Hipoteza zerowa, to stwierdzenie, od którego wychodzimy np. „współczynniki konwersji w obu wersjach strony (obecnej i testowanej) są takie same”, czyli proponowane zmiany nie będą miały wpływu na zwiększenie współczynnika konwersji w rzeczywistości. Jednak zależy nam na tym, aby testowana wersja strony charakteryzowała się większym współczynnikiem konwersji stąd za hipotezę alternatywną obierzemy stwierdzenie, że „współczynnik konwersji testowanej strony jest większy od współczynnika konwersji obecnej jej kopii”. Nie trudno się domyśleć, że będzie nam zależało na odrzuceniu hipotezy zerowej na rzecz hipotezy alternatywnej.

W zależności od tego, jaką hipotezę alternatywną wybierzemy (mamy jeszcze dwa wybory: „współczynnik konwersji testowanej strony jest mniejszy” lub po prostu „współczynniki konwersji testowanej i obecnej kopii są różne”) należy wykorzystać inny wzór statystyki testującej, która pozwoli nam podjąć decyzję weryfikacyjną (czy możemy odrzucić hipotezę zerową).

W zależności od tego czy wartość statystyki obliczonej (testującej) będzie większa lub mniejsza od wartości krytycznej testu (tą odczytujemy z tablic standardowego rozkładu normalnego na podstawie charakterystyki próby oraz rodzaju hipotezy alternatywnej). Decyzję weryfikacyjną podejmuje się na podstawie porównania wartości statystyki obliczonej i wartości krytycznej testu odczytanej z tablic (możemy również skorzystać z odpowiedniego kalkulatora).

Kalkulator wartości krytycznej testu opartego na rozkładzie normalnym


Kliknij na zdjęcie, aby je powiększyć

Przed podjęciem decyzji weryfikacyjnej (o odrzuceniu lub braku podstaw do odrzucenia hipotezy zerowej) musimy również określić poziom istotności α (alfa), który mówi nam z jakim prawdopodobieństwem dana decyzja będzie podjęta. Standardowo przyjmuje się 5% poziom istotności, co oznacza, że mamy 95% prawdopodobieństwo podjęcia poprawnej decyzji weryfikacyjnej np. odrzucenia H0 na korzyść H1.

Statystykę testująca oblicza się ze wzoru:

Wzór statystyki testującej dla testu proporcji

Objaśnienie poszczególnych symboli znajdziecie na stronie hasła Wikipedi dla testu dla proporcji – myślę, że z przełożeniem poszczególnych zmiennych na język analityki internetowej nie będzie problemu.

Na pewno zauważyliście, że im większa wartość statystyki testującej, tym lepiej dla nas, ponieważ mamy większe szanse, że hipoteza zerowa zostanie odrzucona. Spójrzmy więc, co wpływa na wielkość tej miary:

  • różnica pomiędzy współczynnikami konwersji – w końcu p1 i p2 to nic innego jak współczynniki konwersji dla poszczególnych kopii strony – im ta różnica jest większa, tym wartość statystyki obliczonej testu większa, a tym samym większa szansa, że różnica współczynników konwersji jest statystycznie istotna,
  • wielkości próby tzn. ilości odsłon poszczególnych kopii strony n1 i n2 – im więcej odsłon, tym statystyka obliczona test większa – to również jest logiczne, ponieważ im więcej osób weźmie udział w eksperymencie, tym większe szanse, że jego wyniki przełożą się na rzeczywistość.

Do testu dla proporcji wchodzą jeszcze pewne niuanse (wielkość próby, zależność prób, losowość prób itp.), których omówienie zajęłoby na pewno więcej niż jeden artykuł. Przedstawione powyżej rzecz są podstawową jego odsłoną. Mogę dodać tylko, że pracujemy nad kalkulatorem, który będzie uwzględniał całą teorię i będzie odpowiadał na pytanie, kiedy przeprowadzony test można uznać za statystycznie istotny.

Przykład

Na prośbę prezentuję przykład powyższego testu. Oznaczenia przyjąłem jak we wspominanym artykule w Wikipedii. Załóżmy, że mamy dwie kopie tej samej strony docelowej – z testów A/B otrzymaliśmy następujące wyniki:

  • Kopia A: liczba odwiedzin (n1) wyniosła 523, z czego 31 użytkowników wykonało akcję, którą przed nimi postawiliśmy (m1) dając tym samym współczynnik konwersji (p1) na poziomie 5,9%,
  • Kopia B: liczba odwiedzin (n2) wyniosła 499, liczba konwersji 49 skąd współczynnik konwersji wyniósł (p2) 9,8%.

Hipoteza zerowa: Współczynniki konwersji (p1, p2) dla obu kopii są takie same: H0: p1=p2

Hipoteza alternatywna: Współczynniki konwersji nowej kopii (p2) jest większy niż w przypadku obecnej wersji strony docelowej: H1: p1<p2

Pytanie: Czy na podstawie takich danych możemy powiedzieć, że wynik testu jest statystycznie istotny?

Statystyka obliczona testu (po podstawieniu do wzoru) wyniosła 2,32, natomiast wartość krytyczną testu przy 5% poziomie istotności wynosi (odczytując z tablic lub wspomnianego kalkulatora) 1,64. Widzimy, że wartość obliczona statystyki tetsującej przekracza wartość krytyczna, co pozwala nam odrzucić hipotezę zerową na rzecz hipotezy alternatywnej i stwierdzić, że kopia B jest statystycznie istotnie lepsza od kopii A. Przy czym przypomnę, że mamy 95% pewność.

Gdy jednak zmienimy poziom istotności na 1%, to wartość krytyczna testu wynosi 2,33, a więc jest większa niż wartość statystyki obliczonej. W tym przypadku nie mamy podstaw do odrzucenia hipotezy zerowej, a więc nie możemy stwierdzić (z 99% pewnością) czy kopia B jest lepsza niż kopia A. Należy tutaj podkreślić, że nie mamy podstaw do odrzucenia hipotezy zerowej, a nie przyjmujemy hipotezę zerową.

Zauważmy, że w przykładzie nie było nigdzie mowy o czasie trwania testu. Oczywiście, jeden serwis osiągnie daną liczbę odwiedzin w dzień, a inny w tydzień. Zakładam jednak, że za testowanie nie biorą się właściciele serwisów, które posiadają 500 odwiedzin miesięcznie.

Postawione pytanie można byłoby sformułować jeszcze inaczej, a mianowicie ile osób powinno zobaczyć poszczególne kopie strony docelowej, aby różnicę ich współczynników konwersji można było nazwać statystycznie istotną.

Podsumowanie

Myślę, że puentą powyższych rozważań mogą być bardzo ważna dla nas obserwacja: na wynik testu nie ma wpływu jego długość trwania. Nie musimy czekać w nieskończoność, kiedy wynik jest statycznie istotny – i nie są to nasze widzimisię, lecz teoria statystyki:)

Kiedyś, jedna osoba uparcie twierdziła, że testy powinno prowadzić się jak najdłużej. Argumentem był m.in. fakt, że w jej doświadczeniu niejednokrotnie po pewnym czasie wynik testu się diametralnie zmieniał. Jednak jak już wspomniałem – nie możemy czekać w nieskończoność. Wcale nie mamy pewności, że po dalszym prowadzeniu testu jego wynik ponownie nie odwróci się o 180 stopni. Dlatego decydujmy się na zmiany na stronie, które są potwierdzone testami statystycznymi – to nie przeczucia, to twarde dane, to liczby…

Strona 1 z 212