A/B測試：一個企業(yè)的核心優(yōu)化策略_行業(yè)新聞_B2B網(wǎng)站_愛采購資訊_豐采網(wǎng)

先從一個故事開始。

一個真實的，我們的鄰邦的故事。

我們都知道隔壁鄰居那邊鬧變種病毒的疫情很厲害。

但是相當長一段時間，無論是疫苗還是醫(yī)療物資都是極端短缺的。

所以，那邊抵抗病毒，頗有些聽天由命的味道。

但是鄰居們不信命，或者說，他們相信比命更牛的東西，沒錯，就是信牛。

牛的尿，可能對植物的生長有益處，但是用于防治新冠，如同其口味一樣，真是一言難盡。

鄰居們卻相信來自牛的圣水，具有神奇的效果。

于是有一些人喝了牛尿，相信自己絕對不會染上新冠病毒。之后，他們確實也沒有感覺自己染上新冠病毒。

我們的友邦大眾于是紛紛效仿，相信自己終于有了防治新冠的可靠武器。

這樣的事情，講給任何一個智力正常的中國人，都只會哈哈一笑。但是，我們該怎么幫助他們說明牛尿毫無效果呢？

我們需要用科學的方法來證明。這個科學方法，并不是去化驗牛尿在人體內(nèi)殺滅新冠病毒的效果，而是認認真真做喝牛尿和不喝牛尿的抗病毒效果的比較。

我們需要讓兩組數(shù)量相等且足夠的人（假設每組都有2000人），生活在同一個暴露環(huán)境下，一組人天天喝牛尿，此外啥也不做，而另外一組人戴口罩、打中國疫苗。之后的幾個月內(nèi)，記錄這些人罹患新冠肺炎的數(shù)量。

如果喝牛尿那一組的得病人數(shù)遠遠高于另外一組，并且不低于甚至遠高于全國人的新冠肺炎感染率，那就說明喝牛尿什么卵用也沒有。

這就是類似于我們所說的A/B測試：為了搞清楚什么有效什么無效，把測試對象分成兩個或者若干個組，然后在同時暴露在其他變量都一樣的環(huán)境下，看看每組測試對象的變化是什么。

醫(yī)學上為了測試盡可能準確不受任何因素甚至不受病人或醫(yī)生的心理暗示影響，往往會讓各組患者吃看起來完全沒有區(qū)別的藥品（只是部分測試組的藥品只含有安慰劑），連醫(yī)生都不知道哪組患者吃的是藥品，哪組吃的是安慰劑。

這也就是所謂的“雙盲”（患者和醫(yī)生都不知道）的測試。

A/B測試這個方法本來來源于醫(yī)學界，可是引入到互聯(lián)網(wǎng)世界中之后，卻大放異彩了起來！

很多時候，你都會覺得，自己的老板或者同事，為什么對一個錯誤的方法懷有執(zhí)念，就像喝牛尿的隔壁鄰居一樣，但還怎么都說服不了。

著急沒用，A/B測試有用！

1、A/B測試，或許跟你想的不一樣

A/B測試如此重要，但總聽到一些朋友說，A/B測試沒啥用。

對一個事情見仁見智很正常，不過我還是要說，A/B測試或許跟你想象的不一樣。

舉個例子，如果一個A/B測試的結果，表現(xiàn)出的是A和B的結果區(qū)別不大，無法在統(tǒng)計學意義上分辨出誰更好，你會怎么看待這一情況。

大部分人都會認為，這個實驗沒有分出勝負，所以A/B測試在這個實驗上沒有給出什么有用的信息。

但是，A/B測試不僅僅只是為了給你一個“你期望的答案”（事實上很多時候答案并不會你的期望，否則A/B測試也就沒有意義了），而是，給了你一個觀察在不同變量的情況下，人們的行為會發(fā)生何種相應改變的機會，也給你了

你一個分析這些改變背后蘊含著何種“道理”的機會。

比如，你在同一個app的兩個不同界面上，或者兩個不同頁面版本上的用戶行為，肯定是不同的。這些不同又可以通過用戶行為分析工具反映出來。也就是說，A/B測試給你的不只是結果，光看結果實在是太大材小用了，A/B測試給

了你非常好的洞察消費者意圖和行為邏輯的機會。基于這些洞察，你可以做出更好的C版本，然后基于A/BC三個版本，繼續(xù)進行測試。

不過，A/B測試的能力還遠遠不止這些。或者說，只是分流人群做個比較，以及洞察消費者，仍然不是A/B測試的全部。今天的A/B測試有很多進化，它也遠遠不只是一個分析工具，而是具有更多主動性的功能——所謂主動性，是

指A/B測試的很多功能能夠直接作用于營銷，在甚至不需要人的干預下提升營銷和運營的績效。

我們看看它都有哪些我們可能并不知曉的能耐。

測試推送

我們都知道推送消息（push notification）這個事情跟創(chuàng)意的文案關系非常大。

A/B測試當然可以測試哪個文案效果（點開率）更好，就跟前面說的測試不同創(chuàng)意的CTR一樣，這似乎毫無再講的必要。

不盡然。

今天的A/B測試其實早已經(jīng)不是只測試一下哪個的點擊率好那么“幼稚”，A/B測試的工具，能夠作用于推送消息的后臺，在初步測試的基礎上，自動調(diào)整那個有更好點擊率的消息，讓它有更多的被人看到的可能。如果這個消息被

更多人看到后，它的點擊率仍然比另外的版本高，那么A/B測試工具能夠進一步讓它有更多的“曝光”。

當然，實際的調(diào)優(yōu)不是這么機械的。因為畢竟不同的消息特點不同，有的可能慢熱，一開始如果效果不好，那么它豈不是永遠沒有“出頭之日”了。

實際在A/B測試中不斷調(diào)優(yōu)是在算法的控制下完成的。例如常用的貝葉斯決策樹，能夠在每個方案中都有多個變量的情況下找到最優(yōu)解。

這就是在A/B測試工具控制下的“賽馬”機制。

用在推送上的A/B測試，本質上是“一邊推送、一邊測試、一邊優(yōu)化”，不斷自動化地提升推送的效率和最終打開的效果。A/B測試的實驗做完了，推送也完成了，并且?guī)缀蹩梢哉J為是以最佳方式將推送完成的。

服務端編程實驗

推送的進化只是小兒科，從服務端實現(xiàn)A/B測試，則是具有重大意義的根本性提升。

很多年前，在我剛剛接觸A/B測試的時候，A/B測試還只是在客戶端實現(xiàn)的。簡單講，就是人群的分流發(fā)生在客戶端，比如通過瀏覽器上的URL跳轉，或是給不同的人發(fā)不同的APP版（或是在不同的時間發(fā)不同的版進行測試）來實現(xiàn)。

客戶端A/B測試的缺點是，任何一個測試中的變化都要重新上線新的版本，工作量大、麻煩，而且無法實現(xiàn)基于實時測試結果的動態(tài)化的調(diào)優(yōu)。

服務端編程實驗，則完全改變這一狀況。所有的用戶拿到的都是同一個版本下的頁面或APP，不過，不同的隨機的用戶，看到的設計或內(nèi)容卻不同，并且所有的不同都可以通過程序（腳本）進行控制。這種不同是在服務端直接針對

每個用戶提供的，是通過服務端編程實現(xiàn)的。

對于APP上的A/B測試，這種方式極為有用，這種方式不僅不需要用戶額外下載新的版本的APP，更可以隨時進行動態(tài)調(diào)整，從而在APP上也能實現(xiàn)類似于上面推送測試時的智能化的動態(tài)調(diào)優(yōu)。

因此，服務端編程也大幅度降低了A/B測試的工作量，并讓A/B測試的進行變得非常便捷，且無需打擾用戶。更重要的是，基于服務端的編程實驗，能夠進行更為復雜的測試（實驗）設計，同樣的設計在客戶端上進行的話，部署起

來就會非常復雜而不具可行性。

廣告投放RTA實驗

A/B測試另一個好玩的是廣告投放RTA的實驗。

我們都知道RTA廣告是基于廣告主自己一方數(shù)據(jù)的廣告投放方式。

投放的效果，實際上取決廣告主自己人群的圈選。

在這個場景下接入A/B測試，則是將動態(tài)調(diào)優(yōu)的方法，引入到RTA中。

在廣告主圈選出適合投放的人群之后，A/B測試會對每個人投放之后的結果進行回收、比較，自動分析哪些人群和哪些創(chuàng)意具有更好的匹配關系，甚至是每個個體和創(chuàng)意的匹配關系，從而實時指導RTA的投放以更優(yōu)化的方式進行。

事實上，這種基于A/B測試方法的智能化的流量調(diào)優(yōu)不僅僅在推送、RTA廣告等領域十分好用，在所有本質上需要進行推薦的場景下，都完全適用。

我很早以前就說過，互聯(lián)網(wǎng)這個傳統(tǒng)事物，進化到今天的數(shù)字世界的一個核心特征，就是無處不在的推薦——因人而異、量體裁衣的推薦。而推薦的質量高低，很大程度上決定了用戶體驗的好壞，以及商業(yè)轉化達成效率的高低。

所有的本質上是推薦的場景，都適用于A/B測試的智能流量調(diào)優(yōu)。

灰度發(fā)布

A/B測試還可以用來做灰度發(fā)布。

因為A/B測試是可以非常好的控制被測試的人群的數(shù)量。如果有一個新版，要發(fā)布，我可以少部分人慢慢過渡，如果這些人感覺不錯，我再逐步放大到更大的人群。

2、A/B測試，科學性很重要！

如果你看了上面的內(nèi)容，對A/B測試感興趣，那么下面的內(nèi)容也同樣值得閱讀。

因為，用好A/B測試，了解上面的那些應用場景還不足夠，畢竟再好的工具，也要科學使用，否則就無法發(fā)揮效力，甚至是產(chǎn)生反作用。

讓A/B測試能夠很有科學性地為我們所用，有如下要求。

第一，如果你要做出真正有結論的A/B測試，對樣本量是有要求的。顯然，樣本量越多越好。這里有一個告訴你如何計算A/B測試最小樣本量的工具：https://www.surveysystem.com/sscalc.htm。

第二，基于A/B測試的優(yōu)化，不要進行大幅度的修改，而應該是小步迭代，不斷測試。而不是一次測試兩個或者多個差異巨大的版本。

第三，很多的測試，并不會給你明確的誰更好的答案。因此，如同我前面所說的，勝負很多時候并不是A/B測試最重要的。分析用戶在不同環(huán)境下行為的不同，以及背后的機理，從而能夠更好地基于這些分析進行優(yōu)化，才是更重要

的。

第四，用對工具！上面列舉的各種A/B測試的場景和能力，都必須基于好的工具才能實現(xiàn)。比如，服務端的編程實驗，只有支持這種方式的工具才能實現(xiàn)。目前大量的工具，還停留在很久以前的客戶端實現(xiàn)上。

而目前國內(nèi)對A/B測試的應用集中在那些互聯(lián)網(wǎng)“大廠”中，并形成了自己的A/B測試的專用產(chǎn)品或體系，比如字節(jié)的Libra、美團的Gemini、滴滴的阿波羅等。特別要提一下的是字節(jié)的Libra，這是目前第一個把自己的A/B產(chǎn)品

“拿給外面”用的產(chǎn)品。Libra平臺2016年誕生，在字節(jié)的各個產(chǎn)品、業(yè)務中經(jīng)過了不斷地使用、磨練和迭代，現(xiàn)在則通過字節(jié)旗下的to B品牌“火山引擎”對外開放，其能力包含上面我說的所有應用場景。

A/B測試不僅是一個方法，更是一個企業(yè)的核心優(yōu)化策略

比如，爭論哪個素材更有效？A/B測試一下，讓這兩個素材同時跑在自己的廣告上，流量隨機平分給它們，隨后我們可以看到哪個CTR好，而且是一直好，那么大家的爭吵可以閉嘴了。

但A/B測試顯然不只是“讓爭吵閉嘴”這點作用。A/B測試的核心價值在于，它是一個將定性決策轉化為定量決策的重要方法。盡管將定性決策轉化為定量分析的方法有很多，但沒有任何一個方法有A/B測試這么直觀、科學、可信，

且易于操作。

國外有很多例子，說A/B測試怎么樣給企業(yè)帶來神奇的變化。

比如linkedin用A/B測試大幅度提升了Premium產(chǎn)品的轉化，并且將A/B測試作為其增長優(yōu)化的一個持續(xù)的、系統(tǒng)的工程。

又比如，谷歌一直將A/B測試作為其產(chǎn)品優(yōu)化的基本方法，不僅僅包括其UI的修改，也包括其產(chǎn)品算法的修改，甚至是新產(chǎn)品問世，都要先進行大量的A/B測試。谷歌A/B測試有時候會進一步上升復雜度為多變量測試（考慮到更多變

量都需要測試的情況）。

還比如，微軟的搜索引擎Bing，一直在任何UI微調(diào)上都堅持A/B測試。在一篇關于微軟Bing的優(yōu)化文章上說：Bing對于什么樣的文字顏色（加重顯示顏色）做了大量的測試，最終深藍和綠色的配合，要比單純的深藍或者綠色的文

字顯示更能引起用戶的點擊，這一組合要比其他顏色每年帶來更高的點擊收益，多達一千萬美元。

亞馬遜在購物流程的優(yōu)化上，全部應用A/B測試作為核心優(yōu)化策略。小到一個按鈕的變化，大到一個流程的改變。例如，在用戶購物的過程中推銷自己的信用卡，需要回答究竟應該將信用卡放在哪個購物環(huán)節(jié)進行推銷合適的問題。

A/B測試的結論是：放在購物環(huán)節(jié)的越后端越好。

總之，并非當大家對于什么樣的用戶交互會更好這樣的問題懸而未決的時候，才會想起A/B測試，A/B測試本身就是一個極佳的、必備的增長策略或優(yōu)化策略。

國內(nèi)的大廠，用A/B測試也是家常便飯。國內(nèi)最喜歡做A/B測試的是字節(jié)跳動。據(jù)說“今日頭條”和“抖音”這兩個名字就是參考了A/B測試的結果。張一鳴說，哪怕99.9%的把握覺得這是一個好名字，測一測又有什么神馬不可呢？

不僅如此，字節(jié)還專門給自己開發(fā)A/B測試工具，并且將A/B測試融入自己的企業(yè)文化。這家企業(yè)這么多年的快速發(fā)展，A/B測試功不可沒。

A/B測試為什么應該是一個企業(yè)增長的核心優(yōu)化策略？簡單講，三個方面。

第一：將定性決策可信、直觀、科學的定量化。這個剛剛已經(jīng)說了。

第二：比任何推演分析、任何歸納或者演繹都要更能洞察消費者的意圖或需求。因為是真實的用戶，真實的環(huán)境，并且嚴格控制其他變量的干擾。

第三：實現(xiàn)難度較低，風險可控，企業(yè)可以大范圍、多頻次地進行。

或者，一句話也可以說明白：如果一個企業(yè)能夠保持做正確的事情，或是保持做出正確的選擇，那么這個企業(yè)沒有理由不增長，A/B測試就是保證我們能夠做正確的事情的核心武器，也是很多企業(yè)能夠持續(xù)增長背后的秘密之一！

www.woniucheng.cn-中文字幕精品久久久久人妻,国产成人无码A区在线观看导航,亚洲欧美日韩专区一,午夜人性色福利无码视频在线观看

A/B測試：一個企業(yè)的核心優(yōu)化策略

相關愛采購資訊