
經歷了最新的D輪融資,知乎已經成為了估值10億美金的獨角獸。這個以高質量用戶稱著的互聯網中文社區究竟有什么樣的獨特基因呢?
我們最近花了一點時間,對知乎的核心用戶進行了抽樣的數據分析和研究。
實驗設計
首先,我們不想建立龐大的爬蟲系統和數據庫對知乎全網用戶進行分析,這樣必然涉及到大量的清洗和剔除僵尸用戶的工作,時間成本會很高。
那有什么簡單有效的抽樣方法嗎?
當然有:收藏夾關注者。
我們知道,收藏夾是知乎通過用戶進行知識分發的重要途徑;很多重要收藏夾的創建者并不是大V,這使得知識可以通過非重要節點進行更有效的傳遞;與此同時,收藏夾的關注是用戶的完全主動行為。這兩點天然地保證了我們的研究樣本基本上可視為非僵尸的具有主動意愿的核心用戶。
我們從關注人數超過1萬的知乎收藏夾中選取了不同類型的六個收藏夾,其總關注者約為20萬人:我們整理了他們公開在其主頁上的個人信息(關注、被關注、提問、回答、學校、地域等)。根據這些數據,我們可以對這些內容分類導向的知乎用戶進行了一些小分析。
對了,這六個收藏夾及其對應的內容類型是這樣的:
『很想花錢的時候買這些』——買買買
『財務包子鋪』——發發發
『笑吐血』——哈哈哈
『思維,思考更大的世界』——學學學
『好資源』——求求求
『xxoo那些事』——啪啪啪
我們來看看這些知乎核心用戶都有什么特征吧。
分析結果
一、北上廣是知乎核心用戶的大本營
有21.8%的知友填寫了“居住地”一欄。在去掉了諸如“艾澤拉斯”、“出門右拐”等神奇的地點、并在省級行政單元上匯總后,我們得到了知友在全國的地域分布情況;由于每個省市的人口基數相差極大,因此我們再將核心用戶抽樣數量除以2015年末的常住人口數量,就可以得到知乎在全國各省的用戶密度。結果如下圖所示:

可以看到,無論從知友數量還是知友密度來看,北京、廣東、上海都包攬了前三。大多數地區的知友數量和知友密度排名都有3位以上的波動,尤以天津、河南、山東等地區的差異最大(注:澳門、青海等地的排名巨大變動可能是受到樣本量較小的影響)。
二、科技、信息、金融是知乎核心用戶的三大最主要行業
有23.3%的知友填寫了“行業”這一欄。我們將知乎的14個行業大類與全國第三次經濟普查的行業分類進行了匹配(進行了一些合并和刪除處理),用于計算各個行業的知友密度。結果如下圖所示:

可以看到,從密度上看, “高新科技+信息傳媒”以絕對優勢居知友數量的第一位,“金融”緊隨其后。
知乎在科技、傳媒、金融行業中的滲透程度遠超其他行業。
有趣的是,知友數量居第三位的“制造加工”,密度只排在第九位;知友數量居第九位的 “藝術”,密度卻排到了第三位。服務業VS醫療服務、公共服務VS教育之間,也存在類似的排位對調現象。
三、雖然在科技行業滲透極強,但你以為知乎還是程序員的天下嗎?
了解了各個行業的知乎滲透度之后,我們可以再將各行業的知乎核心用戶的關注和被關注情況進行統計,(去掉了各行業top5%的大V后取平均值),請看下圖:

從粉絲數量(關注者數量)角度上看,藝術類的知乎用戶排名第一,遠遠高于排名第二的高新技術行業。
而且值得關注的是,知乎用戶是服從關注人數和關注者數的正相關關系的,高新科技行業在這個關系中排名第一,但藝術類完全無視這個規則,關注人數排名只是中游,但粉絲數則遠超其他行業。

步驚云