美國時代周刊《時代百大人物》(TIME 100)曾公布世界上最具影響力的100名公眾人物。 在互聯網數據產業並不發達的那個年代,評選模式多採用了讀者投票的方式進行,或者由幾個德高望重的評委決定一切。 隨着技術條件的不斷進步,通過數據採集來建立模型解決問題的方式逐漸被大眾認可,例如谷歌的成名之作的Page Rank、Netflix 劇集的人氣排行榜,都已經成為了生活的一部分。
品觉在2020年身處香港疫情期間,除了完成了拙作《數循環》之外,因為受到巴拉巴西的著作《成功竟然有公式》的啟發,一鼓作氣也完成了一個比較科學化的演算項目。巴拉巴西認為人的能力雖是有限,但成功可以無限。 他又認為成功的定義更多來自社會對你的認同,尤其是進入21世紀之後,網絡的影響力已經成為了成功的重要因素。 作為複雜科學的教授,他的學生身體力行,研究出利用維基百科(Wikipedia)的數據,建立了一個為名人排名的算法。 筆者受到以上的啟發,希望做一個更聚焦於華人影響力的指數(Historical
Popularity Index)。 經過半年的籌備,得到阿里巴巴商學院研究生及热爱大数据朋友的支持,便起動一個名為「擇星榜」的項目。
「擇星榜1.0」的目的是通過Wikipedia 的數據去建立一個合理高效、穩定及擁有高度可解釋度的華人影響力排行榜的模型。 模型包括兩部分:漢語語系及非漢語語系對於中國公眾人物影響力的不同算法,排列出一個较客觀的綜合华人視角以及全球視角的人物影響力次序。
基於維基百科在谷歌搜尋的排名優勢,維基的瀏覽量與人物的被關注度有強關聯關係。 「擇星榜」的算法利用了維基開放數據作為基礎,其中選擇了瀏覽量、閱讀深度和時序因素作為主要變量。 同時也參考了名人的出生年份、編輯的次數及語言版本的多寡。 因為模型中使用了不同指標,我們要對指標之間進行結構性調整,以減少模型中不同指標之間的相互影響及加強其平穩性。 然而任何的算法都需要時間去沉澱及不斷改進,「擇星榜」(www.kology.com)也不例外,必然有很多地方有待提升,因此排名也会随着算法版本更新而变化。
數據創新中心有限公司