
最近收到一封電郵,告訴我在2020年Pokemon Go建議新增的補給站終於獲得通過,在居住地方附近增加了一個新的地方賺取精靈球和物資。心想,終於可以爭取多一個地方玩這個遊戲,對其他玩家作出了一點貢獻。然後不禁就作出一個比較,到底自己做的研究對世界影響大一點,還是為這個遊戲(當然自己猜想這資料應該會賣給或者分享給其他遊戲)增加了一個新地標的影響更大一些?可能讀者對學術界這個影響力的定義不太清楚,所以在這篇文章會介紹幾個方法給大家認識。當然這些不同計算方法都有它的限制,到底那一個最公平公正,答案可能因人而異。我在這裏就不多加以批評,你們自己決定。
籠統地說,下面介紹幾個不同的數字,都可以被統稱為教授的影響因子(Impact Factor)。你可以把這些數字當作教授學術成績表的一部份。當然研究並不只剩下下面這幾個數字,每個人自己心中都有一把尺,知道自己在學術界在那一個地方。每個數字的計算方式都有所不同,但是大部份計算都只會看教授的研究文章。會看看這些研究論文如何被學術界對待。每一個做研究的人都不會有時間看看有多少人引用自己的文章,所以不同的機構就會幫忙做這些統計。例如Google Scholar就免費幫我們作出統計(例如我自己的版面可以在這裏看一下https://scholar.google.com/citations?user=rXnFQQQAAAAJ),有興趣的大家可以到上面搜尋一下你所認識的教授,看看他們在這些方法上面的分數如何。
對學術界做研究的人來說,一個比較常用的計算方式,就是文章被引用的次數(Citation Number)。文章的所被引用的次數越多,就有機會代表着研究方法或者研究成果比較重要,得到其他人的討論。文章越多人知道,有機會就代表着作者比越多人認識。所以如果我們想知道某一個學者對學術界有多大的影響力,就可以看一下他所有研究論文的總被引用次數。這個數字越大,就應該代表着他的影響力越大。
當然這些「有機會」或者「應該」,不代表這個學者做的研究越好。這個看看文章引用次數的方式,只是給予我們一個大約的感覺,了解這篇文章有多少人有興趣。要了解到底其他人為什麼引用你這篇論文,就必須要看他如何介紹你這篇文章,就需要逐篇閱讀。可是,如果我們只看數字,直接看這篇文章被引用的次數,我們其實沒有辦法了解文章內的研究成果是否真的對學術界有所影響。
有人會說,當教授久了,自然所有文章的總被引用次數自然越來越高,所以一些資深教授的影響力很可能被高估。他們很可能20年前非常有名,但是後來可能沒有做什麼研究,越來越少人知道他。所以如果要有一個相對比較公平的數字看看不同年資教授在「最近」的影響力,我們就不應該把研究這那麼多年所有的文章都計算在內。因此,除了這個總被引用次數,也有人會看一下某個學者最近五年的被引用次數。如果某些文章只在20年前對學術界有一些影響力,而現今沒有人有興趣,這個五年被引用次數就會比較小。總的來說,這個只看最近五年的統計,比較着重研究這對學術界在近期的影響力,而不會由於研究生涯的長度過分估計教授的影響力。
有些人又會說,不對啊,某些人可能只參與了一個研究項目,然後已經沒有在學術界打滾。由於種種的原因,文章發表時加插了他的名字。如果我們只看這個研究人員的Citation Number,可能會發現他所寫的(這一篇)文章被引用次數非常多,因此可能誤以為他對學術界有很大影響力,而不知道只有那一篇文章其他的合作者知道這個人的存在。為了要加入一些關於研究持續性的計算,就出現了另外一個數字,稱之為H-指數(H-Index)。這個指數是一個正整數,假設你看到的是數字X,就代表着這個學者他一共有X篇研究文章,每一篇文章都起碼被引用了X次。例如,某學者的H指數為10,首先就代表着他起碼有10篇學術文章,而且這10篇文章每一篇的被引用次數都起碼達到10。這個數字對一些初入行的研究人員比較「仁慈」,就是說要增長這個數字相對比較容易。想像一下,要將H指數由1變成2,你所需要做的就是多寫一篇文章令到起碼兩篇文章每一篇都有兩次被引用的次數。但是要將這個指數由10變成11,你必須有11篇文章他們每一篇的被引用次數都要達到11次。假設你達到H指數等於10的最低門檻,就是說你只寫了10篇文章而每篇都只有10次被引用次數(所以你的H指數等於10),你所要做的首先就要多寫一篇文章,然後要等前面的10篇文章都多了一次被引用次數,再然後等這篇新文章從沒有到11次被引用。這樣,你的H指數才會變成11。所以難度就比起從一變成二高很多了。
找了一下資料,到底在世界上那麼多研究學者裏面,H指數最大的是誰?數字達到多大?根據這篇資料(https://www.webometrics.info/en/hlargerthan100),在2022年3月時候的統計,H指數達到100的有5882位學者。最高的為哈佛大學的Professor Ronald C Kessler,他的H指數達到318,不單代表着他起碼有318份學術研究論文(粗略看一下,其實總論文數目高達1900篇),而且這318份論文都有着高達318次引用。1900篇是一個什麼的概念呢?假如PhD25歲(已經很早)畢業到65歲退休,中間40年研究生涯,平均每年需要有47.5篇文章才能夠在退休時達到1900篇研究論文的數量。就是說你要期望每星期都有一篇有你名字的文章出現才能夠達標!看看他文章的被引用次數,高達46萬次,實在太過驚人。找了一下自己是研究的指導老師Prof. Stan Osher,他也榜上有名,世界排名2304,H指數是122文章的被引用總是數達到13萬次,也非常厲害。
由於不同範疇,對文章被引用數目的重要性有不同的理解。對某些數學範疇來說,如果得到10次引用,可能就已經是非常出色的文章。對另外一些範疇,可能100次也不足為奇。所以除了H指數以外也出現了其他的統計方法。另外一個在Google Scholar可以見到的,叫做i10指數。統計方法相對比較簡單,就只是計算有多少篇文章被分別引用達到10次。到底文章被引用100次一千次還是一萬次,對這個指數就沒有任何分別。所以要加大這個i10指數,就會比加大H指數容易一點。
當然在不同學術領域,也會有機會出現不同的指數。就聽過在應用數學範疇,有人就創造了一個叫做S指數的統計方式,代表着某個學者到底在SIAM(Society of Industrial and Applied Mathematics)所有期刊內論文的總數。由於這個應用數學組織所出的期刊水平相當高,這個S指數越大,就代表着某個研究人員越能夠做出一些水平相當高的研究成果。還記得剛聽到這個統計方法時,自己的這個S指數只是等於1(!),除了笑了一下,也不知如何作出反應。
好了,如果你希望聽一下一些潛規則,知道如何增加自己的影響因子,在這個影響因子的遊戲拿到高分,我就分享一下我覺得有什麼地方需要留意。
最簡單的,當然要多發表文章。沒有大量文章的支持,無論是H指數還是i10指數,你都沒有可能得到高分。要留意的是,這兩個指數完全沒有理會你的文章到底是發表在什麼地方。Google看的比較粗疏,arXiv的會計算,自己放在網上的會計算,有時還會把研討會的宣傳單張也計算在內。所以要得到一個準確的數字,Google還是會需要我們不是的清理一下資料數據。
但是這些在網上隨手可得的文章,其實對影響因子不同的計算還不是最主要的因素。因為他們所考慮的並不只是文章的數目,還是要看這些文章被引用次數的多寡。一個普通的研討會宣傳單張並不會受到任何人的引用,所以這些文章數目並不會對你的影響因子有任何作用。所以除了有一些會被引用的文章以外,你還是需要有其他文章引用你這些論文。有什麼方法可以「偷懶」呢?其中一個是你記得引用自己以往的論文。這些Self-Citation在Google Scholar裏面是會被計算的。所以如果你第N篇論文都把前面N-1篇論文引用一次,你的總被引用次數就增長到N(N-1)/2那麼多次。當然這個方法在N越大的情況就越明顯,也越醜陋。想像一下,你文章可能只有30篇引用,但是裏面就有20篇自己的舊文章,比例來說也有點太過誇張。
當然不同機構為了防止這些「偷懶」的情況發生,有一些統計機構就會加入不同方式去改善統計的方法,去令到這些影響因子更為公平。其中一個是將這些自己引用自己文章的數字剔除,這樣就可以更公平地看看你的研究如何影響學術界的其他人。也有一些統計方式只會看在某些期刊上邊想發表文章的引文。這樣就可以將arXiv等等沒有被同行評審(Peer Review)過的文章剔除。
當然上面所提到的也只是一些數字,這些遊戲對一些學者來說也太過功利。我們做研究,有些時候其實相當「自私」,都在做一些自己感興趣的問題。這個研究題目是否對世界或者人類有着很大的影響力,其實並不是我們最感興趣的目的。有可能只是學者自己的求知欲,希望盡能力了解某個研究範疇的可能性,目的可能只是為了增進人類所擁有知識的總和。研究結果是否能做出新手機,設計了新的機械學習方法,是否能夠增加生產力,是否創造新科技令人類生活更便利等等,都可能不是我們的目的。