人工智能為你做主:AI能否改變求職不公與偏見?

鎂客 9年前 (2016-05-24)

數據算法和面部情感識別結果:大學成績不重要,重要的是個人動機、勇氣和同理心,以及你不是個壞人。

人工智能為你做主:AI能否改變求職不公與偏見?

人工智能算法不僅能考慮更多關于求職者的信息,還能做出比人類更客觀的判斷。

“是數據令牌將你濃縮成為了數據對象。”Pete Kazanjy 如是說,他創立了提供社交網絡招聘服務的公司TalentBin(現已成為美國知名度最高的招聘網站Monster的一部分)。這在硬性的數字指標上尤其正確,谷歌的力資源部門 People Operations 的高級副總裁 Laszlo Bock 在 2013 年接受《紐約時報》采訪時說:“我們從我們的數據處理中看到:GPA 在作為招聘指標上毫無價值,考試成績也沒有價值。”

越來越多招聘領域的科技公司正在努力挖掘更多關于求職者的信息——調查、工作樣本、社交媒體帖子、用詞選擇、甚至面部表情。在人工智能的幫助下,他們希望在評估求職的工作技能的同時了解他的同情心、勇氣和偏見等個人特質,從而在更豐富的信息的基礎上更深入地了解該候選者是否合適其應聘的工作。“這將在未來幾年內迎來爆發,”成立于 2013 年的基于人工智能的評估公司 Koru 的 CEO Kristen Hamilton 說,“我們已經將這種數據導向的方法應用到了我們公司和業務的每一個其它方面。”我們來看看這些人工智能驅動的評估方法,看它們如何看到求職者、如何看到招聘中的“科學”。

機械化與古老的實踐

HireVue 公司 CEO Mark Newman 說,深入理解求職者的心思并不是什么新鮮想法。HireVue 成立于 2004 年,是使用人工智能進行招聘工作方面一家先驅公司;其專長是通過視頻分析了解個人的特質,包括工作傾向度、動機和同情心。(盡管它也使用書面文字進行評估。)該公司所分析的數據包括用詞選擇、說話速度、甚至微表情(稍縱即逝的面部表情)。而且和大部分我有聊過的公司一樣,該公司也尚未實現盈利。

第二次世界大戰之后,招聘的方法中包含了類似麥爾斯-布瑞格斯性格測試等工具,另外還有結構化的行為面試:詢問每一位候選者同樣的問題,然后將他們進行客觀比較。另一種經典的深度了解工具是工作樣本測試——執行工作中的模擬任務,比如讓軟件開發者寫代碼或讓客服代表接聽(假的)憤怒顧客來電。但這些評估策略所使用的人卻是很繁忙的,而且可能是帶有偏見的。

“結構化面試好多了,比非結構化面試更少偏見。”Newman 說,“但由于人類的本性,很多招聘經理仍然將個人偏見帶進了結構化面試中。”而且工作樣本評分的工作會讓軟件工程師等員工從自己真正的工作中脫離。但如果不知疲倦的機器能夠取代負擔過重的人類呢?Newman 說:“這是使用今天的技術,推動已存在了 50 年的科學。”

如果機器能做這些工作,那這些自動招聘經理能做到何種程度?Kazanjy 說它們至少能剔除那些沒有足夠的技能勝任工作崗位的人。

成立于 2015 年 7 月的 Interviewed 公司提供了幾個層次的測試方法。首先是了解求職者對如 Microsoft Excel 或 Salesforce 等軟件的了解程度的選擇題。Kazanjy 認為該軟件甚至可以走得更遠,例如評估程序員。“代碼樣本中的錯誤可以通過編程方式檢測,書寫的英語樣本中的拼寫和語法錯誤同樣也可以通過編程方式檢測,”Kazanjy 說,“你不能自動在 A+、B+ 和 B 的工作之間做出評價,但也許你可以直接剔除 C 的工作。”

識別危險信息

但企業考慮員工時不只會看技能,還要了解他們是否是種族主義者、性別歧視者或有暴力傾向。一家名叫 Fama 的公司試圖通過自動網頁搜索進行判斷,其搜索范圍包括相關的新聞報道、博客、社交網絡(如 Facebook、Google+、Instagram 和 Twitter)等。Fama CEO 兼創始人 Ben Mones 說:“43% 的企業在使用社交網絡篩選求職者。”

公司擅自對求職的社交網絡進行調查可能會違反法律,如美國 1970 年頒布(已經過多次修訂)的《公平信用報告法(FCRA)》讓消費者有權利就用于就業調查和信用評估中其公開信息的準確性提出挑戰。Mones 說,Fama 遵守 FCRA 的規定,例如在其收集求職者的信息時通知他們、取得他們的同意、并向他們分享結果以便他們有機會做出回應。

成立于 2015 年 1 月的 Fama公司,通過挖掘語言和照片讓雇主在招聘中可以考慮到以下信息:偏執、暴力、猥褻、性違法問題、酒精使用、毒品使用或交易。該公司雇傭了數十人來閱讀社交網絡上的帖子,尋找分類與評級冒犯性內容的方法,然后再使用這些結果訓練其自然語言處理(NLP)人工智能執行同樣的工作。

我請 Fama 為我生成一份報告。軟件拉出了我的幾篇文章,并標記了幾條我對“占領華爾街”運動的幾條辛辣的推文,還加上了我對“damn(該死)”這個詞的使用。“我們不對求職者評分,”Mones 說,“我們只是提供了一種自動化過濾的方法,通過它你可以在社交網絡的海洋中撈到那些針。”

“我們根據很長時間的行為歷史創建評估,”Pete Kazanjy 說,“如果某人在 3000 條推文之前發了一些種族主義的言論,你找不到它,但機器可以。”今年夏天,Fama 預計還將推出標記求職者的正面特質的功能,比如關于志愿者工作的帖子。

獲得合適的匹配

正面特質是 Interviewed 公司消費者服務類工作的測試中很重要的部分,在測試中,求職者會與代表客戶的軟件機器人使用文本或電話聊天。Interviewed 的客戶包括 IBM、Instacart、Lyft 和 Upwork,而且該公司表示已接近于盈利了。Interviewed 正在開始自動化某些技能的評估,該公司創始人兼 COO Chris Bakke 將這些技能成為“軟技能”(如:善解人意)的評估。公司要求招聘經理查看測試成績單,并以 1-5 分的標準評估候選者在軟技能上的得分,然后 Interviewed 再使用機器人學習,應用自然語言處理、尋找大量數據中的模式。Bakke 說:“我們發現,當一位客戶支持崗位的應聘者在對話中包含了三次‘請’、‘謝謝’或某種形式的道歉(‘我很抱歉’)時,招聘經理和面試者就會有四倍的可能性,更傾向于認為和評價其是善解人意的。”Bakke 將這種數據指導稱為結構化的人工審核過程:人類仍是關鍵。

人工智能為你做主:AI能否改變求職不公與偏見?

Interviewed 的系統中,招聘經理創建的招聘報道節選。從左到右列分布為維度、打星評分、百分百和分數。其中,維度包括整體評分、溝通技能、視頻技術、細節關注度、同理心、職業精神等。圖片來源:Fast Company。

Bakke 說,隨著 Interviewed 收集的數據越來越多,其評估也變得越來越復雜,并在逐漸從技能測試,進化到評估一位候選者是否適合該組織的文化。這一進步使其進入了 RoundPegg 等公司所在的領域。其在線的 CultureDNA Profile(文化基因檔案)是從看起來像是冰箱上的便條開始的。從 36 個選項中,用戶將類似“公正”、“以團隊為先”和“表現好收入高”的詞或短語拖動到他們 9 個最重要的價值和 9 個最不重要的價值的空格中。RoundPegg 財務總監 Mark Lucier 說:“你在最類似于你的環境中,表現最出色。”成立于 2009 年的 RoundPegg 已經吸引了一些大牌的客戶,如 Experian、??松梨诠?、Razorfish、施樂、甚至 HireVue。

RoundPegg 的工作有點類似于基于調查的交友網站 OK Cupid:客戶通過對當前員工的測試確定其公司的文化。然后對申請人進行評估,看其個性與公司文化的匹配程度如何。我在該測試上花費了大約五分鐘時間,我發現我比全國 95% 的人都更喜歡一種“培育(Cultivation)”特征的公司文化,即“關注成長的潛在和提供的機會,規則和控制的重要性更少”。在另外三種文化中,我在“合作(Collaboration)”上得分為63,在“勝任(Competence,希望在其領域內成為專家的人)”上得分為 62,在“命令(Command,角色有明確的定義,且系統和政策到位以確保每一次都按照同樣的方法完成)”上得分為 20。對于我這樣一個離開辦公室工作從事自由寫作的人來說,這樣的評價似乎是正確的。

人工智能為你做主:AI能否改變求職不公與偏見?

對有希望的候選者,RoundPegg 生成的詳細后續測試,其中有一個這樣的問題:回想一個過往的情景,當你合作的同事或團隊更重視、鼓勵團隊成功而非個人成功。請描述一個這樣的具體案例,該情景對你帶來什么樣的問題,并且你如何解決這個問題。圖片來源:Fast Company。

然后 ,RoundPegg 通過個性化測試幫助企業更深入地挖掘,以評估不適合該公司的價值觀的“風險”。我的評估表明,我不認為團隊成功優先于個人成功。為了進步一確認這一點,軟件建議公司在面試中向我提問,過去在團隊導向的環境中是怎么處理工作的。

獲得正確的員工

Koru 公司則更進一步,它不僅可以評估一個人是否適合某個工作,還可以評估他是否擅長這個崗位要求的技能。該公司最開是為大學畢業生提供培訓計劃,教導大學畢業生發展 7 種名字模糊的能力,如勇氣(Grit)、優雅(Polish)和影響力(Impact)。之后 Koru 擴張到了求職者測試領域,可以通過收集和檢測一堆數據來評估這些能力。雇主可以基于 Koru 的個人特質得分對求職者進行評估,可以代替豐富的工作經驗。

人工智能為這樣的測試提供了支持,Kristen Hamilton 說,因為其針對不同類型工作中最成功的人的特質,進行逆向工程,以此為基礎。使用 Koru 的服務公司包括 REI、Zillow、Yelp、Airbnb、Facebook、LinkedIn、Reebok 和 McKinsey & Company。

“他們告訴我們誰在不同水平上表現良好,然后我們說,好,讓我們在這個數據集中尋找模式。”Hamilton 說。她與 Josh Jarrett 聯合創立了 Koru,Jarrett 是比爾和梅林達·蓋茨基金會的下一代學習挑戰計劃的負責人。

逆向工程也是 HireVue 哲學的主要部分。“在我們整個數據庫中,我們有幾千萬個面試問題的回答……每個回答都有豐富的信息,可供我們參考了解。”Newman 說,“所以,當你分析這些碎片并跟蹤結果,你就從中開始建立這些真正的高度預測的驗證模型。”Bakke 說 Interviewed 也正向著同樣的方向發展。

人工智能為你做主:AI能否改變求職不公與偏見?

Koru 的評估包含一些直覺的選擇。你更同意以下哪個稱述?

選項一:我可以通過人們的語調知道他們的感受;

選項二:我傾向于講究細節。

和 RoundPegg 的五分鐘測試不同,在 Koru 的測試中我用了 30 分鐘回答了 82 個問題,并錄制了一段 2 分鐘的視頻。其中一些問題有點讓人頭疼。你更同意以下哪個稱述?“我喜歡看到我的努力取得的切實成果”還是“如果我不明白,我不害怕提問”。我也需要處理場景的問題,例如如果我們沒有足夠的時間完成一個大項目,我如何應對我的團隊和老板,然后從四個選項中選擇一個。

在總分 10 分的評估中,我得分最高的三項影響力技能中,有得分“非常高”的“優雅”(有效溝通)和“好奇心”(兩者均為 8.3 分),“勇氣”上得分為“高”(6.7 分),其如此描述:“當事情變得艱難時,繼續堅持的能力。當方向不明確時,應聘者可以解決模糊的情況。”

“作為一位組織心理學家,我的問題是,你說你能測量各種花哨的流行詞,隨便你愛怎么說好了。”IBM Kenexa Smarter Workforce 部門員工聲音和評估主管 Jay Dorio 說,勇氣是一個很棒的特質,但他將其稱之為“多余的時髦東西”,可能帶來不良的影響——看起來中立的招聘標準,當做法律術語卻可能是歧視性的。

人力資源服務商 Kenexa 在使用人工智能上也很謹慎——作為 IBM 公司的一個部門來說算是很謹慎,要知道,該公司正在推廣其部署人工智能平臺 Watson Analytics(沃森分析) 的新方式。Dorio 說,Kenexa 在一些產品上使用了沃森,比如分析員工調查的結果,但不使用人工智能對員工進行評估。

Koru 的 Hamilton 具體提到了負面影響。他解釋說:“我們已經進行了多個研究小組的研究,確認我們的評估不會對申請者帶來負面影響。”事實上,一種數據驅動的方法很有可能是更客觀的。她說:“有一些招聘過程其實一點也不復雜,比如說我們喜歡足球運動員,因為他們從不放棄,那么,我們就招募足球運動員吧。”

這并不是笑話。Pete Kazanjy 說,運動員經歷已經被當做作為評估求職者的標準,這已經有一段時間了。具備這種經歷的人被認為是有高競爭力的、愿意接受教導、有能力依靠自己思考。“他們也許是對的,但是要說一個上過物理課的運動員或一個足球運動員,會不會成為更好的員工或更好的執行者,他們完全是在猜測。”Hamilton 說,“我們使用科學的方法檢查任何我們希望考慮的輸入……并確定它們的預測能力。”

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到