最近美國一家知名教育平台登上 Reddit 熱搜,原因是有家長爆料,旗下 AI 閱卷系統有重大漏洞,學生只要在答題區寫上零散的「關鍵詞」就能輕鬆拿高分。
事後採訪匿名學生稱:
如果不是閱卷系統的的漏洞,我不會通過代數 2 考試,我只是把與問題相關的關鍵詞填上去,我相信老師都發現了,但他們沒有做任何處理。
據了解,這款 AI 閱卷系統安裝在虛擬學習平台 Edgenuity,目前服務 2 萬所美國院校。爆料者名為 Dana Simmons,是加州大學河濱分校的歷史系副教授。之所以發現 AI 評分系統漏洞,是因為她的學霸兒子 Lazare 在歷史測評只拿到 50% 成績。
Lazare 是高中生,他在 Edgenuity 平台完成歷史考試測評,滿分 100 他只拿到 50 分,這顯然與平時成績差很多,他很傷心。
一開始 Simmons 試圖安慰兒子,也許這次閱卷老師比較嚴格。不過 Lazare 稱,老師並沒有看他的答案,提交試卷不到 1 分鐘成績就出來了。
Simmons 知道這應該是系統演算法自動評分,隨後看了兒子的試卷,似乎並沒有什麼大問題。於是她決定用一道歷史題測試一下 Edgenuity 的評分規則,結果讓她跌破眼鏡。
題目是這樣的:君士坦丁堡的地理位置,如何幫助拜占庭帝國變富有繁榮?
它位於愛琴海和黑海之間,是商船和乘客的集散地。它也處於歐洲和小亞細亞之間,這使它成為巨大的貿易中心,且當時許多貿易路線。利潤、多樣化、西班牙、中國、印度、非洲。
Simmons 稱,她只寫了兩個相關長句,然後又往上堆疊一些不連貫的關鍵詞,如財富、印度、中國、中東,但這種拼湊的「單字沙拉」(Word Salad)形式,系統卻給她滿分。
根據 Edgenuity 官網顯示,系統的評分規則是,如果某些問題的答案不包括關鍵詞,系統會判定為 0 分,如果至少包含一個關鍵詞,則為 100 分。其他問題根據包含的關鍵詞數量獲得一定百分比。
按關鍵詞評分不失為一種好方式,但只按照關鍵詞,顯然會出現明顯失誤。
Simmons 在 Twitter 公開指責 Edgenuity,稱 AI 演算法漏洞不利於教育公平,引起很多網友關注支持。
Teachers, for your students’ sake: I get it, teaching online is overwhelming and you can’t do it all. _Please_, use the algorithm to track their learning. But don’t post to them as if it’s a measure of their performance. It’s more destructive than you know.
— Dana Simmons (@DanaJSimmons) September 1, 2020
I should add that I told him how to game the @EdgenuityInc algorithm: write long answers, include lots of proper names, read the “right" answers and replicate them. This evening he got 80/100, a 30-point spread. What is he learning here?
— Dana Simmons (@DanaJSimmons) September 1, 2020
Edgenuity 公司回應,AI 系統評分只是參考,老師有權修改。
Edgenuity does not use algorithms to supplant teacher scoring, only to provide scoring guidance to teachers. Teachers have the ability to accept or overrule suggested scores. Tests are never scored by AI and a student’s course grade is never determined by AI #algorithm #elearning
— Edgenuity (@EdgenuityInc) September 3, 2020
Edgenuity 不會使用演算法代替老師評分,只為老師提供評分指導。老師有能力接受或否決建議的分數,AI 不會決定學生的課程成績。
不過,這回應也被打臉。
事後採訪 Lazare 某位同學表示,老師確實可重新查看學生的試卷,並打最終得分。但他認識的大多數同學都表示,從未見過教師更改 Edgenuity 成績,儘管聽說有同學使用「單詞沙拉」的方法獲取高分。
如果老師在看答案,他們根本不在乎。
「我整個學期都靠它」
重要的是,Simmons 並不是最早發現 Edgenuity 評分漏洞的的人。
一位畢業的高中生 Austin Paradiso 表示,他在高中期間曾多次使用 Edgenuity 平台考試,雖然不喜歡「單字沙拉」,但這種方式確實有助於得高分,且 100% 有效。
據了解,Edgenuity 是美國知名線上虛擬教育機構,已成立 20 多年,提供 K12 教育服務廣泛用於 2 萬多所院校,這服務就包括 Edgenuity 平台內建的 AI 評分系統。
另外,由於今年受疫情影響,大多數美國學校都轉向線上授課模式,教學和評分服務業也選擇外包給虛擬教育平台,Edgenuity 是收到合約最多的。
據統計,Edgenuity 為國中生和高中生提供 300 多堂線上課程,從數學到社會研究各領域。些課程由教學影片、虛擬作業及線上考試組成,Edgenuity 負責提供課程和評分作業。
經過多次考試,很多學生都摸透了系統評分方法。一位學生說,當他不會的時候,會嘗試提交與問題相關的成批關鍵詞,這種方法通常都會奏效。
還有另外一位同學表示,他們會截取原文的關鍵詞貼到答題區,整個上學期都使用這技巧。且每次都能獲得不低分數。
另外 4 個月前,還有學生公然在 Reddit 詢問如何利用 Edgenuity 作弊。
在老師不知情的情況下,如何成功欺騙 Edgenuity?
我發現你們可以輕鬆找到所有答案,我想知道是如何做到的,是否會花時間回答每個問題?
How do I successfully cheat on edgenuity without teacher knowing? from r/edgenuity
發文下方聚集了很多同學評論,分享線上作弊技巧。其中一位學生表示,幾乎每次 Edgenuity 平台考試都會作弊。
此次 Simmons 揭發對 Edgenuity 造成不小影響,有家長公開反對學校使用此虛擬平台,並表示不希望技術影響孩子成績。
AI 閱卷,你怎麼看?
AI 技術參與考試測評系統似乎是必然趨勢,中國有很多相關研究,且一些技術開始逐步落實。阿里巴巴近日發起的百萬獎金數學挑戰賽,便聲稱由自主研發的 AI 擔任輔助閱卷教師。
不過,關於 AI 閱卷的標準性和公平性一直備受爭議。對有標準答案的客觀題來說,AI 的評分能力毋庸置疑,且對一些基礎辨識錯字能力,AI 也有不錯表現,如 2017 年阿里舉辦的 AI 作文評分測試,AI 僅用十幾秒,就在一篇 200 字作文找到 8 個錯別字。
顯然,AI 在提高閱卷效率、減少教師壓力發揮不少作用。但對一些開放式試題,如作文,AI 閱卷則產生不同爭議。
有人認為,AI 閱卷可避免主觀偏見,文本結構、語言表達等形成統一標準,且大量文章累積,也會高於人類教師的評分程度。但也有人表示,AI 評分過於刻板,如 Edgenuity 平台,開放式題目表達是考生的核心思想,人類的情感表達 AI 無法按照對錯來評判。