6月7日-8日兩天,對于中國絕大多數(shù)考生來說,是將要改變他們?nèi)松娜兆印?/span>
不過,今年的考生有些不同。除了人類以外,還有新的一類考生:AI,今年日本人工智能 Torobo-kun參加東京大學入學考試,已經(jīng)有學霸君及四川的準星云學兩家公司宣布將要以自己制作的 AI 挑戰(zhàn)數(shù)學高考。未來,還有更多的 AI 公司準備躍躍欲試,準備做高考界的 “ Alphago ”
不過,在這個 AI 挑戰(zhàn)高考的熱潮中,有一些問題仍然值得人們思考:為什么要讓 AI 參加高考?AI 能夠考到多少分?AI 會如何參與高考閱卷 , 尤其是主觀題和作文?AI 會如何顛覆和改變現(xiàn)有的教育?
昨日,科大訊飛輪值總裁吳曉如與硅谷前沿技術(shù)教育平臺 Udacity 中國區(qū)的負責人 Robert,昨天通過斗魚直播平臺進行 “人工智能顛覆高考” 的尖峰對談。以下是其中部分的摘錄。
Robert:到現(xiàn)在人工智能的技術(shù)有什么樣的一些變化?現(xiàn)在高考機器人已經(jīng)可以做出來了嗎?
吳曉如:應該說就是在過去的一段時間里,大家可能是在做學科領(lǐng)域的知識圖譜的構(gòu)建。第一就是要讓機器懂數(shù)學。什么叫懂數(shù)學?因為機器不是人,它要有一種它的表征的方式,所以我們要為這個機器構(gòu)建各種知識的知識圖譜。第二個實際上要在自然語言的理解上下功夫,這其實不是一件很容易的事情,要做很多工作。
現(xiàn)在在數(shù)學這個學科上,機器已經(jīng)能夠做對很多的數(shù)學題目。但高考不是我們的核心,我們真正的目的是在這個過程中,能夠?qū)崿F(xiàn)一系列技術(shù)的突破。這些技術(shù)突破要在應用界形成一些反彈應用,叫“沿途下蛋”。比如,現(xiàn)在在電話客服里面,可以作為一個機器接線員可以幫助人工接很多的電話,可能虛擬的機器人可以走到老師的身邊,可以變成老師的一個AI的助手,幫助老師處理很多教學中的事件。
我們中間有一些研究成果,實際上已經(jīng)進入到社會里面,成為大眾應用。在今年全國人大的時候,我們慶峰董事長給我們總理演示了一段我們的機器翻譯系統(tǒng),就是口語對口語的翻譯系統(tǒng),其實這個也是我們整個項目中間的一個(應用)因為在英語考試的時候本身就要做各種翻譯。再比如我們現(xiàn)在在高考的閱卷上,可以幫助老師去更有效率的或者越更準確的去閱卷。
Robert:那你覺得現(xiàn)在我們這個訊飛的高考機器人就是在我們高考能考多少分?我們還有多遠要走?
吳曉如:實際上這是比較復雜的一個話題。第一,現(xiàn)在我們這個機器人能考多少分?我還真不能說,因為高考是一個比較嚴謹?shù)氖虑?。第二個我大概先要講一下訊飛在整個863這個項目里面我們的定位和角色。
其實這個項目聚集了國內(nèi)大概是七八家國內(nèi)當時最優(yōu)秀的一些單位,包含我們中科院、北京大學、清華大學,我的印象中可能還有南京大學、成都電子科技大學,包含了最優(yōu)秀的一些研究機構(gòu),訊飛是這個研究機構(gòu)里面的牽頭單位,執(zhí)行總裁胡郁是這個項目里面的首席科學家。
訊飛還有一個角色,就是我們是這個項目的測試單位。測試單位就是比如說做語文的、做數(shù)學的,我們提供一些底層的平臺技術(shù)給大家分享,但是比如說有專門去做語文的、做數(shù)學的,他們做的最后的這個結(jié)果怎么樣?要測試。
其實這個測試不是一件很容易的事情,舉個例子,我現(xiàn)在拿一套題目,這套題目已經(jīng)已經(jīng)在網(wǎng)上能找到了,那我通過簡單的搜索手段,我也能把這些題目很好地解答出來,那這個算不算機器能夠解答這些問題?肯定不算是。所以我們在測試的時候還要提出一系列的測試的方法,要保障機器是通過真正的后臺知識的本體積累和推理分析,能夠就像人一樣把一個題目進行解答。所以訊飛做的測試機構(gòu),現(xiàn)在因為還沒有對我們各個試卷在公開公正的情況下進行一個全面的測試,所以你講多少分?可能在大家在場的情況下還不能說這件事。
從另外一個方面來說,現(xiàn)在我為什么說這個事情比較復雜呢?第一,技術(shù)在不斷的進步,但是高考本身命題也在不斷的進步。其實現(xiàn)在高考的題目越來越靈活,越來越綜合性,所以這些題目的處理對機器來說越來越困難。所以假定我們當時是在2013年和2014年,我們在這個課題的時候,把2014年作為一個靜態(tài)的點來看,我覺得我們到2019年的時候通過2013年的高考絕對沒有問題,但是我們現(xiàn)在也和有一些考試機構(gòu)的專家在一起溝通,發(fā)現(xiàn)他們在出這個題目的過程中,很多的題目就必須包含你人都有很多的一些理解,你要做很多中間一些邏輯性的轉(zhuǎn)換,才把一個題目能做得好。所以我覺得從這兩個動態(tài)的變化,技術(shù)在動態(tài)的變化,考試的題目也在動態(tài)的變化,機器要到2019年或2020年的時候機器人通過那個時候的考試,實際上我覺得還是有一定的挑戰(zhàn),這個就是要我們這個項目組里面大家要做更多的努力。
還有從一方面來說,就從整個未來高考為社會選拔人才的角度。我們講社會進入到了一個人工智能的時代,因為人工智能在高速發(fā)展,現(xiàn)在講人工智能都會下圍棋了,他還可以干很多事情。我今天舉了例子,還可以做翻譯,以后可以做那種速記,可以做電話接線員。從一般邏輯來說,以后通過高考的大學生們,他應該不只是會做機器會做的事情。
當時我們做高考機器人時候,其實美國也有一個高考機器人,華盛頓大學的圖靈研究中心,他們希望他們的機器要通過美國的生物考試。據(jù)說日本也有一個同樣的計劃,希望他們的這個機器是能夠通過東京大學的考試。東京大學(在日本)是最好的學校,盡管他的機器已經(jīng)能夠相當于日本國內(nèi)的排名前百分之30的水平,但是講它要通過東京大學(的標準)我也覺得(目前)基本不可能,因為東京大學是比較頂尖的學校。當然就是從技術(shù)的發(fā)展的角度來說,我們覺得達到前 20% 還是比較有信心的。高考的壓力還是不僅在孩子身上,還要在這個機器人身上。
Robert:這個機器人我看到他還能閱卷,包括識別大家寫的主觀題,作文,對吧?吳總能不能介紹一下,就是這個開發(fā)作文閱卷的機器人難點是在哪里?技術(shù)上來看。
吳曉如:實際上我們今天看到這個閱卷,是對作文的閱卷,實際上作文的閱卷它是一種主觀的,整個我們在考試中,它實際上是有客觀題和主觀題客觀題,比如說ABCD,你選了以后他是不會評分,是不會有差異的,但是作文題你即使安排兩個水平比較高的老師,第一組學生的作文進行評閱的話,肯定還是有差異的,所以在這個評閱過程中,需要在從很多不同的一些維度,對這篇作文的水平進行評判。
整個主觀題的自動評閱技術(shù),實際上訊飛一條線走過來,走了很長的時間。有一次,一個我們教育領(lǐng)域的一個主管的領(lǐng)導到訊飛來,我們給他介紹了相關(guān)一些技術(shù)語音識別的技術(shù)。他看了以后,當時就產(chǎn)生了一個聯(lián)想,因為他是那時候是主管普通話考試的。所以當時就是說這個技術(shù)我們很需要在中國考普通話的應用上。
(考普通話的應用)實際上以前是一件很麻煩的事,大部分需要測普通話的都是大學生。我給你舉個例子,比如說像北京的首都師范大學,大概有六七千學生以上,那你這六七千學生要都要考普通話,每個考普通話的考生需要2到3個,那時候叫測試員,測試員2到3個老師花10到15分鐘給一個人測,那你就可以想象到要把六七千學生測完是一個多浩大的工作量,所以那時候他跟我說了:你們能不能去解決這個問題?
那我就在想,機器該怎么去測?最后是采用機器學習的方式去測的。
我們當時是怎么做的呢?第一個,我們要選定一個學習的對象,最后找了一組最權(quán)威的專家,我們請這組專家給我們留下了很多的測試樣本,以這些測試樣本作為我們機器學習的對象。(相當于用)機器建立一個模型,用這個模型來測試。
當時,我們就在現(xiàn)場考試,我們就把機器當成是一個測試員,當時現(xiàn)場考試是有兩百個考生在考,同樣我們也是一樣的,請了一組高水平的專家對這兩百個考生進行了評分,評分完了以后把這一組專家評分的平均分作為標準,當時現(xiàn)場是有20個老師在給這200個學生在測,機器當成第21個人來測,后來測試成績出來以后,我們講兩個指標,第一個21個人和機器結(jié)果都和專家的平均分去比,絲毫不差。第二個比我們叫相關(guān)度,就是對一組學生排序,專家有一組排序,我們機器有一種排序,結(jié)果(專家的)第一名,(機器)排序最高。
當然,對整個普通話測試來說相對來講,因為它是有一個規(guī)范的,所以難度比這個作文稍微小一些。但其實沿用的是同樣的思路。
Robert:普通話有兩三個老師去做這個評判,這些老師可能有些是北方的,有些南方的,有西方的,但他們都會有自己的評判標準。機器人改卷如何應對這些主觀性的因素?
吳曉如:機器學習,如果讓他學的是一個水平很差的(樣本),他肯定最后就是有問題。為什么呢?機器學習要有一個學習的對象和標準。我們希望人工智能學習頂級專家,學習結(jié)果能達到一流專家的水平,能超過大部分的一般人,這個事就是對很多領(lǐng)域里面我們機器學習提出的一個方法論,所以對于剛才你講的這個問題也是這樣的。
我們在高考評閱作文的時候,我們看到這個評卷的過程也是比較嚴謹?shù)模话愕膩碚f,首先要一些比較厲害的,就是專家對一組樣本進行打分,打完分以后,所有要參加打分的老師對這組也要去打分,打完分以后他們要在一起討論打分的一些原則,有哪些原則,然后每個老師打分的尺度,如果和這一組專家的打分尺度存在一些偏差的話要調(diào)整,它有點像最后測試的專家,要有個校準的過程,就是機器學習。其實學的就是這些訓練有素的專家評分的過程,應該說是學習的對象,有保障性。
當然我們今天在講高考,實際上作文評分還是離不開學習的問題。我們一篇作文題目,寫了作文以后了,機器給他評分之前,一般的來說我們需要同樣的這一篇作文就隨機的去抽取有高分的、低分的,不同代表性的,大概要抽取出來500份,這個500份也是高水平的專家去打分。打完分以后機器去學習,學習比如說篇章結(jié)構(gòu)、里面的詞匯、詞句之間的邏輯性,然后不同的段落時間和語義的關(guān)聯(lián)度,他要學習這些維度和最終給的分數(shù)之間的關(guān)系,通過這個模型得到一個最終的分數(shù),這就是機器學習。
但實際上在作文評分里面,機器里面是有一些文章是不能評的,大概是什么呢?就是我剛才講500篇作文,它其實是代表了很多類別作文的范式。(處于這種范式的文章)機器就能夠去打分,不是處于這些范式的文章,機器它其實是有一種技術(shù)指標,它會把它抽取出來,抽取出來的部分會交給我們專家去打分。
所以這個地方其實大概百分之七八十的工作量交給機器了,機器也很清楚地知道,比如說有一些特別有創(chuàng)意的500篇,里面的范式不能覆蓋的,比如說還有一些可能寫得非常離奇,亂七八糟的,這些東西機器能夠把它找出來,找出來的部分要讓人去把關(guān)。所以就現(xiàn)在整個在作文評分上的應用來說,一個是機器可以處理一部分,和人形成一個補充,可以降低人的工作量,然后把人的優(yōu)勢和機器的優(yōu)勢很好地發(fā)揮出來。
Robert:那你覺得在教育行業(yè)里面,AI會對教育這個行業(yè)會有什么影響?
吳曉如:實際上我覺得從現(xiàn)在我們整個實際的一些應用情況來看,整個人工智能在教育里面會發(fā)揮非常大的作用。其中最重要的作用,尤其是在中國,因為中國的教育資源尤其是高端的教育資源其實是比較缺乏的,中國在很多中學、小學教育里面,它是大班子,一個班有40個、50個學生,這么多學生的情況下,老師很難能夠去關(guān)注每個學生的學習的情況。這時候怎么辦?這時候人工智能技術(shù)就正好可以發(fā)揮作用了。
比如說針對一個孩子上課和老師互動的情況,做作業(yè)的一些情況,所有這些東西都可以被轉(zhuǎn)換成數(shù)據(jù)。有了數(shù)據(jù)之后,人工智能他可以對學生進行分析和畫像。你一個學生,你的知識點問題是在一些什么地方,對你有問題的地方機器就能描述出來,你在這些地方應該去加強訓練,然后對于你沒有問題的地方,可能你就不用在這個上面去花很多時間。
由這個我們就可以引導到什么呢?舉個例子,老師們創(chuàng)造了一種辦法,把課堂分成三截,45分鐘的這個課分成三個環(huán)節(jié),這三個環(huán)節(jié)結(jié)合人工智能的一些應用,把它課堂的效率整個提高了大概30%左右。
除了老師的教課過程外,學生學習的過程也可以個性化。
人工智能在后臺,它能及時的對每個學生所作課堂表現(xiàn)和測試題的一些評價,可以繪制出學生掌握的知識結(jié)構(gòu)圖。根據(jù)這個結(jié)構(gòu)圖對學生的出現(xiàn)的一些有缺陷的地方、不足的地方提供一些參考的知識點的視頻讓學生去看。然后同時給學生布置的一些題目,就是學生就在這個上面,特別需要訓練的,實際上他是通過后臺對每個學生的分析,給每個學生畫了個像,他這樣的話讓學生更多地把時間花在自己叫知識的黑洞上。這樣的話,讓學生提高他的效率,不用把時間花在一些重復的,已經(jīng)會的事情上,同時他可以把時間更多的解放出來,可以出去搞搞體育活動。
進來,因為它看到美國IBM研發(fā)的機器人參加了美國智力問答, 我的了解,這個機器人每次看到一個問題會到一些知識庫搜索一些相關(guān)的內(nèi)容,綜合出來一個最可能對的答案?那么訊飛的技術(shù)跟這個是類似嗎?
吳曉如:應該說這里面這個技術(shù)有類似的地方也有區(qū)別的地方。有類似的地方,肯定它后臺要有一個它的知識庫。第二個就是對所提問的問題,應該能夠去理解這個問題,然后理解問題以后,它才能到知識庫里面把這個可能它認為追求的正確的答案調(diào)出來,這個從理解、從邏輯分析和決策來說,我覺得這個應該是有很多類似的地方。
但是從我們要完成的高考任務來說,比那個任務要難很多,原因是第一個,你看現(xiàn)在高考中的很多題目,很討厭,可不是一句話的問題,它經(jīng)常是10句話,20句話。所以它一個題目的字變越多,實際上它這個題目內(nèi)部的邏輯關(guān)系就越復雜,一個題目里面繞來繞去的轉(zhuǎn)折點就會越來越多。比如數(shù)學,數(shù)學它里面的東西如果是一個很容易就用定理能夠把它實現(xiàn)的東西,如果它要把這個定理繞來繞去,就很難,所以題面的理解上會很困難。
第二個,這個里面大部分是一些偏常識性的理解,就理解完了以后根據(jù)常識,在后臺能抓一個答案過來的。但是高考里面比如說數(shù)學,像一些題目,這些題目是需要看計算機是怎么去表證一個數(shù)學定理的,數(shù)學定理之間的邏輯關(guān)系到底是什么樣?那人工智能這個技術(shù)要怎么去?把這種知識要轉(zhuǎn)換成計算機可以理解的知識。
我們經(jīng)常講一些叫知識的發(fā)現(xiàn)或者要構(gòu)建一個計算,對數(shù)學、對語文這些知識理解的圖譜,所以就從這個意義上來說,應該比那個要難。