《連線》雜志:未來15年內(nèi),90%的新聞稿將由機器撰寫
編者注:《連線》雜志日前發(fā)布一篇有意思的報道,在芝加哥論壇報社不遠的地方,有家名為Narrative Science公司開始為客戶提供計算機算法撰寫新聞稿的服務(wù),該公司預(yù)言,在未來的15年內(nèi),90%的新聞稿將由計算機算法寫成,計算機生產(chǎn)的新聞質(zhì)量也會越來越好,甚至5年內(nèi)可能獲得普利策新聞獎,那么問題是:計算機算法寫的新聞會比人類寫的還要好嗎?
在芝加哥論壇報報社不遠的地方,平均每30秒就有一篇新聞故事被生產(chǎn)出來——但其署名問題卻堪稱是個哲學(xué)問題,因為這新聞稿是利用計算機算法生產(chǎn)出來的。這家名叫 Narrative Science 的公司首席技術(shù)官、聯(lián)合創(chuàng)始人 Kristian Hammond 近日在接受《連線》雜志采訪時預(yù)測說:在15年內(nèi),有90%的文章將會由算法寫就。一些小眾新聞服務(wù)已經(jīng)開始雇傭 Narrative Science 公司為其訂戶、體育迷或小額投資者提供新聞更新。但計算機算法寫的新聞會比人類寫的還要好嗎?
但文章認為,這或許也不會是一場零和博弈,因為未來“新聞故事”的外延也會擴展。例如,祖父母們會很關(guān)心孫子的少年棒球聯(lián)盟里的新聞,但有誰會報道他們呢?現(xiàn)在已經(jīng)出現(xiàn)了 一個叫 GameChanger 的 iPhone app,根據(jù)數(shù)據(jù)即可為有這種需求的人提供這類新聞。去年,這個軟件為少年棒球聯(lián)盟比賽只做了近40萬篇報導(dǎo),預(yù)計今年這個數(shù)字會上升到150萬。Narrative Science 公司認為,計算機生產(chǎn)的新聞質(zhì)量也會越來越好,Hammond 甚至認為,5年內(nèi)可能會有計算機算法獲得普利策新聞獎!
《大西洋》月刊的轉(zhuǎn)載報道:
Predicted: In 15 Years, 90% of News Stories Will Be Written by Algorithms
預(yù)言:在15年內(nèi),90%的新聞將被計算機算法撰寫
以下為《連線》雜志全文
未來新聞90%以上將為電腦化新聞
Narrative Science(以下簡稱“Narrative”)是一家專門訓(xùn)練計算機編寫新聞報道的公司。假如Narrative技術(shù)已經(jīng)能夠編寫出我今天撰寫的這篇文章,那我們很可能既不必提及該公司的芝加哥總部其實就在《芝加哥論壇報》(Chicago Tribune)報業(yè)大樓附近,也不必揭示出這種可能讓記者丟掉飯碗的潛在技術(shù),其實是部分誕生于美國西北大學(xué)梅迪爾新聞學(xué)院(Medill School)的媒體、整合營銷通信項目。顯而易見,這種諷刺意味其實是針對人類,而非計算機本身。
但至少目前尚未如此。
Narrative員工量為30名左右,該公司在芝加哥環(huán)路邊上有一個很大的房間。我們不妨試想一下這種場景:每隔30秒鐘左右,Narrative算法的如椽大筆就能撰寫出一則新聞報道,這無疑將引發(fā)我們進行哲學(xué)高度的思考。這種計算機撰寫的新聞可以是美國大學(xué)籃球聯(lián)賽的Big Ten最新進展情況,也可能涉及某家企業(yè)營收的聲明,更可能是把多個Twitter信息匯總成有關(guān)賽馬的新聞。此類文章已在諸如《福布斯》以及其他知名媒體(其中不少媒體不愿透露其身份)的網(wǎng)站上發(fā)表。Niche新聞服務(wù)已聘請Narrative為其注冊用戶撰寫后續(xù)報道,使Narrative成為著他們的體育“粉絲”、小型投資者或快餐店老板。
事實上,通過Narrative算法所撰寫的文章,讀起來并不是那么晦澀和生硬。當(dāng)然,這種文章無法與美國體育評論作家羅杰·安吉爾(Roger Angell)的文風(fēng)相提并論。但這種敘述平實的文章,卻能很快將賽事結(jié)果等信息傳達給體育愛好者。Narrative利用iPhone用戶在GameChanger應(yīng)用程序中輸入的賽事得分結(jié)果等數(shù)據(jù),進而撰寫出一篇篇文章。去年期間,這種軟件所生成的美國兒童棒球賽事帳號達40萬個,預(yù)計今年該數(shù)字將增至150萬個。
Narrative聯(lián)合創(chuàng)始人兼首席技術(shù)官(CTO)克里斯蒂安·哈蒙德(Kristian Hammond)管理著一群編程人員和技術(shù)工程師。在哈蒙德看來,這些文章只是計算機寫作的開始,最終計算機寫作的文章將在新聞產(chǎn)業(yè)中占據(jù)著主導(dǎo)優(yōu)勢地位。這種優(yōu)勢地位將究竟有多高?去年我曾要求哈蒙德回答這個問題,他最初有點“王顧左右而言他”。但在我的連續(xù)追問下,哈蒙德說出了這樣一個數(shù)字:“90%以上。”
這也是我為何決定寫這篇文章的原因所在,并希望自己趕快完成,以免被一部MacBook Air筆記本電腦搶在我前頭發(fā)布了同類文章。
哈蒙德卻安慰我道,大不必為此而擔(dān)心。哈蒙德堅稱,這種計算機撰寫的新聞稿,并不會讓新聞記者等人員丟掉飯碗,他們今后仍將能夠每月按時領(lǐng)取薪酬。隨著新聞產(chǎn)業(yè)規(guī)模的空前增長和擴大,計算機將通過相關(guān)數(shù)據(jù)而撰寫出成本低廉的新聞稿,此類文章將涵蓋大量活動、產(chǎn)業(yè)趨勢和產(chǎn)品開發(fā),而這些領(lǐng)域目前尚未被傳統(tǒng)記者所關(guān)注。
然而這并不是說計算機所撰寫文章,將永遠處于邊緣化的位置,也不會永遠被限定在一些小打小鬧或生成一些簡單的企業(yè)營收評論上面。哈蒙德最近曾被問及這樣一個問題:今后20年內(nèi),計算機所撰寫文章能否獲得普利策新聞獎(Pulitzer Prize)?哈蒙德回答道,應(yīng)該用不了20年,5年之內(nèi)就可能實現(xiàn)該目標(biāo)。
Narrative公司與其創(chuàng)始人
哈蒙德生于美國猶他州,其父為一名考古學(xué)家,并在當(dāng)?shù)匾凰萘⒋髮W(xué)任教。成年后,哈蒙德原本計劃當(dāng)一名律師。但在上個世紀(jì)1980年代后期,也就是哈蒙德在耶魯大學(xué)上學(xué)期間,他深受知名人工智能專家、耶魯大學(xué)計算機系主任羅杰·尚克(Roger Schank)的影響。在拿到計算機科學(xué)博士學(xué)位后,哈蒙德受聘于芝加哥大學(xué),并擔(dān)任該大學(xué)一家新型人工智能實驗室負責(zé)人。在該實驗室工作期間(1990年代中期),他開發(fā)了一套可追蹤用戶閱讀、寫作習(xí)慣并向用戶推薦相關(guān)內(nèi)容的系統(tǒng)。
在該技術(shù)基礎(chǔ)上,哈蒙德創(chuàng)建了一家小型科技公司,后來他將該公司出售。這段時間中,哈蒙德進入美國西北大學(xué)工作,并擔(dān)任該大學(xué)情報信息實驗室主任。2009年期間,哈蒙德和他的同事拉里·伯恩鮑姆(Larry Birnbaum)在梅迪爾新聞學(xué)院教授一項課程,該課程同時包括電腦編程和未來新聞學(xué)兩項內(nèi)容。他們兩人鼓勵學(xué)生創(chuàng)建出可將數(shù)據(jù)轉(zhuǎn)移成新聞故事的系統(tǒng)。在該班學(xué)生中,有一位是《芝加哥論壇報》的特約記者,其報道范圍為美國高中生體育賽事。這名學(xué)生、以及另外兩位新聞系學(xué)生同一名計算機系學(xué)生被分成一組。該開發(fā)小組的原型軟件“Stats Monkey”,能夠搜集各大學(xué)、中學(xué)的體育賽事得分和相應(yīng)數(shù)據(jù)。
在那個學(xué)期結(jié)束時,這個班級參與了該校舉辦的產(chǎn)品演示會。出席該演示會的新聞業(yè)人員,包括來自ESPN體育電視臺、Hearst報業(yè)集團以及《芝加哥論壇報》的高管。Stats Monkey軟件給與會人員留下了深刻印象。梅迪爾新聞學(xué)院院長約翰·拉文(John Lavine)回憶道:“他們將體育賽事得分數(shù)據(jù)輸入到該程序當(dāng)中之后,大約12秒鐘之后,該程序就寫出了有關(guān)美國體育機構(gòu)歷史的文章,同時還配備了圖片和圖片文字說明。”
美國網(wǎng)絡(luò)廣告公司DoubleClick(注:此前已被谷歌收購)前高管斯圖亞特·弗蘭克爾(Stuart Frankel)也是參與當(dāng)天演示會的嘉賓之一。弗蘭克爾說:“他們當(dāng)時一演示這款軟件后,房間里的氛圍馬上就變了。盡管如此,該產(chǎn)品也就僅僅是一款能夠撰寫有關(guān)棒球新聞報道的軟件而已?!睆腄oubleClick離職后,弗蘭克爾隨即加盟哈蒙德和伯恩鮑姆兩人的行列中。這種軟件能否撰寫任何新聞報道?能否使用任何數(shù)據(jù)?在得到肯定的回答后,弗蘭克爾認定計算機寫作產(chǎn)業(yè)有著巨大增長潛力。2010年期間,哈蒙德、伯恩鮑姆和弗蘭克爾共同創(chuàng)建了Narrative公司,弗蘭克爾出任該公司CEO。
Narrative首名客戶是一家報道美國大學(xué)籃球聯(lián)賽Big Ten會議的電視網(wǎng)絡(luò)。合同規(guī)定,Narrative算法將需要以相當(dāng)于實時方式,而撰寫出數(shù)千條有關(guān)Big Ten的體育新聞,同時每個季度對該賽事的數(shù)據(jù)和新聞進行更新。Narrative還負責(zé)為美國女子壘球賽事撰寫文章,Narrative也因此變成為該賽事撰寫文章最多的“記者”。
在Narrative開始執(zhí)行合同后不久,就出現(xiàn)了一些小問題:這些文章往往側(cè)重報道比賽勝出方。如果Big Ten的某只球隊被外圍球隊擊敗后,Narrative軟件撰寫的文章會讓人感到很丟臉。Big Ten賽事舉辦者因此向Narrative提出新要求:即使Big Ten的球隊輸球,Narrative文章仍能加以表揚。在這種情況下,多數(shù)人認為應(yīng)該引進人工記者加以干預(yù),但Narrative技術(shù)開發(fā)人員卻認為無此必要,而只需對軟件代碼進行相應(yīng)修訂。有過這次教訓(xùn)后,Narrative在負責(zé)為美國兒童棒球賽事進行撰文過程中,也對相應(yīng)數(shù)據(jù)進行了調(diào)整處理。
Narrative的新聞撰寫引擎需要數(shù)個步驟:首先,該引擎需要收集大量高質(zhì)量的數(shù)據(jù)。這也是金融業(yè)和體育產(chǎn)業(yè)能夠成為Narrative服務(wù)對象的直接原因:這兩個產(chǎn)業(yè)都涉及大量波動性很強的數(shù)據(jù):每股收益、股價變化、壘球投手責(zé)任得分率(ERA)以及棒球打點(RBI)等。而新數(shù)據(jù)總是源源不斷,因此Narrative總能根據(jù)新數(shù)據(jù)撰寫出新文章或豐富舊內(nèi)容。
舉例來說,棒球“粉絲”們已創(chuàng)建了在比賽進行過程中預(yù)測某個球隊勝算把握的模式。在此過程中,如果某個得分改變了勝算把握的幾率,比如由40%上升至60%,則Narrative算法就會將這個得分作為截止當(dāng)前比賽進程中的亮點加以描述(比如Narrative必須知道擊跑數(shù)量最多的球隊將勝出)。因此Narrative技術(shù)工程師就為每種賽事或活動預(yù)先設(shè)定一些規(guī)則。那么該如何做才能將這些分析數(shù)據(jù)變成文章?該公司招聘了一個所謂“元作者”的團隊,該團隊由資深記者組成,以負責(zé)創(chuàng)建一系列報道題材的模板。該團隊同Narrative技術(shù)工程師密切合作,使計算機能夠從不同“角度”來識別相應(yīng)數(shù)據(jù)。比賽結(jié)果是哪個球隊勝出?是艱難勝出還是大敗對方?比賽過程中是否有某位球員表現(xiàn)絕佳?該算法還根據(jù)比賽已知數(shù)據(jù)和其他數(shù)據(jù)庫進行推測:是否某個關(guān)鍵一擊起到了定勝負的作用?
然后就是文章結(jié)構(gòu)事宜。絕大部分新聞報道尤其是體育和金融題材,往往都會形成一個可預(yù)見的固定模式,因此創(chuàng)建相應(yīng)文章模板,就成為相對比較簡單的問題。該算法按照元作者提供的詞匯來組成句子(就壘球而言,元作者似乎會在很大程度依賴20世紀(jì)早期知名體育評論家林·拉德納(Ring Lardner)的寫作用詞習(xí)慣),該公司將這種完成后的產(chǎn)品稱為“敘事作品”(narrative)。
當(dāng)然這種算法偶爾也會犯些小錯誤。比如說棒球比賽中的代打者(pinch hitter)每場比賽只能代打一次,但Narrative算法所撰寫文章有時會將代打次數(shù)描述成2~6次。只是諸如此類的錯誤很少出現(xiàn)。哈蒙德表示,有時數(shù)據(jù)庫也會提供錯誤信息,而Narrative算法已具有糾錯功能。哈蒙德說:“如果某家公司的季度利潤環(huán)比增長了600%,算法就會指出,很可能某個環(huán)節(jié)出現(xiàn)了錯誤。人們會問這樣的問題:我們的算法是否出過令人難堪的大錯誤,我們的回答是從未有過。”
《福布斯》媒體首席產(chǎn)品官劉易斯·德沃金(Lewis Dvorkin)表示,在對Narrative所報道的每一個賽事或其他活動進行了解后,他本人對此印象深刻但并不感到驚訝。盡管人工記者所撰寫文章出現(xiàn)重大錯誤并不鮮見,但德沃金并沒有聽說過有關(guān)計算機自動新聞報道出錯的任何投訴。德沃金說:“一次也沒有?!?/p>
新聞稿件文風(fēng)可以定制化
Narrative技術(shù)團隊還讓客戶對文章基調(diào)加以定制化。美國金融分析公司Data Explorers在其安全資訊服務(wù)中使用了Narrative技術(shù)。Data Explorers首席運營官(COO)喬納森·莫里斯(Jonathan Morris)表示:“你可以獲得任何內(nèi)容,如文章讀上去像是一位金融記者正股票交易所大聲呼喊,或像一位理智的金融分析師正縱觀整個金融市場。”
莫里斯要求Narrative為Data Explorers撰寫的文章,將其基調(diào)處理成為一名受過良好教育、態(tài)度非常直率的金融新聞記者。其他客戶則要求Narrative將文章處理成更為活潑的博客文風(fēng)。Narrative產(chǎn)品副總裁拉里·亞當(dāng)斯(Larry Adams)對此表示:“截止目前,Narrative要撰寫一篇言辭活潑文章的難度,并不會比寫一篇中規(guī)中矩的文章高多少。我們甚至能夠以美國知名新聞評論人、1972年普利策新聞獎得主邁克·羅伊科(Mike Royko)式的文風(fēng)來報道股票市場。”
在Narrative掌握如何報道體育和財經(jīng)新聞的“玄機”后,該公司意識到,其實還可以將Narrative算法應(yīng)用范圍擴大到除新聞報道的其他領(lǐng)域。事實上,任何人希望翻譯或處理大一堆數(shù)據(jù),都可從Narrative算法中受益良多。Narrative接到了大量數(shù)據(jù)處理的請求,試用結(jié)果發(fā)現(xiàn),這些客戶愿意向Narrative付費,進而使自己雜亂無意的數(shù)據(jù),能夠變?yōu)楹啙嵜骺觳⑶兄幸Φ木渥印?/p>
顯而易見,Narrative算法經(jīng)過改進提高后,肯定能滿足此類數(shù)據(jù)處理要求。Narrative剛剛創(chuàng)建時,該算法每接觸一個新的報道主題,“元作者”們必須費盡心機來對機器進行“培訓(xùn)”。但不久后元作者們開發(fā)出一款平臺,從而使Narrative算法能夠更快了解新的業(yè)務(wù)領(lǐng)域。舉例來說,如果某位元作者希望創(chuàng)建一臺可報道某個城市飯店服務(wù)業(yè)的寫作機器,那么利用數(shù)據(jù)庫中的賓館評論文章,該機器就能很快了解飯店業(yè)的常用詞匯(服務(wù)良好、美食等等)。元作者們還給機器提供一些該行業(yè)的常見句子。在經(jīng)過此種“培訓(xùn)”后,數(shù)小時內(nèi)Narrative算法就能撰寫出諸如“亞特蘭大市最佳意大利飯館”之類的文章。
Narrative主要競爭對手為Stat Sheet公司,后者總部位于美國北卡羅來納州,主營業(yè)務(wù)為自動文章創(chuàng)建,其業(yè)務(wù)范圍在經(jīng)過擴張后,與Narrative有不少重疊之處。由于自感無法與Narrative展開直接競爭,Stat Sheet將其服務(wù)目標(biāo)定為小型報刊雜志。另一方面,Stat Sheet也開始涉足體育新聞報道。在認識到計算機撰寫新聞產(chǎn)業(yè)具有巨大增長潛力后,Stat Sheet將公司名稱更改為“Automated Insights”。該公司創(chuàng)始人羅比·艾倫(Robbie Allen)說:“以前我曾認為,我們的業(yè)務(wù)范圍很窄,即僅限于數(shù)據(jù)處理產(chǎn)業(yè)?,F(xiàn)在看來我們應(yīng)該是商機無限?!?/p>
Narrative算法的業(yè)務(wù)范圍也變得越來越多樣化。Narrative曾受聘于一家快餐公司,被要求根據(jù)該快餐公司經(jīng)銷商所提供食品銷量數(shù)字而撰寫出每月報告,并將這些銷售數(shù)字同本地競爭對手進行比較,然后向該快餐公司提出應(yīng)該推出哪些新菜品的建議。
此外,這種低成本數(shù)據(jù)輸入后變成文章的操作方式,甚至能夠針對單一讀者撰寫文章。Narrative正考慮撰寫針對《魔獸世界》玩家的個性化費用支出報告,玩家們就能對自己近一段時間內(nèi)的游戲費用有著更全面了解。Narrative董事會成員、前DoubleClick首席執(zhí)行官戴維·羅森布拉特(David Rosenblatt)表示:“互聯(lián)網(wǎng)所產(chǎn)生數(shù)據(jù)的規(guī)模可謂前所未有,Narrative能夠?qū)⑦@些數(shù)據(jù)轉(zhuǎn)化成文章。這就是Narrative必須存在的理由。我們以撰寫新聞報道為主,報道管理為輔。”
光榮與夢想
截至目前,新聞報道仍是Narrative的核心業(yè)務(wù)。與任何剛出道的新聞記者一樣,Narrative也有著自己的“光榮與夢想”:能夠參與重大新聞事件的首發(fā)和后續(xù)報道。而要實現(xiàn)這一目的,Narrative仍需在機器學(xué)習(xí)、數(shù)據(jù)處理等事宜上進行大量投資,從而使機器能夠更為準(zhǔn)確理解人類語言和文字。事實上,Narrative在這方面已取得一些進展。哈蒙德說:“就金融業(yè)而言,我們算法能夠讀懂文章頭條,能夠識別某家企業(yè)股票的漲跌,了解到某位高管受聘或解聘,明白某家公司正制定并購計劃。同時我們知道這些事件同公司股價波動之間的關(guān)系?!惫傻逻€表示,今后在Narrative所撰寫體育新聞報道中,除常規(guī)的數(shù)據(jù)內(nèi)容外,還將增加球員受傷或面臨法律起訴等信息。
即便Narrative永遠也無法實現(xiàn)獲得普利策新聞獎的目標(biāo),其文章可能永遠也不會具備美國作家瓊·狄迪恩(Joan Didion)那種犀利的文風(fēng),但無論如何,該公司確實認識到了這樣一個事實:我們的日常生活活動,正越來越多被轉(zhuǎn)化為海量數(shù)據(jù)。舉例來說,過去數(shù)年中,美國職業(yè)棒球大聯(lián)盟已投資數(shù)百萬美元,以在比賽場地安裝高分辨率攝像頭和高強度傳感器,目的是分析每場比賽中各位球員的表現(xiàn)情況,如球員身體動作和棒球運動軌跡等信息。在不少情況下,體育新聞報道的取材就來自于這些數(shù)據(jù)當(dāng)中。或許球隊教練并沒有意識到,自己所帶領(lǐng)球隊之所以被擊敗,主要原因就是球員身體過度疲勞所致。而這些結(jié)論,通常都需要數(shù)據(jù)作為強有力證據(jù)。
哈蒙德相信,隨著Narrative市場規(guī)模的進一步增長,其業(yè)務(wù)范圍也將形成更為高端的“食物鏈”:從社區(qū)新聞到新聞分析,最終再進入長篇深度報道業(yè)務(wù)。從某種程度上講,人工記者和計算機算法或許能夠協(xié)手合作,并發(fā)揮出各自優(yōu)勢。計算機的優(yōu)勢在于記憶無差錯,并能夠快速訪問各類數(shù)據(jù)。而人工記者在進行采訪過程中,能夠做到“直奔主題”,在獲得相關(guān)材料后,再將撰寫文章的任務(wù)交給計算機。隨著計算機處理此類任務(wù)次數(shù)的增長并能夠獲得更多數(shù)據(jù),計算機的“敘事”技巧也將越來越高。當(dāng)然,要達到這一階段我們可能尚需等上一段時間。但最終有一天,或許類似我的這篇文章,根本就不需要我本人動手來寫。哈蒙德說:“人類思考能力非常強大,也異常復(fù)雜,而電腦不過是機器而已。今后20年內(nèi),將不存在Narrative無法勝任的新聞報道領(lǐng)域?!?/p>
就目前而言,哈蒙德一再強調(diào),Narrative算法并不是為了取代人工記者。哈蒙德透露,自己曾出席一次晚會,在那兒遇到了一名戲劇評論家。該評論家了解了哈蒙德的Narrative業(yè)務(wù)模式后,便對哈蒙德橫加指責(zé),稱當(dāng)前新聞從業(yè)者的日子已經(jīng)過得很艱難,Narrative怎么忍心讓寫作機器人來搶走新聞記者的飯碗?
哈蒙德回憶道:“我當(dāng)時盯著他回答說,難道你在美國兒童棒球小聯(lián)盟(Little League)賽場上看見過記者的身影嗎?搞清這一點對我們而言非常重要。尚沒有任何新聞記者因Narrative開展的各項業(yè)務(wù)而丟掉飯碗?!?/p>
至少目前尚未如此。
原創(chuàng)文章,作者:劉曉林,如若轉(zhuǎn)載,請注明出處:http://www.szshoujike.com/blog/archives/1622