最近,拉美國家傳來(lái)好消息:由智利國家人工智能中心牽頭,巴西深度參與,阿根廷、哥倫比亞、墨西哥、秘魯?shù)葒餐瑓⑴c研發(fā)(fā)的Latam-GPT測試版將于10月份發(fā)(fā)布。作為首款主要針對拉美歷史、文化及語(yǔ)言多樣性設(shè)計的大型語(yǔ)言模型(LLM),其問(wèn)世備受矚目。
當(dāng)前主流語(yǔ)言模型大多基于英語(yǔ)語(yǔ)料構(gòu)建,對非英語(yǔ)使用人群的需求考慮不足,導(dǎo)致其在處理高度本地化問(wèn)題時(shí)表現(xiàn)欠佳。這也使得占全球人口超過(guò)8%的拉美地區(qū)難以充分受益于人工智能技術(shù)(shù)。
智利科技知識和創(chuàng)(chuàng )新部部長(cháng)艾森·埃切韋里曾就此表示,人工智能需要向世界展現(xiàn)“我們自身的多樣性”。僅就拉丁美洲而言,一個(gè)合格的人工智能產(chǎn)(chǎn)品,“不僅要會(huì )說(shuō)西班牙語(yǔ)或葡萄牙語(yǔ),還要理解我們的特質(zhì)(zhì)”。
值得關(guān)(guān)注的是,作為拉美地區(qū)首款大語(yǔ)言模型,Latam-GPT從設(shè)計之初就具有濃濃的拉美特色。
一是在訓(xùn)練數(shù)據(jù)的來(lái)源與開(kāi)放性方面,該模型摒棄了全球商業(yè)(yè)大模型普遍采用的“網(wǎng)(wǎng)絡(luò)(luò )爬蟲(chóng)抓取”模式,轉(zhuǎn)而與本地大學(xué)(xué)、圖書(shū)館、政府機構(gòu)等合作,獲取了大量難以在線(xiàn)上找到或尚未數(shù)字化的數(shù)據(jù),如歷史文獻(xiàn)、學(xué)(xué)術(shù)(shù)文本和口述歷史等。這種方式確保了內(nèi)容的本地化與高質(zhì)(zhì)量。
二是在對拉美復(fù)雜語(yǔ)言與文化的理解方面,該模型雖以西班牙語(yǔ)、葡萄牙語(yǔ)和英語(yǔ)為基礎(chǔ),卻同樣重視捕捉區(qū)域內(nèi)獨特的語(yǔ)言習(xí)慣、歷史脈絡(luò)(luò )和文化語(yǔ)境,力爭通過(guò)精細(xì)的本地化訓(xùn)練,準(zhǔn)確識別特定地域的表達(dá)方式。如,同樣都是“torta”這個(gè)單詞,在智利意為三明治,在墨西哥則指蛋糕。
三是在泛區(qū)域協(xié)(xié)作模式方面,作為一個(gè)可修改的開(kāi)源模型,Latam-GPT允許區(qū)域內(nèi)的企業(yè)(yè)和開(kāi)發(fā)(fā)者自由使用、修改和分發(fā)(fā)。此舉既擺脫了對昂貴許可和“一刀切”解決方案的依賴(lài),也有助于激發(fā)(fā)本地創(chuàng)(chuàng )新,推動(dòng)形成一個(gè)基于泛區(qū)域協(xié)(xié)作的人工智能生態(tài)(tài)。
特別值得一提的是,Latam-GPT非常關(guān)(guān)注對拉美文化遺產(chǎn)(chǎn)的保護(hù)與傳承。例如,Latam-GPT已將智利拉帕努伊語(yǔ)和馬普敦貢語(yǔ)納入試點(diǎn)計劃,旨在為其構(gòu)建數(shù)字知識庫,支持語(yǔ)言復(fù)興與文化延續(xù)。專(zhuān)家評論稱(chēng),將人工智能從單純的技術(shù)(shù)工具提升為文化遺產(chǎn)(chǎn)的“數(shù)字衛(wèi)士”,將為全球人工智能應(yīng)用開(kāi)拓新的方向。
盡管尚未正式發(fā)(fā)布,但拉美業(yè)(yè)界已經(jīng)(jīng)賦予了Latam-GPT極大的期待。有專(zhuān)家表示,Latam-GPT不僅是一項技術(shù)(shù)突破,更是一份維護(hù)數(shù)字主權(quán)的“宣言”。這一創(chuàng)(chuàng )舉讓拉美地區(qū)從先進(jìn)(jìn)技術(shù)(shù)的被動(dòng)消費者轉(zhuǎn)變?yōu)櫓鲃?dòng)參與者,從而在一定程度上掌握了本土化人工智能技術(shù)(shù)發(fā)(fā)展的主導(dǎo)權(quán)。另有專(zhuān)家指出,Latam-GPT對計算基礎(chǔ)設(shè)施的需求將產(chǎn)(chǎn)生積極的連鎖反應(yīng),訓(xùn)練Latam-GPT所需的強大算力,或?qū)⒎聪蛲苿?dòng)區(qū)域內(nèi)超算中心和數(shù)據(jù)中心的建設(shè)與升級。
不過(guò),也有業(yè)(yè)界專(zhuān)家提醒,盡管拉美人工智能產(chǎn)(chǎn)業(yè)(yè)前景廣闊,但其整體發(fā)(fā)展仍然面臨多重挑戰(zhàn)。拉美人工智能產(chǎn)(chǎn)業(yè)(yè)尚處于起步階段,與發(fā)(fā)達(dá)國家存在明顯差距。這些差距主要體現(xiàn)在數(shù)字基礎(chǔ)設(shè)施建設(shè)滯后、數(shù)字?zhù)櫆犀F(xiàn)象突出、人工智能監(jiān)管缺失以及應(yīng)用程度不高等方面。同時(shí),區(qū)域內(nèi)發(fā)(fā)展亦不均衡,智利、巴西和烏拉圭在人工智能應(yīng)用方面發(fā)(fā)展較快,其他國家則相對滯后。此外,投資不足也是制約該地區(qū)人工智能產(chǎn)(chǎn)業(yè)(yè)發(fā)(fā)展的關(guān)(guān)鍵因素。據(jù)美洲開(kāi)發(fā)(fā)銀行(IDB)數(shù)據(jù),拉丁美洲在人工智能研發(fā)(fā)上的投入不到其GDP的0.5%,遠(yuǎn)低于發(fā)(fā)達(dá)經(jīng)(jīng)濟體2%至3%的平均水平。
不過(guò),這些挑戰(zhàn)難掩拉美人工智能產(chǎn)(chǎn)業(yè)(yè)蘊含的巨大潛力,尤其是以L(fǎng)atam-GPT為代表的泛區(qū)域協(xié)(xié)作模式,能夠在很大程度上補齊單一國家的短板。正如拉美開(kāi)發(fā)(fā)銀行(CAF)執(zhí)行總裁塞爾希奧·迪亞斯-格拉納多斯所言:“這一源于我們地區(qū)、為我們地區(qū)開(kāi)發(fā)(fā)的語(yǔ)言模型,是數(shù)字化融合的里程碑,將使我們成為人工智能革命的關(guān)(guān)鍵參與者。Latam-GPT將成為各國開(kāi)發(fā)(fā)創(chuàng)(chuàng )新解決方案的重要工具,反映我們的文化、語(yǔ)言和歷史現(xiàn)實(shí),縮小技術(shù)(shù)鴻溝,促進(jìn)(jìn)整個(gè)地區(qū)更公平、可持續(xù)地發(fā)(fā)展?!保ū疚膩?lái)源:經(jīng)(jīng)濟日報 作者:楊建民 李俊霖)