中新社拉薩11月19日電 (記者 貢桑拉姆)“陽(yáng)光清言”藏語(yǔ)大模型研發(fā)成果19日在西藏拉薩市正式發(fā)布。目前,研究團(tuán)隊(duì)已按照國(guó)家相關(guān)法規(guī)推進(jìn)模型備案工作,待完成后將正式上線面向社會(huì)服務(wù)。
“‘陽(yáng)光清言’藏語(yǔ)大模型V1.0是一個(gè)千億參數(shù)級(jí)的藏語(yǔ)大模型。”中國(guó)工程院院士、西藏大學(xué)教授尼瑪扎西介紹,此款藏語(yǔ)大模型的訓(xùn)練數(shù)據(jù)使用了約288億token高質(zhì)量藏語(yǔ)數(shù)據(jù),包括大規(guī)模句子級(jí)和篇章級(jí)的藏語(yǔ)單語(yǔ)數(shù)據(jù)、漢藏和藏英平行語(yǔ)料、漢藏雙語(yǔ)辭典條目等,內(nèi)容涵蓋新聞、法律、醫(yī)學(xué)、哲學(xué)、教育、文化和科學(xué)技術(shù)等多個(gè)領(lǐng)域。
尼瑪扎西說(shuō),這款模型能夠處理復(fù)雜的語(yǔ)言結(jié)構(gòu)和多領(lǐng)域知識(shí),具備深度的藏語(yǔ)語(yǔ)義理解與生成能力,問(wèn)答自然流暢、生成明晰準(zhǔn)確,在藏語(yǔ)智能問(wèn)答、文本生成、機(jī)器翻譯等領(lǐng)域有著優(yōu)異的表現(xiàn)。
“‘陽(yáng)光清言’藏語(yǔ)大模型除了具有藏語(yǔ)能力,還有更為強(qiáng)大的漢語(yǔ)能力。”西藏大學(xué)信息科學(xué)技術(shù)學(xué)院副教授、尼瑪扎西院士團(tuán)隊(duì)成員洛桑嘎登稱,作為基座模型,“陽(yáng)光清言”藏語(yǔ)大模型可以廣泛應(yīng)用于邊疆治理大模型、西藏文旅大模型、西藏綠色能源大模型、西藏農(nóng)牧科研大模型、西藏教育大模型、西藏文化大模型和藏醫(yī)藥與高原健康大模型等研發(fā)。
他說(shuō),該模型重點(diǎn)解決邊疆?dāng)?shù)智治理過(guò)程中的語(yǔ)言技術(shù)支撐能力、基于大模型的市域和區(qū)域治理能力、基于大模型的民生服務(wù)能力、AI賦能文化旅游產(chǎn)業(yè)能力、AI賦能高原科學(xué)技術(shù)研究、清潔能源開發(fā)利用智能化等關(guān)鍵技術(shù)。
據(jù)悉,西藏大學(xué)尼瑪扎西院士團(tuán)隊(duì)與北京智譜華章科技有限公司聯(lián)合開展了藏語(yǔ)大模型研發(fā)工作,旨在推動(dòng)藏語(yǔ)智能技術(shù)的國(guó)際話語(yǔ)權(quán),同時(shí)為西藏的長(zhǎng)治久安和高質(zhì)量發(fā)展提供技術(shù)支持。(完)