1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. AI智能
  4. 正文

開發(fā)框架與基礎(chǔ)硬件攜手,AI的社會(huì)價(jià)值在文化領(lǐng)域深度彰顯

 2023-01-13 13:14  來(lái)源:A5專欄  我來(lái)投稿 撤稿糾錯(cuò)

  一鍵部署OpenClaw

語(yǔ)言是人類進(jìn)行溝通交流的表達(dá)方式,其儲(chǔ)存著豐富的文化信息,傳承著民族血脈,也支撐著文明的發(fā)展與演進(jìn)。然而,一些少數(shù)民族語(yǔ)言、方言卻正在無(wú)聲無(wú)息地消失,與之密切相連的地域文化、歷史文化也正面臨瀕危風(fēng)險(xiǎn)。

“大約平均兩周就會(huì)有一種語(yǔ)言消亡“,聯(lián)合國(guó)教科文組織的這一調(diào)查數(shù)據(jù)讓人觸目驚心,且世界上正在使用的約6,000種語(yǔ)言,至少有43%面臨瀕危[1]。而在中國(guó),也有25種語(yǔ)言使用人口已不足千人[2]。

搶救瀕危少數(shù)民族語(yǔ)言對(duì)保持漢語(yǔ)的豐富性、多元性,保護(hù)文化記憶、文化基因意義重大。因此,中國(guó)早在2015年就啟動(dòng)了語(yǔ)言資源保護(hù)工程,借助田野調(diào)查,建立起龐大的口語(yǔ)語(yǔ)料庫(kù),保存了原始聲音文件和國(guó)際音標(biāo)標(biāo)注等豐富素材。

[1] 如欲了解更多詳情請(qǐng)?jiān)L問(wèn):https://www.un.org/zh/observances/mother-language-day%20

[2]如欲了解更多詳情請(qǐng)?jiān)L問(wèn):https://epaper.gmw.cn/zhdsb/html/2022-01/19/nw.D110000zhdsb_20220119_1-06.htm

然而,僅僅依靠這些單語(yǔ)數(shù)據(jù),研究者難以獲知其背后所傳達(dá)的語(yǔ)義,無(wú)法有效開展相關(guān)學(xué)習(xí)與研究,更罔論留存這些少數(shù)民族瀕危語(yǔ)言與背后地方文化的生命力。

人工智能技術(shù)為復(fù)活這些語(yǔ)言,挖掘多元文化價(jià)值,傳承璀璨的歷史文化,提供了新思路和新手段。2022年國(guó)際母語(yǔ)日也將“利用技術(shù)促進(jìn)多語(yǔ)言學(xué)習(xí):挑戰(zhàn)與機(jī)遇”作為主題,指出了技術(shù)對(duì)推進(jìn)多語(yǔ)言教育以及文化傳承與保護(hù)的作用。

百度飛槳深度學(xué)習(xí)平臺(tái)攜手英特爾,基于第三代英特爾® 至強(qiáng)® 可擴(kuò)展處理器進(jìn)行深度優(yōu)化,通過(guò)完善的模型壓縮方法和量化加速技術(shù),支持全自動(dòng)生成大規(guī)模“漢語(yǔ)-少數(shù)民族語(yǔ)言”雙向詞典,對(duì)用技術(shù)幫助保護(hù)瀕危少數(shù)民族語(yǔ)言,推動(dòng)民族互通互融,做出了積極探索,展現(xiàn)了“科技向善”的現(xiàn)實(shí)意義和歷史價(jià)值。

采用百度飛槳深度學(xué)習(xí)平臺(tái),全自動(dòng)構(gòu)建大規(guī)模雙向詞典

構(gòu)建雙向詞典項(xiàng)目,采用了規(guī)模大、范圍廣、語(yǔ)種多、內(nèi)容豐富的瀕危語(yǔ)言博物館館藏源語(yǔ)料庫(kù),語(yǔ)料全部來(lái)自于田野調(diào)查與實(shí)地采集。

通過(guò)分析,項(xiàng)目研發(fā)人員選取了中國(guó)少數(shù)民族語(yǔ)言中的獨(dú)龍、爾蘇、嘉絨、撒拉這四種數(shù)據(jù)較為豐富的語(yǔ)言作為實(shí)驗(yàn)對(duì)象。

為基于百度飛槳實(shí)現(xiàn)對(duì)齊算法,項(xiàng)目團(tuán)隊(duì)首先開發(fā)了民間故事漢語(yǔ)數(shù)據(jù)集。開發(fā)過(guò)程中,充分利用飛槳PaddleOCR開發(fā)套件識(shí)別精度高、推理速度快等特性,對(duì)跨度8年的《故事會(huì)》雜志掃描樣本進(jìn)行數(shù)據(jù)化處理,構(gòu)建出規(guī)模達(dá)950萬(wàn)字的文本數(shù)據(jù)集,也是全球首個(gè)民間故事漢語(yǔ)數(shù)據(jù)庫(kù),且具有很強(qiáng)的口語(yǔ)化風(fēng)格,適合與少數(shù)民族語(yǔ)言語(yǔ)料進(jìn)行對(duì)齊。

然后,實(shí)施低資源詞向量訓(xùn)練,應(yīng)對(duì)四個(gè)少數(shù)民族語(yǔ)料句子數(shù)量普遍不足五千條的挑戰(zhàn),以及《故事會(huì)》語(yǔ)料小于二十萬(wàn)條句子的問(wèn)題,為下游的雙語(yǔ)對(duì)齊提供了強(qiáng)有力的支持。

繼之,依據(jù)拓?fù)涮卣鳎瑢?duì)兩種語(yǔ)言的詞向量進(jìn)行旋轉(zhuǎn)和對(duì)齊,實(shí)施雙語(yǔ)詞典自動(dòng)化抽取,最終導(dǎo)出了獨(dú)龍、爾蘇、嘉絨、撒拉這四種語(yǔ)言和漢語(yǔ)的雙向詞典。

目前,這四部雙向詞典已在中國(guó)社科院民族學(xué)和人類學(xué)研究所志愿者的協(xié)助下,進(jìn)行了內(nèi)部評(píng)測(cè),僅發(fā)現(xiàn)含有少量誤差。這一可喜成果,驗(yàn)證了基于百度飛槳深度學(xué)習(xí)平臺(tái),智能生成大規(guī)模漢語(yǔ)-少數(shù)民族語(yǔ)言詞典的可行性和便捷性,展現(xiàn)了人工智能對(duì)于應(yīng)對(duì)語(yǔ)言瀕危日益嚴(yán)峻挑戰(zhàn)的高效性和高價(jià)值。

英特爾與百度飛槳軟硬協(xié)同優(yōu)化,用智能探索文化保護(hù)新路

雙向詞典項(xiàng)目依托飛槳深度學(xué)習(xí)技術(shù),高效實(shí)現(xiàn)了瀕危語(yǔ)言詞典的自動(dòng)化生成,極大減輕了語(yǔ)保工作者的負(fù)擔(dān)。而其背后是英特爾所提供的英特爾® 至強(qiáng)® 可擴(kuò)展平臺(tái)具備的強(qiáng)勁算力和多種優(yōu)化措施,為飛槳平臺(tái)高效支撐項(xiàng)目運(yùn)作提供了基礎(chǔ)能力和量化加速。

業(yè)界盡知,人工智能應(yīng)用不僅需要高算力作為支撐,而且源于大多數(shù)深度學(xué)習(xí)模型使用32位浮點(diǎn)精度(FP32)構(gòu)建,復(fù)雜度高,模型參數(shù)量大,限制了其在一些場(chǎng)景和設(shè)備進(jìn)行部署,需要實(shí)施軟硬結(jié)合優(yōu)化,才能突破性能瓶頸,高效承載諸如上文雙向詞典生成等多類應(yīng)用。

針對(duì)上述問(wèn)題,英特爾攜手百度飛槳,基于第三代英特爾® 至強(qiáng)® 可擴(kuò)展處理器、英特爾® oneAPI工具套件等軟硬件組合,在為飛槳平臺(tái)提供充裕算力的同時(shí),也對(duì)整個(gè)深度學(xué)習(xí)流程實(shí)施全方位優(yōu)化,幫助加速各類應(yīng)用開發(fā)和量化部署。

第三代英特爾® 至強(qiáng)® 可擴(kuò)展處理器依托出色的微架構(gòu),發(fā)揮多核心、多線程和大容量高速緩存等特性,很好地滿足了飛槳平臺(tái)對(duì)通用算力的苛刻需求,同時(shí)加持以其內(nèi)置的英特爾® AVX-512提供的增強(qiáng)矢量處理能力,提升AI 推理和訓(xùn)練效率,為圖像分類、自然語(yǔ)言處理、語(yǔ)音識(shí)別、語(yǔ)音翻譯等廣泛的應(yīng)用開發(fā)和部署提供穩(wěn)健基石。而最新一代的第四代英特爾® 至強(qiáng)® 可擴(kuò)展處理器更內(nèi)置一系列加速器,包括全新的AI加速器——英特爾®高級(jí)矩陣擴(kuò)展(英特爾®AMX),覆蓋包括訓(xùn)練和微調(diào)在內(nèi)的更多深度學(xué)習(xí)使用場(chǎng)景,可以為不斷變化且要求日益增高的應(yīng)用提供更為可觀的計(jì)算性能。

為滿足模型快速“瘦身”之需,百度飛槳打造了PaddleSlim深度學(xué)習(xí)模型壓縮工具庫(kù),以及為用戶提供靈活的壓縮策略,而英特爾® 至強(qiáng)® 可擴(kuò)展處理器內(nèi)置的AI加速技術(shù)--英特爾® 深度學(xué)習(xí)加速(英特爾® DL Boost),可通過(guò)矢量神經(jīng)網(wǎng)絡(luò)指令(VNNI)充分提高計(jì)算資源和緩存的利用率,減少潛在的帶寬瓶頸,為INT8等低精度計(jì)算提供優(yōu)化支持,顯著加速AI 推理。由此,幫助飛槳PaddleSlim所支持的量化訓(xùn)練和靜態(tài)離線量化方法,更好地適用于計(jì)算機(jī)視覺(jué)(CV)和自然語(yǔ)言處理 (NLP)等模型優(yōu)化過(guò)程,這無(wú)疑也為雙向詞典AI方案的開發(fā)提供了便利,同時(shí)提高了項(xiàng)目運(yùn)作效率。

同時(shí)為激活 VNNI 加速功能,百度飛槳深度學(xué)習(xí)平臺(tái)在量化方案實(shí)施中還廣泛使用英特爾® oneAPI 工具套件,如英特爾® oneAPI 深度神經(jīng)網(wǎng)絡(luò)庫(kù) (Intel® oneAPI Deep Neural Network Library,英特爾® oneDNN)。借助其統(tǒng)一、簡(jiǎn)化的編程模型,飛槳用戶得以在CPU、GPU和FPGA等不同的架構(gòu)上方便地調(diào)用通用接口來(lái)使用平臺(tái)內(nèi)置的AI加速技術(shù),而無(wú)需擔(dān)心平臺(tái)兼容問(wèn)題。

得益于英特爾® 至強(qiáng)® 可擴(kuò)展平臺(tái)與多項(xiàng)優(yōu)化工具的支持,百度飛槳深度學(xué)習(xí)平臺(tái)實(shí)現(xiàn)了深度優(yōu)化,并不斷豐富模型資源及應(yīng)用開發(fā)套件,為用戶提供了優(yōu)異的模型及硬件加速體驗(yàn)。而雙向詞典項(xiàng)目在推動(dòng)少數(shù)民族語(yǔ)言保護(hù)領(lǐng)域展現(xiàn)的神奇魔力,就是其典型案例。

“十四五”規(guī)劃把“強(qiáng)化重要文化和自然遺產(chǎn)、非物質(zhì)文化遺產(chǎn)系統(tǒng)性保護(hù)、推動(dòng)中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化、創(chuàng)新性發(fā)展”,作為提高社會(huì)文明程度的重要舉措;今年的工作報(bào)告也強(qiáng)調(diào)了“傳承中華優(yōu)秀傳統(tǒng)文化,滿足人民日益增長(zhǎng)的精神文化需求”,對(duì)鑄就文化新輝煌的重要作用。

英特爾攜手百度飛槳踐行“科技向善”,優(yōu)化開源平臺(tái),促進(jìn)瀕危語(yǔ)言保護(hù),不僅延續(xù)和發(fā)揚(yáng)了語(yǔ)言背后蘊(yùn)含的文化、知識(shí)遺產(chǎn)及其價(jià)值,更探索出智能技術(shù)賦能的新路;也是英特爾繼用人工智能助力長(zhǎng)城修繕,通過(guò)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)全棧優(yōu)化解決方案幫助云岡石窟文物保護(hù)等,持續(xù)展現(xiàn)創(chuàng)新技術(shù)對(duì)挖掘與傳承璀璨歷史文化、實(shí)現(xiàn)創(chuàng)新創(chuàng)造的新動(dòng)能的又一成功實(shí)踐,有助于在讓歷史智慧照進(jìn)未來(lái),讓寶貴文化遺產(chǎn)豐富人們精神世界的同時(shí),進(jìn)一步加速人工智能的拓展應(yīng)用,助力擁抱數(shù)字化浪潮,創(chuàng)造更美好的生活。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
ai技術(shù)

相關(guān)文章

  • 甌江論道:AI賦能綠色發(fā)展

    2025年10月25日,2025世界青年科學(xué)家峰會(huì)之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國(guó)際院士科創(chuàng)中心主辦,中國(guó)投資協(xié)會(huì)能源投資專業(yè)委員會(huì)、溫港院士科創(chuàng)中心承辦,中國(guó)電工技術(shù)學(xué)會(huì)、中科先進(jìn)技術(shù)溫州研究院與溫州市電力工程學(xué)會(huì)提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,

    標(biāo)簽:
    ai技術(shù)
  • 王通:未來(lái)個(gè)人創(chuàng)業(yè)的十個(gè)機(jī)會(huì)

    個(gè)人創(chuàng)業(yè)需要啟動(dòng)成本低、無(wú)需龐大團(tuán)隊(duì)、可快速驗(yàn)證、能利用個(gè)人技能或資源。這里分享適合個(gè)人創(chuàng)業(yè)的十個(gè)機(jī)會(huì)一.AI內(nèi)容優(yōu)化與本地化服務(wù)·做什么:幫助企業(yè)或個(gè)人利用AI工具(如GPT-4,Midjourney)優(yōu)化內(nèi)容生產(chǎn)流程。例如,為跨境電商撰寫多語(yǔ)言產(chǎn)品描述,為小紅書博主生成爆款文案,為小公司制作營(yíng)銷

  • 百度智能云PaddleOCR 3.1正式發(fā)布:關(guān)鍵能力支持MCP

    百度AI團(tuán)隊(duì)今日正式推出PaddleOCR3.1版本,以突破性的多語(yǔ)言組合識(shí)別(MultilingualCompositionPerception,MCP)技術(shù)為核心,徹底重構(gòu)復(fù)雜文檔處理邊界。此次升級(jí)標(biāo)志著OCR領(lǐng)域首次實(shí)現(xiàn)對(duì)同一文檔內(nèi)任意混合語(yǔ)言文本的精準(zhǔn)識(shí)別,為全球化企業(yè)、跨境業(yè)務(wù)及多元文化場(chǎng)

    標(biāo)簽:
    ai智能
    ai技術(shù)
  • AI工具導(dǎo)航網(wǎng)站,未來(lái)的發(fā)展前景怎么樣?

    導(dǎo)航網(wǎng)站的崛起:從信息過(guò)載到精準(zhǔn)觸達(dá)隨著全球AI工具數(shù)量爆發(fā)式增長(zhǎng)(2025年已超數(shù)萬(wàn)款),用戶面臨前所未有的選擇困境。傳統(tǒng)搜索引擎的“關(guān)鍵詞-鏈接”模式難以應(yīng)對(duì)工具篩選的場(chǎng)景需求,垂直化、場(chǎng)景化的AI導(dǎo)航網(wǎng)站應(yīng)運(yùn)而生。這類平臺(tái)通過(guò)聚合、評(píng)測(cè)、分類與推薦四重機(jī)制,將分散的工具資源整合為結(jié)構(gòu)化入口。例

  • 微信AI搜索被指“強(qiáng)行開盒”:名字成了數(shù)據(jù)入口,騰訊回應(yīng)“僅用公開信息”

    當(dāng)微信公眾號(hào)文章中出現(xiàn)一個(gè)人的名字,它會(huì)自動(dòng)變成藍(lán)色鏈接,點(diǎn)擊即可查看AI生成的“個(gè)人簡(jiǎn)歷”——這一微信新功能讓不少用戶感到被“扒光”在互聯(lián)網(wǎng)上。近日,微信新上線的“AI搜索”功能陷入隱私泄露爭(zhēng)議漩渦。多位網(wǎng)友在社交平臺(tái)反映,當(dāng)微信公眾號(hào)推文中出現(xiàn)本人姓名時(shí),名字會(huì)自動(dòng)變?yōu)樗{(lán)色超鏈接,點(diǎn)擊即可瀏覽由

    標(biāo)簽:
    ai技術(shù)
    ai搜索
  • 90%的AI中間商會(huì)消失:Google封號(hào)只是第一槍

    AI的“免費(fèi)紅利期”結(jié)束了,未來(lái)18個(gè)月,靠“API倒賣”的公司,會(huì)成片消失。這個(gè)導(dǎo)火索就是最近Google的一輪封號(hào)導(dǎo)致的,隨著封號(hào)風(fēng)波的結(jié)束,這也標(biāo)志著AI行業(yè)【收租時(shí)代】來(lái)了。2月封號(hào)潮:高付費(fèi)用戶被一鍋端一周前,Google開始大規(guī)模封號(hào),付著250美金月費(fèi)的人,賬號(hào)說(shuō)沒(méi)就沒(méi),Gmail、Y

  • DeepSeek V4意外泄露,原生多模態(tài)

    來(lái)自路透社等媒體報(bào)道的最新消息:DeepSeek未發(fā)布的V4Lite模型遭泄露上網(wǎng),華為獲得早期訪問(wèn)權(quán)限,英偉達(dá)被排除在外。近期,谷歌發(fā)表了2篇Multi-Agent協(xié)作學(xué)習(xí)新論文有網(wǎng)友提供了更加詳細(xì)的信息,DeepSeekV4Lite:100萬(wàn)token上下文窗口(V3為128K)內(nèi)置原生多模態(tài)推

  • 中國(guó)開啟AI全民化元年,BAT同入“億級(jí)俱樂(lè)部”

    春節(jié)紅包會(huì)結(jié)束,但AI已融入數(shù)億人生活里

  • 開源模型再突破,全球AI行業(yè)的拐點(diǎn)要來(lái)了?

    性能、商業(yè)、生態(tài)詮釋開源模型的最佳姿態(tài)

  • 看懂黃仁勛CES演講,就看懂 AI 接下來(lái)十年的走向

    2026年剛開年,全世界最狂的那個(gè)男人,穿著他的經(jīng)典黑皮衣,在CES舞臺(tái)上發(fā)出了未來(lái)十年的信號(hào)。他搞了個(gè)“能吃飽套餐”:6個(gè)包子+一碟小菜+一碗粥=肉包子套餐,這樣以后你只要買一個(gè)套餐就能吃飽了。(Rubin平臺(tái))同時(shí)他們店里還免費(fèi)提供的筷子、勺子、蘸料、醬油、醋、水果、零食等等。(開放10萬(wàn)億語(yǔ)言

  • GDPS2025賽場(chǎng)直擊!開普勒大黃蜂助力華理斬獲搬運(yùn)賽項(xiàng)桂冠

    12月12日-14日,2025全球開發(fā)者先鋒大會(huì)暨國(guó)際具身智能技能大賽(GDPS2025)于上海張江科學(xué)會(huì)堂舉行,大會(huì)以具身智能競(jìng)技為核心,融合了技術(shù)比拼、產(chǎn)業(yè)展示與科普體驗(yàn),為全球觀眾呈現(xiàn)出具身智能的現(xiàn)在與未來(lái)。上海開普勒機(jī)器人有限公司(以下簡(jiǎn)稱"開普勒機(jī)器人")攜明星產(chǎn)品K2"大黃蜂"亮相,并參

    標(biāo)簽:
    GDPS
    2025
  • 弈動(dòng) Dynamic·數(shù)智躍遷 博弈無(wú)界|2025TechWorld智慧安全大會(huì)在京召開

    在數(shù)字化與智能化深度交織的時(shí)代浪潮中,安全的邊界不斷延展,技術(shù)的演進(jìn)正引領(lǐng)產(chǎn)業(yè)邁向新一輪變革。10月24日,以“弈動(dòng)Dynamic·數(shù)智躍遷博弈無(wú)界”為主題的2025TechWorld智慧安全大會(huì)在北京盛大召開。來(lái)自國(guó)家部委、院士學(xué)者、高校科研機(jī)構(gòu)和企業(yè)的權(quán)威專家與業(yè)界精英齊聚北京,共議AI安全、數(shù)

    標(biāo)簽:
    弈動(dòng)
  • 甌江論道:AI賦能綠色發(fā)展

    2025年10月25日,2025世界青年科學(xué)家峰會(huì)之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國(guó)際院士科創(chuàng)中心主辦,中國(guó)投資協(xié)會(huì)能源投資專業(yè)委員會(huì)、溫港院士科創(chuàng)中心承辦,中國(guó)電工技術(shù)學(xué)會(huì)、中科先進(jìn)技術(shù)溫州研究院與溫州市電力工程學(xué)會(huì)提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,

    標(biāo)簽:
    ai技術(shù)
  • AI云“分野”:阿里云們“賣鏟”,火山引擎奇襲“MaaS”

    AI云“分野”:阿里云們“賣鏟”,火山引擎奇襲“MaaS”

    標(biāo)簽:
    阿里巴巴
  • 未來(lái)5年,中國(guó)AI的“大洗牌”和“內(nèi)循環(huán)”

    我覺(jué)得我們AI的目標(biāo)是:從芯片設(shè)計(jì)到軟件生態(tài),全鏈路自主開發(fā),建立可控的世界級(jí)AI體系。所以這是俺對(duì)未來(lái)5年中國(guó)AI圈的展望和判斷。(1)2026年,英偉達(dá)造車、國(guó)產(chǎn)開車26年國(guó)產(chǎn)芯片會(huì)在推理和垂直場(chǎng)景上發(fā)力。以DeepSeek為代表,大多數(shù)AI大模型會(huì)以軟件彌補(bǔ)硬件不足,所以訓(xùn)練和推理分開,訓(xùn)練就