業(yè)界首個!快手提出億級別多模態(tài)短視頻百科體系——快知(Kuaipedia)
引言 當(dāng)前,越來越多的短視頻用戶不僅希望利用碎片化的時間來休閑娛樂,也開始希望能夠在短視頻平臺中獲取更多知識。2021年,快手泛知識內(nèi)容播放量同比增長58.11%,平臺全年有超過3300萬場泛知識直播 [1]。為了更好地理解和組織泛知識視頻,快手MMU聯(lián)合哈爾濱工業(yè)大學(xué)等提出業(yè)界首個多模態(tài)短視頻百科——“快知(Kuaipedia)”:通過多模態(tài)和知識圖譜技術(shù)從海量短視頻中挖掘大規(guī)模高質(zhì)量的知識視
2022-11-07 19:11:42
來源:快手??

引言

當(dāng)前,越來越多的短視頻用戶不僅希望利用碎片化的時間來休閑娛樂,也開始希望能夠在短視頻平臺中獲取更多知識。2021年,快手泛知識內(nèi)容播放量同比增長58.11%,平臺全年有超過3300萬場泛知識直播 [1]。為了更好地理解和組織泛知識視頻,快手MMU聯(lián)合哈爾濱工業(yè)大學(xué)等提出業(yè)界首個多模態(tài)短視頻百科——“快知(Kuaipedia)”:通過多模態(tài)和知識圖譜技術(shù)從海量短視頻中挖掘大規(guī)模高質(zhì)量的知識視頻,并將其結(jié)構(gòu)化,形成體系化的短視頻百科知識庫,為用戶提供更好的知識獲取體驗,同時激發(fā)創(chuàng)作者創(chuàng)造優(yōu)質(zhì)知識內(nèi)容,構(gòu)建良性的知識分享生態(tài)。

 
●    論文鏈接:https://arxiv.org/abs/2211.00732
●    項目主頁:https://github.com/Kuaipedia/Kuaipedia

團隊從快手海量短視頻中挖掘出億級別知識類視頻,并對其進行了結(jié)構(gòu)化,構(gòu)建了千萬級詞條和知識點視頻百科體系?!翱熘↘uaipedia)”的提出有助于學(xué)界推動AI通過多模態(tài)信息理解世界知識,且在產(chǎn)業(yè)界落地有較大想象空間。

介紹

百科全書(Encyclopedia),可以追溯到希臘和羅馬,也是17-18世紀(jì)法國啟蒙運動的一個杰出的成果。知識百科通常是指一個是概要介紹人類全部知識或某一特定領(lǐng)域或?qū)W科的工具書或綱要,在互聯(lián)網(wǎng)急速發(fā)展的當(dāng)下,網(wǎng)絡(luò)百科成為知識新的載體,如維基百科、百度百科等。但這些百科通常以圖文、表格為載體,比較難以表達一些需要生動演示的知識,比如教程(How-to)類知識。圖一展示了使用圖文講述 “柴犬”-“怎么畫” 這一知識的困境。而通過短視頻,我們能夠很好地對這些知識進行一個闡釋和學(xué)習(xí)。

具體視頻見https://www.gifshow.com/fw/photo/3xhcmzgr9fq492m。

 

圖一:圖文在how-to類知識上知識傳遞的困境,圖文來自短視頻的幀截圖

隨著內(nèi)容行業(yè)和媒體形態(tài)的不斷迭代,短視頻已經(jīng)越來越成為知識傳播者的主要媒介,尤其是在一些技能和特長類的知識傳播,天然就有它的一些優(yōu)勢。而在當(dāng)下,盡管有公開的網(wǎng)絡(luò)百科中有視頻的內(nèi)容,但通常是偏簡介形式(如秒懂百科),沒有將短視頻最大程度的進行利用,因此短視頻在知識百科中的表達能力被嚴(yán)重低估。比如當(dāng)人們講到“柴犬”,人們除了“簡介” 以外,還關(guān)注“怎么挑”、“怎么梳毛”、“怎么糾正護食”等。因此我們認為將知識類的短視頻結(jié)構(gòu)化,構(gòu)成結(jié)構(gòu)化的短視頻百科是一條理解世界知識、幫助人類以更高效率傳播知識的有效途徑。
參考國家標(biāo)準(zhǔn) [2] ,我們將事實(What)、原理(Why)類知識歸結(jié)為科普知識,技能(How)類歸結(jié)為教程知識,在快手海量的視頻中挖掘出高質(zhì)的知識視頻。此外,我們將短視頻中抽取的知識主體以詞條形式呈現(xiàn)(如柴犬),并抽取視頻中講解的該詞條具體的知識點(如柴犬-挑選、柴犬-護食糾正等),最終構(gòu)成了一個短視頻的百科知識體系,如圖二所示。

 

圖二:快知——多模態(tài)短視頻百科概覽

“快知(Kuaipedia)”的提出有以下幾個貢獻:

1.    “快知”的定義:我們開創(chuàng)性地定義了一個全新的多模態(tài)知識百科庫,以詞條、知識點、知識類短視頻以及它們間的關(guān)系共同構(gòu)成。這是業(yè)界首個結(jié)構(gòu)化的多模態(tài)短視頻百科。

2.    構(gòu)建大規(guī)模短視頻百科的方法:我們提出使用知識視頻識別、詞條知識點挖掘、多模態(tài)知識鏈接的組合來構(gòu)建大規(guī)模的短視頻百科。并開創(chuàng)性提出“多模態(tài)知識鏈接”任務(wù),作為傳統(tǒng)實體鏈接的一個外延和擴展。

3.    富有潛力和想象空間的應(yīng)用:在學(xué)術(shù)上,“快知”以嶄新的知識點短視頻化組織形式,能夠突破目前機器僅靠圖文知識圖譜(KG)理解世界知識的上限,在KG的一些下游任務(wù)如實體鏈接、實體分類,或者NLP、CV等內(nèi)容理解下游任務(wù)上,有非常大的潛力。在產(chǎn)業(yè)界,“快知”這樣的形式能夠助力短視頻平臺進行高效地運營、組織內(nèi)容,提升用戶對知識的理解與消費效率。

技術(shù)概覽

為了實現(xiàn)上述的短視頻百科結(jié)構(gòu)化,核心技術(shù)包括以下三個主要步驟,如圖三所示。

1.    知識視頻識別:通過多模態(tài)視頻預(yù)訓(xùn)練模型,理解并識別海量視頻中知識類視頻;

2.    詞條和知識點挖掘:通過多源知識庫融合“自頂向下”構(gòu)建詞條體系,再通過對用戶搜索query挖掘“自底向上”構(gòu)建詞條與知識點關(guān)系,形成詞條知識點樹;

3.    多模態(tài)知識鏈接:創(chuàng)新性地擴展傳統(tǒng)“實體鏈接”任務(wù),提出通過多模態(tài)內(nèi)容理解技術(shù)將視頻鏈接到詞條(如柴犬)的某一個知識點(如護食糾正)上的“多模態(tài)知識鏈接”任務(wù)。


 

圖三:快知構(gòu)建技術(shù)鏈路

通過大量詳實的人工評測,快知所挖掘的知識點與視頻已具備較高的準(zhǔn)確率和質(zhì)量。更詳細的算法和實驗數(shù)據(jù)具體參見論文或者我們的Github主頁(見文章開頭)。

應(yīng)用

首先,“快知(Kuaipedia)”這樣的多模態(tài)短視頻百科體系,在學(xué)術(shù)界對于推動AI理解世界知識的技術(shù)發(fā)展有極大的潛力。一方面,“快知”突破圖文和表格的局限,通過更豐富的知識點和短視頻來描述某一個實體或者概念,這種方式能夠推動多模態(tài)知識圖譜技術(shù)的發(fā)展。另一方面,這些知識點和短視頻有助于AI更好地理解世界知識,尤其是一些圖文難表述的 How-to 類知識,這種多模態(tài)知識能夠增強AI對世界的理解,對KG、NLP、CV等領(lǐng)域的下游應(yīng)用都很有幫助。我們在CCKS實體鏈指的任務(wù)上,證明“快知”多模態(tài)知識的簡單引入就能有效提升BERT在實體鏈接和在實體分類上的性能。

此外,“快知”在產(chǎn)業(yè)落地極具想象力,在短視頻生態(tài)向“泛知識”拓展的過程中,現(xiàn)有的形式約束了其傳播方式,“快知”通過結(jié)構(gòu)化的內(nèi)容,能提升平臺的運營和分發(fā)效率,更好地滿足用戶的求知訴求。我們將該項技術(shù)首先在健康垂類進行了落地嘗試,快手健康團隊此前以病種為組織維度,純?nèi)斯ね诰蛄艘慌鷥?yōu)質(zhì)PUGC內(nèi)容,但是存在疾病知識體系不完善、權(quán)威性知識視頻量級小等痛點,難以高效率構(gòu)建完整、大規(guī)模、結(jié)構(gòu)化的疾病視頻體系。利用“快知”的技術(shù)后,自動化地挖掘出了一批高質(zhì)量、有快手特色的知識點和知識視頻,豐富了疾病類內(nèi)容,比純?nèi)斯?gòu)建提效幾十倍。目前這批內(nèi)容已經(jīng)在快手App精選頁上線:點擊精選視頻流中某個疾病類視頻的「底部通欄」,喚起「快手健康」半屏頁,用戶可以消費該視頻所屬詞條下的相關(guān)知識點和相關(guān)知識視頻,如圖四所示。

 

圖四:快知在健康場景落地

除健康外,“快知”還覆蓋了教育、美食、三農(nóng)、親子、法律、科技、金融等眾多領(lǐng)域的知識內(nèi)容,有著較大的應(yīng)用潛力。

結(jié)語

面對泛知識類內(nèi)容在短視頻行業(yè)的發(fā)展前景,我們提出了“快知(Kuaipedia)”多模態(tài)短視頻百科體系,從存量的海量短視頻內(nèi)容入手,通過多模態(tài)知識圖譜構(gòu)建技術(shù)挖掘出億級別高質(zhì)量的知識視頻,并將知識內(nèi)容結(jié)構(gòu)化,構(gòu)建業(yè)界首個大規(guī)模體系化的短視頻百科知識庫,其在學(xué)術(shù)界和產(chǎn)業(yè)界有較大的潛力和想象空間。

最新文章
1
快手發(fā)布2026春節(jié)招商通案,攜品牌共赴“玩逛看聚購”盛宴
2
觀看量破億 互動超1.2億 快手直播“超級大舞臺·百城大戰(zhàn)”總決賽引爆全民狂歡 
3
快手啟動“AI靈境計劃”:投入千萬現(xiàn)金與億級流量,全周期扶持AI創(chuàng)作者
4
快手捐贈500萬港元支援香港火災(zāi)救援及災(zāi)后恢復(fù)
5
首款夸克AI眼鏡上市,阿里再次沖擊智能硬件賽道
6
家電行業(yè)如何突破存量困境,高品質(zhì)、高價值才是關(guān)鍵
7
雙11中國電視市場銷量同比大幅下降22%,面板價格保持穩(wěn)定
8
市場階段性觸頂,電動牙刷如何撬動新增長?
9
天璣座艙 S1 Ultra算力全面躍級!深藍 L06首搭聯(lián)發(fā)科3nm旗艦車芯
10
雙11國內(nèi)手機銷量:蘋果暴增37% 小米、華為分別下滑11%、22%
11
一加Ace 6T首發(fā)8300mAh冰川電池:電池最大的性能旗艦
12
雙11“帶不動”彩電業(yè),75吋大屏增長見頂,機會還剩這三個?
13
1999起 華為全新暢享70X開售:麒麟芯片、一鍵發(fā)送北斗消息
14
惠普為何要裁員超4000人?AI可替代人工,存儲芯片價格大漲
15
海信空調(diào)引領(lǐng)智能家電“新國標(biāo)”制定  定義智慧健康好空氣
16
解碼三星OLED電視:技術(shù)圍繞需求來,創(chuàng)新跟著用戶走
17
HUAWEI Mate X7正式發(fā)布,折疊引領(lǐng)者,巔峰之上再突破
18
每百戶家庭平均擁有彩電108.7臺,電視行業(yè)進入存量時代
19
iPhone 17系列賣爆 蘋果將超越三星成為行業(yè)第一
20
挑戰(zhàn)漠河極寒!米家空調(diào)冬測開啟:涵蓋掛機、柜機等
關(guān)于我們

微信掃一掃,加關(guān)注

商務(wù)合作
  • QQ:61149512