賈強(qiáng)槐：螞蟻大規(guī)模知識(shí)圖譜構(gòu)建及其應(yīng)用

2023-09-08 09:08:41 來(lái)源:DataFunTalk

一、圖譜概覽

首先介紹知識(shí)圖譜的一些基礎(chǔ)概念。

1、什么是知識(shí)圖譜

知識(shí)圖譜旨在利用圖結(jié)構(gòu)建模、識(shí)別和推斷事物之間的復(fù)雜關(guān)聯(lián)關(guān)系和沉淀領(lǐng)域知識(shí)，是實(shí)現(xiàn)認(rèn)知智能的重要基石，已經(jīng)被廣泛應(yīng)用于搜索引擎、智能問(wèn)答、語(yǔ)言語(yǔ)義理解、大數(shù)據(jù)決策分析等眾多領(lǐng)域。

知識(shí)圖譜同時(shí)建模了數(shù)據(jù)之間的語(yǔ)義關(guān)系和結(jié)構(gòu)關(guān)系，結(jié)合深度學(xué)習(xí)技術(shù)可以把這兩者關(guān)系更好得融合和表征。

【資料圖】

2、為什么要建知識(shí)圖譜

我們要建設(shè)知識(shí)圖譜主要是從如下兩點(diǎn)出發(fā)考慮：一方面是螞蟻本身的數(shù)據(jù)來(lái)源背景特點(diǎn)，另一方面是知識(shí)圖譜能帶來(lái)的好處。

[1] 數(shù)據(jù)來(lái)源本身是多元和異構(gòu)的，缺乏一套統(tǒng)一的知識(shí)理解體系。

[2] 知識(shí)圖譜能夠帶來(lái)多個(gè)好處，包括：

語(yǔ)義標(biāo)準(zhǔn)化：利用圖譜構(gòu)建技術(shù)提升實(shí)體、關(guān)系、概念等的標(biāo)準(zhǔn)化和歸一化水平。領(lǐng)域知識(shí)沉淀：基于語(yǔ)義、圖結(jié)構(gòu)實(shí)現(xiàn)知識(shí)表示和互聯(lián)，從而積累豐富的領(lǐng)域知識(shí)。知識(shí)復(fù)用：構(gòu)建高質(zhì)量的螞蟻知識(shí)圖譜，通過(guò)融合、鏈接等服務(wù)多下游，為業(yè)務(wù)降本提效。知識(shí)推理發(fā)現(xiàn)：基于圖譜推理技術(shù)發(fā)現(xiàn)更多長(zhǎng)尾知識(shí)，服務(wù)風(fēng)控、信貸、理賠、商家運(yùn)營(yíng)、營(yíng)銷(xiāo)推薦等場(chǎng)景。3、如何構(gòu)建知識(shí)圖譜的概覽

在構(gòu)建各類(lèi)業(yè)務(wù)知識(shí)圖譜的過(guò)程中，我們沉淀出了一套螞蟻知識(shí)圖譜的通用構(gòu)建范式，主要分為如下五個(gè)部分：

從業(yè)務(wù)數(shù)據(jù)出發(fā)，作為圖譜冷啟動(dòng)的重要數(shù)據(jù)來(lái)源。他域的知識(shí)圖譜同現(xiàn)有圖譜進(jìn)行融合，通過(guò)實(shí)體對(duì)齊的技術(shù)來(lái)實(shí)現(xiàn)。業(yè)務(wù)領(lǐng)域結(jié)構(gòu)化的知識(shí)庫(kù)同現(xiàn)有的知識(shí)圖譜的進(jìn)行融合，也是通過(guò)實(shí)體對(duì)齊的技術(shù)實(shí)現(xiàn)。非結(jié)構(gòu)和半結(jié)構(gòu)化的數(shù)據(jù)，例如文本會(huì)對(duì)其進(jìn)行信息抽取，通過(guò)實(shí)體鏈指技術(shù)實(shí)現(xiàn)對(duì)現(xiàn)有圖譜進(jìn)行更新。領(lǐng)域概念體系和專(zhuān)家規(guī)則的融入，將相關(guān)概念、規(guī)則與現(xiàn)有知識(shí)圖譜進(jìn)行鏈接。

有了通用的構(gòu)建范式后，就需要進(jìn)行體系化的建設(shè)。從兩個(gè)視角來(lái)看螞蟻知識(shí)圖譜的體系化建設(shè)。首先是從算法視角來(lái)看，有各種算法能力，比如知識(shí)推理、知識(shí)匹配等等。從落地視角來(lái)看，自下而上，最下面的基礎(chǔ)依賴(lài)包括圖計(jì)算引擎和認(rèn)知底座計(jì)算；其上是圖譜底座，包括NLP&多模平臺(tái)以及圖譜平臺(tái)；往上是各種圖譜構(gòu)建技術(shù)，基于此我們就可以構(gòu)建螞蟻知識(shí)圖譜；在知識(shí)圖譜的基礎(chǔ)上，我們可以做一些圖譜推理；再往上，我們提供一些通用的算法能力；最上面是業(yè)務(wù)應(yīng)用。

二、圖譜建設(shè)

接下來(lái)分享螞蟻集團(tuán)建設(shè)知識(shí)圖譜的一些核心能力，包括圖譜構(gòu)建、圖譜融合、圖譜認(rèn)知三個(gè)方面。

1、圖譜構(gòu)建

圖譜構(gòu)建的流程主要包括六步：

數(shù)據(jù)源，獲取多元數(shù)據(jù)。知識(shí)建模，將海量數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化的數(shù)據(jù)，從概念、實(shí)體和事件三個(gè)域來(lái)建模。知識(shí)獲取，搭建了知識(shí)加工研發(fā)平臺(tái)。知識(shí)存儲(chǔ)，包括Ha3存儲(chǔ)和圖存儲(chǔ)等。知識(shí)運(yùn)營(yíng)，包括知識(shí)編輯、在線查詢(xún)、抽取等。持續(xù)學(xué)習(xí)，讓模型自動(dòng)地進(jìn)行迭代學(xué)習(xí)。構(gòu)建過(guò)程中的三個(gè)經(jīng)驗(yàn)與技巧融合專(zhuān)家知識(shí)的實(shí)體分類(lèi)

在構(gòu)建知識(shí)圖譜中，需要對(duì)輸入的實(shí)體進(jìn)行分類(lèi)，在螞蟻場(chǎng)景下是一個(gè)大規(guī)模多標(biāo)簽分類(lèi)的任務(wù)。為了融合專(zhuān)家知識(shí)來(lái)進(jìn)行實(shí)體分類(lèi)，主要做如下三點(diǎn)優(yōu)化：

語(yǔ)義信息增強(qiáng)：引入label語(yǔ)義圖表示學(xué)習(xí)的Embedding。對(duì)比學(xué)習(xí)：加入層次label監(jiān)督的對(duì)比。邏輯規(guī)則約束：融入專(zhuān)家先驗(yàn)知識(shí)。領(lǐng)域詞表注入的實(shí)體識(shí)別

在實(shí)體識(shí)別的基礎(chǔ)上，從字詞連邊的圖結(jié)構(gòu)出發(fā)，讓模型學(xué)習(xí)到對(duì)連邊的合理賦權(quán)，對(duì)噪聲詞連邊減小權(quán)重。提出了邊界對(duì)比學(xué)習(xí)和語(yǔ)義對(duì)比學(xué)習(xí)兩個(gè)模塊：

邊界對(duì)比學(xué)習(xí)，用來(lái)解決邊界沖突問(wèn)題。在詞表注入之后，構(gòu)建一個(gè)全連接圖，用GAT來(lái)學(xué)習(xí)每個(gè)token的表征，邊界分類(lèi)正確的部分構(gòu)建一個(gè)正例的圖，錯(cuò)誤的部分構(gòu)建負(fù)例的圖，通過(guò)對(duì)比讓模型學(xué)到每個(gè)token的邊界信息。語(yǔ)義對(duì)比學(xué)習(xí)，用來(lái)解決語(yǔ)義沖突問(wèn)題。借鑒了原型學(xué)習(xí)思想，把label的語(yǔ)義的表征加進(jìn)來(lái)，強(qiáng)化每個(gè)token與label語(yǔ)義之間的關(guān)聯(lián)關(guān)系。邏輯規(guī)則約束的小樣本關(guān)系抽取

在領(lǐng)域問(wèn)題上我們的標(biāo)注樣本很少，會(huì)面臨few-shot或zero-shot的場(chǎng)景，在這種情況下進(jìn)行關(guān)系抽取的核心思想就是引入外部知識(shí)庫(kù)，為了解決語(yǔ)義空間不同導(dǎo)致的性能下降問(wèn)題，設(shè)計(jì)了基于邏輯規(guī)則的推理模塊；為了解決實(shí)體類(lèi)型匹配導(dǎo)致的死記硬背問(wèn)題，設(shè)計(jì)了細(xì)微差異感知模塊。

2、圖譜融合

圖譜融合是指不同業(yè)務(wù)領(lǐng)域下圖譜之間的信息融合。

圖譜融合的好處：

跨業(yè)務(wù)的知識(shí)復(fù)用：基于圖譜本體模型，實(shí)現(xiàn)跨業(yè)務(wù)的知識(shí)連接。減少無(wú)效數(shù)據(jù)拷貝：連接即可應(yīng)用，標(biāo)準(zhǔn)化知識(shí)服務(wù)鏈路。業(yè)務(wù)快速價(jià)值落地：減少業(yè)務(wù)找數(shù)據(jù)的成本，通過(guò)知識(shí)復(fù)用帶來(lái)更大業(yè)務(wù)價(jià)值，降本提效。圖譜融合中的實(shí)體對(duì)齊

知識(shí)圖譜融合過(guò)程中一個(gè)核心技術(shù)點(diǎn)就是實(shí)體對(duì)齊，這里我們采用了SOTA算法BERT-INT，主要包括兩個(gè)模塊，一個(gè)是表示模塊，另一個(gè)是交互模塊。

算法的實(shí)現(xiàn)流程主要包括召回和排序：

召回：在表示模塊，利用標(biāo)題文本的 BERT向量相似度召回。

基于標(biāo)題+屬性+鄰居的排序模型：ü 利用表示模塊，完成對(duì)標(biāo)題、屬性和鄰居的向量表示：

計(jì)算標(biāo)題的cos相似度。分別計(jì)算兩個(gè)實(shí)體的屬性和鄰居集合間的相似度矩陣，并提取一維相似度特征。將三個(gè)特征拼接為特征向量計(jì)算Loss。3、圖譜認(rèn)知

這一部分，主要介紹一下螞蟻內(nèi)部的知識(shí)表示學(xué)習(xí)框架。

螞蟻提出了一個(gè)基于Encoder-Decoder框架的知識(shí)表示學(xué)習(xí)。其中Encoder是一些圖神經(jīng)的學(xué)習(xí)方法，Decoder是一些知識(shí)表示的學(xué)習(xí)，比如鏈接預(yù)測(cè)。這套表示學(xué)習(xí)框架可以自監(jiān)督產(chǎn)出通用的實(shí)體/關(guān)系Embedding，有幾個(gè)好處：1）Embedding Size遠(yuǎn)小于原始特征空間，降低了存儲(chǔ)成本；2）低維向量更稠密，有效緩解數(shù)據(jù)稀疏問(wèn)題；3）同一向量空間學(xué)習(xí)，對(duì)多源異質(zhì)數(shù)據(jù)的融合更自然；4）Embedding具有一定的普適性，方便下游業(yè)務(wù)使用。

三、圖譜應(yīng)用

接下來(lái)分享幾個(gè)在螞蟻集團(tuán)中知識(shí)圖譜的典型應(yīng)用案例。

1、圖譜的場(chǎng)景應(yīng)用模式

在介紹具體案例前，先來(lái)介紹一下螞蟻知識(shí)圖譜場(chǎng)景應(yīng)用的幾種模式，主要包括知識(shí)獲取、知識(shí)管理和推理，以及知識(shí)服務(wù)。如下圖所示。

2、一些典型的案例案例1：基于知識(shí)圖譜的結(jié)構(gòu)化匹配召回

業(yè)務(wù)場(chǎng)景是支付寶主搜里面的小程序的內(nèi)容下掛，要解決的業(yè)務(wù)痛點(diǎn)是：

商品實(shí)體，以及商品上下位關(guān)系匱乏。小程序商品級(jí)理解能力弱。

解決方案是，構(gòu)建了商家知識(shí)圖譜。結(jié)合商家圖譜的商品關(guān)系，實(shí)現(xiàn)對(duì)用戶(hù)query商品級(jí)別的結(jié)構(gòu)化理解。

案例2：用戶(hù)意圖實(shí)時(shí)預(yù)測(cè)在推薦系統(tǒng)應(yīng)用

這一案例是針對(duì)首頁(yè)推薦進(jìn)行用戶(hù)意圖實(shí)時(shí)預(yù)測(cè)，構(gòu)建了AlipayKG，框架如上圖所示。相關(guān)工作也發(fā)表在頂會(huì)www 2023上，可以參考論文做更進(jìn)一步的理解。

案例3：融合知識(shí)表征的營(yíng)銷(xiāo)券推薦

這個(gè)場(chǎng)景是消費(fèi)券推薦的一個(gè)場(chǎng)景，業(yè)務(wù)面臨的痛點(diǎn)為：

頭部效應(yīng)嚴(yán)重。用戶(hù)核銷(xiāo)領(lǐng)取行為稀疏。冷啟動(dòng)用戶(hù)和券很多，缺少對(duì)應(yīng)的足跡數(shù)據(jù)。

為了解決上述問(wèn)題，我們?cè)O(shè)計(jì)了融合動(dòng)態(tài)圖表征的深度向量召回算法。因?yàn)槲覀儼l(fā)現(xiàn)用戶(hù)消費(fèi)券的行為是有周期性的，靜態(tài)的單條邊是無(wú)法建模這種周期性行為的。為此我們首先構(gòu)建了動(dòng)態(tài)圖，接著采用團(tuán)隊(duì)自研的動(dòng)態(tài)圖算法來(lái)學(xué)習(xí)Embedding表征，得到表征之后再放到雙塔模型中去，進(jìn)行向量召回。

案例4：基于診療事件的智能理賠專(zhuān)家規(guī)則推理

最后一個(gè)案例是關(guān)于圖譜規(guī)則推理。以醫(yī)療保險(xiǎn)健康圖譜為例，包括醫(yī)學(xué)知識(shí)、理賠規(guī)則、“人”的健康的信息，進(jìn)行實(shí)體鏈指，再加上邏輯規(guī)則，來(lái)作為決策的依據(jù)。通過(guò)圖譜實(shí)現(xiàn)了專(zhuān)家理賠效率的提升。

四、圖譜與大模型

最后簡(jiǎn)單探討一下在當(dāng)前大模型快速發(fā)展的背景下知識(shí)圖譜的機(jī)遇。

1、知識(shí)圖譜與大模型的關(guān)系

知識(shí)圖譜與大模型各有優(yōu)缺點(diǎn)，大模型的主要有通用知識(shí)建模和普適性等優(yōu)點(diǎn)，而大模型的缺點(diǎn)正好是知識(shí)圖譜的優(yōu)點(diǎn)所能彌補(bǔ)的。圖譜的優(yōu)點(diǎn)包括準(zhǔn)確性很高、可解釋性強(qiáng)等。大模型和知識(shí)圖譜是能夠相互影響的。

圖譜和大模型的融合通常存在三種路線，一種是利用知識(shí)圖譜來(lái)增強(qiáng)大模型；第二種是利用大模型來(lái)增強(qiáng)知識(shí)圖譜；第三種是大模型和知識(shí)圖譜協(xié)同并進(jìn)，優(yōu)勢(shì)互補(bǔ)，大模型可以認(rèn)為是一種參數(shù)化的知識(shí)庫(kù)，知識(shí)圖譜可以認(rèn)為是一種顯示化的知識(shí)庫(kù)。

2、大模型與知識(shí)圖譜相應(yīng)用的案例大模型應(yīng)用于知識(shí)圖譜構(gòu)建

在知識(shí)圖譜構(gòu)建的過(guò)程中，可以利用大模型來(lái)進(jìn)行信息抽取、知識(shí)建模和關(guān)系推理。

如何利用大模型來(lái)應(yīng)用于知識(shí)圖譜的信息抽取

達(dá)摩院的這個(gè)工作將信息抽取問(wèn)題分解成了兩個(gè)階段：

在第一階段，我們想要找到文本中存在的實(shí)體、關(guān)系或者事件類(lèi)型，以減小搜索空間和計(jì)算復(fù)雜度。在第二階段，我們根據(jù)前面抽取的類(lèi)型和給定的對(duì)應(yīng)列表，進(jìn)一步抽取出相關(guān)信息。將知識(shí)圖譜應(yīng)用于大模型

將知識(shí)圖譜應(yīng)用于大模型主要包括三個(gè)方面：

將知識(shí)圖譜整合到大模型輸入中?？梢岳弥R(shí)圖譜來(lái)進(jìn)行數(shù)據(jù)清洗，或利用知識(shí)圖譜直接顯式地進(jìn)行形式化拼接。

將知識(shí)圖譜融合到大模型訓(xùn)練中。比如同時(shí)進(jìn)行兩個(gè)任務(wù)的訓(xùn)練，知識(shí)圖譜可以做知識(shí)表示的任務(wù)，大模型做MLM的預(yù)訓(xùn)練，兩者聯(lián)合建模。

將知識(shí)圖譜注入到大模型推理中。首先可以解決大模型的兩個(gè)問(wèn)題，一是將知識(shí)圖譜作為先驗(yàn)約束，來(lái)避免大模型“胡說(shuō)八道”；第二就是解決大模型時(shí)效性問(wèn)題。另一方面，基于知識(shí)圖譜，可以為大模型生成提供可解釋方案。

知識(shí)增強(qiáng)的問(wèn)答系統(tǒng)

主要包括兩類(lèi)，一塊是知識(shí)圖譜增強(qiáng)的問(wèn)答系統(tǒng)，即用大模型來(lái)優(yōu)化KBQA的模式；另一個(gè)是信息檢索增強(qiáng)，類(lèi)似LangChain、GopherCite、New Bing等用大模型來(lái)做知識(shí)庫(kù)問(wèn)答的形式。

知識(shí)增強(qiáng)的生成式搜索問(wèn)答系統(tǒng)，有如下優(yōu)勢(shì)：

通過(guò)接入搜索系統(tǒng)，解決時(shí)效性問(wèn)題。通過(guò)提供Reference鏈接，可以進(jìn)行人工核查，以解決事實(shí)性錯(cuò)誤問(wèn)題。引入搜索結(jié)果，豐富上下文，增強(qiáng)大模型生成效果。3、總結(jié)與展望

知識(shí)圖譜與大模型如何更好地交互協(xié)同共進(jìn)，包括如下三個(gè)方向：

推進(jìn)知識(shí)圖譜和大模型在NLP、問(wèn)答系統(tǒng)等領(lǐng)域的深入應(yīng)用。使用知識(shí)圖譜進(jìn)行大模型的幻覺(jué)檢測(cè)和去毒。結(jié)合知識(shí)圖譜的領(lǐng)域大模型研發(fā)。

關(guān)鍵詞：

月度熱點(diǎn)

關(guān)于我們 | 聯(lián)系方式 | 版權(quán)聲明 | 招聘信息
技術(shù)支持：廣州中創(chuàng)互聯(lián)網(wǎng)信息服務(wù)有限公司備案號(hào)：粵ICP備2022077823號(hào)-3 聯(lián)系郵箱：317 493 128 @qq.com

99视频精品,69式视频www免费视频,亚洲?成人?综合?另类?小说,最近最新中文字幕完整版免费高清 ,亚洲精品一区二区三区中文字幕

賈強(qiáng)槐：螞蟻大規(guī)模知識(shí)圖譜構(gòu)建及其應(yīng)用

相關(guān)新聞

最新資訊

月度熱點(diǎn)