從微信AI首席顧問到金融文檔智能,一位中科院計算機科學傢AI產品化實踐

援交
外送茶
魚訊
外約
外送茶
技術在誕生、研發到應用各階段目標和工作方式有所不同。在中科院計算所副研究員、博導羅平教授看來,學術研究是在茫茫林海中有目的地尋找,有時候一無所獲,有時候能在千萬次試錯後發現一整片綠洲。但也僅止步於此,如何挖掘風景的商業價值和掩藏的寶藏則由產業界接手。相較而言,實際應用可能會耗費更多的人力和工程量。“若劃分個百分比,前期研究是20%,應用是80%。”羅平教授的主要研究領域是機器學習與數據挖掘,以及大數據下的實際新型應用。除瞭這重學術身份外,他還曾就職於惠普研究院研究員,現在是微信人工智能首席科學顧問。 此外,在近期由中國計算機學會(CCF)主辦,雷鋒網(公眾號:雷鋒網)和香港中文大學(深圳)承辦的第二屆CCF-GAIR全球人工智能與機器人峰會上,羅平教授為觀眾分享瞭一項他目前的研究項目——庖丁解文,即用AI來撰寫和復核投行金融文檔,已經對外開放使用。他對雷鋒網表示,

“我的研究思路是紮根某一領域,比如金融,並探索一些實際問題,再從實際問題出發抽象出研究點。實際問題可能隻是一個‘點’,抽象出來後形成多個不同的點。”

羅平教授舉瞭一個實例,在 Data Mining 領域有一個問題叫 Lock Step Behavior Mining,就是“挖掘同步行為”。之前他們與上交所的一個合作項目,就是通過所有用戶交易數據來監控一種典型的市場違規行為——老鼠倉。具體指莊傢在用公有資金拉升股價之前,先用自己個人(機構負責人,操盤手及其親屬,關系戶)的資金在低位建倉,待用公有資金拉升到高位後個人倉位率先賣出獲利。“如果兩個賬戶中,一個大的基金賬戶和小散戶經常在相近時間買賣同一隻股票,那麼就是一種異常信號。這是可以通過大數據挖掘出來的。然後,我們開始思考能否將這研究拓展到其他場景。後來我們發現這可以應用到,比如清理社交平臺上的僵屍粉,或者識別豆瓣電影的水軍。因為僵屍粉和水軍之間存在大量的同步行為”掘金產業界基於這樣的研究思路,羅平教授開始關註產業界的應用。他正在挖掘的“金礦”有二,一是庖丁解文,二是 Chatbot 平臺。庖丁解文——自動結構化金融文檔金融場景中存在大量的非結構化文本數據,大多數金融從業者都是在做繁重重復且低技術含量的文檔撰寫和核查工作,而且目前很多是純手工作業,難免出現低級錯誤。這些錯誤將可能帶來很高的風險,導致金融機構面臨聲譽和經濟損失,甚至承擔訴訟的連帶責任。例如高盛曾於2011年因為四隻認股權證定價算式出錯,從而賠償4500萬美元;去年,郵儲銀行公告出現烏龍,稱郵政銀行負債8億億等。針對這些痛點,羅平教授團隊希望用技術和機器來幫助他們。

“我們現在所做的事是,對金融文檔進行自動結構化,幹凈利落得獲得金融文檔中的語義信息。古有庖丁解牛,我們這是庖丁解文。”

產品名為AutoDoc,現在支持金融文檔中數據勾稽關系的復核和筆誤修改,後續會逐步增加自動撰寫、智能分析功能。羅平教授簡單地描述瞭一番應用流程,“使用起來很簡單,用戶隻需上傳需要復核的金融文檔,經過自動解析和比對,機器會自動標註出數據不一致的地方。”如上圖所示,根據文檔中的表格數據,機器可自動計算出“2016年主營收入較2015年下降的比例”應該為“12.43%”,但文字中的顯示為“11.29%”。

“其實,投行和律所的工作人員長時間的都在幹這些數字復核的事情。然而,這些文檔通常都是好幾百頁,復核的過程很“反人性”。現在,這些工作都可以交給AI自動完成瞭。”

那麼背後的核心技術是什麼?羅平教授告訴雷鋒網,復核就是復核文章各種數字之間的勾稽關系。背後涉及到從非結構化的文檔中自動提取出對應語義的元組和公式。據介紹,他們研發的深度結構化技術包含兩個層面:第一個層面是 Text2Tuple,從文本到元組。元組是時間、財務指標、值的三元組,比如說:2013、2014、2015年第一大客戶的營業額分別是多少錢,需要提取出來。第二個層面是 Text2Equ。他們需要把文本中的比例數字,如60%、58%、55%,解釋為語義相同的計算公式;同時文中還提到“呈現逐漸下降的趨勢”,所以也要提取出這個不等式的關系。

“我們研發的模型,輸入非結構化或半結構化的文本,可輸出可供計算機搜索、比對、分析的結構化的數據。這其實是自動構建知識圖譜的核心技術。有瞭知識圖譜,後續可以支撐很多應用。”

不過由於產品還處於早期階段,為瞭方便用戶使用,目前復核重點是數字,後期有關人名、事件表述也會增加;對於數據勾稽關系的確認還未涉及外部公開數據,僅是check上傳文檔的數字一致性。雖然AutoDoc功能簡單,但是表現不俗。據瞭解,他們對1000對個公開的債券募集說明書進行測試,發現有68.92%的文檔存在數據不一致錯誤,每篇出錯文檔平均包含4.26個錯誤。後來在4月份將該功能發佈在微信公眾號 “債有主”上。截至七月,用戶上傳近1000份文檔,其中98.4%的文檔存在錯誤,每篇出錯文檔平均有6.5個錯誤。

“從非結構文檔提出結構化的準確率,已過95%。”羅平教授說。

Chatbot——信息知識獲取平臺羅平教授在微信的研究工作圍繞自然語言處理微信公眾號及展開。目前,公眾號已成為人們獲取信息和知識的一個重要平臺。面對這些海量的非結構化文章和數據,他們思考如何提供是幫助用戶搜索找到更精準的問題答案。

“現在的搜索隻能給出一些大致的答案,我們希望對公眾號文章做深入語義獲取。這樣,用戶在微信中搜索一個具體問題時,比如如何修輪胎、做飯等,會呈現出圖文並茂的指導。”

在今年6月CCF舉辦的學術報告會上,他將信息和知識獲取平臺劃分為三種類型——“搜索引擎”、“問答系統”和“Bot平臺”。這些平臺,在交互方式、處理數據方式、數據擁有者在系統內的角色三方面都存在不同。前兩類采用統一入口,索引關鍵詞或完整問題,數據/知識擁有者參與程度不高;而Bot平臺采用單獨入口和自然語言交互技術,融合領域數據和模型,並不斷迭代,數據擁有者納入商業體系,有較強的精耕細作動力,能生產出高價值內容。

“就現階段而言,精準搜索還未實現,我們還在持續研究中。”

“征信領域,數據為王”隨著AI技術的大熱,一大批創業公司如雨後春筍般冒出來,如何在同質化競爭中占據高地?作為一位有著技術產品化實踐的計算機學傢,羅平教授表示,技術可能並非護城河,競爭的真正壁壘在於數據、用戶、場景和先發優勢。

“可能是因為我對於技術非常熟悉,從我的角度而言,一個公司的成功不是靠一項獨一無二的技術,技術門檻並非那麼高不可攀。”

此外,關於金融領域弱特征大數據,強特征小數據之爭常有見報。對此,羅平教授認為,在征信場景中,由於強特征人群覆蓋不全,面對日益旺盛的信貸需求,大數據自然有其用武之地。

“特別在征信領域,數據為王,算法靠後。”

同時他也指出,人群特征有一個關鍵概念——關聯,關聯是指很多事情偶然地同時出現,但開發者可能將它們也作為“有錢人”的特征挖掘出來,從而很可能導致風險發生。關聯性並不等於因果關系,有因果關系的大數據才能真正起到作用。“正如一些真正賺錢的基金經理,在對金融市場的認知基礎上,他們構建出一套可能隻有一兩個特征的邏輯,並能基於這些簡單的邏輯悶聲發大財。” 雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

source:https://www.leiphone.com/news/201708/fAHR6vOEQ8G0Cse3.html