?證監(jiān)會金融科技中心攜手庖丁科技賦能資本市場前線監(jiān)管
用技術(shù)為監(jiān)管助力,庖丁科技走在前列!
近期,庖丁科技中標(biāo)證券期貨業(yè)金融科技研究發(fā)展中心(深圳)(以下簡稱“深交所”)——“證券文本信息抽取技術(shù)研究”項目,以證券市場文本信息為對象,研究利用自然語言處理技術(shù),從披露公告中抽取指定的文本信息,并且滿足具有一定技術(shù)性能指標(biāo)要求的課題。


資本市場上,信息披露作為法規(guī),通常要求信息披露義務(wù)人“應(yīng)當(dāng)真實、準(zhǔn)確、完整、及時地披露信息”。我國上市公司信息披露的內(nèi)容大體可分為三類:證券發(fā)行文件、定期報告和臨時報告。
上市公司的公告信息披露必須在指定信息披露網(wǎng)站發(fā)布,主要為PDF格式。以深市上市公司為例,2016年全年共披露265985篇公告,2017年共披露291607篇,隨著上市公司數(shù)量日益增多,這一數(shù)字也會逐年增加,不但為深交所的合規(guī)檢查帶來壓力,也給投資者帶來極大的信息負(fù)載。如何將海量公告更有效、更高效地讓閱讀人“讀薄”?其中通過自然語言處理、深度學(xué)習(xí)等技術(shù)將公告信息結(jié)構(gòu)化提取成為關(guān)鍵所在。
正因如此,庖丁科技正在持續(xù)而堅定地推進該項工作。他們首先通過卷積神經(jīng)網(wǎng)絡(luò)對公告中的段落表格等信息進行分割抽取。為了適應(yīng)樣本數(shù)量稀少的問題,他們還提出了一種輕量級的機器學(xué)習(xí)方法。該方法能夠高效地將不同類別公告的關(guān)鍵語句抽取出來,并使之具有在線學(xué)習(xí)的能力,抽取過程僅需公告制作業(yè)務(wù)專家對少量公告進行標(biāo)注,即可達(dá)到可用效果。關(guān)鍵語句抽取后,再通過LSTM神經(jīng)網(wǎng)絡(luò)進行細(xì)粒度提取,從而將公告結(jié)構(gòu)化。目前,庖丁科技對并購重組公告的結(jié)構(gòu)化抽取的工作已取得較為理想的結(jié)果,提升了深交所監(jiān)管工作的效率。這項工作的探索不僅為擴展更多公告類型奠定基礎(chǔ),也為其他類型文本處理帶來了寶貴經(jīng)驗。
利用非結(jié)構(gòu)化信息抽取技術(shù),我們能夠把隱藏在海量公開公告中企業(yè)與企業(yè)、企業(yè)與個人關(guān)系進行深度挖掘,并且透視、洞察企業(yè)的價值及風(fēng)險。作為國內(nèi)擁有世界領(lǐng)先的金融文本信息抽取技術(shù)、有能力利用深度學(xué)習(xí)和金融知識庫進行高精度的結(jié)構(gòu)化信息提取的先進團體,庖丁科技將繼續(xù)全力服務(wù)金融行業(yè),助力金融機構(gòu)進一步提升服務(wù)實體經(jīng)濟的能力。
庖丁科技是一家以人工智能技術(shù)為核心的金融科技行業(yè)探路者,致力于將國際最前沿的深度學(xué)習(xí)(DeepLearning)、自然語言處理(NaturalLanguage Processing)、富格式數(shù)據(jù)(RichlyFormattedData)解析等技術(shù)與金融各垂直領(lǐng)域?qū)I(yè)知識進行深度融合,幫助傳統(tǒng)金融行業(yè)打造新一代核心競爭力。庖丁科技專注于做一家人工智能領(lǐng)域的長青企業(yè),從大處著眼,以小處入手,努力成為中國領(lǐng)先的新一代金融數(shù)據(jù)提供商和新一代智能金融服務(wù)商。
風(fēng)險提示:
本網(wǎng)站內(nèi)用戶發(fā)表的所有信息(包括但不限于文字、視頻、音頻、數(shù)據(jù)及圖表)僅代表個人觀點,僅供參考,與本網(wǎng)站立場無關(guān),不構(gòu)成任何投資建議,市場有風(fēng)險,選擇需謹(jǐn)慎,據(jù)此操作風(fēng)險自擔(dān)。
版權(quán)聲明:
此文為原作者或媒體授權(quán)發(fā)表于野馬財經(jīng)網(wǎng),且已標(biāo)注作者及來源。如需轉(zhuǎn)載,請聯(lián)系原作者或媒體獲取授權(quán)。
本網(wǎng)站轉(zhuǎn)載的屬于第三方的信息,并不代表本網(wǎng)站觀點及對其真實性負(fù)責(zé)。如其他媒體、網(wǎng)站或個人擅自轉(zhuǎn)載使用,請自負(fù)相關(guān)法律責(zé)任。如對本文內(nèi)容有異議,請聯(lián)系:contact@yemamedia.com

野馬商業(yè)實驗室
京公網(wǎng)安備 11011402012004號