日前,由江蘇省支付清算服務協會、山東省支付清算協會支持的2022金融科技創新發展論壇在遵義成功召開。易道博識CTO康鐵鋼先生受邀參會,與來自銀行、保險、證券等行業的100余位行業專家,分享以數據驅動模型,可訓練、可現場應用的賽博深度學習平臺在行業中的應用創新。
行業痛點繁多,長尾憑證痛點難除
隨著金融業務的發展,越來越多的業務線中涉及的紙質憑證影像需要用到OCR自動處理,來進一步提升業務辦理的效率。從企業內部的數據類型來看,這些憑證影像按照格式可以分為兩類:一類是固定格式的憑證(戶口本、港澳臺身份證、外國人永久居留證等),占整體90%以上;一類是非固定格式的憑證(銀行流水等)。這些憑證存在以下特點:
1、種類多:行內在各個業務受理過程中涉及到的憑證都在百種以上,甚至多達幾百種;
2、更新頻繁:不少憑證會隨著業務需求或者監管制度的變化而調整格式;
3、長尾憑證“雞肋”:存在很多使用頻率低,但總體數量大的憑證,這些憑證單獨采購識別的價值不大但又無法解決;
4、數據安全:大多數情況下,隱私數據是無法對外的,如何在這種情況下做模型訓練是客觀需要面對的問題;
基于此類特點,對憑證的OCR識別工作就特別復雜。目前針對與此的解決方案都各有缺陷:要么持續投入高,需要廠商就每一種憑證進行定制化開發,要么需要采購廠商底層能力,而且需要OCR專家團隊的支持,投入成本更高。因此,行業迫切需要一個能夠減少后續投入,自主可控的解決方案。
自我數據閉環,賽博自成有機整體
賽博學習平臺是易道博識基于深度學習自主研發的一站式機器學習訓練平臺。賽博平臺集數據管理、數據標注、模型訓練和模型應用于一身,提供及時、現場化的數據驅動模型應用解決方案。
論壇上,易道博識CTO康鐵鋼介紹道:“賽博平臺充分利用了現有的經過長期迭代的基礎模型能力,包括圖像、OCR和NLP等,在少量樣本的驅動下,利用遷移學習和小樣本學習等技術,高效地完成增量模型的訓練,生成最優的模型文件,并通過推理平臺來實現模型的快速部署與生產應用。”
產品組成上,賽博平臺由管理中心CyberCenter、數據標注平臺 CyberData、深度學習訓練平臺 CyberLearning和深度學習推理平臺 CyberServing幾個子平臺組成,各子平臺依次承擔平臺管理、數據管理與標注、模型訓練和模型服務的功能,各個子平臺之間相互獨立又有效配合,形成一個有機整體,從而有效支撐數據驅動模型應用的整體功能。
數據標注平臺 CyberData
數據平臺主要功能包括數據管理、數據處理、樣本擴充、數據標注與采集。數據平臺內置exLabeler標注客戶端,提供強大專業的CV、OCR、結構化和NLP任務標注功能。同時,數據平臺還支持單人和團隊標注模式。
用戶可以通過exLabeler客戶端完成樣本的標注。exLabeler支持CV、OCR、結構化和NLP等領域算法的標注。標注完成的數據集可以直接用于模型訓練,或進一步做后處理(如圖像處理、樣本擴充等),然后再用于模型訓練。
數據標注平臺 CyberData工作流程
深度學習訓練平臺 CyberLearning
訓練平臺通過自身對于訓練資源池的集中管理與分配,以及與管理平臺的無縫對接,可以方便地實現訓練基礎設施的管理,從而減輕用戶的管理維護工作。同時,利用自動超參搜索等技術,訓練平臺可以自動搜索到最佳性能的模型。
通過分布式訓練與多框架支持,訓練平臺可以最大化利用計算資源,加速模型訓練。同時,利用自動超參搜索等技術,訓練平臺可以自動搜索到最佳性能的模型。最后,對于訓練所得的最優模型,訓練平臺支持一鍵部署到推理平臺,實現模型的快速應用。
深度學習訓練平臺 CyberLearning工作流程
深度學習推理平臺 CyberServing
推理平臺主要完成各種識別功能的部署。業務系統通過調用推理平臺提供的RESTful API提交圖像并獲得識別結果。整體上講,推理平臺產品需求可分解為模型管理、API過程定義、識別數據查看,接口統計和其它非功能項等部分。其中模型管理和API管理模塊屬于基礎核心模塊。
推理平臺對同一模型不同版本的管理,并支持在模型服務中同時加載和運行多個版本的模型。推理平臺還支持一個API綁定多個模型服務。模型升級時,用戶可以選擇先在部分服務中激活新版本的模型,完成測試驗證后再升級其他服務。
深度學習推理平臺 CyberServing工作流程
值得一提的是,賽博平臺打造了數據驅動模型應用的閉環。推理平臺支持對于自身所產生的生產數據根據不同的條件進行自動采集的功能,采集后的數據可以方便地導入標注平臺,形成數據集,并支持進一步的數據處理與標注。標注完成的數據集可以用于模型的訓練調優,從而得到性能更佳的模型,用于更新推理平臺生產模型,從而形成一個完整的數據閉環。
《國民經濟和社會發展第十四個五年規劃和2035年遠景目標綱要》提出加快數字化發展,人民銀行《金融科技發展規劃(2022-2025)》中明確了“十四五”期間行業金融科技發展、數字化轉型目標,要從治理體系、業務創新、技術和數據能力建設、風險防范等多維度提出重點任務,推動行業數字化轉型落地實施。
如今,AI產業正逐步進入低技術門檻、低部署成本、各產業深度參與雙向共建的效率化生產階段。而作為支撐AI模型開發及落地的資源型平臺,賽博平臺可在多方面提升AI技術的價值釋放。從總體上看,賽博平臺可提供較為前沿的技術、符合業務場景的模型生產經驗以及打包的數據與算法資源。
“具體而言,一方面,賽博平臺一定程度上解決了規模化多場景的業務不斷衍生出的長尾需求。另一方面,平臺采用自動機器學習技術,很大程度上降低了機器學習的編程工作量、節約了AI 開發時間、減輕了對專業數據科學家與算法工程師的依賴,讓缺乏機器學習經驗的開發者用上AI,加快了開發效率”。
“我們通過產品和服務來獲得行業認可。我們認真服務每一個客戶,認真解決客戶問題。”康鐵鋼說道:“我們會專注于人工智能領域,致力于人工智能領域的理論研究與應用開發,不斷創新,為企業降本增效,通過人工智能提升社會的運行效率。”