您當前的位置是:  首頁 > 資訊 > 國內(nèi) >
 首頁 > 資訊 > 國內(nèi) >

億迅AI智能視頻雙錄解決方案

2020-11-23 15:18:36   作者:   來源:CTI論壇   評論:0  點擊:


  1.概述
  1.1項目背景
  隨著5G網(wǎng)絡的快速建設、AI智能技術和視頻通訊技術的快速發(fā)展,多種技術融合帶來新的解決方案,服務與更多的金融業(yè)務場景。本方案借助微信小程序視頻平臺,與AI智能雙錄平臺實現(xiàn)無縫融合,實現(xiàn)AI虛擬機器人智能雙錄系統(tǒng),提高用戶體驗、降低人工成本。
  1.2方案概述
  本方案采用AI智能技術、虛擬人技術、視頻通訊技術的無縫融合,提供AI智能虛擬人雙錄解決方案,通過4G/5G通訊鏈路服務于車貸用戶。
  1) ASR語音識別技術:通過ASR識別用戶回答的問題;
  2) TTS文本轉語音技術:通過TTS播報業(yè)務流程話術;
  3) 業(yè)務流程配置管理:可動態(tài)配置業(yè)務流程,相關業(yè)務中話術的參數(shù)自定義等;
  4) 視頻客服通訊平臺:提供實時的雙向視頻交互服務能力平臺、虛擬人視頻技術、實時雙錄功能;
  5) 虛擬人與視頻客服平臺融合技術:虛擬人與用戶進行視頻的技術融合,虛擬人音話同步,提供真實的用戶體驗;
  6) 微信小程序接入網(wǎng)關:提供微信小程序視頻與視頻客服平臺通訊接入能力;
  7) 人臉識別技術:實時識別用戶人臉,保證業(yè)務辦理過程中為用戶本人單獨辦理;
  8) 微信小程序SDK:提供Highlevel的SDKAPI,簡單易用的與小程序快速集成;
  9) 業(yè)務流程管理:智能業(yè)務流程管理,根據(jù)業(yè)務場景
  1.3 技術架構圖
  2. 需求分析
  2.1. 業(yè)務場景描述
  用戶通過微信小程序辦理車貸業(yè)務視頻審核錄制,接通AI視頻客服后,通過人臉識別技術進行身份核實,通過TTS技術與ASR技術的整合,回答審核過程中的問題,直到業(yè)務辦理完成。業(yè)務辦理過程全程錄音、錄像,并保留業(yè)務辦理數(shù)據(jù),提交業(yè)務系統(tǒng)進行人工審核或智能審核。
  2.2. 關鍵功能
  • 人臉識別,當用戶人臉與辦單用戶人臉不一致時,提示用戶非本人(照片1:1比對,比對源由小程序提供)
  • 人臉確認,當用戶人臉不在畫面中時提示用戶需保持人臉在畫面中央(照片1:1比對功能,確保人臉在畫面中)上述功能點存在小程序上架風險(見4.1)
  • 視頻通話及視頻錄像支持Logo水印、時間水印。(見4.2.1)
  • 視頻支持480P清晰度(見4.2.1)
  • 視頻錄制,支持錄制虛擬人像及用戶畫面(見4.2.2)
  • 支持虛擬人像背景更換(見4.2.3)
  • 視頻質檢:每30S抓取人臉并發(fā)送人臉識別供應商進行比對,若不一致則提示需保持人臉一致(見4.2.4)
  • 支持位置獲取并展示在頁面(見4.2.5)
  • 中斷后支持彈窗通知,彈窗選擇退出或自動退出(見4.2.6小程序優(yōu)化異常處理模塊)
  • 視頻錄制完成后,放置到指定位置,支持下載和在線調用(見4.3.1訂單管理)
  • 支持話術配置及話術內(nèi)支持變量參數(shù)(見4.3.3)
  • 客戶回答語義轉化肯定和否定的特定參數(shù)值(面簽配置管理模塊需增加語音語義轉換模塊)
  • 同一筆訂單如錄制第一次失敗,第二次失敗,第三次成功,則第一次和第二次錄制的文件保存X天,支持調用查看,訂單管理支持一筆訂單對應多個錄像問題。
  3. 遠程視頻面簽系統(tǒng)架構設計
  3.1. 系統(tǒng)設計原則
  穩(wěn)定性原則:產(chǎn)品成熟穩(wěn)定,系統(tǒng)應有健全的安全防范措施,對于關鍵應用或模塊實現(xiàn)設備冗余,應用集群、數(shù)據(jù)庫集群,系統(tǒng)應能在正常和高峰業(yè)務處理中穩(wěn)定運行,提供連續(xù)可靠的服務。實現(xiàn)流量控制、差錯處理、重發(fā)機制、超時控制,以滿足大數(shù)據(jù)量和大交易量下實時聯(lián)機交易要求,批量數(shù)據(jù)處理和聯(lián)機交易處理間不互相影響,保障系統(tǒng)7*24小時正常運行,保證系統(tǒng)運行的連續(xù)性和穩(wěn)定性。
  安全性原則:系統(tǒng)應采用完善的安全保密機制,保證各種數(shù)據(jù)不被破壞、非法訪問和惡意修改,保證客戶和銀行交易數(shù)據(jù)的正確性、完整性、一致性、安全性。
  實用性原則:系統(tǒng)必須保證其實用性,切實符合本行的建設要求,全面滿足業(yè)務需求。系統(tǒng)應具有友好的用戶界面,操作簡便、高效。
  易于維護性原則:系統(tǒng)設計應便于維護,遵循模塊化、組件化、參數(shù)化的原則,易于改造和擴展,可靈活設置,方便維護和管理。系統(tǒng)能夠提供全面的系統(tǒng)管理和維護平臺,便于技術人員維護。
  交易監(jiān)控原則:為便于技術維護人員掌握系統(tǒng)交易運行情況。監(jiān)控應清晰明了,提供操作日志和交易日志等可審計數(shù)據(jù)的存儲、查詢,便于技術維護人員進行系統(tǒng)維護,應提供完備自動的日志備份和清理機制。
  數(shù)據(jù)標準化原則:系統(tǒng)建設應符合數(shù)據(jù)管理的工業(yè)標準、金融行業(yè)規(guī)范,符合人民銀行和銀保監(jiān)會各類監(jiān)管標準要求。
  開放性原則:軟硬件平臺和數(shù)據(jù)庫系統(tǒng)應具備開放性,系統(tǒng)提供豐富的外部接口。
  效率性原則:系統(tǒng)的建設應具備業(yè)務和技術上有前瞻性,系統(tǒng)設計架構合理,處理效率高,資源占用率低,避免過多的數(shù)據(jù)冗余。不僅能滿足現(xiàn)階段業(yè)務需求,也要充分考慮滿足未來3-5年的業(yè)務發(fā)展需要,具備一定的創(chuàng)新引領能力。
  可擴展原則:系統(tǒng)設計應當具備良好的擴展能力,包括處理能力的擴展和數(shù)據(jù)接入的擴展性,系統(tǒng)開發(fā)遵循組件化、模塊化、參數(shù)化、高內(nèi)聚、松耦合的設計原則,保證軟件系統(tǒng)架構易于改造和擴展,提高軟件的復用性、可維護性和開發(fā)效率,以適應我行未來發(fā)展中對系統(tǒng)性能或功能提升的要求。
  對新業(yè)務的前瞻性:AI小程序視頻虛擬面簽解決方案提供的功能能完全符合現(xiàn)有需求,不增加與需求無關的冗余功能,同時還保證在未來幾年內(nèi),隨著業(yè)務的創(chuàng)新,系統(tǒng)可以適應需求的變化,只需擴展相應的功能模塊或并發(fā)許可即可滿足未來業(yè)務的升級。
  可升級為人工視頻客服服務平臺,為本行提供AI智能雙錄及人工視頻客服服務能力,鑒于利舊性原則,系統(tǒng)應具備現(xiàn)有服務環(huán)境擴展新的服務組件即可滿足未來的業(yè)務需求。
  未來可和語音平臺實現(xiàn)統(tǒng)一路由、統(tǒng)一報表、統(tǒng)一排隊等功能,節(jié)省行內(nèi)建設成本。
  3.1.1. 微信小程序
項目 建議配置
微信小程序 IOS:9.0及以上、iPhone6及以上
Android:6.0及以上
  3.2. AI視頻面簽系統(tǒng)網(wǎng)絡架構
系統(tǒng)網(wǎng)絡架構圖
  3.3. 遠程視頻面簽系統(tǒng)性能
  3.3.1. 系統(tǒng)并發(fā)量
  系統(tǒng)投入使用后,一期支持10并發(fā)在線用戶接入,系統(tǒng)要保證支持10用戶并發(fā)情況下系統(tǒng)的穩(wěn)定運行,不能飽和擁塞;系統(tǒng)設計能力支持32用戶單機接入能力。
  3.3.2. 網(wǎng)絡性能要求
  1)具備智能抗丟包能力,網(wǎng)絡延時短,確?蛻粼诼(lián)通、移動、電信等運營商網(wǎng)絡下業(yè)務辦理的流暢,畫面不卡頓;
  2)正常網(wǎng)絡環(huán)境下,AI視頻開畫時間<3秒;
  3)微信小程序網(wǎng)絡延時小于1000ms,保障業(yè)務辦理的流暢性;
  4)接通成功率大于95%;
  5)視頻清晰度支持360P-720P;
  6)滿足客戶國內(nèi)以及國外主要地區(qū)發(fā)起互動視頻的能力,視頻畫面清晰流暢不卡頓;
  7)系統(tǒng)所有統(tǒng)計分析功能的響應時間不超過3秒。
  4. AI視頻面簽小程序SDK主要功能
  4.1. 人臉識別
  用戶在視頻面簽時實時采集人臉照片,調用人臉識別接口動態(tài)對比身份證照片和人臉照片,確認是否為用戶本人使用本人身份證辦理業(yè)務。
  4.2. AI視頻面簽小程序SDK
  視頻面簽小程序SDK提供能力如下:
  1) 發(fā)起視頻呼叫:接通AI虛擬視頻客服,辦理面簽業(yè)務。
  2) 結束視頻呼叫:結束AI虛擬視頻客服對話,完成或終止業(yè)務辦理。
  3) 顯示地位位置:實時動態(tài)獲取手機的地位位置信息,提供精確的位置信息,并上傳業(yè)務系統(tǒng)。
  4)視頻通話中抓取人臉照片
  4.2.1. AI視頻面簽智能問答
  • 視頻支持480P清晰度
  • 虛擬人視頻質量支持480P及以上,可根據(jù)網(wǎng)絡波動自動調整視頻分辨率。
  • 支持視頻合成時帶水印,用戶辦理業(yè)務時,視頻顯示Logo水印及時間戳水印。
  • 視頻錄像水印支持:視頻錄像合成后的錄像文件,支持預制水印與錄像合成,支持時間戳水印及地理位置信息。錄像中需包含文本或圖片水印,水印可在服務器端配置管理。
  4.2.2. 視頻錄制
  用戶辦理業(yè)務的過程全程錄音錄像,生成單一的MP4錄像文件。
  1) 用戶視頻、音頻
  2) AI虛擬人視頻、音頻
  3) 用戶微信小程序UI:用戶手機位置信息
  4) 用戶微信小程序UI:用戶手機中時間戳信息
  5) 用戶微信小程序UI:企業(yè)logo及背景。
  6) 支持虛擬人像背景更換
  4.2.3. 支持虛擬人像背景更換
  虛擬人像背景支持虛擬背景技術,可自定義背景圖片,可在服務器端配置更換背景圖片
  4.2.4. 視頻質檢
  業(yè)務場景:用戶在辦理業(yè)務錄制過程中,為保證用戶的人臉始終在視頻窗口內(nèi),可以全程錄制用戶的人像,記錄在錄像中,需要使用人臉識別,判斷用戶的人臉是否在視頻窗口內(nèi),如用戶人臉離開視頻窗口,則給出提示。
  視頻動態(tài)人臉質檢:每30S抓取人臉并發(fā)送人臉識別供應商進行比對,若不一致則提示用戶請保持。
  4.2.5. 位置信息展示
  微信小程序實時獲取用戶當前位置信息,并顯示在視頻通話頁面中,位置信息上傳業(yè)務系統(tǒng)進行記錄。
  4.2.6. 其他功能
  中斷后支持彈窗通知,彈窗選擇退出或自動退出
  業(yè)務辦理過程中,如遇到中斷(用戶回復不符合業(yè)務流程),則彈窗提醒立即手動結束,或倒計時自動結束。
  4.3. AI視頻面簽業(yè)務配置模塊功能
  4.3.1. AI面簽訂單管理
  AI視頻平臺與行里業(yè)務系統(tǒng)集成對接,每筆呼叫攜帶隨路數(shù)據(jù),上傳業(yè)務系統(tǒng),生產(chǎn)相應的訂單業(yè)務工單,業(yè)務工單關聯(lián)對應的錄像錄音文件。
  同一筆訂單如錄制第一次失敗,第二次失敗,第三次成功,則第一次和第二次錄制的文件保存X天,支持調用查看,訂單管理支持一筆訂單對應多個錄像問題。
  4.3.2. 錄像管理
  AI視頻平臺提供錄像管理功能,支持錄像下載、錄像在線播放、錄像與業(yè)務系統(tǒng)關聯(lián)。
  用戶在辦理業(yè)務過程中,每筆業(yè)務的錄像文件可關聯(lián)業(yè)務流水號,在業(yè)務系統(tǒng)中暖可記錄每筆雙錄業(yè)務的錄像下載地址,可關聯(lián)錄像文件,支持在業(yè)務系統(tǒng)中在線錄像播放、支持錄像下載。支持功能如下:
  1) 錄像管理
  2) 錄像下載
  3) 在線播放
  4) 生成錄音MP3文件
  5) 生成錄像MP4文件
  6) 錄像水印疊加,支持預制圖片水印、視頻交互中的時間戳水印、地理位置水印。
  4.3.3. 話術配置及話術內(nèi)支持變量參數(shù)
  系統(tǒng)統(tǒng)支持話術自定義管理配置,可以根據(jù)業(yè)務場景配置不同的業(yè)務場景話術。AI視頻平臺提供話術配置管理方法,可以按照業(yè)務需求,靈活配置對應的話術,及跟進接入用戶的信息、業(yè)務工單,播放對應的變量參數(shù)。
  后期可結合NLP語音語義理解服務,提供智能業(yè)務場景處理。
  5. AI視頻面簽系統(tǒng)關鍵指標
序號 類別 技術要求
1 系統(tǒng)架構 系統(tǒng)支持高可靠、高并發(fā)、核心媒體組件支持負載均衡。
2 系統(tǒng)安全性 系統(tǒng)符合金融行業(yè)的安全要求:
支持HTTPS、TLS、RTSP等
3 跨平臺 支持Linux系統(tǒng):CentOS、Redhat等。
4 應用場景 車貸智能雙錄
5 錄音錄像 錄像格式:MP4
錄音格式:MP3
6 錄像方式 服務器在線實施錄制
7 TTS 定制音庫:僅需要2小時錄音樣本 
方言口音:粵語、湖南話、維吾爾語、藏語、四川、東北等
Mos評分在3.8以上,離線效果在3.5以上。
文本處理正確率在95%以上,平均響應時長小于 3s/50字
8 ASR 轉寫的WER在90%以上
支持流式接口,平均響應速度應小于10ms
支持普通話、粵語、四川話等混合識別
需支持智能斷句匹配標點,置信息度
需支持數(shù)字、日期、時間等實體識別,支持詞語屬性標記和詞&句時間戳
文法格式智能轉換包括電話號碼、車牌、日期、時間以及量詞的規(guī)整,如“五點三十”引擎會識別規(guī)整為“5:30”
9 虛擬人像 自定義虛擬人像:支持自定義虛擬人像,提供虛擬人像錄制方式。
音唇同步:虛擬人像講話時嘴型與TTS播報的語音保持同步。
10 視頻質量 360P及以上
微信小程序視頻延時不高于1m
11 視頻SDK 支持多層級SDK客戶可基于不同的層級的API與業(yè)務系統(tǒng)集成且可以深度定制開發(fā):
1) Business Scenario API 簡單易用,適合需要快速上線,不需要了解音視頻通訊原理及深度開發(fā)的客戶;
2) 協(xié)議層API : 提供協(xié)議控制、呼叫控制及業(yè)務控制API ,用戶可基于此類API 深度定制業(yè)務流程;
3) MediaEngine API: 音視頻控制API,客戶可基于API控制音視頻流、自定義音視頻控制,與AI 相整合;
4) 音視頻編碼 API :控制音視頻碼率、分辨率、幀率、音頻采樣率等;
12 音視頻編碼 音頻編碼: G711, G722, G723, G729, AMR NW/SW, SILK NW/WB, OPUS, ISAC, GSM, ILBC
視頻編碼 : H263, H264, H264 AVC/SVC, H.265 AVC/SVC, VP9
分辨率: QCIF, CIF, QVGA,VGA, 352P, 480P, 720P, 1080P, 4K
音頻引擎: AEC(echo cancellation), AGC (Auto Gain Control), PLC,  Jitter Buffer, CNG, VAD, NS
視頻引擎: Video encoding and decoding , Packet loss Recovery High level API
傳輸算法:  FEC,  Net Checker
傳輸協(xié)議: SIP/IMS, MRCP V2, RTP/RTCP/SRTP
 

【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

相關熱詞搜索: 億迅 視頻雙錄

上一篇:中興通訊NGCC聯(lián)絡中心

下一篇:最后一頁

專題

CTI論壇會員企業(yè)