2023-06-25 09:58:44 來源 : 天翼智庫
(CWW)算力、算法和數據是人工智能的“三駕馬車”。過去的十多年,算力、算法、數據等技術的創新和迭代,都取得了“大爆炸”式發展。ChatGPT橫空出世背后,有海量訓練數據、人工標注指令微調以及基于人工反饋的強化學習。未來,人工智能在垂直場景落地,需要大量經過標注處理的數據完成算法訓練?,F階段,數據標注屬于勞動密集型產業,人工智能尤其是大模型的崛起,將數據標注推向AI輔助標注、自動標注,數據標注進入技能密集時代。
我國數據標注行業現狀及特點
(資料圖片)
數據標注是指借助特定軟件標注工具,將圖片、語音、文本、視頻等數據內容進行分類、標準特征標簽等(例如圖片屬于“貓”、“狗”、“鳥”等分類),使其易于被機器學習算法可理解和快速處理。近年來,隨著人工智能的快速發展,數據標注需求激增,我國數據標注市場呈現如下特點。
一是在需求和政策共推下高速發展。2022年我國數據產量已達8.1ZB,同比增長22.7%,全球占比10.5%,位居世界第二,數據已成為我國重要的資源稟賦優勢。與此同時,我國數據要素市場化配置進程加速,政策加持國內 AI 產業發展,市場對高質量數據標注需求激增。根據艾瑞咨詢、華經產業研究院數據,2021年我國數據標注市場規模為43至44億元,2025年有望突破百億元。此外,數據標注是勞動力資源密集省市政府解決就業難的抓手,多個省市紛紛出臺政策支持數據標注產業發展或建立數據標注產業園,如山西省出臺了《山西省數據標注產業發展規劃(2019-2025 年)》、《山西省加快數據標注產業發展的實施意見》、《山西人工智能基礎數據產業專項資金管理辦法》等,山西、河南、四川、貴州等省已形成了眾多數據標注小鎮,全國范圍來看,集數據采集、存儲、標注、服務等于一體的AI基礎數據相關產業持續壯大,進入高速發展期。
二是AI頭部企業紛紛入局并贏得競爭優勢。數據標注市場有兩類參與者,一類是專業的第三方數據標注公司,如Testin云測、澳鵬appen、海天瑞聲、數據堂、龍貓數據、曼孚科技等;一類是AI科技公司內部的標注部門。兩類數據標注力量都在壯大,第二類發展更快,越來越多的AI頭部企業自建標注工具平臺和標注基地,如百度在山西建立人工智能基礎數據產業基地、推出數據標注開放平臺,京東在山東設立京東眾智大數據標注助殘基地、推出 Wise 開放標注平臺,字節跳動在全國設立了六個標注基地。這些AI頭部企業資本雄厚、數據需求旺盛、技術實力強,后發優勢顯著,百度、京東已進入數據標注市場第一陣營。
三是市場需求以定制化服務為主。相關數據顯示,2021年我國數據標注及審核市場中定制化服務占比85.41%,而標準化的數據集產品僅占13.33%。這與AI在垂直場景深度落地需要與特定任務類型、特定應用場景相匹配的數據進行算法訓練。大模型時代下,“基礎模型+微調”有望成為 AI 開發新范式,微調是讓AI獲特定領域知識,并賦予其組織、應用知識的能力,可以預見,貼合垂直場景的高精準定制化數據標注服務在未來將是市場需求主流。
數據標注行業面臨的問題與挑戰
早期,市場對數據采集標注的要求較低,準入門檻低,行業內云集了大量中小規模的服務商和靈活就業/兼職個人,數據標注領頭企業主要采用轉包、眾包模式提供服務,行業存在標注效率低下、數據質量參差不齊、高技能人才不足、全程數據安全合規風險高等問題。
一是標注效率低下、數據質量參差不齊。當前數據標注高度依賴人力,十分枯燥、耗費眼力體力,很多中小供應商缺少AI輔助標注、AI質檢能力,標注師個人能力素質直接影響標注效率和數據質量,形成行業生產效率低下、數據質量不均衡的局面。
二是高技能產業人才缺乏。從任務需求來看,以較為復雜的語音標注、計算機視覺標注為主,醫療醫藥、法律、金融、電力等專業數據集標注生產,還對標注師的學科知識儲備有一定要求。從人才培養來說,人工智能訓練師新型崗位培養、專業設立并沒有受到社會重視,市場上缺乏經過系統性訓練的高技能人才。
三是全程數據安全合規風險高。根據中國信通院報告,80%的安全風險發生在數據流通環節。從行業現狀來看,數據標注的鏈條較長,包括采集、標注、存儲、傳輸等環節,轉包模式下信息鏈條更長,黃賭毒/暴力信息過濾、隱私保護、數據不當使用等都是標注和審核企業面臨的難題。
數據標注行業存在的變化及趨勢
隨著人工智能技術在更多垂直應用場景落地深化,數據標注表現出以下幾個趨勢:
一是AI輔助標注、自動化數據標注成為新競爭力,助推行業從勞動密集轉向技術密集。從全球范圍來看,美國由于人力成本較高,較早使用機器替代人力,谷歌、微軟等互聯網巨頭都推出了自動標注系統,Playment和Scale AI合作,為全球高分辨率 LiDAR傳感器制造商 Data 聯合開發了高級深度學習標注工具。在中國,用工管理日趨規范以及標注需求量的激增,純人工標注在效率和成本上的優勢將很快消失,使用AI賦能的自動標注能力與相關工具來提升效率和質量,將逐漸成為數據標注企業提高市場競爭力、降本增效的利器。AI輔助標注、自動標注不僅提升了數據的產出效率,同時也在標注模型工具的迭代中打造出了完善的 AI 基礎設施,從而助推行業向技術密集轉型。
二是行業走向垂直化、定制化,門檻提高,市場集中度提升。隨著人工智能進入多元行業和場景落地階段,自動駕駛、醫療醫藥、小語種、法律、金融等有一定專業性要求的垂直場景將成為主要需求,帶動行業進一步朝著垂直化、定制化發展,專業性要求越來越高,市場準入門檻將顯著提高。同時,頭部的品牌數據服務商由于具備較強算法能力和穩定訓練數據資源,有實力打造AI輔助標注、自動化標注平臺工具,標注效率、質量和成本優勢將凸顯。未來,品牌數據服務商和需求方自建的標注團隊將逐步替代中小供應商,行業市場集中度將顯著提升。如,2019年中小數據供應商的市場份額高達 47%,百度市場份額為11%,2022年百度的市場份額躍居到18%。
三是追求更高的數據質量、安全性和隱私性。大部分算法在擁有足夠多普通標注數據的情況下,能夠將準確率提升到 95%,但再提升到 99%甚至 99.9%,則需要高質量數據。另一方面,海量原始數據的采集標注,涉及大量敏感數據,如人臉、語音等內容,隨著數據安全合規法律政策體系的完善和監管升級,對數據的采集、標注、存儲、傳輸的每一個環節的安全合規要求越來越高。因此,圍繞標注質量和全流程數據安全合規,建立一套完善的流程機制,并有技術工具保駕護航,就成為當下諸多數據標注服務商著重建設發展的能力。
電信運營商的探索和機遇
電信運營商在數據資源的內部場景化應用、外部產品化流通方面,主要使用結構化數據,非結構化數據采集標注僅在客戶服務場景中的熱線話務、投訴及故障工單的智能打標,以及裝維流程中的現場作業規范管理等少數場景應用;外部產品化應用主要是視聯網產品的AI視頻分析識別,如明廚亮灶中對進入廚房區域的廚師服/帽、口罩的穿戴著裝,抽煙、玩手機、老鼠檢測、外來人員識別等實時告警等。整體來說,電信運營商的語音標注、計算機視覺標注處于探索期,尚未像百度、京東一樣形成專業化標注生產能力,但值得肯定的是,在為數不多的探索中運營商選擇了AI輔助標注、自動化標注路徑。當下,AI大模型炙手可熱,催化數據采標需求加速釋放,電信運營商可審視如下機遇點。
一是面向垂直行業的AI輔助標注、自動化標注工具及解決方案。一方面是我國尚未形成AI輔助標注、自動化標注的領先產品,另一方面是對數據安全要求嚴格或期望降低數據生產成本的企業,紛紛從選擇專業標注公司駐場服務到自購通用標注工具、模型訓練工具進行適配優化,自行完成數據標注,這給專注于某個垂直領域的基礎數據服務商帶來了機會:針對細分領域提供自動化標注工具或解決方案。
二是面向數據采集標注全流程的數據安全合規基礎設施。AI基礎數據生產涉及到采集、存儲、標注、傳輸等環節,市場需要低成本的覆蓋全流程的數據可信生產流通環境,運營商在云網數字基礎設施中增加諸如區塊鏈、前沿密碼等技術,將產生新的優勢。
三是垂直行業的專業數據集生產。運營商長期深耕金融、政法、公安、醫療、交通、教育等行業解決方案,在眾多垂直領域形成了產業生態,具有將企業數據與垂直領域的跨組織、跨區域數據資源融合匯聚,提供專業數據集的潛能。
標簽: