2019 年 10 月 27 日-11 月 2 日,全球計算機視覺頂級會議之一 ICCV(IEEE International Conference on Computer Vision,國際計算機視覺大會)在韓國首爾順利舉行,7500 余位來自 59 個國家的計算機視覺學者齊聚現(xiàn)場,共享盛會。今年的會議不論是在參會人數(shù)還是論文提交數(shù)量,相較去年都足足增加了一倍。此外,根據(jù)官方數(shù)據(jù)顯示,在大會接收論文中,此次中國學者的研究成果數(shù)量排名第一,遙遙領先。
專注于計算機視覺技術研發(fā)與落地的碼隆科技今年共有 4 篇第一單位論文入選,研究方向涵蓋弱監(jiān)督學習算法、文字檢測與識別模型及服裝圖像生成框架的搭建等細分領域,包括:
Label-PEnet: Sequential Label Propagation and Enhancement Networks for Weakly Supervised Instance Segmentation
Convolutional Character Networks
FiNet: Compatible and Diverse Fashion Image Inpainting (Oral)
ClothFlow: A Flow-Based Model for Clothed Person Generation
并憑借“The iMaterialist Fashion Attribute Dataset”研究成果獲得了“Computer Vision for Fashion, Art and Design”主題分會(workshop)頒發(fā)的最佳論文。
探索邊界,學術成果獲肯定
ICCV 2019 共有 1075 篇論文被接收,一向以接收率低而著稱的它,此次接收率也僅為25%,其中口頭報告論文更是僅有4.6%。碼隆科技此行收獲頗豐,其作為第一單位共有4篇論文被接收,其中包含一篇口頭報告論文。
1
10 月 31 日,碼隆科技在備受關注的主會場(Main Conference)分享了 ICCV 2019 口頭報告論文“FiNet: Compatible and Diverse Fashion Image Inpainting”的研究內容。
近年來,專注于時尚分析的計算機視覺研究發(fā)展快速,其中視覺上的兼容與協(xié)調對其尤為重要,然而現(xiàn)有的時尚圖像生成系統(tǒng)在此方面卻仍然有所欠缺。碼隆科技在 ICCV 2019 口頭報告論文中指出可通過時尚圖像修復來對視覺上的搭配兼容性進行顯式的建模,并提出了 Fashion Inpainting Networks(FiNet,時尚圖像補全網(wǎng)絡)。這是一個兩階段的圖像到圖像生成框架,能夠實現(xiàn)視覺上兼容協(xié)調但不失多樣化的圖像修復技術,這一研究可為服裝重建和時尚風格遷移等相關任務提供有力的工具。
2
11 月 1 日,碼隆科技專注于服飾生成算法的研究“ClothFlow: A Flow-Based Model for Clothed Person Generation”在 Poster 環(huán)節(jié)進行了展示。
在該學術工作中,碼隆科技提出了一種基于外觀流的生成模型 —— ClothFlow,這一模型能夠合成特定姿態(tài)的人物服裝圖像,以用于基于姿態(tài)引導的人物圖像生成和虛擬試衣。通過估計源服裝區(qū)域和目標服裝區(qū)域之間的稠密流場,ClothFlow 模型能夠有效地針對幾何形變進行建模,并自然地進行外觀遷移以合成與眾不同的服裝圖像,如下圖所示。
3
近年來,弱監(jiān)督學習越來越受到學界和業(yè)界的關注。10 月 30 日,碼隆科技專注于弱監(jiān)督學習算法的論文“Label-PEnet: Sequential Label Propagation and Enhancement Networks for Weakly Supervised Instance Segmentation” 向參會者展示了與其日常工作緊密相關的算法研究。
這一研究致力于在僅僅給定圖像級別標簽的情況下精確地檢測與分割物體實例。因為手工標注大量訓練數(shù)據(jù)代價高昂,與監(jiān)督學習、半監(jiān)督學習等方式相比,它是更適用于現(xiàn)實應用的技術。與以前那些包含多個離線模塊的方法不同的是,本篇論文提出了序列化標簽傳播與增強網(wǎng)絡(縮寫為 Label-PEnet)。Label-PEnet 基于一種由粗到細的方式,可以遞進地將圖像級別的標簽轉化成像素級標簽,極大程度地提升了圖像數(shù)據(jù)在工業(yè)場景中的應用效率。
4
自然場景下的文字檢測與識別是近年來的熱點研究方向之一,但相較于技術已經(jīng)相對成熟的打印文檔文字識別,自然場景中的文本識別仍具困難,比如文字的呈現(xiàn)可以有多種方向、多樣的顏色和字體等,這些情況都為文字檢測與識別技術在現(xiàn)實生活中的應用帶來了挑戰(zhàn)。
11 月 1 日,主題為“Convolutional Character Networks”的論文在 Poster 展示環(huán)節(jié)中詳盡地呈現(xiàn)了碼隆科技在 ICCV 2019 上提出的一種單階段模型——卷積字符網(wǎng)絡 - CharNet (Convolutional Character Networks)。CharNet 第一次實現(xiàn) one-stage 模型的文字檢測和識別。
此外,11 月 2 日,碼隆科技還受邀參加了“Computer Vision for Fashion, Art and Design ”主題分會(workshop)。此前,碼隆科技與 GoogleAI 聯(lián)合發(fā)布了 iFashion 數(shù)據(jù)庫,其相關研究“The iMaterialist Fashion Attribute Dataset”本次也斬獲了該場 workshop 最佳論文的榮譽。
暢聊AI,技術落地進展獲關注
作為 ICCV 2019 的黃金贊助商,碼隆科技在展會期間展示了 RetailAI 系列智能零售解決方案,如智能貨柜解決方案、資產保護解決方案、智能稱重解決方案等,進一步與參會者分享了前沿技術在工業(yè)界的扎實應用,獲得了大家的廣泛關注。
展會現(xiàn)場,碼隆科技成員們與眾多計算機視覺學者就其研究方向與落地進展進行了深入交流。同時,在會議期間,眾學者前往碼隆展臺就其關于弱監(jiān)督學習算法、文字檢測與識別模型、服裝圖像生成框架的研究工作進行探討。
眾多計算機視覺研究者前來碼隆科技展位交流技術進展
結語
自2014年創(chuàng)立以來,碼隆科技持續(xù)專注于計算機視覺技術在商品識別領域的研發(fā)與落地應用。至今,碼隆科技在計算機視覺領域的頂級會議 ICCV、CVPR、ECCV上發(fā)表了十余篇學術論文,引起了眾多知名學者的關注。未來,碼隆科技將繼續(xù)攜手學術界,努力拓展技術邊界,并與工業(yè)界一同致力于推進前沿技術在真實世界的應用與落地,全方位實現(xiàn) AI 前沿技術的創(chuàng)新價值。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!