漫畫生產自動化小冰、百度們有興趣嗎?

2021-04-04 18:33 來源：A5專欄我來投稿撤稿糾錯

文/ 智能相對論（ID：aixdlun）

作者/ 離離

近年，由于網(wǎng)絡的普及，動漫作品傳播的速度不斷加快，二次元文化的受眾數(shù)量不斷上升，影響范圍也越來越廣泛。

如去年完結的日漫《鬼滅之刃》就成功“出圈”，掀起了現(xiàn)象級熱潮。原著漫畫為2020年日本漫畫銷量冠軍，累計發(fā)行量突破1億2000萬冊(含電子版)，為第二名的十倍有余。其劇場版動畫電影《鬼滅之刃：無限列車篇》上映后，更是在短時間內突破300億日元票房，并持續(xù)刷新日本影史的各項紀錄。

看著日益廣闊的動漫市場，一些廠商開始嘗試利用人工智能來推動漫畫生產，希望能實現(xiàn)漫畫生產的自動化，在提高生產效率的同時減少人力成本。

Made in AI的漫畫

“智能相對論”查到，一般的漫畫創(chuàng)作過程大致可分為三部份: 一是人物形象設計；二是故事編排，包含情節(jié)、對話等文學腳本的寫作；三是角色、場景與分鏡配置等漫畫繪制。每位漫畫家都有不同的繪畫風格和敘事方式。

去年，日本鎧俠株式會社(Kioxia Corporation)的研究人員與手冢工作室的藝術團隊合作，利用人工智能深度學習技術完成世界上第一部由人類與AI協(xié)作的漫畫作品《PHAEDO》，高度還原了已故知名漫畫家手冢治蟲的漫畫風格。

為了讓人工智能學習手冢的畫風與筆觸，研究團隊收集了十五萬張手冢漫畫手稿，利用圖像識別技術將其分類標記，將角色面容等圖像特征轉換為數(shù)據(jù)，再利用多個NVIDIA V100 GPU和cuDNN加速的TensorFlow深度學習框架(由StyleGAN編寫)進行訓練和推理。

在角色生成的訓練中，研究團隊還使用了手冢治蟲作品以外的多部不同漫畫的人物臉孔和真實的人臉照片來進行訓練，建立對抗性神經網(wǎng)絡模型StyleGAN，讓其充分學習不同風格、不同角度的漫畫人臉畫風。

再使用遷移學習來整合成千上萬個數(shù)據(jù)點，從粗糙的輪廓描繪逐漸細化至眼睛、嘴唇等細節(jié)，讓AI所繪制的人像與手冢原作更加相似。

在腳本創(chuàng)作方面，研究團隊將《森林大帝》《鐵臂阿童木》和《怪醫(yī)黑杰克》等上百個手冢治蟲的漫畫作品分解為多個段落，作為AI“學習”的對象。

分析了這些故事后，AI便能自動生成多個故事大鋼。但這些由AI創(chuàng)作的故事中存在許多邏輯錯誤，且只有五分之一具有意義，并充滿讓人意料之外的情節(jié)。

對于AI故事創(chuàng)作的不足，研究團隊還是抱持較為樂觀的態(tài)度，將這些另類的想法和飛躍視為手冢治蟲漫畫作品之特色。最后，通過手冢工作室藝術團隊的人工校正，《PHAEDO》的劇本才得以完成。這部作品已發(fā)表于日本漫畫雜志《Morning》與鎧俠的項目網(wǎng)站“TEZUKA 2020”。

影視劇改漫AI實現(xiàn)自動化

除了現(xiàn)有的漫畫作品，真人影集也是漫畫的靈感來源之一。近期，來自大連理工大學和香港城市大學的研究團隊提出了一款將視頻自動轉換為靜態(tài)漫畫頁面的AI系統(tǒng)，為人工智能圖像生成技術開拓了新的應用道路。

與前陣子在各大社交軟件上流行的，將靜態(tài)照片變成動畫的Avatarify相反。這款漫畫生成系統(tǒng)無需用戶手動調整，即可將電視連續(xù)劇、電影、卡通等任意種類的影片，自動變成帶有對話框及文字內容的漫畫頁面。

首先，系統(tǒng)會依照每段字幕的時間將視頻分割成多個鏡頭，并藉由分析連續(xù)鏡頭的相似度與對話內容，從中提取要轉換成漫畫的關鍵幀畫面。再將選取的關鍵幀源圖像轉換為黑白圖像，執(zhí)行量化與彩色風格化，造就出“漫畫”風格的圖像。

隨后，根據(jù)關鍵幀的興趣區(qū)域、重要性等級、彼此間的語義關系和頁面上的面板數(shù)量來決定漫畫的分格大小及數(shù)量，生成多頁面布局。

研究團隊通過參考漫畫書中對話框形狀的多樣性，使用三種不同的氣泡形狀對應不同情感的語句。并利用一些動漫視頻與相應漫畫作為訓練素材，幫助系統(tǒng)學習識別影片中的聲音、字幕情感與相應的氣泡形狀。

利用文本總結算法，系統(tǒng)可將相關字幕進行合并，確保對話框中的句子不會太長，增強可讀性。再通過發(fā)言人物檢測和唇動檢測，將帶有發(fā)言內容的對話框放置在所屬人物附近。

該系統(tǒng)現(xiàn)階段依然有一些尚待解決的問題。例如關鍵幀的選擇上，一些畫面的相似度過高，仍有多余畫面；無字幕的視頻，單就語音識別生成的臺詞易出現(xiàn)錯誤。雖然相較于其它方法生成的改漫作品，該系統(tǒng)的反響良好，但總體而言仍處于試驗階段。研究團隊表示，下一步希望能利用文本信息生成漫畫。

AI漫畫家走到哪了

“智能相對論”從《PHAEDO》和AI改漫系統(tǒng)的誕生可見，現(xiàn)階段的人工智能尚未具備獨立完成一部漫畫作品的能力。在文學藝術的創(chuàng)作上，AI尚未成熟；但在漫畫繪制過程中，AI對于畫風與筆觸的模擬可說是“以假亂真”。

在二次元經濟大規(guī)模崛起的環(huán)境下，中國的動漫產值在近年步步高升，漫畫市場規(guī)模也呈現(xiàn)穩(wěn)定增長。這兩項技術若實現(xiàn)商業(yè)化，可讓漫畫家們從枯燥無味的重復勞動中解放，集中心力完成情節(jié)、對話設置等藝術原創(chuàng)。不但能加快生產速度，同時也能減少人力成本，可說是具有一定的商業(yè)價值。

目前國內部份公司已具備自動制作漫畫所需的人工智能圖像識別、圖像繪制及文本自動生成技術，可說是具有進入此市場的技術基礎。但漫畫自動生成并非只是這些技術的堆疊與排序，現(xiàn)有的商業(yè)應用方向似乎也并未覆蓋漫畫創(chuàng)作，還需要特定的數(shù)據(jù)庫和算法模型加以訓練。

以人工智能生成動漫圖象的技術為例，現(xiàn)在最普遍的商業(yè)模式為面向B端，替拍照軟件提供美漫、日漫、3D立體動畫風格的圖片生成服務?；谏蓪咕W(wǎng)絡GAN算法，不少公司都推出了頭像改漫、漫畫背景濾鏡等服務，可將現(xiàn)實中的景觀與人像轉變成二次元動漫畫風。

如百度大腦AI開放平臺曾與B612咔嘰美顏相機合作，為用戶提供量身定做的二次元漫畫頭像定制、油畫風格轉換服務。

騰訊光影研究室在QQ小世界、微視App、微博等社交平臺上推出的“王者臉”、“童話臉”等各類AI特效應用，可將照片和直播視頻中的人物立刻變成游戲角色、真人“芭比”或“在逃公主”。

網(wǎng)易游戲《逆水寒》《天諭》的智能捏臉也是基于AI圖象生成技術。玩家上傳一張2D照片后，系統(tǒng)可自動生成相似度超高的3D臉部模型，甚至連發(fā)型都能自動生成。

這些基于圖片識別與生成對抗網(wǎng)絡的AI動漫圖象生成技術可將已有的照片轉換為漫畫風格，具有影視改漫自動化的技術基礎。但要像TEZUKA 2020項目那樣“無中生有”固定風格的漫畫作品，似乎還需要一些訓練。

就這點而言，曾“就讀”中央美術學院的小冰或許離AI漫畫家更近一些。“學習”兩百多位著名人類畫家的作品后，小冰可在接收到文本或其他創(chuàng)作刺激后獨立完成原創(chuàng)的命題畫作。不僅曾在中央美術學院美術館舉辦個人畫展，還將這項能力應用于絲巾、服裝等紡織面料及圖案設計，實現(xiàn)商業(yè)化。

在故事腳本生成方面，雖然人工智能已具備撰寫近體詩、新詩、新聞稿、廣告文案等各類文體的能力，但目前對智能寫作需求最大、黏性最強的四個市場分別是內容資訊、金融財經分析、數(shù)字營銷和行政辦公。

因此，國內已實現(xiàn)商業(yè)化的AI寫作產品大多針對營銷、政務等領域，以角色對話推進故事發(fā)展的漫畫文稿等藝術創(chuàng)作方面的應用較少。

如阿里發(fā)布的“AI智能文案”產品結合淘寶、天貓的海量內容與自然語言算法，聚焦于電商營銷文案，可模擬多種風格、自定義字數(shù)并實時學習在線樣本，一秒內可生成兩萬條短標題。

金山WPS智能寫作的訓練數(shù)據(jù)源于權威媒體與政府公開網(wǎng)站，常用于公文寫作。支持文本自動生成、輔助成搞寫作、智能素材推薦等服務，在政務系統(tǒng)的覆蓋率較高。

“智能相對論”看到，百度智能創(chuàng)作平臺也帶有自動寫作功能，既有針對財經、體育數(shù)據(jù)的結構化數(shù)據(jù)寫作，還有智能寫詩、智能春聯(lián)等API服務。而小冰框架不僅曾經出版現(xiàn)代詩集，還為萬得資訊、華爾街見聞等公司提供金融摘要自動生成服務。

由此可見，雖然制作漫畫所需的AI技術已發(fā)展出較為成熟的商業(yè)模式，但這些技術大多被作為單獨的服務或產品分開使用，應用方向也各有不同。 比起其他的AI系統(tǒng)，小冰和百度等同時具備文本寫作與繪畫能力的人工智能框架可能較有成為AI漫畫家的潛力，但目前看來，國內公司似乎并未將人工智能大規(guī)模應用于漫畫生產，更別說是形成“一條龍”的漫畫自動生成產業(yè)鏈。

2015年，中國的漫畫產業(yè)進入了高速增長期，并持續(xù)保有較高的增長率，在2019年開始進入平穩(wěn)增長期。據(jù)2020年6月發(fā)布的《2020微博動漫白皮書》顯示，微博泛二次元用戶同比增長11.4%，連續(xù)4年保持增長；54%的動漫用戶是內容付費用戶。

在二次元用戶數(shù)量與市場規(guī)模不斷擴增的今日，消費者逐漸養(yǎng)成為內容付費的習慣，付費商業(yè)模式助于刺激生產，創(chuàng)作者們也不斷探索新的漫畫表現(xiàn)形式。如介于動畫與漫畫之間的動態(tài)漫畫、經由用戶觸摸或搖晃設備而推動內容情節(jié)發(fā)展的互動漫畫。

無論是需要耗費大量人力的靜態(tài)漫畫，還是這些制作周期更長、投入成本更高的新形態(tài)漫畫，若能在內容生產上降低成本、提高產出效率，不但能讓作者省下重復勞動的時間精力，得以更專注于打磨作品；也能降低漫畫生產門檻，迸發(fā)出更多藝術可能。

在“國漫崛起”的現(xiàn)在，使用AI來加快漫畫生產似乎是個不錯的想法。就像參與《Phaedo》項目的科學家松原仁所說的，AI和人類合作畫漫畫是理所當然的未來。

申請創(chuàng)業(yè)報道，分享創(chuàng)業(yè)好點子。點擊此處，共同探討創(chuàng)業(yè)新機遇！

相關標簽: ai技術

甌江論道：AI賦能綠色發(fā)展

2025年10月25日，2025世界青年科學家峰會之人工智能（AI）融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國際院士科創(chuàng)中心主辦，中國投資協(xié)會能源投資專業(yè)委員會、溫港院士科創(chuàng)中心承辦，中國電工技術學會、中科先進技術溫州研究院與溫州市電力工程學會提供支持，以“甌江論道-AI賦能綠色發(fā)展”為主題，

標簽：

ai技術
王通：未來個人創(chuàng)業(yè)的十個機會

個人創(chuàng)業(yè)需要啟動成本低、無需龐大團隊、可快速驗證、能利用個人技能或資源。這里分享適合個人創(chuàng)業(yè)的十個機會一.AI內容優(yōu)化與本地化服務·做什么：幫助企業(yè)或個人利用AI工具（如GPT-4,Midjourney）優(yōu)化內容生產流程。例如，為跨境電商撰寫多語言產品描述，為小紅書博主生成爆款文案，為小公司制作營銷

標簽：

創(chuàng)業(yè)機會

ai技術
百度智能云PaddleOCR 3.1正式發(fā)布：關鍵能力支持MCP

百度AI團隊今日正式推出PaddleOCR3.1版本，以突破性的多語言組合識別（MultilingualCompositionPerception,MCP）技術為核心，徹底重構復雜文檔處理邊界。此次升級標志著OCR領域首次實現(xiàn)對同一文檔內任意混合語言文本的精準識別，為全球化企業(yè)、跨境業(yè)務及多元文化場

標簽：

ai智能

ai技術
AI工具導航網(wǎng)站，未來的發(fā)展前景怎么樣？

導航網(wǎng)站的崛起：從信息過載到精準觸達隨著全球AI工具數(shù)量爆發(fā)式增長（2025年已超數(shù)萬款），用戶面臨前所未有的選擇困境。傳統(tǒng)搜索引擎的“關鍵詞-鏈接”模式難以應對工具篩選的場景需求，垂直化、場景化的AI導航網(wǎng)站應運而生。這類平臺通過聚合、評測、分類與推薦四重機制，將分散的工具資源整合為結構化入口。例

標簽：

ai技術

導航網(wǎng)站
微信AI搜索被指“強行開盒”：名字成了數(shù)據(jù)入口，騰訊回應“僅用公開信息”

當微信公眾號文章中出現(xiàn)一個人的名字，它會自動變成藍色鏈接，點擊即可查看AI生成的“個人簡歷”——這一微信新功能讓不少用戶感到被“扒光”在互聯(lián)網(wǎng)上。近日，微信新上線的“AI搜索”功能陷入隱私泄露爭議漩渦。多位網(wǎng)友在社交平臺反映，當微信公眾號推文中出現(xiàn)本人姓名時，名字會自動變?yōu)樗{色超鏈接，點擊即可瀏覽由

標簽：

ai技術

ai搜索

看懂黃仁勛CES演講，就看懂 AI 接下來十年的走向

2026年剛開年，全世界最狂的那個男人，穿著他的經典黑皮衣，在CES舞臺上發(fā)出了未來十年的信號。他搞了個“能吃飽套餐”：6個包子+一碟小菜+一碗粥=肉包子套餐，這樣以后你只要買一個套餐就能吃飽了。(Rubin平臺)同時他們店里還免費提供的筷子、勺子、蘸料、醬油、醋、水果、零食等等。(開放10萬億語言
GDPS2025賽場直擊！開普勒大黃蜂助力華理斬獲搬運賽項桂冠

12月12日-14日，2025全球開發(fā)者先鋒大會暨國際具身智能技能大賽（GDPS2025）于上海張江科學會堂舉行，大會以具身智能競技為核心，融合了技術比拼、產業(yè)展示與科普體驗，為全球觀眾呈現(xiàn)出具身智能的現(xiàn)在與未來。上海開普勒機器人有限公司（以下簡稱"開普勒機器人"）攜明星產品K2"大黃蜂"亮相，并參

標簽：

GDPS

2025
弈動 Dynamic·數(shù)智躍遷博弈無界｜2025TechWorld智慧安全大會在京召開

在數(shù)字化與智能化深度交織的時代浪潮中，安全的邊界不斷延展，技術的演進正引領產業(yè)邁向新一輪變革。10月24日，以“弈動Dynamic·數(shù)智躍遷博弈無界”為主題的2025TechWorld智慧安全大會在北京盛大召開。來自國家部委、院士學者、高?？蒲袡C構和企業(yè)的權威專家與業(yè)界精英齊聚北京，共議AI安全、數(shù)

標簽：

弈動
甌江論道：AI賦能綠色發(fā)展

2025年10月25日，2025世界青年科學家峰會之人工智能（AI）融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國際院士科創(chuàng)中心主辦，中國投資協(xié)會能源投資專業(yè)委員會、溫港院士科創(chuàng)中心承辦，中國電工技術學會、中科先進技術溫州研究院與溫州市電力工程學會提供支持，以“甌江論道-AI賦能綠色發(fā)展”為主題，

標簽：

ai技術
AI云“分野”：阿里云們“賣鏟”，火山引擎奇襲“MaaS”

AI云“分野”：阿里云們“賣鏟”，火山引擎奇襲“MaaS”

標簽：

阿里巴巴
未來5年，中國AI的“大洗牌”和“內循環(huán)”

我覺得我們AI的目標是：從芯片設計到軟件生態(tài)，全鏈路自主開發(fā)，建立可控的世界級AI體系。所以這是俺對未來5年中國AI圈的展望和判斷。(1)2026年，英偉達造車、國產開車26年國產芯片會在推理和垂直場景上發(fā)力。以DeepSeek為代表，大多數(shù)AI大模型會以軟件彌補硬件不足，所以訓練和推理分開，訓練就

H20芯片開賣即叫停，英偉達如何解圍？

文/道哥在深陷“后門”風波、接受網(wǎng)信辦問詢之后，英偉達的“特供版”H20芯片，又有了新消息。近日，美國科技媒體《TheInformation》援引知情人士消息稱，英偉達已悄然向其關鍵供應商——包括負責封裝的安靠科技、供應高帶寬內存的三星電子、以及承擔后端處理的富士康發(fā)出指令，要求暫停所有與H20AI

標簽：

英偉達
真正的「國產英偉達」來了

文/二風來源/節(jié)點財經一場關于“中國芯”的IPO審議，正把投資者們的目光鎖定在上交所。根據(jù)上交所發(fā)布的公告，上市審核委員會已定于9月26日審議摩爾線程的科創(chuàng)板首發(fā)申請。作為中國半導體自主化浪潮中最受矚目的“考生”之一，包括其創(chuàng)始人顯赫的英偉達背景、高達80億元人民幣的募資雄心，以及在國產GPU領域取

標簽：

英偉達
AI視頻生成賽道“分野”：小廠重產品，大廠重生態(tài)

AI視頻生成賽道“分野”：小廠重產品，大廠重生態(tài)

標簽：

騰訊

阿里巴巴

快手
數(shù)據(jù)庫進入“內存自由”時代！阿里云PolarDB發(fā)布全球首個CXL數(shù)據(jù)庫服務器

技術的進步永無止境，繼創(chuàng)下TPC-C性能&性價比雙冠之后，阿里云PolarDB云原生數(shù)據(jù)庫再度實現(xiàn)關鍵突破。9月24日杭州云棲大會上，阿里云宣布推出全球首款基于CXL（ComputeExpressLink）2.0Switch技術的PolarDB數(shù)據(jù)庫專用服務器。在原有RDMA網(wǎng)絡的基礎上，Polar

加載更多

漫畫生產自動化小冰、百度們有興趣嗎?

相關文章

甌江論道：AI賦能綠色發(fā)展

王通：未來個人創(chuàng)業(yè)的十個機會

百度智能云PaddleOCR 3.1正式發(fā)布：關鍵能力支持MCP

AI工具導航網(wǎng)站，未來的發(fā)展前景怎么樣？

微信AI搜索被指“強行開盒”：名字成了數(shù)據(jù)入口，騰訊回應“僅用公開信息”

看懂黃仁勛CES演講，就看懂 AI 接下來十年的走向

GDPS2025賽場直擊！開普勒大黃蜂助力華理斬獲搬運賽項桂冠

弈動 Dynamic·數(shù)智躍遷博弈無界｜2025TechWorld智慧安全大會在京召開

甌江論道：AI賦能綠色發(fā)展

AI云“分野”：阿里云們“賣鏟”，火山引擎奇襲“MaaS”

未來5年，中國AI的“大洗牌”和“內循環(huán)”

H20芯片開賣即叫停，英偉達如何解圍？

真正的「國產英偉達」來了

AI視頻生成賽道“分野”：小廠重產品，大廠重生態(tài)

數(shù)據(jù)庫進入“內存自由”時代！阿里云PolarDB發(fā)布全球首個CXL數(shù)據(jù)庫服務器

熱門排行

編輯推薦

漫畫生產自動化 小冰、百度們有興趣嗎?

相關文章

熱門排行

編輯推薦

漫畫生產自動化小冰、百度們有興趣嗎?