原標題:小米10背后的AI想象力 來源:闌夕
文 | 闌夕工作室
手機的想象力到底有多大?
在小米10的發布會上,這些關于手機的想象力借助AI被進一步延展開來。相比配置,AI技術在小米10上有更突出的體現,換天技術、文檔拍照和語音合成,這些使用簡單的功能背后都積累著小米自研AI多年的技術積累。
當手機廠商大部分的產品性能基本相同的時候,AI技術的優劣與否,更易使用戶感知。
這或許是小米最值得令人欣賞的地方,不是它曾經倡導的互聯網模式,也不是它對于性價比的極致追求,更重要的是,它在想象力上有著比市場更超前的嗅覺。
1. 換天技術、語音合成、文檔拍照,小米10最亮眼的AI技術都在這里
在小米10上,AI技術幫助拍照實現了換天功能。盡管許多手機廠商也提出過類似功能,但實際上能夠達到小米10所呈現的效果的并不多。
小米AI實驗室通過數萬張高精度、場景覆蓋廣泛的天空圖片作為訓練集,不斷優化模型結構,訓練出了高精度的天空分割模型。
這樣的做法下,使得小米的天空分割算法能精準分析天空和前景,邊緣識別準確,分割細膩,達到像素級摳圖標準。在包含各類場景的全面評測集上,小米換天成片率達到90%+。
通過對MIX、Picnic、Quickshot、 Vivo攝影、玩效APP等一系列軟件和小米10換天功能的對比,軟件在自拍、遠距離室外人像、復雜的城市場景和綠植等方面,都很難做到小米10的效果。
有沒有感覺所有廠家都在拼命研究相機?到了后4G時代,對于畫面的記錄,人們已經不滿足于單個畫面的拍攝,而是更多地往視頻、短視頻、動態圖片等方向延伸。這對手機廠商的相機功能和圖像處理技術提出了更高的要求,視頻相較于圖片的拍攝以及后期,處理難度都更大。
另一個AI技術在小米10上的展現,是通過智能算法,讓以往需要滑軌、手搖等技巧才能實現的鏡頭效果,不用動手機就能完成運鏡,制作vlog。如果想在視頻中增加字幕,可以直接通過語音識別的方式,自動轉化成字幕。讓用戶在使用小米10拍vlog后,后期制作的成本大大減輕。
之所以能夠達成這樣的效果,背后是小米AI實驗室做了大量的算法優化和實時調校,把多個計算單元有機結合,最大限度發揮了手機平臺的計算性能。
語音和文檔解析方面,小米10也提出了更優的AI解決方案。
語音正在逐步解放人們的雙手,語音技術在智能硬件,虛擬助手,智能客服,智能車載等場景中扮演者非常重要而關鍵的角色。
小米語音合成從數據積累,算法創新和工程優化等多方面,實現了流暢的中英文合成效果,尤其是在中英文銜接處如真人般的流暢自然,無切換感。此外合成速度很快,減小了用戶的等待成本。
小米拍文檔能夠識別到圖片復雜場景中的文檔/身份證的邊緣,沿著邊緣,將其“摳”出來。根據用戶的選擇,將文檔圖片變成黑白效果/增強效果,保留細節,去除陰影,增強色澤。和語音合成一樣,合成速度很快,用戶無等待感知。
值得一提的是,拍文檔功能由“小米AI實驗室武漢視覺團隊”完全獨立負責,在疫情之下他們依然交出了優秀答卷。
僅靠列舉,小米10所能夠產生的想象力已超出邊界。盡管從整個智能手機行業來看,創新遇到瓶頸、換機潮遇冷的負面輿論不絕于耳,但依然有先驅者在其中發現了用戶的需求,而這些需求依然需要通過更精準、更有沉淀的技術進行解決。
2.小米AI的自研之路
羅馬不是一日建成的。相比于簡單堆砌配置,AI技術的展示更能顯示出手機廠商的前驅性。
小米10所展示的AI技術,意味著小米必須在2-3年前就預想到消費者的潛在需求,并經過長時間的實驗和測試,最終推向大眾消市場。
在這一點上,小米在2019年2月就將人工智能部拆分為獨立事業部,去年10月還加盟了國際語音頂級學者Daniel Povey。在AI自主研發這條道路上,小米顯然是有備而來。
在小米“手機+AIoT”的雙引擎戰略里,AI扮演了非常重要的角色。
目前在整個行業,手機相機研發有一個明顯的趨勢,就是人工智能的深度整合,具體來講有兩個方面:
一個就是手機相機的軟件化和算法化,之前很多手機相機的體驗是靠硬件去做,但是最近這兩年,一些領先的體驗是通過軟件算法實現。 第二個趨勢就是算法AI化,越來越多的相機算法從傳統圖像處理算法轉變成AI算法。這些都在小米10上集中體現出來。
盡管是一家互聯網公司,但實際上,小米的所有產品,包括硬件產品、軟件產品和互聯網服務都需要AI來賦能。
通過小米AI實驗室的兩年研究,目前小米已經在聲學、語音、視覺,NLP、知識圖譜、機器學習6大方向取得一系列成果。
視覺上,小米換天得到了眾多用戶的喜愛,除此之外,單攝虛化、人臉解鎖、美顏、場景識別等AI主導的功能,也早已應用在小米的系列手機上。
語音方面,小米自研的語音識別、合成、語音喚醒和聲紋識別等關鍵技術也已經落地在手機、電視、音箱等眾多小米產品上。其中最新的小愛音箱Pro,就包含了“就近喚醒、全屋播放、聲源定位、多通道降噪、回聲消除、去混響”等功能。近日,小米語音團隊自研的“多通道端到端語音技術”,取得比“傳統多通道陣列增強模塊加單通道語音技術”更好的性能。
相比價格、商業模式,只有真正的技術實力能成為競爭對手難以逾越的門檻,小米花了兩年時間,構筑了足夠高的城墻。
3.為了更強大的AI,值得為小米10等待一年
厚積薄發和專注極致的快體驗,二者在小米身上得到了難得的平衡。
隸屬目前霸居智能手機排行版前五的手機廠商,創立時間均超過10年,最長的達到了31年。在痛苦轉型上,他們都先后付出了不少代價。即使他們從功能機時代就開始打拼,手握諸多優勢,仍然長期不能打開局面,最終還是借助智能手機的浪潮才成功突圍。
小米,不單純因為在智能手機浪潮中搶占了先機,更在于它敏銳的市場嗅覺,和它具有商業潛力的想象力。盡管行業縱然有大環境的限制,但作為最精細的電子產品本身,它依然存在令人著迷的想象空間,但這些想象力未必是硬件本身帶來的,而是驅動這些硬件背后的技術,例如AI。
換做其他人或者很難想象,就在兩年前,消費者可供使用的手機AI功能還十分有限,人工智能更像是一個高不可攀的宏大詞匯。但截止到2019年,《2019智能手機影像技術應用觀察及趨勢分析》報告已經指出,隨著人工智能技術在智能手機拍照領域的成熟運用,影像技術已經成為影響手機銷量的重要指標之一。
2020年以后,隨著5G的普及,智能手機的影像性能和外觀設計仍將是推動創新的兩大源動力,在這其中,小米無疑依靠自研AI打了漂亮的開年戰,在AI技術上的厚積薄發更能夠真正幫助一家智能手機廠商坐穩高端的交椅。