模型日均tokens從1200億增長到4萬億,需要多長時間?豆包大模型給出的時間是——7個月,數(shù)據(jù)背后是2024年中國大模型應用市場爆發(fā)式增長的縮影。12月18日,火山引擎Force原動力大會在上海舉辦,豆包視覺理解模型正式發(fā)布,并以“厘”級的定價為企業(yè)提供極具性價比的多模態(tài)大模型能力。
大會期間,火山引擎總裁譚待在接受記者采訪時表示,豆包大模型在視覺理解、信息處理等領域展現(xiàn)出強勁的增長潛力,不僅僅局限于對話場景,而是廣泛應用于生產(chǎn)力相關的多元化場景。圍繞如何讓大模型用得起、用得好,以及如何幫助企業(yè)做好AI創(chuàng)新,推動大模型應用落地,譚待進行了深入解讀。
豆包生成圖片(關鍵詞:大模型、AI、世界、全面開花)
讓大模型用得起、用得好
當前,大模型在各種場景中都在“全面開花”。最近3個月,在信息處理場景,豆包的調用量增長39倍;客服與銷售場景,豆包的調用量增長16倍;在硬件終端場景,豆包增長了13倍,AI工具增長9倍。
豆包大模型為何增長如此迅猛?譚待認為,豆包大模型市場份額的爆發(fā),得益于火山引擎“更強模型、更低成本、更易落地”的發(fā)展理念,讓AI成為每一家企業(yè)都能用得起、用得好的普惠科技。
豆包視覺理解模型是當天的重頭戲。據(jù)介紹,豆包視覺理解模型不僅能精準識別視覺內(nèi)容,還具備出色的理解和推理能力,可根據(jù)圖像信息進行復雜的邏輯計算,完成分析圖表、處理代碼、解答學科問題等任務。此外,該模型有著細膩的視覺描述和創(chuàng)作能力。
比如,光從云朵里灑出來的美麗照片,模型能識別出這是丁達爾效應并解釋背后的原理;根據(jù)一張影子圖片,視覺理解模型能一眼識別出小動物的影子,并且推斷出這是一只貓……不僅如此,該模型還具備出色的理解和推理能力,無論是微積分題,還是高考物理,還是處理代碼、分析圖表等需求,它都能輕松勝任。
在定價方面,豆包視覺理解模型每千tokens輸入價格定為3厘(即0.003元),一元錢就可處理284張720P的圖片,比行業(yè)價格便宜85%。今年5月,字節(jié)跳動在正式對外發(fā)布豆包大模型時,就曾因定價比同行低99.3%而引起關注。譚待表示,“豆包大模型通過技術創(chuàng)新優(yōu)化成本,保持合理的毛利。我們一次性地把成本做到位,就是希望更多的人,特別是中小企業(yè)、創(chuàng)業(yè)公司、個人能用起來、用得好,創(chuàng)造價值。”
AI+教育、AI+游戲、AI+汽車,甚至AI+天文、AI+養(yǎng)魚、AI+美食……各種腦洞大開的應用場景讓人感嘆“AI+千行百業(yè)”的態(tài)勢一日千里。大模型正加速融入普通人的生活日常,并滲透進與生產(chǎn)力相關的場景,而隨著模型能力變強,模態(tài)變多,也會解鎖越來越多的新場景。
幫助企業(yè)做好AI創(chuàng)新
會上,豆包3D生成模型首次亮相。豆包3D模型采用3D-DiT等算法技術生成高質量的3D模型;veOmniverse,則是火山和英偉達一起合作的數(shù)字孿生平臺,火山引擎將二者結合起來,就可以實現(xiàn)AIGC 世界的仿真模擬器。
通過豆包3D模型與veOmniverse的結合方案,用戶可以高效完成智能訓練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作,滿足仿真訓練的多樣化需求,加速虛擬與現(xiàn)實的深度融合。
譚待表示,就目前數(shù)據(jù)來看,在工作、娛樂、生產(chǎn)力的場景其實是差不多的。在他看來,大模型發(fā)展過程中需要2C和2B齊頭并進,物理與虛擬齊頭并進,“大模型比過去的很多技術都更容易連接數(shù)字世界和物理世界。”
當天,豆包大模型多款產(chǎn)品迎來更新:豆包通用模型pro已全面對齊GPT-4o,使用價格僅為后者的1/8;音樂模型從生成60秒的簡單結構,升級到生成3分鐘的完整作品;文生圖模型2.1版本,更是在業(yè)界首次實現(xiàn)精準生成漢字和一句話P圖的產(chǎn)品化能力,該模型已接入即夢AI和豆包App。
同時,火山引擎升級了火山方舟、扣子和HiAgent三款平臺產(chǎn)品,幫助企業(yè)構建好自身的AI能力中心,高效開發(fā)AI應用。其中,火山方舟發(fā)布了大模型記憶方案,并推出 prefix cache 和 session cache API,降低延遲和成本;鹕椒街圻帶來全域AI搜索,具備場景化搜索推薦一體化、企業(yè)私域信息整合等服務。