| Amazon Nova | AWS | 多模態模型

Amazon公布多模態AI模型家族Nova

AWS發表該公司首款多模態模型Amazon Nova系列,於Amazon Bedrock平臺上提供給企業用戶

2024-12-04

| IT周報 | 蘋果 | 多模態模型 | 行動裝置 | UI | 諾貝爾物理獎 | Meta | 影片生成 | 微軟 | Copilot | Gemini Nano

AI趨勢周報第261期:UI螢幕互動成多模態模型新戰場,蘋果揭露新研究成果

蘋果揭露多模態模型MM1.5系列成果,還能處理行動裝置螢幕理解任務;兩位機器學習先鋒獲得諾貝爾物理獎;Meta預告影片生成AI模型Movie Gen;蘋果新模型1秒內將2D圖片轉為3D;可大幅改進AI模型運算效能!PyTorch釋出torchao函式庫

2024-10-11

| Phi-3-vision | 微軟 | 多模態模型 | Phi-3

微軟公布具視覺能力的Phi-3-vision多模態模型,可執行在行動裝置上

微軟釋出小語言模型Phi-3家族第一個多模態模型Phi-3-vision,同時具備文字以及圖片識別能力,能根據用戶要求產出洞見與回答問題

2024-05-22

| OpenAI | GPT-4o | 多模態模型

OpenAI新AI多模模型GPT-4o提供所有ChatGPT用戶,速度更快,價格減半

OpenAI宣布新一代多模態AI模型GPT-4o,將逐步提供給所有ChatGPT服務用戶,強調GPT-4o對聲音輸入產生回應的速度與人類對話反應時間一樣快

2024-05-14

| google | 多模態模型 | 資訊圖表

Google發表當前最佳UI與資訊圖表理解模型ScreenAI

Google ScreenAI模型結合視覺和語言處理能力,採用彈性區塊處理策略(Flexible Patching Strategy)強化,並且經特製資料集訓練,成為目前圖表理解能力最佳的模型

2024-03-22

| Gemini 1.5 | 多模態模型 | Gemini 1.5 Pro | google

Google發表Gemini 1.5,可支援長達100萬個Token的脈絡

最先採用Gemini 1.5模型的產品為Gemini 1.5 Pro,其標準脈絡長度為12.8萬個Token,Google計畫隨著模型的改善擴大到100萬個Token,將可一次處理1小時的影片、11小時的音訊或超過3萬行的程式碼

2024-02-16

| CM3Leon | Meta | 多模態模型 | 通用模型 | AI

Meta發表也能產生圖說的圖像生成模型CM3Leon

Meta強調只用30億Token文字資料訓練的CM3Leon,在生成圖像說明、回答圖像問題任務表現上,與具備400億Token的OpenFlamingo相當

2023-07-17