| Phi-3-vision | 微軟 | 多模態模型 | Phi-3
微軟公布具視覺能力的Phi-3-vision多模態模型,可執行在行動裝置上
微軟釋出小語言模型Phi-3家族第一個多模態模型Phi-3-vision,同時具備文字以及圖片識別能力,能根據用戶要求產出洞見與回答問題
2024-05-22
OpenAI新AI多模模型GPT-4o提供所有ChatGPT用戶,速度更快,價格減半
OpenAI宣布新一代多模態AI模型GPT-4o,將逐步提供給所有ChatGPT服務用戶,強調GPT-4o對聲音輸入產生回應的速度與人類對話反應時間一樣快
2024-05-14
Google發表當前最佳UI與資訊圖表理解模型ScreenAI
Google ScreenAI模型結合視覺和語言處理能力,採用彈性區塊處理策略(Flexible Patching Strategy)強化,並且經特製資料集訓練,成為目前圖表理解能力最佳的模型
2024-03-22
| Gemini 1.5 | 多模態模型 | Gemini 1.5 Pro | google
Google發表Gemini 1.5,可支援長達100萬個Token的脈絡
最先採用Gemini 1.5模型的產品為Gemini 1.5 Pro,其標準脈絡長度為12.8萬個Token,Google計畫隨著模型的改善擴大到100萬個Token,將可一次處理1小時的影片、11小時的音訊或超過3萬行的程式碼
2024-02-16