Metaは,画像とテキスト処理のためのオープンソースのマルチモダルAIモデルLlama 3.2をリリースした. Meta launches open-source multimodal AI model Llama 3.2 for image and text processing.
MetaはLlama 3.2をリリースしました 画像とテキストを処理できる最初のオープンソースのマルチモダルAIモデルです Meta has launched Llama 3.2, its first open-source multimodal AI model capable of processing images and text. 異なるハードウェアに設計された,11億と90億のパラメータを持つビジョンモデルと10億と30億のパラメータを持つ軽量テキストモデルが含まれています. It includes vision models with 11 billion and 90 billion parameters, and lightweight text models with 1 billion and 3 billion parameters, designed for diverse hardware. Llama 3.2は,拡張現実や文書分析などの分野におけるAIアプリケーションを強化し,OpenAIやAnthropicのようなライバルに対して,画像認識タスクで競争力のあるパフォーマンスを提供することを目指しています. Llama 3.2 aims to enhance AI applications in areas like augmented reality and document analysis, offering competitive performance in image recognition tasks against rivals like OpenAI and Anthropic.