AI スタートアップの Galileo Technologies は、Claude 3.5 Sonnet、Google の Gemini、Alibaba の Qwen2-72B-Instruct を Hallucination Index ベンチマークでトップにランク付けしました。 AI startup Galileo Technologies ranks Claude 3.5 Sonnet, Google's Gemini, and Alibaba's Qwen2-72B-Instruct top in the Hallucination Index benchmark.
AI スタートアップの Galileo Technologies は、新しいベンチマーク テストである Hallucination Index で、中規模およびオープンソースの大規模言語モデルを高く評価しました。 AI startup Galileo Technologies has ranked midrange and open-source large language models highly in a new benchmark test, the Hallucination Index. このベンチマークでは、22 の主要な生成 AI モデルを評価し、3 つのタスク コレクションにわたってその精度を測定しました。 The benchmark, which evaluates 22 leading generative AI models, measured their accuracy across three task collections. Anthropic の Claude 3.5 Sonnet がランキングのトップとなり、Google の Gemini 1.5 Flash がコスト面で最高のパフォーマンスを発揮しました。 Anthropic's Claude 3.5 Sonnet topped the ranking, while Google's Gemini 1.5 Flash performed best on cost. Alibaba の Qwen2-72B-Instruct は、最高のパフォーマンスを発揮したオープンソース モデルでした。 Alibaba's Qwen2-72B-Instruct was the top-performing open-source model.