Phi-3-Vision-128K-Instruct 是這個專案的核心,它是一個輕量級、最先進的多模態模型。這個模型屬於 Phi-3 模型家族,支持長達 128,000 個 tokens 的上下文長度。模型訓練使用了包含合成數據和經過仔細篩選的公開網站數據集,強調高質量和需要深度推理的內容。訓練過程包括監督微調和直接偏好優化,以確保精確遵循指令,同時包含強大的安全措施。
-
測試:樣本數據允許你在各種場景下測試應用程序,而不會影響真實數據。這在開發和階段性測試階段特別重要。
-
性能調優:使用模擬真實數據規模和複雜度的樣本數據,可以識別性能瓶頸並相應地優化應用程序。
-
原型設計:樣本數據可以用來創建原型和模型,有助於理解用戶需求並獲取反饋。
-
數據分析:在數據科學中,樣本數據通常用於探索性數據分析、模型訓練和算法測試。
-
安全性:在開發和測試環境中使用樣本數據可以幫助防止敏感真實數據的意外洩漏。
-
學習:如果你正在學習一項新技術或工具,使用樣本數據可以提供實際應用所學知識的方法。
請記住,樣本數據的質量對這些活動有顯著影響。它在結構和變異性方面應盡可能接近真實數據。
一個好的樣本數據集例子是 DBQ/Burberry.Product.prices.United.States dataset(可在 Huggingface 上找到)。 這個 Burberry 產品的樣本數據集包含產品類別、價格和標題的元數據,共有 3,040 行,每行代表一個獨特的產品。這個數據集讓我們測試模型理解和解釋視覺數據的能力,生成描述性文本,捕捉細緻的視覺細節和品牌特徵。
注意: 你可以使用包含圖像的任何數據集。
模型需要僅根據圖像來推理價格和名稱。這要求模型不僅要識別視覺特徵,還要理解它們在產品價值和品牌方面的含義。通過從圖像中合成準確的文本描述,該專案展示了將視覺數據整合到模型中以增強其在現實應用中的性能和多功能性的潛力。
模型架構是 Phi-3 的多模態版本。它處理文本和圖像數據,將這些輸入整合到一個統一的序列中以進行全面的理解和生成任務。模型使用單獨的嵌入層來處理文本和圖像。文本 tokens 轉換為密集向量,而圖像則通過 CLIP 視覺模型處理以提取特徵嵌入。這些圖像嵌入然後投射到與文本嵌入相匹配的維度,確保它們可以無縫整合。
文本序列中的特殊 tokens 表示應插入圖像嵌入的位置。在處理過程中,這些特殊 tokens 被相應的圖像嵌入替換,允許模型將文本和圖像作為一個單一序列處理。我們數據集的提示使用特殊的 <|image|> token 格式如下:
text = f"<|user|>\n<|image_1|>What is shown in this image?<|end|><|assistant|>\nProduct: {row['title']}, Category: {row['category3_code']}, Full Price: {row['full_price']}<|end|>"
免責聲明:此翻譯由AI模型從原文翻譯而來,可能不完全準確。請檢查輸出並進行必要的修正。