• naur
    link
    fedilink
    arrow-up
    1
    ·
    edit-2
    1 month ago

    Trudno powiedzieć, jak to jest z tym przetrenowaniem. Do niedawna za optymalną proporcję ilości danych treningowych do rozmiaru modelu uznawało się tzw. Chinchilla Point.
    Później LLama 3 została wytrenowana na znacznie większej liczbie tokenów i jakość modelu nadal wzrosła.