The Case of the Missing Increment

サぺル · 8 months ago

The Case of the Missing Increment

naur · edit-2 8 months ago

Trudno powiedzieć, jak to jest z tym przetrenowaniem. Do niedawna za optymalną proporcję ilości danych treningowych do rozmiaru modelu uznawało się tzw. Chinchilla Point.
Później LLama 3 została wytrenowana na znacznie większej liczbie tokenów i jakość modelu nadal wzrosła.