[2203.03466] Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer - discu.eu

Reddit

[R] You can't train GPT-3 on a single GPU, but you *can* tune its hyperparameters on one https://arxiv.org/abs/2203.03466 36 comments 10/3/2022 machinelearning

Linking pages

Would you like to stay up to date with Computer science? Checkout Computer science Weekly.

Related searches:

Search whole site: site:arxiv.org

Search title: [2203.03466] Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer

See how to search.

Submit link to: