[2101.00027] The Pile: An 800GB Dataset of Diverse Text for Language Modeling - discu.eu

Hacker News

The Pile: An 800GB dataset of diverse text for language modeling (2020) https://arxiv.org/abs/2101.00027 70 comments 11/7/2023

The Pile: An 800GB Dataset of Diverse Text for Language Modeling https://arxiv.org/abs/2101.00027 5 comments 10/6/2023

Reddit

Open source dataset for NLP https://arxiv.org/abs/2101.00027 5 comments 22/11/2022 languagetechnology

Linking pages

Would you like to stay up to date with Computer science? Checkout Computer science Weekly.

Related searches:

Search whole site: site:arxiv.org

Search title: [2101.00027] The Pile: An 800GB Dataset of Diverse Text for Language Modeling

See how to search.

Submit link to: