EleutherAI_ThePile_v1/README.txt |
96 B |
EleutherAI_ThePile_v1/pile/SHA256SUMS.txt |
3 KB |
EleutherAI_ThePile_v1/pile/test.jsonl.zst |
438.9 MB |
EleutherAI_ThePile_v1/pile/train/00.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/01.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/02.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/03.jsonl.zst |
14.1 GB |
EleutherAI_ThePile_v1/pile/train/04.jsonl.zst |
14.1 GB |
EleutherAI_ThePile_v1/pile/train/05.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/06.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/07.jsonl.zst |
14.3 GB |
EleutherAI_ThePile_v1/pile/train/08.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/09.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/10.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/11.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/12.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/13.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/14.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/15.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/16.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/17.jsonl.zst |
14.3 GB |
EleutherAI_ThePile_v1/pile/train/18.jsonl.zst |
14.3 GB |
EleutherAI_ThePile_v1/pile/train/19.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/20.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/21.jsonl.zst |
14.3 GB |
EleutherAI_ThePile_v1/pile/train/22.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/23.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/24.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/25.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/26.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/27.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/28.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/train/29.jsonl.zst |
14.2 GB |
EleutherAI_ThePile_v1/pile/val.jsonl.zst |
449.1 MB |
EleutherAI_ThePile_v1/pile_preliminary_components/2020-09-08-arxiv-extracts-nofallback-until-2007-068.tar.gz |
16.3 GB |
EleutherAI_ThePile_v1/pile_preliminary_components/EuroParliamentProceedings_1996_2011.jsonl.zst |
1.4 GB |
EleutherAI_ThePile_v1/pile_preliminary_components/FreeLaw_Opinions.jsonl.zst |
15.8 GB |
EleutherAI_ThePile_v1/pile_preliminary_components/Literotica.jsonl.zst |
4.1 GB |
EleutherAI_ThePile_v1/pile_preliminary_components/NIH_ExPORTER_awarded_grant_text.jsonl.zst |
601.6 MB |
EleutherAI_ThePile_v1/pile_preliminary_components/PMC_extracts.tar.gz |
26.3 GB |
EleutherAI_ThePile_v1/pile_preliminary_components/PUBMED_title_abstracts_2019_baseline.jsonl.zst |
6.4 GB |
EleutherAI_ThePile_v1/pile_preliminary_components/PhilArchive.jsonl.zst |
760.8 MB |
EleutherAI_ThePile_v1/pile_preliminary_components/books1.tar.gz |
2.2 GB |
EleutherAI_ThePile_v1/pile_preliminary_components/books3.tar.gz |
36.8 GB |
EleutherAI_ThePile_v1/pile_preliminary_components/github.tar |
105.6 GB |
EleutherAI_ThePile_v1/pile_preliminary_components/hn.tar.gz |
673.8 MB |
EleutherAI_ThePile_v1/pile_preliminary_components/openwebtext2.jsonl.zst.tar |
27.3 GB |
EleutherAI_ThePile_v1/pile_preliminary_components/pile_uspto.tar |
11 GB |
EleutherAI_ThePile_v1/pile_preliminary_components/stackexchange_dataset.tar |
34.3 GB |
EleutherAI_ThePile_v1/pile_preliminary_components/ubuntu_irc_until_2020_9_1.jsonl.zst |
1.9 GB |
EleutherAI_ThePile_v1/pile_preliminary_components/yt_subs.jsonl.zst |
1.7 GB |