Home / Query / WordAlign / Wiki     [books] [DGT] [DOGC] [ECB] [EMEA] [EUbooks] [EU] [Europarl] [GNOME] [GlobalVoices] [hren] [JRC] [KDE4/doc] [MBS] [MultiUN] [NCv9/v11] [OO/OO3] [subs/12/13/16] [ParCor] [PHP] [SETIMES] [SPC] [Tatoeba] [TEP] [TedTalks] [TED] [Tanzil] [Ubuntu] [UN] [WikiSource] [Wikipedia] [WMT]

EUbookshop

Corpus of documents from the EU bookshop

48 languages, 794 bitexts
total number of files: 135,785
total number of tokens: 3.60G
total number of sentence fragments: 173.20M

Please cite the following article if you use any part of the corpus in your own work:
Raivis Skadiņš, Jörg Tiedemann, Roberts Rozis and Daiga Deksne (2014): Billions of Parallel Words for Free, In Proceedings of LREC 2014, Reykjavik, Iceland [bib] [pdf]

Download

Source: http://bookshop.europa.eu - Thanks to Tilde (http://www.tilde.com) for collecting the data, within the EU ICT PSP project LetsMT! (https://www.letsmt.eu/)
Complete download of aligned documents (in XML): EUbookshop0.2.tar.gz (33G )

Bottom-left triangle: download files
  • ces = sentence alignments in XCES format
  • leftmost column language IDs = tokenized corpus files in XML
  • TMX and plain text files (Moses): see "Statistics" below
  • lower row language IDs = parsed corpus files (if they exist)
Upper-right triangle: sample files
  • view = bilingual XML file samples
  • upper row language IDs = monolingual XML file samples
  • rightmost column language IDs = untokenized corpus files

ar be bg bs ca cn cs cy da de el en es et fi fr fr_BE ga gd hr hu is it ja lb lt lv mk mt nb nl nl_BE pl po pt ro ru sh sk sl sq sr sv sw tc tr uk zh
ar viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewar viewviewviewviewviewviewviewviewviewviewviewviewviewar
be viewbe viewbe
bg ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewbg
bs ces viewviewviewviewviewviewviewviewviewviewviewbs viewviewviewviewviewviewviewviewviewviewviewviewviewviewbs
ca ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewca viewviewviewviewviewviewviewviewviewviewviewviewviewca
cn viewviewviewviewviewviewviewcn viewviewcn
cs ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewcs viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewcs
cy ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewcy viewviewviewviewviewviewviewviewviewcy
da ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewda viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewda
de ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewde viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewde
el ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewel viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewel
en ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewen viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewen
es ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewes viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewes
et ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewet viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewet
fi ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewfi viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfi
fr ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewfr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewfr
fr_BE ces ces ces ces ces ces ces viewviewfr_BE viewviewviewviewviewviewviewviewviewviewfr_BE
ga ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewga viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewga
gd ces ces ces ces ces ces ces ces ces ces ces ces viewviewgd viewviewviewviewviewviewviewviewviewviewgd
hr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewhr viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhr
hu ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewhu viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewhu
is ces ces ces ces ces ces ces ces ces ces ces ces viewis viewviewviewviewviewviewviewviewviewviewviewviewviewviewis
it ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewit viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewit
ja ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ja viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewja
ar be bg bs ca cn cs cy da de el en es et fi fr fr_BE ga gd hr hu is it ja lb lt lv mk mt nb nl nl_BE pl po pt ro ru sh sk sl sq sr sv sw tc tr uk zh
lb ces ces ces ces ces ces ces ces ces ces lb viewviewviewviewlb
lt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces lt viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewlt
lv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces lv ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewlv
mk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces mk ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewmk
mt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces mt ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewviewmt
nb ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nb ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewnb
nl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces nl ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewviewviewviewnl
nl_BE ces ces ces ces ces ces ces ces ces ces ces ces ces nl_BE ces ces ces ces viewviewviewviewviewnl_BE
pl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pl ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewpl
po ces ces ces ces ces ces ces po ces viewviewpo
pt ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces pt ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewviewviewviewpt
ro ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ro ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewro
ru ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ru ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewviewru
sh ces ces ces sh ces viewviewsh
sk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sk ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewviewsk
sl ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sl ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewviewviewsl
sq ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sq ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewviewsq
sr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sr ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewsr
sv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sv ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewviewviewsv
sw ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces sw ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewviewsw
tc ces ces ces ces ces ces ces tc ces ces ces tc
tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces tr ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces viewtr
uk ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces uk ces ces ces ces ces ces ces ces ces ces uk
zh ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zh ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces ces zh
ar be bg bs ca cn cs cy da de el en es et fi fr fr_BE ga gd hr hu is it ja lb lt lv mk mt nb nl nl_BE pl po pt ro ru sh sk sl sq sr sv sw tc tr uk zh

Statistics and TMX/Moses Downloads

Number of files, tokens, and sentences per language (including non-parallel ones if they exist)
Number of sentence alignment units per language pair

Upper-right triangle: download translation memory files (TMX)
Bottom-left triangle: download plain text files (MOSES/GIZA++)
Language ID's, first row: monolingual plain text files (tokenized)
Language ID's, first column: monolingual plain text files (untokenized)

language files tokens sentencesar be bg bs ca cn cs cy da de el en es et fi fr fr_BE ga gd hr hu is it ja lb lt lv mk mt nb nl nl_BE pl po pt ro ru sh sk sl sq sr sv sw tc tr uk zh
ar 30 80.0k 4.5k18 0.1k 80 0.1k 0.1k 1.6k 0.2k 99 0.1k 1.2k 15 0.1k 0.2k 0.1k 0.1k 0.2k 96 0.1k 0.1k 100 1.0k 87 0.1k 90
be 1 0.1k 135
bg 751 10.1M 0.4M18 0.3k 1.2k 0.2M 0.2M 0.2M 0.2M 0.2M 0.2M 0.2M 0.2M 0.2M 38.4k 48 2.7k 0.2M 5.2k 0.2M 0.2M 0.2M 2.5k 0.1M 14.5k 0.2M 0.2M 0.2M 0.2M 0.8k 0.2M 0.2M 1.5k 1.5k 0.2M 8 13.5k
bs 5 27.7k 0.9k0.3k 0.4k 0.4k 0.4k 0.6k 0.4k 0.4k 0.4k 0.3k 0.6k 32 29 0.3k 0.4k 0.4k 0.3k 0.4k 0.4k 0.4k 0.3k 0.4k 0.4k 0.7k 0.6k 0.4k 0.4k
ca 37 0.1M 6.1k1.2k 1.7k 2.4k 2.2k 2.5k 3.7k 3.0k 1.8k 2.5k 3.1k 0.1k 64 0.6k 1.1k 2.9k 1.9k 1.8k 1.5k 3.1k 1.8k 2.8k 0.8k 2.0k 1.9k 1.8k
cn 1 0 0
cs 1,194 16.3M 0.8M0.1k 0.2M 0.4k 1.8k 0.6k 0.3M 0.3M 0.3M 0.4M 0.4M 0.3M 0.3M 0.3M 52.7k 21 3.7k 0.4M 6.8k 0.4M 45 0.4M 0.4M 2.7k 0.2M 19.2k 0.4M 0.4M 0.4M 0.3M 1.8k 0.4M 0.3M 1.6k 1.5k 0.3M 14 17.9k 1.4k
cy 12 90.5k 4.3k0.6k 0.5k 0.6k 0.5k 2.9k 0.5k 0.5k 0.6k 0.6k 0.4k 0.5k 0.5k 0.6k 0.6k 0.5k 0.5k 0.5k 0.5k 0.6k 0.5k 0.6k 0.4k
da 7,081 208.2M 8.7M80 0.2M 2.6k 0.4M 0.5k 4.4M 3.3M 4.5M 3.6M 0.3M 1.6M 4.1M 69.5k 20 2.7k 0.3M 8.2k 4.4M 76 0.3M 0.3M 1.1k 0.2M 23.3k 4.7M 0.3M 3.3M 0.2M 5.1k 0.3M 0.3M 13 4 1.6M 10 0.6k 12.4k 1.4k
de 15,585 346.4M 18.2M0.1k 0.2M 0.4k 2.6k 0.4M 0.6k 4.8M 3.7M 8.3M 4.5M 0.3M 1.7M 7.7M 80.4k 69 3.1k 0.3M 8.6k 5.4M 96 0.3M 0.3M 2.8k 0.2M 25.6k 5.2M 0.4M 3.5M 0.2M 8.3k 0.3M 0.3M 1.6k 1.4k 1.6M 13 0.5k 18.0k 1.6k
el 6,486 213.2M 10.0M0.1k 0.2M 0.4k 2.8k 0.4M 0.5k 3.6M 4.0M 3.6M 3.5M 0.3M 1.5M 3.7M 90.7k 38 3.4k 0.3M 7.9k 3.7M 2 0.3M 0.3M 2.8k 0.2M 19.4k 3.7M 0.3M 3.2M 0.2M 6.4k 0.3M 0.3M 1.6k 1.6k 1.4M 6 13.1k 0.7k
en 37,663 1.2G 66.4M1.7k 5 0.2M 0.6k 4.2k 0.5M 3.1k 5.0M 9.3M 4.0M 4.8M 0.4M 1.8M 9.4M 95.7k 100 5.8k 0.4M 9.2k 5.8M 96 0.4M 0.4M 2.3k 0.2M 27.0k 5.4M 0.5M 3.8M 0.3M 45.0k 0.5k 0.4M 0.3M 2.0k 1.4k 1.8M 15 0.2k 22.1k 1.7k
es 7,716 223.5M 8.2M0.2k 0.2M 0.4k 3.4k 0.4M 0.5k 3.8M 4.8M 3.8M 5.2M 0.3M 1.7M 4.6M 78.4k 53 4.9k 0.3M 8.0k 4.3M 82 0.3M 0.4M 2.6k 0.2M 24.4k 4.1M 0.4M 3.7M 0.3M 7.9k 0.3M 0.3M 1.6k 1.5k 1.6M 12 0.5k 18.8k 1.4k
et 1,151 12.6M 0.7M99 0.2M 0.4k 1.8k 0.4M 0.5k 0.4M 0.4M 0.3M 0.4M 0.4M 0.3M 0.3M 46.9k 21 3.6k 0.3M 6.9k 0.3M 58 0.4M 0.4M 2.5k 0.2M 19.0k 0.4M 0.4M 0.3M 0.3M 1.8k 0.4M 0.3M 1.6k 1.4k 0.3M 12 14.0k 1.4k
fi 4,055 63.1M 3.6M0.1k 0.2M 0.4k 2.8k 0.4M 0.6k 1.8M 1.9M 1.7M 2.0M 1.8M 0.4M 1.7M 62.7k 34 4.5k 0.3M 10.0k 1.7M 84 0.4M 0.4M 2.7k 0.2M 26.9k 1.8M 0.4M 1.7M 0.2M 5.9k 0.3M 0.3M 1.8k 1.5k 1.7M 14 16.0k 1.6k
fr 17,261 445.8M 18.5M1.2k 0.2M 0.4k 3.4k 0.4M 0.6k 4.4M 8.6M 4.1M 10.6M 4.9M 0.4M 1.9M 88.6k 83 5.0k 0.3M 8.6k 5.2M 83 0.3M 0.3M 2.7k 0.2M 25.3k 4.8M 0.4M 3.7M 0.2M 14.9k 0.3M 0.3M 1.5k 1.4k 1.7M 16 0.5k 20.5k 1.6k
fr_BE 2 0 0
ga 246 4.0M 0.2M15 55.9k 0.1k 76.8k 0.4k 88.6k 0.1M 0.1M 0.1M 0.1M 63.1k 81.9k 0.1M 71 0.5k 49.8k 4.6k 87.0k 52.1k 52.4k 0.5k 57.7k 4.5k 88.6k 52.2k 86.4k 47.8k 0.2k 51.7k 52.3k 5 68.6k 5 4.4k
gd 1 2.2k 0.2k48 64 21 20 69 38 100 53 21 34 83 71 30 54 26 23 64 44 40 51 50 91 26 37
hr 23 0.2M 8.7k2.7k 0.6k 0.6k 4.1k 0.5k 2.8k 3.3k 3.8k 6.1k 5.3k 3.9k 4.9k 5.3k 0.5k 1.7k 2.9k 3.7k 3.6k 2.5k 1.6k 1.2k 4.3k 3.6k 2.8k 3.1k 0.9k 0.4k 3.5k 3.7k 2.0k 1.6k 3.6k 7 3.9k 0.3k
hu 1,159 14.9M 0.8M0.1k 0.2M 32 1.2k 0.4M 0.5k 0.4M 0.4M 0.4M 0.4M 0.4M 0.4M 0.4M 0.4M 72.5k 30 1.7k 6.3k 0.3M 67 0.3M 0.4M 1.2k 0.2M 16.9k 0.3M 0.4M 0.3M 0.3M 2.0k 0.4M 0.3M 0.1k 71 0.3M 14 0.6k 14.8k 1.5k
is 48 0.2M 13.6k5.4k 7.2k 8.5k 9.0k 8.4k 9.8k 8.2k 7.3k 10.6k 9.0k 4.9k 6.7k 8.3k 5.8k 6.2k 81 5.5k 8.6k 8.7k 6.3k 8.4k 5.9k 0.5k 6.9k 6.7k 9.4k 2.5k
it 9,151 265.7M 11.1M0.2k 0.2M 29 3.3k 0.5M 0.6k 4.8M 5.9M 4.1M 6.5M 4.7M 0.4M 1.9M 5.7M 0.1M 54 2.9k 0.4M 8.7k 92 0.4M 0.3M 1.2k 0.2M 24.0k 5.2M 0.4M 3.6M 0.3M 6.1k 0.4M 0.3M 93 54 1.7M 16 0.5k 15.3k 1.5k
ja 4 2.5k 0.2k50 89 0.1k 2 0.1k 97 75 97 99 81 0.1k 64 68 85 75 93 90 68 60 57
lb 4 0 0
lt 1,149 14.7M 0.8M0.1k 0.2M 0.3k 2.0k 0.4M 0.6k 0.4M 0.4M 0.4M 0.4M 0.4M 0.4M 0.4M 0.4M 76.9k 26 3.9k 0.4M 6.1k 0.4M 77 0.4M 2.7k 0.2M 18.2k 0.4M 0.4M 0.3M 0.3M 1.9k 0.4M 0.3M 1.6k 1.4k 0.3M 16 16.5k 1.4k
lv 1,165 14.9M 0.8M0.1k 0.2M 0.4k 1.8k 0.4M 0.6k 0.4M 0.4M 0.3M 0.4M 0.4M 0.4M 0.4M 0.4M 70.0k 23 4.0k 0.4M 6.5k 0.4M 81 0.4M 2.4k 0.2M 18.8k 0.4M 0.4M 0.3M 0.3M 1.9k 0.4M 0.3M 1.6k 1.3k 0.3M 13 15.8k 1.5k
mk 13 96.3k 4.7k2.6k 0.4k 3.0k 1.1k 3.2k 3.2k 2.6k 2.9k 2.9k 3.1k 3.1k 0.5k 2.8k 1.2k 83 1.2k 2.9k 2.7k 0.9k 1.4k 2.8k 2.7k 1.1k 2.6k 10 2.6k 2.7k 1.8k 1.6k 2.6k 8 3.0k
mt 902 10.4M 0.5M0.2k 0.1M 1.5k 0.3M 0.2M 0.3M 0.3M 0.3M 0.3M 0.3M 0.3M 0.3M 77.0k 64 1.6k 0.3M 5.7k 0.3M 0.3M 0.3M 1.0k 5.9k 0.2M 0.2M 0.2M 0.2M 1.1k 0.2M 0.2M 16 4 0.2M 13 5.4k 0.6k
nb 95 0.9M 44.1k14.9k 0.3k 20.0k 24.2k 26.5k 20.0k 28.2k 25.0k 19.8k 28.0k 26.3k 4.7k 1.3k 17.6k 9.0k 24.8k 19.0k 19.5k 1.4k 6.1k 25.7k 18.9k 23.5k 17.0k 0.5k 19.3k 19.5k 1.4k 1.3k 26.7k 12 10.6k
nl 7,687 247.6M 10.2M96 0.2M 0.4k 3.5k 0.4M 0.6k 5.1M 5.7M 4.1M 6.0M 4.4M 0.4M 2.0M 5.3M 0.1M 44 4.6k 0.4M 9.2k 5.7M 88 0.4M 0.4M 3.1k 0.3M 26.6k 0.4M 3.6M 0.3M 6.1k 0.4M 0.3M 1.7k 1.5k 1.8M 13 0.5k 14.9k 1.5k
nl_BE 5 0 0
pl 1,400 18.4M 0.9M0.1k 0.2M 0.4k 1.9k 0.4M 0.6k 0.4M 0.5M 0.4M 0.5M 0.5M 0.4M 0.4M 0.5M 76.4k 40 4.0k 0.4M 6.6k 0.5M 85 0.4M 0.4M 3.1k 0.3M 19.6k 0.4M 0.4M 0.3M 2.6k 0.4M 0.3M 1.7k 1.5k 0.3M 14 17.4k 1.5k
po 1 0 0
pt 6,381 184.6M 7.0M0.1k 0.2M 3.2k 0.4M 0.5k 3.6M 3.8M 3.5M 4.2M 4.0M 0.4M 1.8M 4.0M 0.1M 51 2.8k 0.4M 8.8k 4.0M 0.1k 0.4M 0.4M 1.2k 0.3M 24.5k 4.0M 0.4M 0.3M 6.1k 0.4M 0.3M 16 5 1.6M 12 14.1k 1.5k
ro 747 13.2M 0.5M100 0.2M 0.4k 0.8k 0.3M 0.3M 0.3M 0.3M 0.3M 0.3M 0.3M 0.3M 0.3M 63.0k 50 3.4k 0.3M 6.2k 0.3M 0.3M 0.3M 3.0k 0.2M 17.5k 0.3M 0.3M 0.3M 1.2k 0.3M 0.2M 1.7k 1.5k 0.3M 13 17.3k
ru 109 1.4M 79.6k1.0k 0.8k 1.9k 5.5k 9.0k 7.1k 49.8k 8.4k 1.9k 6.5k 16.0k 0.2k 1.0k 2.0k 0.5k 6.6k 92 1.9k 1.9k 10 1.1k 0.5k 6.6k 2.7k 6.5k 1.2k 1.8k 1.6k 7 6 5.5k 7 1.1k 0.3k
sh 2 13.1k 1.1k0.3k 0.6k 0.5k 0.6k 0.3k
sk 1,165 15.5M 0.7M87 0.2M 0.4k 2.0k 0.4M 0.6k 0.4M 0.4M 0.3M 0.5M 0.4M 0.4M 0.4M 0.4M 65.6k 91 3.9k 0.4M 7.2k 0.4M 80 0.4M 0.4M 2.9k 0.3M 20.0k 0.4M 0.4M 0.4M 0.3M 1.9k 0.3M 1.6k 1.4k 0.3M 16 17.1k 1.4k
sl 1,153 14.1M 0.7M0.1k 0.2M 0.4k 1.9k 0.4M 0.5k 0.3M 0.3M 0.3M 0.4M 0.4M 0.4M 0.4M 0.3M 76.1k 26 4.0k 0.4M 7.0k 0.4M 74 0.4M 0.4M 3.0k 0.3M 20.2k 0.4M 0.4M 0.4M 0.3M 1.7k 0.4M 1.7k 1.5k 0.3M 12 16.7k 1.4k
sq 9 85.1k 3.8k1.5k 0.7k 2.0k 14 1.9k 2.0k 2.2k 1.9k 1.9k 2.1k 1.8k 5 2.4k 0.1k 96 1.7k 1.9k 2.1k 17 1.4k 2.0k 2.0k 17 2.0k 7 0.7k 1.9k 2.0k 1.9k 1.7k 15 1.8k
sr 7 59.1k 3.1k1.5k 0.6k 1.8k 4 1.6k 1.9k 1.6k 1.8k 1.7k 1.9k 1.7k 1.9k 73 55 1.5k 1.5k 1.9k 4 1.3k 1.8k 1.9k 5 1.8k 6 0.3k 1.7k 1.8k 2.3k 1.4k 3 1.6k
sv 4,033 71.5M 3.2M90 0.2M 0.4k 2.1k 0.4M 0.6k 1.7M 1.8M 1.5M 1.9M 1.7M 0.4M 1.9M 1.8M 86.5k 37 4.0k 0.4M 9.9k 1.8M 68 0.4M 0.4M 3.0k 0.3M 27.7k 1.9M 0.4M 1.8M 0.3M 5.9k 0.4M 0.4M 2.0k 1.7k 13 15.4k 1.5k
sw 3 0.3k 188 15 11 15 6 17 14 14 17 16 5 7 15 17 17 14 8 14 13 14 15 15 14 7 17 12 16 3 15 14
tc 1 18.3k 1.2k0.6k 0.5k 0.2k 0.5k 0.5k 0.6k 0.5k 0.5k
tr 67 0.7M 33.4k14.0k 0.4k 19.2k 12.8k 19.1k 14.2k 23.7k 19.9k 15.0k 17.2k 21.9k 4.7k 4.4k 15.6k 2.7k 16.2k 17.4k 17.0k 3.4k 5.8k 11.0k 15.9k 18.7k 14.8k 18.5k 1.1k 18.2k 17.7k 2.1k 1.9k 16.5k 14
uk 6 41.3k 2.5k1.5k 0.4k 1.4k 1.6k 0.8k 1.8k 1.4k 1.5k 1.6k 1.6k 0.3k 1.5k 1.5k 1.5k 1.5k 0.7k 1.5k 1.6k 1.5k 0.3k 1.5k 1.4k 1.5k
zh 18 0 0

Note that TMX files only contain unique translation units and, therefore, the number of aligned units is smaller than for the distributions in Moses and XML format. Moses downloads include all non-empty alignment units including duplicates. Token counts for each language also include duplicate sentences and documents.