Surfaceform clusters

[ ]:
import json, math, tqdm

fname = "wiki/nlwiki-20220301/experiments/clean-q0.25.json"
anchor_scores = json.load(open(fname))
# log transform
anchor_scores = {
    a: {e: math.log1p(c) for e, c in ec.items()} for a, ec in anchor_scores.items()
}
# l2 normalize
anchor_scores = {
    a: {
        e: c / t
        for t in [sum(v**2 for v in ec.values()) ** 0.5]
        for e, c in ec.items()
    }
    for a, ec in anchor_scores.items()
}
len(anchor_scores)
[14]:
score_threshold = 0.5

id_anchors = {}
for a, es in anchor_scores.items():
    for e in es:
        id_anchors.setdefault(e, set()).add(a)

surface_cluster = {i: i for i in anchor_scores}
for a, es in tqdm.tqdm(anchor_scores.items()):
    others = set.union(*[id_anchors[e] for e in es]) - set([a])
    for o in others:
        x, y = set(anchor_scores[o]), set(es)
        # score = len(x&y) / len(x|y) # jacc
        score = sum(anchor_scores[o][v] * es[v] for v in x & y)  # cosine
        if score > score_threshold:
            surface_cluster[o] = surface_cluster[a]
            # print(f'{a:20s} {o:20s}', score )

clusters = {}
for s, c in surface_cluster.items():
    clusters.setdefault(c, set()).add(s)
clusters = [ss for ss in clusters.values() if len(ss) > 1]
len(clusters), len(set(s for c in clusters for s in c))
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30472/30472 [00:00<00:00, 131802.04it/s]
[14]:
(1900, 4902)
[15]:
sorted(clusters, key=len)[::-1]
[15]:
[{'cannondale pro cycling team',
  'cannondale-drapac pro cycling team',
  'ef education first pro cycling',
  'ef education-easypost',
  'ef education-nippo',
  'garmin',
  'garmin sharp',
  'garmin-sharp',
  'garmin-slipstream',
  'garmin-transitions',
  'team cannondale-garmin',
  'team ef education first-drapac p/b cannondale',
  'team garmin-cervélo',
  'team garmin-sharp',
  'team garmin-transitions'},
 {'amateurvoetbalclub',
  'amateurvoetbalvereniging',
  'bekertoernooi',
  'clubs',
  'profvoetbalclub',
  'profvoetballer',
  'voetbal',
  'voetbalbeker',
  'voetbalbond',
  'voetbalclub',
  'voetballer',
  'voetballers',
  'voetbalster',
  'voetbalvereniging'},
 {'frankrijk',
  'franse',
  'franse republiek',
  'franse revolutionaire',
  'fransen',
  'fransman',
  'noord-frankrijk',
  'noord-franse',
  'revolutionaire',
  'revolutionaire frankrijk',
  'revolutionairen',
  'zuid-frankrijk',
  'zuid-franse'},
 {'amerika',
  'amerikaanse',
  'amerikaanse staat',
  'amerikaanse staten',
  'amerikanen',
  'de verenigde staten',
  'u.s.',
  'united states',
  'usa',
  'verenigde staten',
  'vs'},
 {'brit',
  'brits',
  'britse',
  'britten',
  'engeland',
  'engelse',
  'engelsen',
  'groot-brittannië',
  'uk',
  'verenigd koninkrijk',
  'vk'},
 {'bondsrepubliek',
  'bondsrepubliek duitsland',
  'duits',
  'duits voetbalelftal',
  'duitse',
  'duitse afkomst',
  'duitser',
  'duitsers',
  'nationale elftal',
  'west-duitse',
  'west-duitsland'},
 {'componeerde',
  'componeren',
  'componist',
  'compositie',
  'composities',
  'gecomponeerd',
  'liederen',
  'nummer',
  'nummers',
  'track'},
 {'de oost',
  'india',
  'indiase',
  'indisch',
  'indische',
  'indië',
  'indiërs',
  'indo',
  'nederlands-indië',
  'oost-indië'},
 {'katholicisme',
  'katholiek',
  'katholieke',
  'katholieke geloof',
  'katholieke kerk',
  'katholieken',
  'kerk',
  'kerkelijke',
  'rooms-katholiek',
  'rooms-katholieke'},
 {'rome',
  'romein',
  'romeinen',
  'romeins',
  'romeinse',
  'romeinse keizerrijk',
  'romeinse keizertijd',
  'romeinse oudheid',
  'romeinse periode',
  'romeinse tijd'},
 {'olympische spelen 2020',
  'olympische spelen in tokio',
  'olympische spelen van 1964',
  'olympische spelen van tokio',
  'olympische zomerspelen 1964',
  'olympische zomerspelen 2020',
  'os 2020',
  'tokio 2020',
  'zomerspelen van 1964'},
 {'deceuninck',
  'deceuninck–quick-step',
  'etixx-quick step',
  'omega pharma-quick step',
  'quick step',
  'quick step-alpha vinyl',
  'quick-step',
  'quick-step floors',
  'quickstep'},
 {'csc',
  'saxo bank',
  'saxo bank-sungard',
  'team csc',
  'team csc saxo bank',
  'team saxo bank',
  'team saxo-tinkoff',
  'tinkoff',
  'tinkoff-saxo'},
 {'koloniaal',
  'koloniale',
  'kolonialisme',
  'kolonie',
  'kolonies',
  'kolonist',
  'kolonisten',
  'koloniën',
  'pionier'},
 {'bezetting',
  'duitse bezetter',
  'duitse bezetters',
  'duitse bezetting',
  'nazi',
  'naziregime',
  'nazis',
  'oorlogsjaren',
  'tweede wereldoorlog'},
 {'aanval',
  'aanvaller',
  'av',
  'centrumspits',
  'linksbuiten',
  'rechtsbuiten',
  'schaduwspits',
  'spits',
  'vleugelaanvaller'},
 {'gr.',
  'grieken',
  'grieks',
  'griekse',
  'griekse oudheid',
  'griekse taal',
  'oud-griekse',
  'oude grieken',
  'oudgrieks'},
 {'italiaan',
  'italiaans',
  'italiaanse',
  'italiaanse republiek',
  'italianen',
  'noord-italiaanse',
  'noord-italië',
  'zuid-italiaanse',
  'zuid-italië'},
 {'lampre',
  'lampre-caffita',
  'lampre-farnese vini',
  'lampre-fondital',
  'lampre-isd',
  'lampre-merida',
  'lampre-ngc',
  'uae team emirates'},
 {'cd',
  'cd-single',
  'cds',
  'debuut',
  'debuutsingle',
  'single',
  'singles',
  'vinylsingle'},
 {'argos-shimano',
  'bankgiroloterij',
  'giant-shimano',
  'skil-shimano',
  'team dsm',
  'team giant-alpecin',
  'team giant-shimano',
  'team sunweb'},
 {'federaal',
  'federale',
  'federale overheid',
  'federale republiek',
  'federalist',
  'federalisten',
  'federalistische',
  'federatie'},
 {'ultratop',
  'ultratop 200',
  'ultratop 50',
  'vlaams',
  'vlaamse',
  'vlaanderen',
  'vlaming',
  'vlamingen'},
 {'beroepswielrenner',
  'weg',
  'wielerploeg',
  'wielersport',
  'wielerwedstrijd',
  'wielrennen',
  'wielrenner',
  'wielrenster'},
 {'bonjour',
  'bouygues télécom',
  'direct énergie',
  'europcar',
  'team europcar',
  'team totalenergies',
  'total direct energie'},
 {'fdj',
  'fdj-bigmat',
  'fdj.fr',
  'fdjeux.com',
  'française des jeux',
  'groupama-fdj',
  'la française des jeux'},
 {'academici',
  'academicus',
  'academisch',
  'academische',
  'universiteit',
  'universiteiten',
  'wo'},
 {'golfbaan',
  'golfclub',
  'golfclubs',
  'golfer',
  'golfprofessional',
  'golfterrein',
  'professional'},
 {'londen 2012',
  'olympische spelen 2012',
  'olympische spelen in londen',
  'olympische spelen van 2012',
  'olympische spelen van londen',
  'olympische zomerspelen 2012',
  'olympische zomerspelen van 2012'},
 {'koninkrijk',
  'koninkrijken',
  'monarchie',
  'monarchist',
  'monarchisten',
  'monarchistische',
  'royalisten'},
 {'congo',
  'congo-brazzaville',
  'congo-kinshasa',
  'congolees',
  'congolese',
  'kongo',
  'republiek congo'},
 {'linkervleugelverdediger',
  'linksachter',
  'linksback',
  'rechtervleugelverdediger',
  'rechtsachter',
  'rechtsback',
  'vleugelverdediger'},
 {'kamer',
  'kamerlid',
  'kamerverkiezingen',
  'tweede kamerfractie',
  'tweede kamerlid',
  'verkiezingen van 2014',
  'verkiezingen van 25 mei 2014'},
 {'dagvlinder',
  'mot',
  'motten',
  'nachtvlinder',
  'nachtvlinders',
  'vlinder',
  'vlinders'},
 {'beuk',
  'beuken',
  'driebeukige',
  'kerkschip',
  'schip',
  'zijbeuken',
  'zijschip'},
 {'beschermd monument',
  'monument',
  'monumentaal',
  'monumentale',
  'monumenten',
  'monumentenlijst',
  'onroerend erfgoed'},
 {'film',
  'film-',
  'filmmaker',
  'geregisseerd',
  'regie',
  'regisseur',
  'regisseuse'},
 {'nederlander',
  'nederlanders',
  'nederlands',
  'nederlandse',
  'nederlandstalig',
  'nederlandstalige',
  'nl'},
 {'davitamon-lotto',
  'lotto soudal',
  'lotto-belisol',
  'omega pharma-lotto',
  'predictor-lotto',
  'silence-lotto'},
 {'olympische spelen 2016',
  'olympische spelen van 2016',
  'olympische zomerspelen 2016',
  'olympische zomerspelen van 2016',
  'rio 2016',
  'rio de janeiro 2016'},
 {'langebaan',
  'langebaanschaatser',
  'schaats',
  'schaatsen',
  'schaatser',
  'schaatsster'},
 {'gif', 'giftig', 'giftige', 'giftigheid', 'toxisch', 'toxische'},
 {'warner',
  'warner bros',
  'warner bros.',
  'warner bros. pictures',
  'warner bros. records',
  'warner brothers'},
 {'elpee', 'lp', 'lps', 'plaat', 'platen', 'vinyl'},
 {'gereformeerd',
  'gereformeerde',
  'gereformeerde kerk',
  'gereformeerde kerken',
  'gereformeerde kerken in nederland',
  'gereformeerden'},
 {'neoclassicisme',
  'neoclassicistisch',
  'neoclassicistische',
  'neoclassicistische stijl',
  'neoklassieke',
  'neoklassieke stijl'},
 {'krijgsmacht', 'landmacht', 'leger', 'legers', 'militair', 'militaire'},
 {'organist', 'orgel', 'orgelpijpen', 'orgels', 'pijpen', 'pijpwerk'},
 {'verzet',
  'verzetsgroep',
  'verzetsman',
  'verzetsstrijder',
  'verzetsstrijders',
  'verzetsstrijdster'},
 {'economen',
  'economie',
  'economisch',
  'economische',
  'economische wetenschappen',
  'econoom'},
 {'palestijnen',
  'palestijns',
  'palestijnse',
  'palestijnse gebieden',
  'palestijnse staat',
  'palestina'},
 {'joden', 'jodium', 'jood', 'joods', 'joodse', 'joodse gemeenschap'},
 {'ier', 'ieren', 'ierland', 'iers', 'ierse', 'ierse republiek'},
 {'deen', 'deens', 'deense', 'denemarken', 'denen', 'koninkrijk denemarken'},
 {'rus', 'rusland', 'russen', 'russisch', 'russische', 'russische rijk'},
 {'koninkrijk zweden', 'swe', 'zweden', 'zweed', 'zweeds', 'zweedse'},
 {'bardiani csf',
  'bardiani valvole-csf inox',
  'bardiani-csf-faizanè',
  'colnago-csf inox',
  'csf group-navigare'},
 {'communist', 'communiste', 'communisten', 'communistisch', 'pcb'},
 {'aves', 'avifauna', 'gevogelte', 'vogel', 'vogels'},
 {'farnese vini-neri sottoli',
  'neri sottoli',
  'southeast',
  'vini fantini-selle italia',
  'wilier triestina-southeast'},
 {'leopard trek',
  'radioshack leopard',
  'radioshack-leopard',
  'radioshack-nissan-trek',
  'trek factory racing'},
 {'htc-highroad',
  't-mobile team',
  'team columbia',
  'team htc-columbia',
  'team stuttgart'},
 {'wereldkampioenschappen sprint',
  'wk <br /> sprint',
  'wk <br />sprint',
  'wk sprint',
  'wk<br />sprint'},
 {'buis', 'buizen', 'leidingen', 'pijpleiding', 'pijpleidingen'},
 {'hallucinogene',
  'psychedelica',
  'psychedelisch',
  'psychedelische',
  'psychedelische rock'},
 {'ineos grenadiers', 'sky', 'sky procycling', 'team ineos', 'team sky'},
 {'astana pro team',
  'astana qazaqstan',
  'astana-premier tech',
  'liberty seguros-würth',
  'pro team astana'},
 {'erfelijk', 'erfelijke', 'erfelijkheid', 'geneticus', 'genetisch'},
 {'olympisch',
  'olympisch kampioen',
  'olympisch kampioene',
  'olympische',
  'spelen'},
 {'olympische spelen 2008',
  'olympische spelen in peking',
  'olympische spelen van peking',
  'olympische zomerspelen 2008',
  'peking 2008'},
 {'ghz', 'hertz', 'hz', 'khz', 'mhz'},
 {'magneet', 'magneten', 'magnetisch', 'magnetisch veld', 'magnetische'},
 {'gasthoogleraar', 'gewoon hoogleraar', 'hoogleraar', 'prof.', 'professor'},
 {'evangelisch-luthers',
  'evangelisch-lutherse',
  'evangelisch-lutherse kerk',
  'luthers',
  'lutherse'},
 {'mitchelton-scott',
  'orica greenedge',
  'orica-bikeexchange',
  'orica-scott',
  'team bikeexchange'},
 {'fl', 'fl.', 'florida', 'gulden', 'ƒ'},
 {'middelbaar onderwijs',
  'middelbare',
  'middelbare scholen',
  'middelbare school',
  'secundair'},
 {'habsburg', 'habsburgers', 'habsburgs', 'habsburgse', 'habsburgse rijk'},
 {'astrologen', 'astrologie', 'astrologisch', 'astrologische', 'astroloog'},
 {'belasting', 'belastingen', 'fiscaal', 'fiscale', 'schatting'},
 {'gelatiniseerd', 'gelatiniseerde', 'latijn', 'latijns', 'latijnse'},
 {'wereldkampioenschappen voor junioren',
  'wjk',
  'wk junioren',
  'wk u20',
  'wk voor junioren'},
 {'wereldkampioenschappen afstanden',
  'wk <br /> afstanden',
  'wk <br />afstanden',
  'wk afstanden',
  'wk<br />afstanden'},
 {'elisabeth',
  'elisabeth in beieren',
  'elisabeth van belgië',
  'koningin elisabeth',
  'prinses elisabeth'},
 {'ferry', 'pont', 'veer', 'veerdienst', 'veerpont'},
 {'babylon', 'babylonisch', 'babylonische', 'babylonië', 'babyloniërs'},
 {'nederlandse publieke omroep',
  'npo',
  'openbare omroep',
  'publieke',
  'publieke omroep'},
 {'gelder', 'gelderland', 'gelders', 'gelderse', 'gelre'},
 {'organisch',
  'organische',
  'organische stoffen',
  'organische verbinding',
  'organische verbindingen'},
 {'electronic', 'electronica', 'elektronica', 'elektronisch', 'elektronische'},
 {'dokter', 'geneeskunde', 'geneeskundige', 'medicijnen', 'medische'},
 {'basisonderwijs',
  'basisscholen',
  'basisschool',
  'lager onderwijs',
  'lagere school'},
 {'schaak', 'schaakpartij', 'schaakster', 'schaakvereniging', 'schaken'},
 {'gotiek', 'gotisch', 'gotische', 'laatgotisch', 'laatgotische'},
 {'rugby', 'rugbyclub', 'rugbyers', 'rugbyspeler', 'rugbyteam'},
 {'genova', 'genua', 'genuees', 'genuese', 'genuezen'},
 {'be', 'belg', 'belgen', 'belgisch', 'belgische'},
 {'humanisme', 'humanist', 'humanisten', 'humanistisch', 'humanistische'},
 {'siam', 'thai', 'thailand', 'thais', 'thaise'},
 {'beschrijving', 'wapen', 'wapens', 'wapenschild', 'wapenschilden'},
 {'perzen', 'perzisch', 'perzische', 'perzische rijk', 'perzië'},
 {'klinker', 'klinkers', 'vocalen', 'zang', 'zangers'},
 {'filosofe', 'filosofen', 'filosofie', 'filosofisch', 'filosoof'},
 {'let', 'letland', 'lets', 'letse', 'republiek letland'},
 {'litouwen', 'litouwers', 'litouws', 'litouwse', 'ltu'},
 {'bas', 'basgitaar', 'basgitarist', 'bass', 'bassist'},
 {'bosnisch',
  'bosnische',
  'bosnië',
  'bosnië en herzegovina',
  'bosnië-herzegovina'},
 {'mar', 'marokkaan', 'marokkaans', 'marokkaanse', 'marokko'},
 {'barok', 'barokke', 'barokperiode', 'barokschilder', 'barokstijl'},
 {'serven', 'servisch', 'servische', 'servië', 'serviër'},
 {'mathematica', 'wis', 'wis-', 'wiskunde', 'wiskundige'},
 {'doel', 'doelman', 'doelvrouw', 'gk', 'keeper'},
 {'show', 'theater', 'theatermaker', 'theaterstukken', 'toneel'},
 {'noor', 'noors', 'noorse', 'nor', 'noren'},
 {'hongaar', 'hongaars', 'hongaarse', 'hongaren', 'hongarije'},
 {'fin', 'finland', 'finnen', 'fins', 'finse'},
 {'auteur', 'publicist', 'schrijfster', 'schrijver', 'schrijvers'},
 {'limburg', 'limburgers', 'limburgs', 'limburgse', 'provincie limburg'},
 {'japan', 'japanner', 'japanners', 'japans', 'japanse'},
 {'spaans', 'spaanse', 'spanjaard', 'spanjaarden', 'spanje'},
 {'ingepolderd', 'inpoldering', 'polder', 'polders'},
 {'footon-servetto', 'fuji-servetto', 'geox-tmc', 'scott-american beef'},
 {'androni giocattoli-sidermec',
  'androni giocattoli-venezuela',
  'drone hopper-androni giocattoli',
  'selle italia'},
 {'huis', 'woning', 'woningen', 'woonhuis'},
 {'mythen', 'mythische', 'mythologie', 'mythologische'},
 {'roompot oranje peloton',
  'roompot-charles',
  'roompot-nederlandse loterij',
  'roompot-oranje peloton'},
 {'autocoureur', 'coureur', 'coureurs', 'motorcoureur'},
 {'geïndustrialiseerde', 'industrialisatie', 'industrie', 'industriële'},
 {'eedgenootschap',
  'eedgenoten',
  'zwitsers eedgenootschap',
  'zwitserse eedgenootschap'},
 {'accent.jobs-willems verandas',
  'circus-wanty-gobert',
  'intermarché-wanty-gobert matériaux',
  'wanty-groupe gobert'},
 {'doctor', 'doctoraat', 'doctorstitel', 'ph.d.'},
 {'gymnast', 'gymnaste', 'gymnastiek', 'turner'},
 {'plant', 'planten', 'plantensoort', 'species'},
 {'padvinderij', 'scout', 'scouting', 'scouts'},
 {'alpineskiester', 'alpineskiën', 'alpineskiër', 'skiër'},
 {'institutie', 'instituties', 'instituut', 'organisatie'},
 {'afgezet', 'afzetting', 'afzettingen', 'sedimenten'},
 {'retorica', 'retoriek', 'retorisch', 'retorische'},
 {'bayern', 'bayern münchen', 'bayern münchen ii', 'fc bayern münchen'},
 {'bisdom', 'diocees', 'diocesaan', 'diocesane'},
 {'bladsteel', 'bladstelen', 'bloemstengel', 'knol'},
 {'nationale team', 'nederlands handbalteam', 'nederlands team', 'senioren'},
 {'mtn-qhubeka',
  'ntt pro cycling',
  'team dimension data',
  'team qhubeka-assos'},
 {'gepubliceerd', 'publicatie', 'publiceerde', 'verhandeling'},
 {'ruiter', 'ruiters', 'springen', 'springruiter'},
 {'westen', 'westers', 'westerse', 'westerse beschaving'},
 {'academie van beeldende kunsten',
  'academie voor beeldende kunsten',
  'koninklijke academie',
  'koninklijke academie van beeldende kunsten'},
 {'wereldkampioenschappen allround',
  'wk <br /> allround',
  'wk <br />allround',
  'wk<br />allround'},
 {'aartsbisdom utrecht',
  'aartsbisschop van utrecht',
  'bisdom utrecht',
  'bisschop van utrecht'},
 {'vesting', 'vestingwal', 'wal', 'wallen'},
 {'olympische spelen 2000',
  'olympische spelen in sydney',
  'olympische spelen van sydney',
  'olympische zomerspelen 2000'},
 {'maximiliaan',
  'maximiliaan i',
  'maximiliaan van habsburg',
  'maximiliaan van oostenrijk'},
 {'athene 2004',
  'olympische spelen in athene',
  'olympische spelen van athene',
  'olympische zomerspelen 2004'},
 {'manufacturen', 'textiel', 'textielfabriek', 'weefsel'},
 {'katjoesja',
  'team katjoesja',
  'team katjoesja alpecin',
  'tinkoff credit systems'},
 {'gbr fea', 'gbr spr', 'sil', 'silverstone'},
 {'belkin', 'jumbo-visma', 'team jumbo-visma', 'team lottonl-jumbo'},
 {'cannondale', 'liquigas', 'liquigas-cannondale', 'liquigas-doimo'},
 {'impressionisme',
  'impressionisten',
  'impressionistisch',
  'impressionistische'},
 {'bourgondische',
  'bourgondiërs',
  'hertog van bourgondië',
  'hertogen van bourgondië'},
 {'gemeenteraad', 'gemeenteraadslid', 'raad', 'raadslid'},
 {'staats', 'staatse', 'staatse leger', 'staatse troepen'},
 {'carnivore', 'carnivoren', 'roofdieren', 'vleesetende'},
 {'patriot', 'patriotten', 'patriottisch', 'patriottische'},
 {'individuele tijdrit', 'itt', 'tijdrijden', 'tijdrit'},
 {'klassiek', 'klassieke', 'klassieke muziek', 'muziekgeschiedenis'},
 {'gesynthetiseerd', 'synthese', 'synthetisch', 'synthetische'},
 {'zuid-', 'zuid-amerika', 'zuid-amerikaans', 'zuid-amerikaanse'},
 {'ratio', 'rationeel', 'rationele', 'rede'},
 {'gereduceerd', 'reducerende', 'reducerende stoffen', 'reductie'},
 {'orangisme', 'orangist', 'orangisten', 'orangistische'},
 {'caisse depargne',
  'caisse depargne-illes balears',
  'movistar',
  'movistar team'},
 {'diplomaat', 'diplomaten', 'diplomatie', 'gezant'},
 {'biografie', 'biografieën', 'biografisch', 'biografische'},
 {'inheems', 'inheemse', 'inheemse bevolking', 'inheemsen'},
 {'heiden', 'heidenen', 'heidens', 'heidense'},
 {'republikein', 'republikeinen', 'republikeins', 'republikeinse'},
 {'socialisme', 'socialisten', 'socialistisch', 'socialistische'},
 {'assur', 'assyrische', 'assyriërs', 'aššur'},
 {'allegorie', 'allegorieën', 'allegorisch', 'allegorische'},
 {'aanslag', 'aanslagen', 'terreur', 'terroristische aanslagen'},
 {'afghaans', 'afghanen', 'afghanistan', 'islamitisch emiraat afghanistan'},
 {'album', 'albums', 'soloalbum', 'studioalbum'},
 {'laatromaanse', 'romaans', 'romaanse', 'romaanse stijl'},
 {'hulpkerk', 'kapel', 'kapelletje', 'veldkapel'},
 {'heilig', 'heilig verklaard', 'heilige', 'heiligverklaring'},
 {'archeologe', 'archeologen', 'archeologisch onderzoek', 'archeoloog'},
 {'afbeeldingen', 'grafiek', 'prent', 'prenten'},
 {'app', 'applicatie', 'applicaties', 'apps'},
 {'space shuttle', 'spaceshuttle', 'spaceshuttlemissie', 'spaceshuttles'},
 {'europa cup', 'europa cup i', 'europacup', 'europacup i'},
 {'byzantijns', 'byzantijnse', 'byzantium', 'constantinopel'},
 {'marine', 'marineofficier', 'nederlandse marine', 'officier'},
 {'beeld', 'beelden', 'sculpturen', 'sculptuur'},
 {'islam', 'islamitische', 'moslim', 'moslims'},
 {'amazigh', 'berber', 'berbers', 'berberse'},
 {'cetacea', 'walvis', 'walvisachtigen', 'walvissen'},
 {'arabier', 'arabieren', 'arabisch', 'arabische'},
 {'europa', 'europees', 'europese', 'europese vasteland'},
 {'kunstschilder', 'kunstschilders', 'schilder', 'schilderen'},
 {'fruit', 'schil', 'vrucht', 'vruchten'},
 {'martelaar', 'martelaren', 'martelares', 'marteldood'},
 {'disney', 'disneyfilm', 'disneys', 'walt disney'},
 {'eclecticisme', 'eclectisch', 'eclectische', 'eclectische stijl'},
 {'genus', 'geslacht', 'geslachten', 'geslachtsnaam'},
 {'normandisch', 'normandische', 'normandië', 'normandiërs'},
 {'slaaf', 'slaven', 'slavenhandel', 'slavernij'},
 {'coach', 'trainer', 'voetbalcoach', 'voetbaltrainer'},
 {'activisme', 'activist', 'activisten', 'activistische'},
 {'coronacrisis', 'coronapandemie', 'coronavirus', 'covid-19'},
 {'evolutie', 'evolutionair', 'evolutionaire', 'geëvolueerd'},
 {'dictator', 'dictatoriaal', 'dictatoriale', 'dictatuur'},
 {'beieren', 'beiers', 'beierse', 'hertogdom beieren'},
 {'christelijk', 'christelijke', 'christen', 'christenen'},
 {'dieren', 'dierenrijk', 'diersoorten', 'fauna'},
 {'democraat', 'democraten', 'democratisch', 'democratische'},
 {'tropen', 'tropisch', 'tropische', 'tropische gebieden'},
 {'catalaans', 'catalaanse', 'catalanen', 'catalonië'},
 {'aartsbisschop van keulen', 'keulen', 'keulse', 'köln'},
 {'christus', 'jezus', 'jezus christus', 'jezus van nazareth'},
 {'basken', 'baskenland', 'baskisch', 'baskische'},
 {'fysica', 'fysische', 'natuur-', 'natuurkunde'},
 {'tibet', 'tibetaans', 'tibetaanse', 'tibetanen'},
 {'slowaaks', 'slowaakse', 'slowaakse republiek', 'slowakije'},
 {'koninkrijk pruisen', 'pruisen', 'pruisisch', 'pruisische'},
 {'venetiaans', 'venetiaanse', 'venetianen', 'venetië'},
 {'macedonisch', 'macedonische', 'macedonië', 'noord-macedonië'},
 {'baan', 'baanwielrennen', 'baanwielrenner', 'scratch'},
 {'rode leger', 'sovjet', 'sovjets', 'sovjettroepen'},
 {'comedy', 'komedie', 'komisch', 'komische'},
 {'sloveens', 'sloveense', 'slovenen', 'slovenië'},
 {'oekraïens', 'oekraïense', 'oekraïne', 'ukr'},
 {'game', 'gamer', 'gaming', 'spel'},
 {'schotland', 'schots', 'schotse', 'schotten'},
 {'bretagne', 'bretoense', 'bretons', 'bretonse'},
 {'metro', 'metrolijn', 'metrolijnen', 'u-bahn'},
 {'oostenrijk', 'oostenrijkers', 'oostenrijks', 'oostenrijkse'},
 {'kroaat', 'kroaten', 'kroatisch', 'kroatische'},
 {'egypte', 'egyptenaren', 'egyptisch', 'egyptische'},
 {'gitaar', 'gitarist', 'leadgitaar', 'slaggitaar'},
 {'eerste klasse', 'eerste klasse a', 'eersteklasser', 'jupiler league'},
 {'jazz', 'jazzpianist', 'pianist', 'pianiste'},
 {'tsjechen', 'tsjechisch', 'tsjechische', 'tsjechië'},
 {'roemeens', 'roemeense', 'roemenen', 'roemenië'},
 {'ch', 'sui', 'zwitserland', 'zwitsers'},
 {'portugal', 'portugees', 'portugese', 'portugezen'},
 {'bra', 'braziliaans', 'braziliaanse', 'brazilië'},
 {'groothertogdom luxemburg', 'luxemburg', 'luxemburgs', 'luxemburgse'},
 {'polen', 'pool', 'pools', 'poolse'},
 {'aus', 'australisch', 'australische', 'australië'},
 {'china', 'chinees', 'chinese', 'chinezen'},
 {'fr', 'frans', 'franstalig', 'franstalige'},
 {'gevaccineerd', 'vaccin', 'vaccinatie'},
 {'gp van zwitserland', 'grand prix van zwitserland', 'zwi'},
 {'betovering', 'magische', 'toveren'},
 {'wereldkampioenschap voetbal onder 20', 'wk onder 20', 'wk onder-20'},
 {'kegel', 'kegels', 'taps'},
 {'burgerlijk', 'civiel recht', 'civiele procedure'},
 {'duitse keizer', 'keizerlijke', 'rooms-duits'},
 {'hyacint', 'hyacinten', 'hyacinthus'},
 {'creolen', 'creool', 'creoolse'},
 {'nations league', 'uefa nations league', 'uefa nations league 2020/21'},
 {'bok', 'geit', 'geiten'},
 {'comedyserie', 'komedieserie', 'sitcom'},
 {'container', 'containers', 'containerterminal'},
 {'jaren 80', 'jaren tachtig', 'tachtig'},
 {'jaren 70', 'jaren zeventig', 'zeventig'},
 {'bisschop', 'bisschopswijding', 'gewijd'},
 {'profetie', 'voorspelling', 'voorspellingen'},
 {'schieten', 'schietsport', 'schutter'},
 {'gesteriliseerd', 'sterilisatie', 'steriliseren'},
 {'procyon', 'wasbeer', 'wasberen'},
 {'bora-argon 18', 'bora-hansgrohe', 'team netapp-endura'},
 {'bourgeois', 'burger', 'burgers'},
 {'minimalisme', 'minimalistisch', 'minimalistische'},
 {'neutraal', 'neutrale', 'neutraliteit'},
 {'topsport vlaanderen',
  'topsport vlaanderen-baloise',
  'topsport vlaanderen-mercator'},
 {'bisdom luik', 'bisschop van luik', 'luiks'},
 {'cofidis', 'cofidis, le crédit en ligne', 'cofidis, solutions crédits'},
 {'discipline', 'disciplines', 'vakgebied'},
 {'fiets', 'fietsen', 'fietsers'},
 {'geschiedkundige', 'historica', 'historicus'},
 {'rijtuig', 'rijtuigen', 'wagons'},
 {'novo nordisk', 'team novo nordisk', 'team type 1-sanofi'},
 {'cinema', 'cinematograaf', 'videos'},
 {'ag2r la mondiale', 'ag2r-citroën', 'ag2r-la mondiale'},
 {'jaren 90', 'jaren negentig', 'negentig'},
 {'gestucte', 'pleister', 'stucwerk'},
 {'ek <br /> allround', 'ek<br />allround', 'europese titel'},
 {'geschiedenis', 'historisch', 'historische'},
 {'gestalkt', 'stalken', 'stalker'},
 {'zout water', 'zoutwater', 'zoutwatervis'},
 {'bos', 'bossen', 'woud'},
 {'dnipro', 'dnipropetrovsk', 'dnjepropetrovsk'},
 {'historiserende', 'historiserende stijl', 'historisme'},
 {'tweezaadlobbig', 'tweezaadlobbige', 'tweezaadlobbige planten'},
 {'visigoten', 'visigotisch', 'visigotische'},
 {'agrarische', 'agrarische sector', 'landbouw'},
 {'continu', 'continue', 'continuïteit'},
 {'discus', 'discuswerpen', 'discuswerper'},
 {'bastaard', 'bastaarden', 'hybridisatie'},
 {'sanoma', 'sanoma media', 'sanoma uitgevers'},
 {'amsterdam sloterdijk', 'sloterdijk', 'station sloterdijk'},
 {'districtsraad', 'districtsraden', 'districtsvoorzitter'},
 {'mediterraan', 'mediterrane', 'middellandse zeegebied'},
 {'polytechnische school', 'technische hogeschool', 'technische universiteit'},
 {'transcendent', 'transcendente', 'transcendentie'},
 {'arkéa-samsic', 'bretagne-séché environnement', 'fortuneo-vital concept'},
 {'huis van oranje', 'oranje-nassau', 'oranjes'},
 {'postmoderne', 'postmodernisme', 'postmodernistische'},
 {'ampère', 'stroom', 'stroomsterkte'},
 {'antwerp', 'antwerp fc', 'royal antwerp'},
 {'golfoorlog', 'oorlog in irak', 'tweede golfoorlog'},
 {'muziekpedagoog', 'pedagoge', 'pedagoog'},
 {'ramen', 'venster', 'vensters'},
 {'moraliteit', 'moreel', 'morele'},
 {'resistent', 'resistente', 'resistentie'},
 {'geologisch tijdvak', 'geologische geschiedenis', 'tijdperk'},
 {'olympische spelen 1984',
  'olympische spelen van los angeles',
  'olympische zomerspelen 1984'},
 {'archeologische vindplaats', 'site', 'sites'},
 {'kg', 'kilo', 'µg'},
 {'spoorlijn', 'spoorweg', 'spoorwegen'},
 {'viking', 'vikings', 'vikingtijd'},
 {'aziatisch', 'aziatische', 'azië'},
 {'bahrain mclaren', 'bahrain-merida', 'bahrain-victorious'},
 {'twente', 'twents', 'twentse'},
 {'zuid-nederland', 'zuid-nederlands', 'zuidelijke nederlanden'},
 {'mannelijk', 'mannelijke', '♂'},
 {'modernisme', 'modernistische', 'moderniteit'},
 {'sociaal', 'sociale', 'sociale wetenschappen'},
 {'criticus', 'kritisch', 'muziekcriticus'},
 {'expressionisme', 'expressionistische', 'expressionistische stijl'},
 {'gaskamer', 'vergassing', 'vergast'},
 {'lombarden', 'longobarden', 'longobardische'},
 {'abstract', 'abstracte', 'abstractie'},
 {'cult', 'cultstatus', 'scene'},
 {'minister van volksgezondheid',
  'ministerie van volksgezondheid',
  'volksgezondheid'},
 {'arenberg', 'hertog van arenberg', 'hertogdom arenberg'},
 {'bekerwinnaar sovjet-unie', 'bekerwinnaar van de sovjet-unie', 'ussr cup'},
 {'belgisch voetbalelftal', 'belgische nationale ploeg', 'nationale ploeg'},
 {'doodstraf', 'executie', 'geëxecuteerd'},
 {'holocaust', 'jodenvervolging', 'shoah'},
 {'motorrijtuig', 'motorwagen', 'motorwagens'},
 {'whig', 'whig party', 'whigs'},
 {'ca', 'california', 'californië'},
 {'icon', 'iconen', 'icoon'},
 {'feldwebel', 'sergeant', 'unteroffizier'},
 {'scenarios', 'script', 'scripts'},
 {'act', 'akte', 'akten'},
 {'editor', 'filmeditor', 'filmmonteur'},
 {'iris', 'irissen', 'lis'},
 {'sirene', 'sirenen', 'sirenes'},
 {'longslak', 'slak', 'slakken'},
 {'dualisme', 'dualistisch', 'dualistische'},
 {'breedte', 'nb', 'noorderbreedte'},
 {'academy award', 'academy awards', 'oscar'},
 {'blind', 'blinde', 'blinden'},
 {'cover', 'coverband', 'covers'},
 {'dode', 'dood', 'stoffelijk overschot'},
 {'10.000 m', '10.000 meter', '10000 m'},
 {'dame', 'dames', 'vrouw'},
 {'labour', 'labour party', 'labour-partij'},
 {'miniaturen', 'miniaturist', 'miniatuur'},
 {'isaan', 'noordoost', 'noordoosten'},
 {'serie', 'series', 'televisieserie'},
 {'billboard', 'billboards', 'de amerikaanse hitlijst'},
 {'beperking', 'handicap', 'mindervaliden'},
 {'saami', 'samen', 'sami'},
 {'akoestiek', 'akoestisch', 'akoestische'},
 {'science fiction', 'sciencefiction', 'sf'},
 {'strategie', 'strategisch', 'strategische'},
 {'piano', 'pianoforte', 'pianoles'},
 {'de kempen', 'kempen', 'kempens'},
 {'leningrad', 'sint-petersburg', 'st. petersburg'},
 {'somalisch', 'somalische', 'somalië'},
 {'kat', 'kater', 'katten'},
 {'indo-europeanen', 'indo-europees', 'indo-europese'},
 {'gothenburg', 'göteborg', 'göteborg c'},
 {'nederzetting', 'plaats', 'woonplaats'},
 {'beker van rusland', 'bekerwinnaar rusland', 'bekerwinnaar van rusland'},
 {'drone', 'drones', 'uav'},
 {'jong vitesse', 'sbv vitesse', 'vitesse'},
 {'opstand', 'rebel', 'rebellen'},
 {'caraïbische', 'cariben', 'caribische'},
 {'molukken', 'molukkers', 'molukse'},
 {'tantra', 'tantras', 'tantrische'},
 {'grootloge', 'obediëntie', 'vrijmetselaarsloge'},
 {'conservatief', 'conservatieve', 'conservatieven'},
 {'leen', 'leengoed', 'lenen'},
 {'fellow', 'leden', 'lid'},
 {'im', 'internationaal meester', 'meester'},
 {'jaren 10', 'jaren tien', 'tien'},
 {'bus', 'buslijn', 'busvervoer'},
 {'economische zaken',
  'minister van economische zaken',
  'ministerie van economische zaken'},
 {'binnenlandse zaken',
  'minister van binnenlandse zaken',
  'ministerie van binnenlandse zaken'},
 {'grote', 'pacific', 'pacifische'},
 {'boerderij', 'hoeve', 'hofstede'},
 {'europees hof van justitie',
  'hof van justitie',
  'hof van justitie van de europese gemeenschappen'},
 {'academie',
  'academie voor schone kunsten',
  'koninklijke academie voor schone kunsten'},
 {'promotie', 'promoveerde', 'promoveren'},
 {'regent', 'regenten', 'regentes'},
 {'1.1', '1.2', 'classificatie'},
 {'versnelling', 'versnellingen', 'versnellingsbak'},
 {'den', 'dennen', 'dennenboom'},
 {'voeding', 'voedingsmiddelen', 'voedsel'},
 {'aram', 'aramees', 'aramese'},
 {'botanica', 'botanicus', 'plantkundige'},
 {'alkali', 'base', 'basen'},
 {'bestand', 'bestanden', 'wapenstilstand'},
 {'dominicaans', 'dominicaanse', 'dominicaanse republiek'},
 {'taranto', 'tarente', 'tarentum'},
 {'kristal', 'kristallen', 'kristallijne'},
 {'codex', 'codices', 'manuscripten'},
 {'naturalisme', 'naturalistisch', 'naturalistische'},
 {'wortel', 'wortelen', 'wortels'},
 {'onafhankelijk', 'onafhankelijke', 'onafhankelijkheid'},
 {'anglicaans', 'anglicaanse', 'anglicaanse kerk'},
 {'protestants', 'protestantse', 'protestantse kerk'},
 {'duurzaam', 'duurzaamheid', 'duurzame'},
 {'leuvense universiteit', 'universiteit leuven', 'universiteit van leuven'},
 {'breuk', 'breuken', 'teller'},
 {'deel', 'delen', 'deling'},
 {'maya', 'mayas', 'mayastad'},
 {'orthodox', 'orthodoxe', 'orthodoxe kerk'},
 {'antillen', 'antilliaanse', 'nederlandse antillen'},
 {'keyboards', 'toetsen', 'toetsenist'},
 {'rollenspel', 'rollenspellen', 'rpg'},
 {'counties', 'county', 'countys'},
 {'jammu en kasjmir', 'kashmir', 'kasjmir'},
 {'schutterij', 'schutterijen', 'schuttersgilde'},
 {'overeenkomst', 'transactie', 'transacties'},
 {'hoer', 'prostituee', 'prostituees'},
 {'geloof', 'godsdienst', 'religieuze'},
 {'magazine', 'periodiek', 'tijdschrift'},
 {'dubbelspion', 'spion', 'spionage'},
 {'standard', 'standard de liège', 'standard luik'},
 {'leadzanger', 'zanger', 'zangeres'},
 {'punk', 'punkband', 'punkbeweging'},
 {'varken', 'varkens', 'zwijnen'},
 {'reïncarnatie', 'wedergeboorte', 'wedergeboren'},
 {'primera b', 'segunda división', 'segunda división a'},
 {'cultureel', 'culturen', 'cultuur'},
 {'ddr', 'duitse democratische republiek', 'oost-duitsland'},
 {'reggio', 'reggio emilia', 'reggio nellemilia'},
 {'bangladesh', 'bengaalse', 'bengalen'},
 {'chirurgische ingreep', 'operatie', 'operaties'},
 {'europees voetbal', 'europese competities', 'toernooien'},
 {'maat', 'maatsoort', 'maten'},
 {'j', 'jaar', 'jaren'},
 {'mongolen', 'mongools', 'mongoolse'},
 {'vietnam', 'vietnamees', 'vietnamese'},
 {'financiën', 'minister van financiën', 'ministerie van financiën'},
 {'open source', 'open-source', 'opensource'},
 {'toscaans', 'toscaanse', 'toscane'},
 {'matteüs', 'mattheus', 'mattheüs'},
 {'morfologie', 'morfologisch', 'morfologische'},
 {'strip', 'stripreeks', 'stripserie'},
 {'vertaalster', 'vertaler', 'vertaling'},
 {'vulkanisch', 'vulkanische', 'vulkanische activiteit'},
 {'dogma', 'dogmas', 'dogmatische'},
 {'madagaskar', 'malagassisch', 'malagassische'},
 {'koningin wilhelmina', 'prinses wilhelmina', 'wilhelmina'},
 {'canon', 'canoniek', 'canonieke'},
 {'gemeentefusie', 'gemeentelijke herindeling', 'herindeling'},
 {'geïmproviseerd', 'improvisatie', 'improviseren'},
 {'justitie', 'minister van justitie', 'ministerie van justitie'},
 {'eth', 'ethiopisch', 'ethiopië'},
 {'motorvermogen', 'vermogen', 'vermogens'},
 {'adelaar', 'adelaars', 'arend'},
 {'mijn', 'mijnen', 'zeemijn'},
 {'landskampioen sovjet-unie',
  'landskampioen van de sovjet-unie',
  'landskampioenschap van de sovjet-unie'},
 {'piramide', 'piramiden', 'piramides'},
 {'bafta', 'bafta award', 'bafta awards'},
 {'friese', 'friesland', 'friezen'},
 {'territoria', 'territoriaal', 'territorium'},
 {'harmonie', 'harmonieën', 'harmonisch'},
 {'sprinten', 'sprinter', 'sprinters'},
 {'kolom', 'zuil', 'zuilen'},
 {'arrangeerde', 'arrangement', 'arrangeur'},
 {'graaf', 'graf', 'graven'},
 {'realisme', 'realistisch', 'realistische'},
 {'schaap', 'schapen', 'schapenvlees'},
 {'communautaire', 'eu', 'europese unie'},
 {'maleise', 'maleisisch', 'maleisië'},
 {'zwart', 'zwarte', 'zwarten'},
 {'hobo', 'hobos', 'hoboïst'},
 {'syrisch', 'syrische', 'syrië'},
 {'de smurfen', 'smurf', 'smurfen'},
 {'bisdom münster', 'bisschop van münster', 'münster'},
 {'astronomen', 'astronoom', 'sterrenkundige'},
 {'nobelprijs', 'nobelprijswinnaar', 'nobelprijswinnares'},
 {'oezbeeks', 'oezbeekse', 'oezbekistan'},
 {'bijbel', 'bijbelboek', 'bijbelse'},
 {'thema', 'themas', 'thematiek'},
 {'lichaam', 'lichamen', 'menselijk lichaam'},
 {'staal', 'staalindustrie', 'stalen'},
 {'oostfront', 'westelijk front', 'westfront'},
 {'geallieerd', 'geallieerde', 'geallieerden'},
 {'buitenlandse zaken',
  'minister van buitenlandse zaken',
  'ministerie van buitenlandse zaken'},
 {'stads', 'stadsgezicht', 'stadsgezichten'},
 {'consul', 'consulaat', 'consuls'},
 {'aartsbisdom mainz', 'aartsbisschop van mainz', 'mainz'},
 {'handschrift', 'handschriften', 'manuscript'},
 {'sint truiden', 'sint-truiden', 'sint-truidense vv'},
 {'waalse', 'walen', 'wallonië'},
 {'orde', 'orden', 'ordes'},
 {'fotomodel', 'model', 'modellen'},
 {'hertogdom lotharingen', 'lotharingen', 'lotharingse'},
 {'azerbeidzjaans', 'azerbeidzjaanse', 'azerbeidzjan'},
 {'moldavisch', 'moldavische', 'moldavië'},
 {'oost-vlaams', 'oost-vlaamse', 'oost-vlaanderen'},
 {'beharing', 'haar', 'haard'},
 {'franken', 'frankisch', 'frankische'},
 {'boogschieten', 'boogschutter', 'boogschutters'},
 {'germaans', 'germaanse', 'germaanse talen'},
 {'producent', 'producenten', 'producer'},
 {'trinidad', 'trinidad & tobago', 'trinidad en tobago'},
 {'wit-rusland', 'wit-russisch', 'wit-russische'},
 {'filipijnen', 'filipijns', 'phi'},
 {'kazachs', 'kazachse', 'kazachstan'},
 {'franse bezetting', 'franse overheersing', 'franse tijd'},
 {'romantiek', 'romantisch', 'romantische'},
 {'albanees', 'albanese', 'albanezen'},
 {'georgisch', 'georgische', 'georgië'},
 {'sur', 'surinaams', 'suriname'},
 {'mediolanum', 'milaan', 'milano'},
 {'om', 'openbaar ministerie', 'parket'},
 {'napels', 'napolitaanse', 'neapolis'},
 {'bulgaars', 'bulgaarse', 'bulgaren'},
 {'theologe', 'theologen', 'theoloog'},
 {'chemie', 'chemische', 'scheikunde'},
 {'alessandro farnese', 'hertog van parma', 'parma'},
 {'lb', 'lublin', 'pound'},
 {'captain', 'kapitein', 'kapiteins'},
 {'bouwkundig', 'kunstwerk', 'kunstwerken'},
 {'zuid-afrika', 'zuid-afrikaans', 'zuid-afrikaanse'},
 {'schepen', 'schepenen', 'vaartuig'},
 {'leiden', 'leids', 'leidse'},
 {'alcohol', 'alcoholgebruik', 'alcoholische'},
 {'goud', 'gouden', 'gouden plaat'},
 {'boheems', 'boheemse', 'bohemen'},
 {'malta', 'maltees', 'maltese'},
 {'cuba', 'cubaan', 'cubaanse'},
 {'fluit', 'fluiten', 'fluitist'},
 {'iraans', 'iraanse', 'iran'},
 {'indonesisch', 'indonesische', 'indonesië'},
 {'joegoslavisch', 'joegoslavische', 'joegoslavië'},
 {'schimmel', 'schimmels', 'schimmelziekte'},
 {'saksen', 'saksisch', 'saksische'},
 {'ijsland', 'ijslands', 'ijslandse'},
 {'rhône', 'rhônedal', 'rhônevallei'},
 {'zeeland', 'zeeuwen', 'zeeuwse'},
 {'plp', 'prl', 'pvv'},
 {'liberaal', 'liberale', 'liberalen'},
 {'tur', 'turkije', 'turks voetbalelftal'},
 {'drum', 'drums', 'slagwerk'},
 {'senaat', 'senator', 'senatoren'},
 {'drama', 'dramafilm', 'dramaserie'},
 {'atheense', 'athene', 'atheners'},
 {'syn.', 'synoniem', 'synoniemen'},
 {'tweede klasse', 'tweede niveau', 'tweedeklasser'},
 {'brussel', 'brussels', 'brusselse'},
 {'holland', 'hollands', 'hollandse'},
 {'liège', 'luik', 'luikse'},
 {'antwerpen', 'antwerps', 'antwerpse'},
 {'new york', 'new york city', 'ny'},
 {'utrecht', 'utrechts', 'utrechtse'},
 {'en', 'engels', 'engelstalige'},
 {'groningen', 'groninger', 'groningse'},
 {'halve finale', 'halve finales'},
 {'nk sprint', 'nk<br />sprint'},
 {'jan pronk', 'pronk'},
 {'sonnet', 'sonnetten'},
 {'groeve', 'steengroeve'},
 {'corolla', 'toyota corolla'},
 {'versterker', 'versterkers'},
 {'reproductie', 'voortplanting'},
 {'aspect', 'aspecten'},
 {'amir', 'emir'},
 {'erf', 'erven'},
 {'ernst lodewijk', 'ernst lodewijk van hessen-darmstadt'},
 {'gemeentearchief', 'stadsarchief'},
 {'he', 'helium'},
 {'jaren 60', 'jaren zestig'},
 {'julia caesaris', 'julia caesaris maior'},
 {'natie', 'nationale'},
 {'lood', 'pb'},
 {'lezing', 'presentatie'},
 {'prince of wales', 'prins van wales'},
 {'beatrix', 'prinses beatrix'},
 {'quezon', 'tayabas'},
 {'commissariaten', 'rvc'},
 {'eredivisie 2011/12', 'seizoen 2011/12'},
 {'strijker', 'strijkers'},
 {'tl', 'vmbo-t'},
 {'pdc world darts championship', 'world darts championship'},
 {'algonkin', 'algonquin'},
 {'athelstan', 'æthelstan'},
 {'bridge', 'bridger'},
 {'british open', 'brits open'},
 {'caja rural', 'caja rural-seguros rga'},
 {'dwangarbeid', 'dwangarbeiders'},
 {'figurine', 'figurines'},
 {'gate', 'gates'},
 {'gedenkplaat', 'gedenksteen'},
 {'hond', 'honden'},
 {'comedian', 'humorist'},
 {'inhoud', 'volume'},
 {'israëlisch-palestijns conflict', 'israëlisch-palestijnse conflict'},
 {'gould', 'john gould'},
 {'landskampioen italië', 'lega basket serie a'},
 {'grote of sint-martinuskerk', 'martinuskerk'},
 {'michael schumacher', 'schumacher'},
 {'mozaïek', 'mozaïeken'},
 {'naald', 'naalden'},
 {'michajlov', 'nikolaj michajlov'},
 {'nk allround', 'nk<br />allround'},
 {'ode', 'oden'},
 {'olie-', 'oliemolen'},
 {'palestra itália', 'palmeiras'},
 {'grodziski', 'powiat grodziski'},
 {'recitatie', 'reciteren'},
 {'regenwoud', 'regenwouden'},
 {'revisionisme', 'revisionistische'},
 {'sagan', 'żagań'},
 {'saint martin', 'saint-martin'},
 {'ambrosius', 'santambrogio'},
 {'eredivisie 2008/09', 'seizoen 2008/09'},
 {'seoel', 'seoul'},
 {'tetraëder', 'tetraëdrisch'},
 {'hr.ms. tromp', 'tromp'},
 {'t-rex', 'tyrannosaurus rex'},
 {'conference league', 'uefa europa conference league'},
 {'nippo-vini fantini', 'vini fantini nippo'},
 {'wake', 'wake island'},
 {'algemeen directeur', 'ceo'},
 {'apocrief', 'apocriefe'},
 {'belijdenis', 'geloofsbelijdenis'},
 {'cliché', 'clichés'},
 {'dol', 'dol-de-bretagne'},
 {'dvd', 'dvd-speler'},
 {'egel', 'egels'},
 {'efeze', 'ephesus'},
 {'arbela', 'erbil'},
 {'exarch', 'exarchaat'},
 {'expeditie', 'expedities'},
 {'futen', 'fuut'},
 {'gomel', 'homel'},
 {'huisprelaat', 'pauselijk huisprelaat'},
 {'inr', 'nir'},
 {'gekroond', 'kroning'},
 {'lage vloer', 'lagevloer'},
 {'emanuel', 'manuel i'},
 {'maria amalia', 'maria amalia van oostenrijk'},
 {'nexus', 'the nexus'},
 {'onderwijs', 'vorming'},
 {'parachute', 'parachutisten'},
 {'pragmatisch', 'pragmatische'},
 {'radiostraling', 'rf'},
 {'diagram', 'schema'},
 {'sector', 'sectoren'},
 {'st albans', 'st. albans'},
 {'saint paul', 'st. paul'},
 {'the lord of the rings: the return of the king', 'the return of the king'},
 {'tijl uilenspiegel', 'uilenspiegel'},
 {'verdrag van versailles', 'vrede van versailles'},
 {'wk 1998', 'wk in frankrijk'},
 {'autonomie', 'zelfstandig'},
 {'augustijn', 'augustijnenklooster'},
 {'bas jacobs', 'jacobs'},
 {'edingen', 'enghien'},
 {'els', 'elzen'},
 {'everhard iii', 'everhard iii van württemberg'},
 {'famagusta', 'gazimağusa'},
 {'assemblée nationale', 'franse parlement'},
 {'futurisme', 'futuristen'},
 {'gregoriaans', 'gregoriaanse'},
 {'gehoor', 'horen'},
 {'benji', 'ji'},
 {'kolberg', 'kołobrzeg'},
 {'lateraal', 'laterale'},
 {'derry', 'londonderry'},
 {'deutschland', 'lützow'},
 {'maximum', 'minimum'},
 {'olifant', 'olifanten'},
 {'orlando city', 'orlando city sc'},
 {'palma', 'palma de mallorca'},
 {'pcc-car', 'pcc-cars'},
 {'pedro', 'pedro rodríguez'},
 {'pk', 'pki'},
 {'plesiosauriër', 'plesiosauriërs'},
 {'racing club gent', 'racing gent'},
 {'refuge', 'refugium'},
 {'robben', 'zeehonden'},
 {'sociaal netwerk', 'sociale netwerken'},
 {'sonnenburg', 'słońsk'},
 {'st helens', 'st. helens'},
 {'stabilisator', 'stabilisatoren'},
 {'stockholm', 'stockholm c'},
 {'topschutter', 'topscorer'},
 {'tram 4', 'tramlijn 4'},
 {'lijn 9', 'tramlijn 9'},
 {'trebnitz', 'trzebnica'},
 {'west-friesland', 'west-friezen'},
 {'alg', 'wieren'},
 {'salix', 'wilgen'},
 {'12 angry men', 'wel'},
 {'49er', '49erfx'},
 {'aartshertog van oostenrijk', 'aartshertogin van oostenrijk'},
 {'afrika cup', 'afrikaans kampioenschap'},
 {'alva', 'hertog van alva'},
 {'asiel', 'asielprocedure'},
 {'bogota', 'bogotá'},
 {'cheeta', 'cheetah'},
 {'copulatie', 'paren'},
 {'dynamiek', 'dynamisch'},
 {'ek onder 21', 'europees kampioenschap voetbal onder 21'},
 {'elvis', 'elvis presley'},
 {'eredivisionist', 'nederlandse eredivisie'},
 {'conserveren', 'geconserveerd'},
 {'geiser', 'geisers'},
 {'golden globe award', 'golden globes'},
 {'gudmundsson', 'guðmundsson'},
 {'chip', 'ics'},
 {'infiltratie', 'infiltreren'},
 {'internacional', 'sc internacional'},
 {'dag des oordeels', 'laatste oordeel'},
 {'laodicea', 'latakia'},
 {'libel', 'libellen'},
 {'lijn 12', 'tramlijn 12'},
 {'lijn 17', 'tramlijn 17'},
 {'louise marie', 'louise van orléans'},
 {'lemberg', 'lviv'},
 {'kinshasa', 'léopoldville'},
 {'lourdesgrot', 'mariagrot'},
 {'matrijs', 'matrijzen'},
 {'geometrie', 'meetkunde'},
 {'mesopotamische', 'mesopotamië'},
 {'landbouw, natuur en voedselkwaliteit',
  'ministerie van landbouw en visserij'},
 {'moezel', 'mosel'},
 {'most valuable player', 'mvp'},
 {'datsun', 'nissan'},
 {'ontginning', 'ontgonnen'},
 {'oortje', 'oortjes'},
 {'paardenstaart', 'paardenstaarten'},
 {'alexander van oranje-nassau', 'prins alexander'},
 {'racing', 'racing club'},
 {'reflectie', 'reflector'},
 {'ladies tour of norway', 'ronde van noorwegen'},
 {'sterk', 'sterke'},
 {'soemba', 'sumba'},
 {'stazione termini', 'termini'},
 {'spoortunnel', 'tunnels'},
 {'verbrand', 'verbranding'},
 {'vierkant', 'vierkante'},
 {'waaier', 'waaiers'},
 {'wereldkampioenschappen in 2003', 'wk in parijs'},
 {'adelheid', 'adelheid van bourgondië'},
 {'alia', 'aliyah'},
 {'alternatieve', 'alternative'},
 {'de gelaarsde kat', 'gelaarsde kat'},
 {'de rode ridder', 'rode ridder'},
 {'de waarheid', 'volksdagblad'},
 {'derde persoon', 'eerste persoon'},
 {'beëdigd', 'eed'},
 {'erkend', 'erkenning'},
 {'etage', 'etages'},
 {'fortuna sittard', 'fsc'},
 {'bouwwerk', 'gebouw'},
 {'kalken', 'kalksteen'},
 {'kan', 'khan'},
 {'oculi', 'oculus'},
 {'philippus', 'philippus ii'},
 {'domproost', 'proosten'},
 {'francs borains', 'r. francs borains'},
 {'ritueel', 'rituelen'},
 {'rodelbaan', 'rodelen'},
 {'röntgen', 'röntgenstraling'},
 {'elisabeth van hongarije', 'sint-elisabeth'},
 {'stargard', 'stargard szczeciński'},
 {'stekelvarken', 'stekelvarkens'},
 {'moyland', 'till'},
 {'moment', 'torsie'},
 {'treptow', 'trzebiatów'},
 {'constellation', 'uss constellation'},
 {'vleet', 'want'},
 {'nesten', 'vogelnest'},
 {'voorstad', 'voorsteden'},
 {'waarneming', 'waarnemingen'},
 {'gereconstrueerd', 'wederopbouw'},
 {'jongerenklassement', 'witte trui'},
 {'zwak', 'zwakke'},
 {'gp van zweden', 'zwe'},
 {'aland', 'kurt'},
 {'boezem', 'boezems'},
 {'ccc polsat polkowice', 'ccc sprandi polkowice'},
 {'chp', 'republikeinse volkspartij'},
 {'correlatie', 'gecorreleerd'},
 {'cynische', 'cynisme'},
 {'dans', 'dansen'},
 {'devon', 'devonshire'},
 {'frederik willem', 'frederik willem i'},
 {'galba', 'servius sulpicius galba'},
 {'garibaldi', 'giuseppe garibaldi'},
 {'haring', 'haringen'},
 {'ambachtsheerlijkheid', 'heerlijkheid'},
 {'kers', 'kersen'},
 {'kiesdistrict', 'kiesdistricten'},
 {'le hom', 'thury-harcourt'},
 {'les villages vovéens', 'voves'},
 {'luchtvrachtmaatschappij', 'vrachtluchtvaartmaatschappij'},
 {'magnus eriksson', 'magnus ii'},
 {'easy listening', 'middle of the road'},
 {'mo', 'moguls'},
 {'noordelijke', 'verenigde nederlanden'},
 {'pd', 'pdl'},
 {'pga championship', 'pga kampioenschap'},
 {'gazprom-rusvelo', 'rusvelo'},
 {'scanner', 'scanners'},
 {'publius cornelius scipio', 'scipio'},
 {'shogun', 'shogunaat'},
 {'stand', 'standen'},
 {'soeur sourire', 'sœur sourire'},
 {'tactiek', 'tactische'},
 {'tataarse', 'tataren'},
 {'baroda', 'vadodara'},
 {'vendel', 'vendels'},
 {'villedieu-les-poêles', 'villedieu-les-poêles-rouffigny'},
 {'afrikaans', 'afrikaanse'},
 {'armada', 'spaanse armada'},
 {'b&b', 'bed & breakfast'},
 {'beursgenoteerd', 'beursgenoteerde'},
 {'elbing', 'elbląg'},
 {'emmerich', 'emmerik'},
 {'europees kampioenschap voetbal', 'europees kampioenschap voetbal 2016'},
 {'evangelische', 'evangelische kerk'},
 {'fan', 'fans'},
 {'fetisj', 'fetisjisme'},
 {'girne', 'kyrenia'},
 {'gracht', 'slotgracht'},
 {'graden', '°'},
 {'kwal', 'kwallen'},
 {'glatz', 'kłodzko'},
 {'l4', 'l6'},
 {'lourenço marques', 'maputo'},
 {'krijgskunst', 'martial arts'},
 {'minister van onderwijs, kunsten en wetenschappen',
  'ministerie van onderwijs, kunsten en wetenschappen'},
 {'moord', 'vermoord'},
 {'myceense', 'myceners'},
 {'nowodworski', 'powiat nowodworski'},
 {'prins', 'prinses'},
 {'prins-bisschop', 'prinsbisdom'},
 {'radon', 'rn'},
 {'rui', 'ruien'},
 {'private', 'soldaten'},
 {'speerwerpen', 'speerwerper'},
 {'alpaca', 'alpacas'},
 {'angst', 'vrees'},
 {'bezirk', 'bezirke'},
 {'bielski', 'powiat bielski'},
 {'braam', 'bramen'},
 {'chiraal', 'chirale'},
 {'constante', 'constanten'},
 {'de krim', 'krim'},
 {'dialogen', 'dialoog'},
 {'escort', 'ford escort'},
 {'galerij', 'galerijen'},
 {'gebeurtenis', 'gebeurtenissen'},
 {'holstein-gottorp', 'sleeswijk-holstein-gottorp'},
 {'infrarood', 'ir'},
 {'john locke', 'locke'},
 {'melaatsen', 'melaatsheid'},
 {'melville', 'melville-eiland'},
 {'microprocessor', 'processor'},
 {'neil young', 'young'},
 {'olympische spelen in barcelona', 'olympische zomerspelen 1992'},
 {'opolski', 'powiat opolski'},
 {'pola', 'pula'},
 {'rondeel', 'rondelen'},
 {'sint-helena', 'st. helena'},
 {'saur-sojasun', 'sojasun'},
 {'radioshack', 'team radioshack'},
 {'tram 2', 'tramlijn 2'},
 {'lijn 25', 'tramlijn 25'},
 {'verpleegkunde', 'verpleegkundige'},
 {'ver', 'verspringen'},
 {'vrienden', 'vriendschap'},
 {'chan', 'zen'},
 {'aanbidding der wijzen', 'drie koningen'},
 {'anatomie', 'anatoom'},
 {'bekerwedstrijd', 'copa del rey'},
 {'brzeski', 'powiat brzeski'},
 {'digitaal', 'digitale'},
 {'europese parlementsverkiezingen', 'europese verkiezingen'},
 {'export', 'uitvoer'},
 {'altona', 'hamburg-altona'},
 {'hervormde', 'hervormde kerk'},
 {'herzogenrath', 's-hertogenrade'},
 {'indologie', 'indoloog'},
 {'iason', 'jason'},
 {'javaans', 'kawi'},
 {'geodeet', 'landmeter'},
 {'leenman', 'leenmannen'},
 {'aunay-sur-odon', 'les monts daunay'},
 {'lucia', 'santa lucia'},
 {'evros', 'maritsa'},
 {'mis', 'missen'},
 {'nk afstanden', 'nk<br />afstanden'},
 {'onthoofd', 'onthoofding'},
 {'sint-servaasbasiliek', 'sint-servaaskerk'},
 {'spongebob', 'spongebob squarepants'},
 {'tand', 'tanden'},
 {'tekenaar', 'tekenen'},
 {'theaterschool', 'toneelschool'},
 {'tiberius', 'tiberius claudius nero'},
 {'anders', 'trappist'},
 {'liga', 'voetbalcompetitie'},
 {'weerwolf', 'weerwolven'},
 {'grünberg', 'zielona góra'},
 {'middengewicht', 'zwaargewicht'},
 {'alexandrijnse', 'alexandrië'},
 {'bonen', 'boon'},
 {'congruent', 'congruentie'},
 {'die grünen', 'groenen'},
 {'axis', 'draaier'},
 {'ecologisch', 'ecologische'},
 {'ellips', 'elliptische'},
 {'fabrikant', 'industrieel'},
 {'foto', 'fotos'},
 {'glaciale', 'ijstijden'},
 {'handvest', 'manifest'},
 {'leeg', 'leegte'},
 {'olympische spelen van 1968', 'olympische zomerspelen 1968'},
 {'roest', 'roesten'},
 {'ruprecht', 'ruprecht van de palts'},
 {'symmetrie', 'symmetrisch'},
 {'trivia', 'triviaal'},
 {'hallescher fc wacker', 'wacker halle'},
 {'woord', 'woorden'},
 {'3000 m steeplechase', 'steeplechase'},
 {'accommodatie', 'accommoderen'},
 {'alpecin-fenix', 'corendon-circus'},
 {'anale', 'anus'},
 {'apartheid', 'apartheidsregime'},
 {'boeddhisme', 'boeddhistische'},
 {'boei', 'boeien'},
 {'brantôme', 'brantôme en périgord'},
 {'certificaat', 'certificaten'},
 {'de zeven provinciën', 'hr.ms. de zeven provinciën'},
 {'boekdrukker', 'drukker'},
 {'jacob', 'jakob'},
 {'katholieke universiteit', 'ru'},
 {'kea', 'keos'},
 {'la', 'los angeles'},
 {'middeleeuwen', 'middeleeuwse'},
 {'minister van onderwijs', 'ministerie van onderwijs'},
 {'moderne', 'moderne kunst'},
 {'natuurwet', 'natuurwetten'},
 {'sneeuwwitje', 'sneeuwwitje en de zeven dwergen'},
 {'magiër', 'tovenaar'},
 {'tsaar', 'tsaristische'},
 {'tuig', 'tuigage'},
 {'unitarisme', 'unitariërs'},
 {'verontreiniging', 'vervuiling'},
 {'licht', 'zichtbaar licht'},
 {'het zwin', 'zwin'},
 {'aasgarnalen', 'aasgarnalensoort'},
 {'brahmana', 'brahmanas'},
 {'categorie', 'categorieën'},
 {'doop', 'gedoopt'},
 {'etsen', 'etser'},
 {'gang', 'gangen'},
 {'gisting', 'vergisting'},
 {'goederenvervoer', 'transport'},
 {'gondel', 'gondels'},
 {'hydraulisch', 'hydraulische'},
 {'geïnterneerd', 'internering'},
 {'koninginnedag', 'koningsdag'},
 {'opéra comique', 'opéra-comique'},
 {'lomonosov', 'oranienbaum'},
 {'pees', 'pezen'},
 {'pot', 'potten'},
 {'pylonen', 'pyloon'},
 {'stadia', 'stadium'},
 {'gooi', 't gooi'},
 {'urinoir', 'urinoirs'},
 {'fc wacker innsbruck', 'wacker innsbruck'},
 {'achtergrond', 'achtergrondzang'},
 {'belgisch kampioen', 'belgisch kampioenschap'},
 {'chopper', 'choppers'},
 {'constitutie', 'constitutionele'},
 {'episch', 'epische'},
 {'first-person', 'fps'},
 {'hortus', 'hortus botanicus'},
 {'jan verheyen', 'verheyen'},
 {'landskampioenschap van rusland', 'russische superliga'},
 {'lijn 6', 'tramlijn 6'},
 {'locomotief', 'locomotieven'},
 {'logica', 'logische'},
 {'oceanische', 'oceanië'},
 ...]
[ ]: