Wikipedia:Tietokannan lataus

Wikipediasta
Siirry navigaatioon Siirry hakuun

Kaikki Wikipedian sisältö on lisensoitu GNU Free Documentation License -lisenssillä; katso Wikipedia:Tekijänoikeudet lisätiedoksi.

Katso myös MediaWiki saadaksesi ohjelmiston, joka pyörittää Wikipediaa. Jos etsit vain tietokantaskeemaa, se on kuvattu tiedostossa schema.doc (tekstitiedosto, ei Microsoft Word; huomatkaa IE-käyttäjät).

Tietokantavedokset, päivitetään noin viikoittain

[muokkaa wikitekstiä]

Katso http://download.wikimedia.org/ ladataksesi varmuuskopiovedokset tietokannasta. Niitä voidaan lukea MySQL-relaatiotietokannalla vähittäiseen analyysiin, Wikipedia-ohjelmiston testaukseen ja sopivalla esikäsittelyllä ehkä offline-lukemiseen.

Tietokantamalli selitetään tiedostossa schema.doc. cur-taulukot sisältävät kaikkien sivujen tämänhetkiset versiot; old-taulukot sisältävät muokkaushistorian. Pakatuille vedoksille on annettu likimääräinen tiedostokoko; pakkaamattomina ne ovat huomattavasti suurempia.

Windows-käyttäjillä ei välttämättä ole bzip2-purkuohjelmaa välittömästi käytettävissä; Komentoriviversio bzip2:sta Windowsille on saatavilla ilmaiseksi BSD-lisenssin alaisena. Graafinen arkistointiohjelma 7-zip, joka myös osaa käsitellä bz2-tiedostoja, on saatavilla ilmaiseksi. MacOS X:n mukana tulee komentorivipohjainen bzip2-työkalu.

Staattiset HTML-puuvedokset peilausta tai CD-jakelua varten

[muokkaa wikitekstiä]

Terodump on alfalaatuinen ohjelma staattisen HTML-vedoksen tekemiseksi Wikipedian tietokannasta. Esimerkkivedos: wikipedia-terodump-0.1.tar.bz (Helia-peili) – Tero

wiki2static-skripti on kokeiluluontoinen ohjelma HTML-vedosten tekemiseen. Vedokset sisältävät myös hakutoiminnon ja kuvat (tai osan niistä). Esimerkkejä vedoksista: englanniksi (pelkkä teksti) (126 MB), saksaksi (täydellinen) (167 MB), sekä espanjaksi (täydellinen) (50 MB).

Jos haluat auttaa automaattisen HTML-vedosluontitoiminnon luomisessa, ilmoita siitä (englanniksi) kehittäjien postituslistalle.

Katso myös: TomeRaider database (englanniksi)


Ethän käytä web crawleria ladataksesi suurta määrää artikkeleita. Aggressiivinen crawlaus serverillä saattaa aiheuttaa dramaattisen Wikipedian hidastumisen.