diff --git a/Readme.md b/Readme.md new file mode 100644 index 0000000..e132416 --- /dev/null +++ b/Readme.md @@ -0,0 +1,8 @@ +# Bundescrawler +This repository contains the scraper (I just liked the name Bundescrawler), which collects the available information from the sites of the representatives of the German Parlament. + +## How to use +- Clone the repository +- Install the dependencies with `pip install .` +- Initialize a repository somewhere where you want to save the information. +- Run `python3 crawler.py -o ` diff --git a/crawler.py b/crawler.py index 6074fa8..d8503cd 100644 --- a/crawler.py +++ b/crawler.py @@ -12,9 +12,6 @@ from datetime import datetime BUNDESTAG_URL = "https://www.bundestag.de/ajax/filterlist/de/abgeordnete/biografien/1040594-1040594?limit=9999&view=BTBiographyList" BUNDESTAG_BASE_URL = "https://www.bundestag.de" -DISCLOSURE_DISLAIMER = """Anzeigen nach den Verhaltensregeln (§§ 45 ff. Abgeordnetengesetz) sind von den Abgeordneten innerhalb von drei Monaten nach Erwerb der Mitgliedschaft einzureichen. Während der Wahlperiode sind Änderungen oder Ergänzungen innerhalb einer Frist von drei Monaten ab deren Eintritt mitzuteilen. Die Angaben werden nach Verarbeitung der Daten und Prüfung, ob eine Veröffentlichungspflicht besteht, an dieser Stelle veröffentlicht. Für weiterführende Informationen wird auf die "Hinweise zur Veröffentlichung der Angaben nach den Verhaltensregeln" auf den Internetseiten des Deutschen Bundestages verwiesen. -Die veröffentlichungspflichtigen Angaben der Abgeordneten der vergangenen Wahlperioden finden Sie im Archiv.""" - class Biography: def __init__(