diff --git a/Readme.md b/Readme.md deleted file mode 100644 index e132416..0000000 --- a/Readme.md +++ /dev/null @@ -1,8 +0,0 @@ -# Bundescrawler -This repository contains the scraper (I just liked the name Bundescrawler), which collects the available information from the sites of the representatives of the German Parlament. - -## How to use -- Clone the repository -- Install the dependencies with `pip install .` -- Initialize a repository somewhere where you want to save the information. -- Run `python3 crawler.py -o ` diff --git a/crawler.py b/crawler.py index d8503cd..6074fa8 100644 --- a/crawler.py +++ b/crawler.py @@ -12,6 +12,9 @@ from datetime import datetime BUNDESTAG_URL = "https://www.bundestag.de/ajax/filterlist/de/abgeordnete/biografien/1040594-1040594?limit=9999&view=BTBiographyList" BUNDESTAG_BASE_URL = "https://www.bundestag.de" +DISCLOSURE_DISLAIMER = """Anzeigen nach den Verhaltensregeln (§§ 45 ff. Abgeordnetengesetz) sind von den Abgeordneten innerhalb von drei Monaten nach Erwerb der Mitgliedschaft einzureichen. Während der Wahlperiode sind Änderungen oder Ergänzungen innerhalb einer Frist von drei Monaten ab deren Eintritt mitzuteilen. Die Angaben werden nach Verarbeitung der Daten und Prüfung, ob eine Veröffentlichungspflicht besteht, an dieser Stelle veröffentlicht. Für weiterführende Informationen wird auf die "Hinweise zur Veröffentlichung der Angaben nach den Verhaltensregeln" auf den Internetseiten des Deutschen Bundestages verwiesen. +Die veröffentlichungspflichtigen Angaben der Abgeordneten der vergangenen Wahlperioden finden Sie im Archiv.""" + class Biography: def __init__(