Published July 9, 2025 | Version 2025-07-08
Software Open

Source Code des 'Corpus der Entscheidungen des Bundespatentgerichts' (CE-BPatG-Source)

  • 1. Ludwig-Maximilians-Universität München

Description

Überblick

Das Corpus der Entscheidungen des Bundespatentgerichts (CE-BPatG) ist eine möglichst vollständige Sammlung der vom Bundespatentgericht veröffentlichten Entscheidungen. Der Datensatz nutzt als seine Datenquelle die Entscheidungsdatenbank des Bundespatentgerichts und wertet diese vollständig aus.

Alle mit diesem Skript erstellten Datensätze werden dauerhaft kostenlos und urheberrechtsfrei auf Zenodo, dem wissenschaftlichen Archiv des CERN, veröffentlicht. Alle Versionen sind mit einem separaten und langzeit-stabilen (persistenten) Digital Object Identifier (DOI) versehen.

Die neueste Version des Datensatzes ist immer über den Link der Concept DOI erreichbar: https://doi.org/10.5281/zenodo.3954850

 

NEU in Version 2025-07-08

  • Vollständige Aktualisierung der Daten
  • NEU: Datensatz im Parquet-Format
  • Expliziter R Package Version Lock für 2024-06-13 (CRAN Date)
  • Überarbeitung des Dockerfiles
  • Vereinfachung der Run-Skripte und stärkere Integration mit Docker Compose
  • Vereinheitlichung der Extraktion von PDF-Dateien, der Berechnung linguistischer Kennzahlen und der Berechnung kryptographischer Hashes
  • Überarbeitung der Dokumentation zu Varianten des Datensatzes
  • Entfernung von exakten Prozentzahlen in den Frequenztabellen
  • Entfernung der Tesseract System Library
  • Entfernung der Nummerierung der Diagramme

 

Funktionsweise

Primäre Endprodukte des Skripts sind folgende ZIP-Archive:

  • Der volle Datensatz im CSV-Format
  • Die reinen Metadaten im CSV-Format (wie unter 1, nur ohne Entscheidungstexte)
  • Alle Entscheidungen im TXT-Format (reduzierter Umfang an Metadaten)
  • Alle Entscheidungen im PDF-Format (reduzierter Umfang an Metadaten)
  • Nur Leitsatz-Entscheidungen im PDF-Format (reduzierter Umfang an Metadaten)
  • Alle Analyse-Ergebnisse (Tabellen als CSV, Grafiken als PDF und PNG)
  • Der Source Code und alle weiteren Quelldaten

Alle Ergebnisse werden im Ordner 'output' abgelegt. Zusätzlich werden für alle ZIP-Archive kryptographische Signaturen (SHA2-256 und SHA3-512) berechnet und in einer CSV-Datei hinterlegt.

 

Systemanforderungen

  • Docker
  • Docker Compose
  • 10 GB Speicherplatz auf Festplatte
  • Multi-core CPU empfohlen (8 cores/16 threads für die Referenzdatensätze).

In der Standard-Einstellung wird das Skript vollautomatisch die maximale Anzahl an Rechenkernen/Threads auf dem System zu nutzen. Die Anzahl der verwendeten Kerne kann in der Konfigurationsatei angepasst werden. Wenn die Anzahl Threads auf 1 gesetzt wird, ist die Parallelisierung deaktiviert.

 

Anleitung

Schritt 1: Ordner vorbereiten

Kopieren Sie bitte den gesamten Source Code in einen leeren Ordner (!), beispielsweise mit:

$ git clone https://codeberg.org/seanfobbe/ce-bpatg

Verwenden Sie immer einen separaten und leeren (!) Ordner für die Kompilierung. Die Skripte löschen innerhalb von bestimmten Unterordnern (files/, temp/, analysis/ und output/) alle Dateien die den Datensatz verunreinigen könnten --- aber auch nur dort.


Schritt 2: Docker Image erstellen

Ein Docker Image stellt ein komplettes Betriebssystem mit der gesamten verwendeten Software automatisch zusammen. Nutzen Sie zur Erstellung des Images einfach:

$ bash docker-build-image.sh

 

Schritt 3: Datensatz kompilieren

Falls Sie zuvor den Datensatz schon einmal kompiliert haben (ob erfolgreich oder erfolglos), können Sie mit folgendem Befehl alle Arbeitsdaten im Ordner löschen:

$ Rscript delete_all_data.sh

 

Den vollständigen Datensatz kompilieren Sie mit folgendem Skript:

$ bash docker-run-project.sh

 

Ergebnis

Der Datensatz und alle weiteren Ergebnisse sind nun im Ordner output/ abgelegt.

 

Pipeline visualisieren

Sie können die Pipeline visualisieren, aber nur nachdem sie die zentrale .Rmd-Datei mindestens einmal gerendert haben:

> targets::tar_glimpse()     # Nur Datenobjekte
> targets::tar_visnetwork()  # Alle Objekte


Troubleshooting

Hilfreiche Befehle, um Fehler zu lokalisieren und zu beheben.

> tar_progress()  # Zeigt Fortschritt und Fehler an
> tar_meta()      # Alle Metadaten
> tar_meta(fields = "warnings", complete_only = TRUE)  # Warnungen
> tar_meta(fields = "error", complete_only = TRUE)  # Fehlermeldungen
> tar_meta(fields = "seconds")  # Laufzeit der Targets

 

Weitere Open Access Veröffentlichungen (Fobbe)

Website www.seanfobbe.de

Open Data  —  https://zenodo.org/communities/sean-fobbe-data/

Source Code  —  https://zenodo.org/communities/sean-fobbe-code/

Volltexte regulärer Publikationen  —  https://zenodo.org/communities/sean-fobbe-publications/

 

Urheberrecht

Der Source Code und alle von mir bereitgestellten Rohdaten stehen unter der GNU General Public License v3.0 oder später.

 

Kontakt

Fehler gefunden? Anregungen? Kommentieren Sie gerne im Issue Tracker auf Codeberg oder kontaktieren Sie mich via www.seanfobbe.de

 

Files

CE-BPatG_2025-07-08_CompilationReport.pdf

Files (469.8 MB)

Name Size Download all
md5:ee0590549c8d4e0ecacdabb073249ede
460.6 kB Preview Download
md5:374acd37c904c95a3d8aed6614541567
6.4 kB Preview Download
md5:5a95f77b67e3fdefe22f8b31bcf9fb1a
377.4 kB Preview Download
md5:c2725623a7f677834b4bd58ca845e0c0
831.2 kB Preview Download
md5:39f61c66a53a42496b00f4bd9758fce8
468.1 MB Preview Download

Additional details

Related works

Software

Repository URL
https://codeberg.org/seanfobbe/ce-bpatg
Programming language
R
Development Status
Active