Polimoney 第5週(2025/04/11~2025/04/18)のGitHub活動まとめ

今週も「デジタル民主主義2030」プロジェクトへのご関心、ありがとうございます。こちらのPolimoneyリポジトリでの活動報告をお届けします。興味を持たれた方は、ぜひ開発にご参加ください!


今週完了したタスク(PRがマージされたもの)

今週は合計3件のPull Requestがマージされました。新機能の実装や改善が完了しています。

PR #8 (作成者: jujunjun110)

  • 内容:
    • Geminiの書き出しフォーマットを改善しました。
    • Geminiの実行並列化により大量データの解析が高速化されました。
    • 複数JSONファイルをまとめてマージできるスクリプトが追加されました。
  • ポイント:
    • 大規模な画像解析を行う際の開発者の負担が軽減され、処理速度が向上します。
    • 現状のOCRフローに組み込みやすくなり、データ統合や分析がスムーズに進みます。

PR #7 (作成者: nanocloudx)

  • 内容:
    • PDFのページを画像に変換してからGeminiに送る一連のフローを実装しました。
  • ポイント:
    • PDF → 画像 → Gemini解析という流れを自動化することで、開発者が手作業を減らせます。
    • 多数の報告書をまとめて処理する際の効率があがります。

PR #6 (作成者: spinute)

  • 内容:
    • 収支報告書から抽出したデータを可視化用に変換するスクリプト(convert.ts等)を実装しました。
    • いくつかの型定義を整備し、「繰越」等をどのように扱うかなど、データ形式の整理を進めました。
  • ポイント:
    • 実際のグラフやチャートへの反映が容易になります。
    • 今後、UI・UXを向上させる上での土台となる機能です。

未完了のタスク(新規Issueなどで議論中)

今週新たに5件のIssueが作成され、まだ完了には至っていません。積極的に議論が行われています。

Issue #5 議員からの掲載許可に基づくデータ表示制御(オプトイン・アウト)機能

  • 背景:
    • 機微情報を含む政治資金収支報告書の取り扱いにおいて、議員や団体の許可状況に応じた公開/非公開の切り替えが必要となっています。
  • 提案:
    • 各議員等の許可ステータス管理、ステータス更新プロセス、表示ロジックへの反映を行う仕組みを検討中です。
  • 議論ポイント:
    • 実運用で「許可未設定時はどう扱うのか?」などポリシー設計が重要視されています。
  • 今後の見通し:
    • コンプライアンスを満たしつつユーザビリティを損なわない設計が求められ、まだ議論段階です。

Issue #4 総務省ウェブサイトからの政治資金収支報告書PDF自動取得機能

  • 背景:
    • 多数の報告書PDFを手動でダウンロードする手間を省きたいという声が上がっています。
  • 提案:
    • Pythonを使用したウェブスクレイピングの実装が主なテーマです。団体種別や公表年、団体名別に自動取得する仕組みを検討中。
  • 議論ポイント:
    • 取得にあたってのレートリミットや総務省側への負荷などに注意が必要です。

Issue #3 Gemini API呼び出しの並列化とエラーハンドリング強化(レートリミット対応)

  • 背景:
    • 大量呼び出し時のレートリミット、ネットワークエラー対応が不十分との声があります。
  • 提案:
    • 並列処理、エラーリトライ、エラーハンドリング強化などに関する詳細なタスクが列挙されています。
  • 議論ポイント:
    • Gemini API側の許容範囲や、どこまで並列度を上げるかが検討対象です。

Issue #2 収支報告書のフォーマット差異に対応し、プロンプトを最適化する

  • 背景:
    • 報告書のフォーマットが多岐にわたるため、単一のOCRプロンプトでは精度が低くなる場面がある。
  • 提案:
    • フォーマット分類と、それぞれに合ったプロンプトを切り替えられる仕組みを検討中。
  • 議論ポイント:
    • 様式の自動判別、半自動運用など、効率的にデータを扱う方法が模索されています。

Issue #1 JSONデータから集計行(小計・合計)を除外する

  • 背景:
    • Geminiの解析結果に含まれる集計行が、後続分析でノイズになる恐れがあります。
  • 提案:
    • 後処理スクリプトやプロンプト改善など、余分な行を除去するアプローチが提示されています。
  • 議論ポイント:
    • 「小計」「合計」といったキーワードで簡易除外するだけなのか、フォーマット認識も絡めるのかが検討テーマです。

参加の呼びかけ

  • 上記の未完了Issueはいずれも着手・議論が求められています。
  • ウェブスクレイピングやAPI並列化、OCRプロンプト改善など、技術的にやりがいのあるテーマが盛りだくさんです。
  • 開発経験が浅い方でも、少しずつコントリビュートできるようIssueごとに説明を充実させています。
  • ぜひ一度リポジトリをクローンして、Issueでの議論やPRに参加してみてください!

今後ともPolimoneyの開発・改善にご協力をよろしくお願いします。