2024-06-18 03:09:22 +09:00
|
|
|
|
# gBizINFO-LOD
|
|
|
|
|
|
2024-06-18 03:32:19 +09:00
|
|
|
|
[![PyPI version](https://badge.fury.io/py/gbizinfo-lod.svg)](https://badge.fury.io/py/gbizinfo-lod)
|
|
|
|
|
|
2024-06-18 03:09:22 +09:00
|
|
|
|
[gBizINFO](https://info.gbiz.go.jp/)が提供する[CSV形式のデータ](https://info.gbiz.go.jp/hojin/DownloadTop)からLinked Open Data(LOD)データセットを生成するためのツール
|
|
|
|
|
|
2024-06-22 02:56:09 +09:00
|
|
|
|
生成したデータセットにアクセスできる公開SPARQLエンドポイントも以下で提供しています。
|
|
|
|
|
|
|
|
|
|
<https://metadata.moe/project/gbizinfo/>
|
|
|
|
|
|
2024-06-18 03:09:22 +09:00
|
|
|
|
## 使い方
|
|
|
|
|
|
2024-06-18 03:32:19 +09:00
|
|
|
|
```shell
|
|
|
|
|
pip install gbizinfo-lod
|
|
|
|
|
```
|
|
|
|
|
|
2024-06-18 03:09:22 +09:00
|
|
|
|
変換元となる法人活動情報語彙対応版CSVファイル群のダウンロード
|
|
|
|
|
(注: 法人基本情報は全件の一括ダウンロードが不可のため時間がかかる)
|
|
|
|
|
|
|
|
|
|
```shell
|
|
|
|
|
gbilod download ./work_dir/
|
|
|
|
|
```
|
|
|
|
|
|
2024-06-19 01:44:50 +09:00
|
|
|
|
CSVファイル群をRDFに変換し、[Graph URI](#graph-uri)毎にファイルが出力される(デフォルトはN-Quads形式)
|
2024-06-18 03:09:22 +09:00
|
|
|
|
|
|
|
|
|
```shell
|
|
|
|
|
gbilod convert ./work_dir/ -o ./output_dir/
|
|
|
|
|
```
|
|
|
|
|
|
2024-06-19 01:44:50 +09:00
|
|
|
|
その他オプションは `gbilod convert --help` を参照
|
2024-06-18 03:09:22 +09:00
|
|
|
|
|
|
|
|
|
## 変換仕様
|
|
|
|
|
|
|
|
|
|
基本的には以下の仕様書に基づく。
|
|
|
|
|
|
2024-06-22 02:56:09 +09:00
|
|
|
|
- gBizINFO SPARQL API仕様書: https://warp.ndl.go.jp/info:ndljp/pid/13539552/info.gbiz.go.jp/api/document/API.pdf
|
2024-06-18 03:09:22 +09:00
|
|
|
|
- リソース定義書 (CSV, XMLスキーマ仕様書): https://info.gbiz.go.jp/common/data/resourceinfo.pdf
|
|
|
|
|
|
|
|
|
|
### 仕様書との差異
|
|
|
|
|
|
|
|
|
|
仕様書上の定義と異なる、または未定義である箇所を以下にまとめる。
|
|
|
|
|
|
|
|
|
|
- 法人番号を表す `ic:ID/ic:体系` の目的語は `<http://imi.go.jp/ns/code_id/id/corporateNumber>`
|
|
|
|
|
|
2024-06-18 03:32:19 +09:00
|
|
|
|
```turtle
|
2024-06-18 03:09:22 +09:00
|
|
|
|
ex:Hojin <http://imi.go.jp/ns/core/rdf#ID> [
|
|
|
|
|
<http://imi.go.jp/ns/core/rdf#体系> <http://imi.go.jp/ns/code_id/id/corporateNumber> ;
|
|
|
|
|
<http://imi.go.jp/ns/core/rdf#識別値> "0123456789123" ;
|
|
|
|
|
a <http://imi.go.jp/ns/core/rdf#ID型>
|
2024-06-18 03:32:19 +09:00
|
|
|
|
] .
|
2024-06-18 03:09:22 +09:00
|
|
|
|
```
|
|
|
|
|
|
|
|
|
|
- 職場情報および財務情報における `hj:数量コレクション/hj:数量/hj:指標` の目的語はic:コード型の型付リテラル
|
|
|
|
|
- 提供されていたRDFデータがこのようになっており、互換性確保のためこの仕様を踏襲する。
|
|
|
|
|
- 本来はリテラルではなく、 `http://hojin-info.go.jp/graph/commonCode` グラフ内で定義されているリソースへのURI参照を期待したものと思われる。
|
|
|
|
|
|
2024-06-18 03:32:19 +09:00
|
|
|
|
```turtle
|
2024-06-18 03:09:22 +09:00
|
|
|
|
ex:HojinShokuba <http://hojin-info.go.jp/ns/domain/biz/1#数量コレクション> [
|
|
|
|
|
<http://hojin-info.go.jp/ns/domain/biz/1#数量> [
|
|
|
|
|
<http://hojin-info.go.jp/ns/domain/biz/1#指標> "http://hojin-info.go.jp/code/職場情報/企業規模"^^<http://imi.go.jp/ns/core/rdf#コード型> ;
|
|
|
|
|
<http://imi.go.jp/ns/core/rdf#単位表記> "人" ;
|
|
|
|
|
<http://imi.go.jp/ns/core/rdf#数値> 100.0 ;
|
|
|
|
|
a <http://hojin-info.go.jp/ns/domain/biz/1#数量型>
|
|
|
|
|
]
|
2024-06-18 03:32:19 +09:00
|
|
|
|
] .
|
2024-06-18 03:09:22 +09:00
|
|
|
|
```
|
|
|
|
|
|
|
|
|
|
## Graph URI
|
|
|
|
|
|
|
|
|
|
- 法人基本情報: `http://hojin-info.go.jp/graph/hojin`
|
|
|
|
|
- 補助金情報: `http://hojin-info.go.jp/graph/hojyokin`
|
|
|
|
|
- 調達情報: `http://hojin-info.go.jp/graph/chotatsu`
|
|
|
|
|
- 表彰情報: `http://hojin-info.go.jp/graph/hyosho`
|
|
|
|
|
- 届出認定情報: `http://hojin-info.go.jp/graph/todokede`
|
|
|
|
|
- 特許情報: `http://hojin-info.go.jp/graph/tokkyo`
|
|
|
|
|
- 職場情報: `http://hojin-info.go.jp/graph/shokuba`
|
|
|
|
|
- 財務情報: `http://hojin-info.go.jp/graph/zaimu`
|
|
|
|
|
- 共通コード: `http://hojin-info.go.jp/graph/commonCode`
|
|
|
|
|
|
|
|
|
|
## 背景
|
|
|
|
|
|
|
|
|
|
かつてgBizINFOではSPARQL APIが提供されており、APIを利用することでRDF形式のデータにアクセスすることができた。
|
|
|
|
|
また、RDFストアとしてAmazon Neptuneを採用し[^1]、実践的な運用ノウハウが公開されるなど[^2]、システム面でも有用な事例であった。
|
|
|
|
|
|
|
|
|
|
一方で、野村総合研究所が落札した「令和4年度経済産業省デジタルプラットフォーム構築事業(
|
|
|
|
|
Gビズインフォを通じた効果的なオープンデータ利活用の促進に向けた調査)
|
|
|
|
|
」の[報告書 (2023年3月17日)](https://www.meti.go.jp/meti_lib/report/2022FY/000235.pdf)
|
|
|
|
|
によると、LOD形式でのデータ提供について以下のような実態を指摘しており、公共データ分野でのLODの一定のニーズは認めているものの、SPARQL APIエンドポイントの存続有無の検討が必要と結論づけている。
|
|
|
|
|
|
|
|
|
|
```
|
|
|
|
|
現行Gビズインフォにおける、利用者の期待と現状
|
|
|
|
|
機能 - SPARQL API
|
|
|
|
|
実態: 法人データにおいてはLODの普及度が低いため、活用されているとは言いがたい。
|
|
|
|
|
利用者からの評価: △ インタビュー先のうち多数は知らない・知っているが使いにくいので使わないといった評価であった。
|
|
|
|
|
```
|
|
|
|
|
|
|
|
|
|
2023年10月31日にはgBizINFOサイト上でRDF形式データの提供廃止が告知され、2024年4月1日に完全廃止となった[^3]。
|
|
|
|
|
|
|
|
|
|
[^1]: [AWS 導入事例:経済産業省](https://aws.amazon.com/jp/solutions/case-studies/meti/)
|
|
|
|
|
[^2]: [経済産業省のデジタル化とgBizINFOの展開 2020年8⽉](https://pages.awscloud.com/rs/112-TZM-766/images/Session%204%20-%20gBizINFO.pdf)
|
|
|
|
|
[^3]: [RDF廃止(サービス終了)のお知らせ](https://info.gbiz.go.jp/html/RdfStop.html)
|
|
|
|
|
|
|
|
|
|
## License
|
|
|
|
|
|
2024-06-19 00:54:21 +09:00
|
|
|
|
本リポジトリに含まれる [`commonCode.ttl`](commonCode.ttl) および [`commonCode.nq`](commonCode.nq) を除くリソースは、MIT Licenseで提供される。
|
2024-06-18 03:09:22 +09:00
|
|
|
|
|
2024-06-19 00:54:21 +09:00
|
|
|
|
`commonCode.ttl` および `commonCode.nq` は、「[gBizINFO](https://info.gbiz.go.jp/)」(経済産業省)のSPARQL APIより取得・加工して作成したもので、[経済産業省 利用規約](https://www.meti.go.jp/main/rules.html)に従い利用するものである。
|