JDEA Forum

「データ」についてのあれこれをレポートしつつ、ワイガヤ(ハイブリッド・ミーティング)や勉強会/セミナーなどを通じて日本データ・エンジニアリング協会(JDEA https://www.jdea.gr.jp/)を側面支援していきます。

「データ」についてのあれこれをレポートしつつ、ワイガヤ(ハイブリッド・ミーティング)や勉強会/セミナーなどを通じて日本データ・エンジニアリング協会(JDEA)を側面支援していきます

データ設計

ITシステムの設計と同じように、データを有効に利活用するには適正な設計が欠かせません。何のためにどのようなデータを集めるのか、そのデータはどのような項目で構成すればいいか、ということです。

最近の事例では、新型コロナウイルス陽性反応者の情報を管理する「新型コロナウイルス 感染者等情報把握・管理⽀援システム(HER-SYS:ハーシス)」が挙げられます。当該個人の基本情報(氏名、住所、性別、年齢)、医療機関の情報は当然として、「念のため/何かがあったときのため」という名目で次から次に項目が追加され、最大で130項目を超えるまでに膨れ上がってしまいました。

その結果、医療機関では診療・治療でなく、データ入力に多くの時間が割かれ、現場職員の疲弊を生むことになりました。データを収集する目的(陽性反応者の把握と感染の拡大防止)が忘れられ、データを集めることが目的化した事例です。そこで必要となるのが、業務の目的に即したデータとはどのようなものかを定義することです。

その場合、項目ごとにデータの形を決めていく必要があります。企業名を表記する場合、「株式会社◯◯◯◯」か「(株)◯◯◯◯」か、個人の氏名では姓と名の間に1文字分の空白を入れるか入れないか、外国人の氏名表記(スペル)に認める言語はどこまでか、LGBT時代を背景にトランスジェンダーの項目を用意すべきかどうかetcということです。

データの形式と同時に、データの長さを決めておかなければなりません。日本人の場合は最長の姓として実在が確認されているのは漢字5文字(左衛門三郎、勘解由小路)、ふりがなは8文字(ひがしぼうじょう、みなみぼうじょう、ひがしよつやなぎ、とうじょうべっぷ)ですが、外国人の場合はもっと長くなることが想定されます。データ長の規定に収まらない場合のルールも決めておかなければなりません。

使用する漢字についても決め事が必要です。コンピュータが理解できる(コンピュータ処理にかかる)文字コードとして情報処理推進機構(IPA)が策定した「IMI文字情報基盤」を標準とすることなどで、データを正規化するになっていきます。