Twitterのデータダウンロード機能を使ってみたら1GBのデータ量に圧倒されるも肝心の全ツイートのデータが欠けていた話

虚偽DMCA申請による凍結騒動

虚偽のDMCA申請によって複数アカウントが一斉に凍結され、そのうちの一部が数日後に凍結を解除される*1事件があった。

今朝メールを見てみたら、Twitterから「あなたが投稿した画像が著作権の侵害にあたると申請があったので削除した」と連絡がありました。

心当たりがないので一体どの画像?と情報を見てみたら、小学生の娘がカスタムキャストで描いた東方キャラの絵と、森が描いた東方「博麗霊夢」の絵が「著作権侵害」にあたるのだと言われました。

気になって調べてみましたが、記載のあった岐阜県の住所をGoogleマップで見ても険しい自然、山しかない。

法人登録もありませんでした。もちろん社名で検索してもまったく情報が出てきません。個人名にしたっておそらくは偽名でしょう。

これまでもTwitterの凍結を脅威に感じつつも、どこか素朴な印象として凍結されてもやむなしな言動をしたアカウントが凍結されているという感覚があったけれど、今回の事件には自分も何かのはずみで凍結されるかもと思わせるものがあった。

凍結されるとツイートデータの復元は困難か

Twitterは公式でデータダウンロード機能を用意しているけれど、凍結されると使えなくなるらしい。

f:id:fuyu77:20200222193605p:plain

またツイートを記録する外部サービスのTwilogも凍結されると非表示になる*2

突然凍結されたらツイートデータを喪失する可能性もあると考え、Twitterのデータダウンロード機能を利用してバックアップを取っておこうと思った。

1GB以上のデータ量に驚愕する

f:id:fuyu77:20200222195106p:plain

設定からデータダウンロードの準備を行い、しばらくすると準備完了の通知が届いたけれど、表示されたデータ量は何と1643MBで、1GB以上。

f:id:fuyu77:20200222195451p:plain

ダウンロードに2時間以上かかった。

データの全容

f:id:fuyu77:20200222200211p:plain

ダウンロードしたデータは、大量の謎のJSファイルと画像や動画が入っているディレクトリによる構成だった。

ツイート等のコンテンツはJSファイルにJSONの配列形式で入っていて、通常のツイートに加えてDMのメッセージやフォロー、フォロワー、いいね、リスト、モーメント、ミュート、ブロックから広告とのマッチング情報までありとあらゆるアカウント情報がダウンロードされていた。

しかし肝心のツイートのデータが一部欠けている

tweet.jsというファイルに入っているツイートの履歴を表示するビュワーがいくつかネット上に公開されていて、試してみたところ、Twitterを始めてから半年分のデータが欠落していた*3。無駄にデータが重い上に肝心の全ツイートのデータがないのでは話にならないではないか。

代替案

画面上部の「ログイン」より管理画面に入り、「ログのダウンロード」からダウンロードすることができます。
CSV(SJIS)、CSV(UTF8)、XML(UTF8)の3つのフォーマット・文字コードを選ぶことができます。

含まれる情報は、投稿ID、投稿日時、テキスト本文のみです。

TwilogCSVダウンロード機能があり、こちらは7MBのサイズでRTを含む全ツイートテキストがダウンロードできて「これこれ、こういうのでいいんだよ」という感じだった。

結論としては、Twilogにデータ連携して定期的にCSVダウンロードするのが良さそうだ。

*1:2020/02/22現在、森哲平さんはまだ凍結されている。

*2:凍結でTwilogのデータダウンロード機能が使えなくなるのかどうかは不明。

*3:どういうロジックで欠落しているのかは不明。