Campfireはクラウドファウンディングで何らかを企画して、お金を募って実行するというものです。
クラウドファウンディングに諸々と気になっており、でも勝算のないまま突っ込むのは無謀だとも思い簡単にサーベイしたいと思います
Campfireはアニメや地域創生などで投資対象になることがありますが、カテゴリにより必要な予算感というのはだいぶ異なってきます。
カテゴリが何らかの分布を持つとき、バイオリン図というもので簡単に表現することができます。
Plotlyというサービスを利用することで、Pandasのデータフレームを引数に簡単に描画することができます。
金額をLogのオーダを取っているので差がわかりにくいですが、10 ~ 100倍の予算の差があることがわかります
達成率という視点で見ていきますと、{実際集まった額}/{目標額}という視点でこれをlogをとってカテゴリごとにバイオリン図を描くとこのようになります。
達成率で行くとそこそこ達成するか、達成率が極めて悪いかの二極化していることがわかりました。アニメや地方創生は安定して好成績を達成しますが、ビジネスやガジェットは失敗率が高そうです。
これも直感的には関係がありそうですよね、ということで仮設をまず立てて見ていきます。
横軸を募集を募る人のフォロワー数として、縦軸を実際に出資された金額を見ると、相関は最小二乗法でとりあえず+で、分布の偏りがあることわかり、フォロワーがある一定以上多いと、観測頻度も上がっているように見えて、単純に、このクラウドファウンディングを利用するのに、ソーシャルの影響力を一定以上超えている人が多いとかもありそうです。(なんだか今回多くの分類問題を解いていますが、今後このようなスキルが必要になる気がしてて訓練しようと試みておりました)
特徴量として利用するのは、
- 募集を開始したカテゴリ
- 応募要項に書かれている画像の数
- 何日間掲載していたか
- 目標金額の大きさ
です。 この分析角度は、「クラウドファンディングによる資金調達の成功要因[1]」という2017年度の分析結果とは別の角度や特徴量を利用したものです。
判別問題として利用しやすいロジスティック回帰を利用して、 オプティマイザを切り替えて最適値を探索しました。
精度としては74%で実用に判別問題にするには、もっと特徴量が必要そうです。
特徴量重要度はこのようになっております
-0.303110699991064 cat_テクノロジー・ガジェット
-0.751644551826678 cat_ビジネス・起業
-0.013493125668946924 cat_ゲーム・サービス開発
-0.46253890046345947 cat_舞台・パフォーマンス
0.9129758840051441 cat_音楽
-0.5415503354123857 cat_ファッション
-0.3324589677102712 cat_チャレンジ
-0.6780447385689211 cat_プロダクト
-0.32815059023291243 cat_アート・写真
-0.14891522113337655 cat_フード・飲食店
-0.13732759400535344 cat_スポーツ
0.30923235868127125 cat_映像・映画
1.5543324887923358 cat_アニメ・漫画
0.7015163066476917 cat_まちづくり・地域活性化
0.1507378830193736 cat_ビューティー・ヘルスケア
1.3322781789828224 imgs_size
-0.22249239364416495 delta
-0.423749086371076 target
画像は多いほうがいいし、あまり長い掲載期間はダメそうですし、製品やビジネスを行う人は最初からハンデを背負っていることになります。
-
- 13-scan.py campfireさまのサイトを1req/secでスクレイピングします
-
- 20-target-price-violin.py violin図を描くためのデータ角度を前処理を行います
-
- dataframe-exchange.ipynb
Jupyter+Plotlyで、violin図を描画します(Plotlyはオンライン機能を有効にしてサインインしておく必要があります)
- dataframe-exchange.ipynb
-
- 30-twitter-facebook-rels.py
twitterの数と出資金額の散布図のcsvデータを作成します
- 30-twitter-facebook-rels.py
-
- 40-imgnum-reportnum-category.py 様々な特徴量を定義して、’ロジスティック回帰で分類を行い、何らかの特徴を明らかにします
経営情報学会の少し、こっち側よりのデータサイエンスの練習の一環でした。このくらいならだいたい4〜6時間でデータの取得→特徴量の決定→KPIの仮設定→分析までのフレームワークを楽に回せるようになってきたかなという気持ちです(あくまで気持ち)