条理を解く
Shou Arisakaの個人マイクロブログ(=一人ツイッターのようなもの)。 ※某自作SNSから引越。
社会・技術の投稿が多め。つまらない諸事物への考察・持論を展開。

#データ分析

9 件表示中
N100開発者

おかげさまでQiitaトップページ2位でした。何かお与えできてたら幸いです。

あとqiitaからリンク踏んでnonbuzに来てくださった方は昨日で550、今日は今時点で1150人だったようです
twitterで共有もされたのかtwitterリファラのアクセスもありました。
twitterでは「放送大学入ってみようかな…」って言及もあり二律背反した心境です(影響を受けて頂けたのは嬉しいが修士に進みにくくなったら困る)

それでアクセス分析しつつ僕的に興味深いと思ったのが、最初に貼ってた方のリンク(GitHub Foundationsにメンションしてる方)より後というか最後に貼ってた方のリンク(放送大学は低コストだよのリンク)の方がクリックが10倍大きいっぽいという点。

おかげさまでQiitaトップページ2位でした。何かお与えできてたら幸いです。

この記事はそれなりのストックなど貰ったけど、もしかしたらメインである試験の内容より大学の内容の方が響かれた方が多かったのかもしれませんね。知らんけど。

あとは当該qiita記事のgoogle serp(検索順位)の推移とかもトラッキングしてあるから見れるんだけど、こっちは意外にも大きな変化がなかった。むしろいくつかの検索クエリはランク下がってたり。"急で不自然な内部リンク"みたいな判定になるんかな。

このデータ分析の話をqiitaに別途で記事投稿しようかとも思ってたけど面倒だからここで適当に済ませるとする。

(画像は3位だった時に取りました↓)

おかげさまでQiitaトップページ2位でした。何かお与えできてたら幸いです。

操作の一覧を開く 前後の投稿を見る

qiitaトップ4位は最高記録だな。
アクセス数、9番目から比較して150pv/15分→300pv/15分になってる
もしかしたらこのネタでまたqiita記事でも書くかも

qiitaトップ4位は最高記録だな。
操作の一覧を開く 前後の投稿を見る

Qiitaとかの閲覧数トラッキングは今こんな感じ。
一昨日くらいに、note .comのも実装して今はジモティーとqiitaとnoteをトラッキングしてる感じになっている

見やすいよね。我ながらpromqlの書き方も2ヶ月で上達したと思う。
ちなみにqiitaに関してはスクレイピングじゃなくてapi使ってる。page_views_countを取る。

noteは先刻触れたけどビュー数はpv数というよりインプレッション数であったらしいという事実により当てにならない。
ジモティーもcurlとかgooglebotとかクローラーも全部カウントに含めてしまうので信頼しづらい
グラフも見てるところ、qiitaの閲覧数推移がいちばん安定している(オーガニックアクセスが判別できる)と思う。

Qiitaとかの閲覧数トラッキングは今こんな感じ。
操作の一覧を開く 前後の投稿を見る

grafana。アクセス分析パネルの改善。
もともと24hのdiffで見てたけどスクレイピングインターバルと等しい15mにしてみるとクリアな見た目になった。

ちなみにprometheus/promqlの式 ↓


sum(views_tracking{url=~".*jmty.*", title=~".+"})  by (title) - sum(views_tracking{url=~".*jmty.*", title=~".+"} offset $offset_interval)  by (title)

(before)

grafana。アクセス分析パネルの改善。

(after)

grafana。アクセス分析パネルの改善。
操作の一覧を開く 前後の投稿を見る

a8netセルフバックの報酬額推移トラッキングツールを少し前に作ってて、(なおランキングとお気に入り数の推移も見れるようにしてある)
某S□□□nってアプリの自己アフィ案件が1000円から2000円に数分間だけ報酬額変わってたっぽい。
amazonに限らない価格設定アルゴリズム失敗・人為ミスの好例か

a8netセルフバックの報酬額推移トラッキングツールを少し前に作ってて、(なおランキングとお気に入り数の推移も見れるようにしてある)
操作の一覧を開く 前後の投稿を見る

ひっさびっさにjmtyに投稿。
ちょっと前からこういうのテスト検証的に投稿してみたいなみたいな構想はあったので、書き下して投下

ジモティーは僕が理念として掲げる「人的交流においてインターネットはくそなのでリアルとのハブのみであるべきだ」っていうのを一番現実的かつ簡潔に達させてくれる土台があると思っているから、
時々検証に使っていきたい。

で、prometheus/grafanaで閲覧数のトラッキング。推移見れるようにした。

ひっさびっさにjmtyに投稿。

note .comとかはスパンは日ごととかだけどそれなりに細かく前週とかも見れるし敢えて実装するでもないかなって具合だけど、
ジモティーのはシンプルなカウントしかないから以前使ってた頃から困ってたところだった。これが気分で解決した。技術は偉大。

qiitaなんかも(最近は投稿しないけど)閲覧数のトラッキング使えそう。あとは個人的には知恵袋を変な使い方したりもするので知恵袋の閲覧数とか。

まあ、何でも取れる。

操作の一覧を開く 前後の投稿を見る

grafana。prometheusにupとかってスクレイピング先がサービスダウンしてるかどうかが0か1かで時系列データベースに記録されるメトリクスが標準搭載されてて、prometheusをメタ的に監視するのにやはり便利。

grafana。prometheusにupとかってスクレイピング先がサービスダウンしてるかどうかが0か1かで時系列データベースに記録されるメトリクスが標準搭載されてて、prometheusをメタ的に監視するのにやはり便利。

これは24hで見てるけど、まずup。一瞥で分かりやすい。
あと僕的にこれ付いたほうがいいよなって思って平均とデルタを付けている。(デルタは時間内での数量の全変動の合計)
つまり、meanで稼働率、deltaでサーバーダウン回数が実質的に分かる。

左下のscrape_series_addedは文字通りデータの追加量の推移。logにしてるから見えやすい。形態素解析のNLPのデータがnginxのログデータより平常2,3倍多く推移してることが分かった。
でもmaxとチャートを見て分かる通りnginxの方はたまにスパイクがある。これはどっかの一つのbotが分をわきまえない非常識クローリングを15分(データ取得のinterval)以内でしてきてたっぽいというのを表している。

操作の一覧を開く 前後の投稿を見る

grafana。2日以上はデータ溜まったので見返ししてみた。

興味深いと思った単語の抜粋(ジモティー > 全国 > 友達)

エンジニア

grafana。2日以上はデータ溜まったので見返ししてみた。

カラオケ多い
せめてジャンル(ボカロなのかkpopなのか演歌なのか)は分けた方がいくない?
て言いつつ"英語(スペイン語)カラオケやってみませんか?"みたいな投稿したらおもろそう思った。絶対濃い人集まる

grafana。2日以上はデータ溜まったので見返ししてみた。

直近2日で"哲学"が出るとは。札幌…。"哲学サークル"ってはあるけど、哲学カフェ流行ってほしいな。英会話とか要らないから。というか英会話カフェは英会話バーと言い直したほうがいい。陰キャが現地で潰れる。

grafana。2日以上はデータ溜まったので見返ししてみた。

天神がどこか知らないけど随分具体的だな。"大阪"より多いの面白い

grafana。2日以上はデータ溜まったので見返ししてみた。

夫婦関係。
"冷めきってる" "悩んでる" "良くない"
なるほど

grafana。2日以上はデータ溜まったので見返ししてみた。

ピアノ連弾は具体的で好き

grafana。2日以上はデータ溜まったので見返ししてみた。

HSP。HSP好きだよな皆。

grafana。2日以上はデータ溜まったので見返ししてみた。

操作の一覧を開く 前後の投稿を見る

"人々が何を考えているのか”を取りたい場合、"人々が何を評価しているのか"、etcは分けて考えないといけないんだと思う。
データが何を表しているのか。深く考えないと。
行動経済学的というか、サイバネティックス的な捉え方か

例えば"hatenaで1以上はてなブックマークされてる新着順でのqiitaのページ"だったら後者よりになるだろうし、
"noteでの経済・投資カテゴリ内の新着投稿"は前者よりになるだろう
下のジモティー -> 友達は前者の方。知恵袋の新着質問も前者。
ただ"note .comのトップページ"は前者後者よりも恣意的だ。アルゴリズム比重・依存性が大きい。
下のgigazineは例えばそれに当てはまる。(考えている・評価している主体は人々ではなくgigazine編集部の中の人あるいはプログラマのプリファレンス)
yahooニュースの2つは主体が複数ある(oo新聞 etc)けどやはりyahooという親主体による選別比重が大きい。これについては、上の前後者とアルゴリズミックをミックスしたような感じとも言えるかもしれないが、新カテゴリを立てることもできると思う。つまり例えば"人々「に」何を考えさせるか"、"人々「に」何を評価させるか"。これをマスメディア情報体とでも定義できるか。

んな具合で、一絡げに"トレンド"とせず、中身を熟慮し細分化モデルを考えるのが大事かもしれない。
その細分化作業自体が定量的手法じゃないから、主体すなわち"僕"に高依存なんだけどな。まあある程度の正確性には自信あるからたぶんok

操作の一覧を開く 前後の投稿を見る