公式ドキュメントだけでは分からない、スイッチロール先のSparkジョブをSparkUIで見れるようにする方法をまとめた SparkUIサーバーの起動方法 スイッチロールしている場合、公式ドキュメントでは分からない スクリプトを作成した 実行手順 0. 前提条件 1. Do…
Aurora RDSのテーブル内のデータの一部で文字化けが発生してしまい、その修正を行ったのでその原因と解決方法をまとめました! 発生事象 原因 insertは utf8 RDSクラスターは utf8mb4 selectは utf8 まとめるとこんな感じ 何が起きていたのか 解決方法 参考 …
Renovateの設定をチューニングしたので共有 & 解説をする。 Renovateをより快適に使いこなせ。 https://docs.renovatebot.com/ 最終的に設定ファイルはこうなった $schema timezone prHourlyLimitNone automergePatch CODEOWNERSからrenovateがみているファ…
Pythonのドキュメント・リファレンスをdocstringの内容から良い感じに生成してくれる、Sphinxの簡単な使い方を紹介します! 完成イメージ 手順 1. Sphinxをインストール 2. プロジェクト作成 3. 設定の編集 conf.py を編集 conf.py に拡張機能を追加 4. ドキ…
MySQLのパフォーマンスチューニングで重要な、Explainを使ったクエリ調査に関するテクニックをまとめてみました。 Explain結果のカラム概要(一部) Extraについて Using filesort Using temporary インデックスを指定してExplain 実際の検査レコード数を確…
S3のバケットポリシーで特定のユーザー・ロールを除いてDenyしたい時の設定方法を、失敗例を添えてご紹介します。 スイッチロールをしている環境での設定方法も紹介しています。 【失敗例】自分がポリシーを変更できなくなった(アホ) NotPrincipalで特定の…
DataFrameを返す関数のテストを書く時に、期待されるDataFrameと返り値のDataFrameをどう比較したものか頭を悩ませたことはありませんか? 私は悩んだ結果、for文で1つ1つの要素を比較するというなんとも面倒なことをした経験があります。 ↓ こんな感じ # …
PostmanでAPIのテストをする際に、毎回何かしらの手段でCognitoのトークンを取得してAuthorizationヘッダーにコピペするのはとても面倒です。 そのトークンを楽に取得して複数のAPIで使いまわせるようにできないか、試してみたので共有します。 これまではど…
時系列データを扱う際によく使われる、以下の3つの処理を日次・週次・月次(daily, weekly, monthly)で比較してみます! どこが同じで、どこが違うのかを確認していきます! 【比較対象】 pandas.Grouper resample pandas_date_range pandas.Grouperについ…
時系列データを日次・週次・月次(daily, weekly, monthly)でそれぞれ集計・グルーピングするのに便利なpandas.Grouperを紹介します! pandas.Grouper データ準備 日次の集計(daily) 週次の集計(weekly) 月次の集計(monthly) まとめ 日次集計 週次集計(月曜…
Pythonのコードを自動整形するフォーマッター、blackを紹介します。 コードフォーマットをフォーマッターに任せることで、 フォーマットではなくロジックなどに議論を集中することができます。 コードフォーマットで議論するのはもう止めませんか? blackの…