カピバラ好きなエンジニアブログ

興味ある技術とか検証した内容を赴くままに書いていきます。カピバラの可愛さこそ至高。

S3

pandasのバッファを使用してS3にファイルアップロードすると文字コードが変換されない

pandasのto_csv関数のパラメータにはファイルパスだけでなくbufferを指定することができます。 それを使用して、読み込みしたCSVファイルの文字コードを変換してS3に出力する処理を実装したのですが、何故か文字コードが想定通り変換されなかったので、備忘…

RDSデータをS3にParquet形式で出力する

タイトル通りです。 具体的には以下のドキュメントに書いてある手順を実際に行っていきます。 Amazon S3 への DB スナップショットデータのエクスポート - Amazon Relational Database Service データは以下の記事で準備したものを利用します。 RDSにCloudSh…

S3のライフサイクルルールのアクションを理解する

お久しぶりです。 最近はQiitaの方に書くことが多かったので、こちらに書くのはだいぶ久々です。 さて、今回のお題はS3のライフサイクルについてです。AWSを使っている方は恐らく大体の方がS3を使っているとは思いますが、S3上でファイルの自動削除やストレ…

別のAWSアカウントのS3にファイルをアップロードしてみる

複数AWSアカウントを運用しているとアカウントAからアカウントBのS3にファイルをアップロードする、といったことが発生することがあります。今回は特定のアカウント内にあるEC2から別のアカウントのS3にファイルをアップロードしてみたいと思います。

AWS CLIでS3にあるファイルのストレージクラスを確認する

AWS CLIでS3上のファイルを確認したり、ローカルにコピーしたりといった作業をすることはよくあるのですが、たまにS3上のファイルのストレージクラスを確認したいときがあります。 今回は以下のドキュメントを参考に、ファイルのストレージクラスの情報を取…

Fluentdでファイル名の一部をS3パスに設定する

前回は以下のような記事を書きましたが、今回はファイル名の一部をアップロード先のS3パスに使用する方法を試してみます。 Fluentd等の設定は過去記事を参照ください。 www.capybara-engineer.com 以下の記事を参考にしました。 yomon.hatenablog.com 環境 W…

CSVファイルをFluentdでS3にアップロードする際に環境変数を使用する

過去にFluentdで以下のような記事を書きましたが、今回はそれをベースにS3のパスに環境変数を使用するのを試してみます。www.capybara-engineer.com環境変数を使用する方法は以下の記事を参考にさせていただきました。 blog.putise.com 環境 Windows Server …

EmbulkでCSVファイルをS3にアップロードする

過去に以下のような記事を書きましたが、今回はそれらを組み合わせてサンプルで準備されているCSVファイルをAWSのS3にアップロードしてみます。www.capybara-engineer.comwww.capybara-engineer.com 尚、S3にアップロードする設定でアクセスキーとシークレッ…

S3上の日本語データをRedshiftにロードする

S3に格納されているCSVファイルのデータをRedshiftにCOPYコマンドで投入する必要があったので備忘のために書いておきます。 サンプルデータは何でもよかったんですが、なんとなくこれを使いました。 >年齢(5歳階級),男女別人口-都道府県(大正9年~平…

Digdag Serverの実行ログをAWS S3に出力する

前回の記事でDigdag Serverを設定しましたが、サーバのログをローカルに保持し続けていると、障害時のログ確認にいちいちサーバにログインする手間が発生してしまいます。そこで今回はdigdagの実行ログをAWSのS3に出力するように設定します。(以降Digdagはdi…

EmbulkでSQL ServerのデータをparquetでS3にアップロードしてみた

★★★祝 50記事目!!!★★★ 前回はS3にCSVファイルとしてアップロードしたので、今回はparquetに変換してS3にアップロードしてみます。parquet変換に使用するEmbulk のプラグインは以下です。 このプラグイン使っている人があまりいないのか、Googleで検索して…

EmbulkでSQL ServerのデータをS3にアップロードしてみた

今回は今までSQL Serverから取得していたデータをS3にアップロードしてみます。使用するEmbulk のプラグインは以下です。 github.com

FluentdでCSVファイルをS3にアップロードしてみた

はじめに 前回までの記事ではFluentdのソースにApacheのアクセスログを指定していましたが、今回はCSVファイルを指定してS3にアップロードしてみます。CSVデータは適当にWebで拾ってきたデータを使用します。 https://www.kaggle.com/webirlab/iris-data/dat…

FluentdでS3パスを動的に変更してアップロードする(日付)

はじめに 前回の記事でFluentdでアップロードする際にS3のパスをタグで動的に変更してアップロードする方法を検証しました。 今度は日付を使って動的に変更する方法を検証します。前回 capybara-engineer.hatenablog.com日付をパスに使用する方法は以下のURL…

FluentdでS3パスを動的に変更してアップロードする(タグ名)

はじめに 前回の記事でFluentdを使用してS3にアップロードしましたが、今回はそのアップロード先をタグ名によって動的に変更してみます。tag名をパスに使用する方法は以下のURLのExample Configuration部分に記載されています。 s3 - Fluentd # if you want …

FluentdでS3にアップロードしてみた

はじめに タイトル通りです。 前回Fluentdのインストールをしましたが、次はプラグインをインストールしてS3にアップロードを行っていきます。 今回はApatcheログをS3にインポートしていきます。参考にした手順は公式の以下の手順です。 docs.fluentd.org Fl…

JPCYBER S3 Driveを使ってWindowsにS3をマウントしてみた

経緯 このブログでCloudBerry Driveを使用したWindows ServerでのS3マウントはよく取り上げていましたが、 昨年9月14日にJPCYBER S3 Driveという同じようなマウントツールが出ていたようなので、今回はそれを使用してS3をマウントしてみます。 JPCYBER S3 Dr…

S3バッチオペレーションを使用したGlacierからの復元

経緯 Glacierからの復元方法として、S3バッチオペレーションがあると聞いたので試してみます。 バッチオペレーションについての公式のドキュメントはこちら https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/dev/batch-ops.html どのような機能かというと…

AWS CLIでS3に何故かアクセスできなかった件

経緯 S3へのVPC Endpointを作成しているVPCと同じVPC内にあるEC2から、Endpoint経由でS3にアクセスしようとしたところ詰まったので、備忘で書いておきます。 実施内容 事前確認 AWS CLI実行 原因調査 実施作業 事前確認 CLIで確認したS3バケットは以下です。…

Glacierから復元するスクリプトを作ってみた

はじめに 普段S3を使用する時、長期間の保管が必要でかつアクセスが少ないデータに対しては、ライフサイクルルールを使用してGlacierに移動している方が多いと思います。 Glacierはストレージコストが低い分最低保存期間が決まっていたり、S3に復元する際に…

CloudBerry DriveでS3マウントした時のフォルダサイズを調べてみる

経緯 S3は以下のURLでも説明されている通り、上限なしのオブジェクトストレージサービスですが、CloudBerry Driveでマウントされたときに一体どの程度の容量になっているのか確認したことなかったので見てみました。 aws.amazon.com 実施内容 事前準備 fsuti…

CloudBerry DriveでマウントしたS3をフォルダ共有でアクセスできるようにしてみる

経緯 タイトル通り、S3をマウントしたフォルダをWindows標準の共有機能で共有設定したので、備忘がてら書きます。 CloudBerry DriveのインストールとS3バケットの作成は既に完了している前提で進めます。 ちょっと長いです。 実施内容 ローカルユーザ、グル…

CloudFormationを使用してS3バケットを作成してみた

経緯 本当にやりたいことは別にありますが、そのためにはCloudFormationを使えないといけなかったので、とりあえず作成してみました。 参考URL AWS CloudFormationテンプレート形式 docs.aws.amazon.com S3バケットリソース docs.aws.amazon.com 実施内容 Cl…

S3インベントリで取得したデータをAthenaからクエリする

経緯 前の記事でS3のインベントリ機能を使用してS3内のデータサイズを取得しましたが、今回はそのデータをAthenaから確認できるようにします。 前回 capybara-engineer.hatenablog.com 実施内容 S3バケットポリシー修正 Glue クローラ作成 Glue クローラ実行…

S3インベントリでフォルダ単位のサイズを取得してみた

経緯 S3のストレージ費用を出す方法を調べていて、S3のインベントリを今まで使ったことなかったので、試しに使ってみました。 実施内容 インベントリ対象のS3フォルダを作成する。 インベントリ出力用のS3バケットを作成する。 インベントリを設定する。 出…

AWS CLIを使用してS3のサイズとオブジェクト数を取得してみた

経緯 S3のストレージ費用ってバケット単位で確認するのであれば、CloudWatchを使用すれば確認できますが、フォルダ単位で確認しようと思うとどうやって確認するかわからないことがあります。 今回はAWS CLIにコマンド一発で指定したS3バケット、フォルダ配下…

CloudBerry Driveを使用してEC2にS3をマウントしてみた

やりたいこと 前回言っていた通り、今回はCloudBerry Driveを使用してEC2にS3をマウントしてみます。 前回 capybara-engineer.hatenablog.com 実際にやったこと 事前準備(S3、EC2) CloudBerry Driveインストール S3マウント設定 S3ファイル確認 事前準備(S3…

CloudBerry Explorerを使用して、EC2からS3にアクセスしてみた

やりたいこと 今回はCloudBerry Explorerを使用して、EC2からS3のファイルが操作できるか試していきます。 あとS3のファイルのストレージタイプをスタンダードからGlacierに移動した場合にどのように見えるのかも確認してみます。 実際に行った事 IAMロール…