pandasのバッファを使用してS3にファイルアップロードすると文字コードが変換されない

AWS S3 Python

pandasのto_csv関数のパラメータにはファイルパスだけでなくbufferを指定することができます。それを使用して、読み込みしたCSVファイルの文字コードを変換してS3に出力する処理を実装したのですが、何故か文字コードが想定通り変換されなかったので、備忘…

#pandas #データ変換 #文字コード変換

2022-01-21

RDSデータをS3にParquet形式で出力する

AWS RDS S3

タイトル通りです。具体的には以下のドキュメントに書いてある手順を実際に行っていきます。 Amazon S3 への DB スナップショットデータのエクスポート - Amazon Relational Database Service データは以下の記事で準備したものを利用します。 RDSにCloudSh…

#AWS #RDS #S3

2021-09-16

S3のライフサイクルルールのアクションを理解する

AWS S3

お久しぶりです。最近はQiitaの方に書くことが多かったので、こちらに書くのはだいぶ久々です。さて、今回のお題はS3のライフサイクルについてです。AWSを使っている方は恐らく大体の方がS3を使っているとは思いますが、S3上でファイルの自動削除やストレ…

2021-05-20

別のAWSアカウントのS3にファイルをアップロードしてみる

AWS S3

複数AWSアカウントを運用しているとアカウントAからアカウントBのS3にファイルをアップロードする、といったことが発生することがあります。今回は特定のアカウント内にあるEC2から別のアカウントのS3にファイルをアップロードしてみたいと思います。

2021-05-20

AWS CLIでS3にあるファイルのストレージクラスを確認する

AWS AWS CLI S3

AWS CLIでS3上のファイルを確認したり、ローカルにコピーしたりといった作業をすることはよくあるのですが、たまにS3上のファイルのストレージクラスを確認したいときがあります。今回は以下のドキュメントを参考に、ファイルのストレージクラスの情報を取…

2021-05-12

Fluentdでファイル名の一部をS3パスに設定する

AWS SQL Server S3 Fluentd

前回は以下のような記事を書きましたが、今回はファイル名の一部をアップロード先のS3パスに使用する方法を試してみます。 Fluentd等の設定は過去記事を参照ください。 www.capybara-engineer.com 以下の記事を参考にしました。 yomon.hatenablog.com 環境 W…

2021-05-12

CSVファイルをFluentdでS3にアップロードする際に環境変数を使用する

AWS S3 Fluentd

過去にFluentdで以下のような記事を書きましたが、今回はそれをベースにS3のパスに環境変数を使用するのを試してみます。www.capybara-engineer.com環境変数を使用する方法は以下の記事を参考にさせていただきました。 blog.putise.com 環境 Windows Server …

2021-04-12

EmbulkでCSVファイルをS3にアップロードする

AWS S3 Embulk

過去に以下のような記事を書きましたが、今回はそれらを組み合わせてサンプルで準備されているCSVファイルをAWSのS3にアップロードしてみます。www.capybara-engineer.comwww.capybara-engineer.com 尚、S3にアップロードする設定でアクセスキーとシークレッ…

2021-02-08

S3上の日本語データをRedshiftにロードする

S3 AWS Redshift

S3に格納されているCSVファイルのデータをRedshiftにCOPYコマンドで投入する必要があったので備忘のために書いておきます。サンプルデータは何でもよかったんですが、なんとなくこれを使いました。 >年齢（５歳階級），男女別人口－都道府県（大正９年～平…

2020-10-28

Digdag Serverの実行ログをAWS S3に出力する

Digdag S3 AWS

前回の記事でDigdag Serverを設定しましたが、サーバのログをローカルに保持し続けていると、障害時のログ確認にいちいちサーバにログインする手間が発生してしまいます。そこで今回はdigdagの実行ログをAWSのS3に出力するように設定します。(以降Digdagはdi…

#S3 #digdag

2020-03-27

EmbulkでSQL ServerのデータをparquetでS3にアップロードしてみた

Embulk SQL Server S3 AWS

★★★祝 50記事目！！！★★★ 前回はS3にCSVファイルとしてアップロードしたので、今回はparquetに変換してS3にアップロードしてみます。parquet変換に使用するEmbulk のプラグインは以下です。このプラグイン使っている人があまりいないのか、Googleで検索して…

2020-03-27

EmbulkでSQL ServerのデータをS3にアップロードしてみた

Embulk S3 SQL Server AWS

今回は今までSQL Serverから取得していたデータをS3にアップロードしてみます。使用するEmbulk のプラグインは以下です。 github.com

2020-01-29

FluentdでCSVファイルをS3にアップロードしてみた

AWS S3 Fluentd

はじめに前回までの記事ではFluentdのソースにApacheのアクセスログを指定していましたが、今回はCSVファイルを指定してS3にアップロードしてみます。CSVデータは適当にWebで拾ってきたデータを使用します。 https://www.kaggle.com/webirlab/iris-data/dat…

2020-01-28

FluentdでS3パスを動的に変更してアップロードする(日付)

AWS S3 Fluentd

はじめに前回の記事でFluentdでアップロードする際にS3のパスをタグで動的に変更してアップロードする方法を検証しました。今度は日付を使って動的に変更する方法を検証します。前回 capybara-engineer.hatenablog.com日付をパスに使用する方法は以下のURL…

2020-01-28

FluentdでS3パスを動的に変更してアップロードする(タグ名)

AWS S3 Fluentd

はじめに前回の記事でFluentdを使用してS3にアップロードしましたが、今回はそのアップロード先をタグ名によって動的に変更してみます。tag名をパスに使用する方法は以下のURLのExample Configuration部分に記載されています。 s3 - Fluentd # if you want …

2020-01-28

FluentdでS3にアップロードしてみた

AWS S3 Fluentd

はじめにタイトル通りです。前回Fluentdのインストールをしましたが、次はプラグインをインストールしてS3にアップロードを行っていきます。今回はApatcheログをS3にインポートしていきます。参考にした手順は公式の以下の手順です。 docs.fluentd.org Fl…

2019-12-25

JPCYBER S3 Driveを使ってWindowsにS3をマウントしてみた

S3 AWS Windows Server

経緯このブログでCloudBerry Driveを使用したWindows ServerでのS3マウントはよく取り上げていましたが、昨年9月14日にJPCYBER S3 Driveという同じようなマウントツールが出ていたようなので、今回はそれを使用してS3をマウントしてみます。 JPCYBER S3 Dr…

2019-12-23

S3バッチオペレーションを使用したGlacierからの復元

AWS S3

経緯 Glacierからの復元方法として、S3バッチオペレーションがあると聞いたので試してみます。バッチオペレーションについての公式のドキュメントはこちら https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/dev/batch-ops.html どのような機能かというと…

2019-12-15

AWS CLIでS3に何故かアクセスできなかった件

AWS S3 AWS CLI

経緯 S3へのVPC Endpointを作成しているVPCと同じVPC内にあるEC2から、Endpoint経由でS3にアクセスしようとしたところ詰まったので、備忘で書いておきます。実施内容事前確認 AWS CLI実行原因調査実施作業事前確認 CLIで確認したS3バケットは以下です。…

2019-12-06

Glacierから復元するスクリプトを作ってみた

AWS S3 Glacier

はじめに普段S3を使用する時、長期間の保管が必要でかつアクセスが少ないデータに対しては、ライフサイクルルールを使用してGlacierに移動している方が多いと思います。 Glacierはストレージコストが低い分最低保存期間が決まっていたり、S3に復元する際に…

2019-11-21

CloudBerry DriveでS3マウントした時のフォルダサイズを調べてみる

AWS S3 CloudBerry Drive

経緯 S3は以下のURLでも説明されている通り、上限なしのオブジェクトストレージサービスですが、CloudBerry Driveでマウントされたときに一体どの程度の容量になっているのか確認したことなかったので見てみました。 aws.amazon.com 実施内容事前準備 fsuti…

2019-11-15

CloudBerry DriveでマウントしたS3をフォルダ共有でアクセスできるようにしてみる

AWS S3 CloudBerry Drive

経緯タイトル通り、S3をマウントしたフォルダをWindows標準の共有機能で共有設定したので、備忘がてら書きます。 CloudBerry DriveのインストールとS3バケットの作成は既に完了している前提で進めます。ちょっと長いです。実施内容ローカルユーザ、グル…

2019-11-11

CloudFormationを使用してS3バケットを作成してみた

AWS S3

経緯本当にやりたいことは別にありますが、そのためにはCloudFormationを使えないといけなかったので、とりあえず作成してみました。参考URL AWS CloudFormationテンプレート形式 docs.aws.amazon.com S3バケットリソース docs.aws.amazon.com 実施内容 Cl…

2019-10-31

S3インベントリで取得したデータをAthenaからクエリする

AWS S3 Athena

経緯前の記事でS3のインベントリ機能を使用してS3内のデータサイズを取得しましたが、今回はそのデータをAthenaから確認できるようにします。前回 capybara-engineer.hatenablog.com 実施内容 S3バケットポリシー修正 Glue クローラ作成 Glue クローラ実行…

2019-10-31

S3インベントリでフォルダ単位のサイズを取得してみた

AWS S3

経緯 S3のストレージ費用を出す方法を調べていて、S3のインベントリを今まで使ったことなかったので、試しに使ってみました。実施内容インベントリ対象のS3フォルダを作成する。インベントリ出力用のS3バケットを作成する。インベントリを設定する。出…

2019-10-29

AWS CLIを使用してS3のサイズとオブジェクト数を取得してみた

AWS S3

経緯 S3のストレージ費用ってバケット単位で確認するのであれば、CloudWatchを使用すれば確認できますが、フォルダ単位で確認しようと思うとどうやって確認するかわからないことがあります。今回はAWS CLIにコマンド一発で指定したS3バケット、フォルダ配下…

2019-10-18

CloudBerry Driveを使用してEC2にS3をマウントしてみた

AWS CloudBerry Drive EC2 S3

やりたいこと前回言っていた通り、今回はCloudBerry Driveを使用してEC2にS3をマウントしてみます。前回 capybara-engineer.hatenablog.com 実際にやったこと事前準備(S3、EC2) CloudBerry Driveインストール S3マウント設定 S3ファイル確認事前準備(S3…

2019-10-18

CloudBerry Explorerを使用して、EC2からS3にアクセスしてみた

AWS EC2 S3 CloudBerry Drive CloudBerry Explorer

やりたいこと今回はCloudBerry Explorerを使用して、EC2からS3のファイルが操作できるか試していきます。あとS3のファイルのストレージタイプをスタンダードからGlacierに移動した場合にどのように見えるのかも確認してみます。実際に行った事 IAMロール…

カピバラ好きなエンジニアブログ

興味ある技術とか検証した内容を赴くままに書いていきます。カピバラの可愛さこそ至高。

S3

pandasのバッファを使用してS3にファイルアップロードすると文字コードが変換されない

RDSデータをS3にParquet形式で出力する

S3のライフサイクルルールのアクションを理解する

別のAWSアカウントのS3にファイルをアップロードしてみる

AWS CLIでS3にあるファイルのストレージクラスを確認する

Fluentdでファイル名の一部をS3パスに設定する

CSVファイルをFluentdでS3にアップロードする際に環境変数を使用する

EmbulkでCSVファイルをS3にアップロードする

S3上の日本語データをRedshiftにロードする

Digdag Serverの実行ログをAWS S3に出力する

EmbulkでSQL ServerのデータをparquetでS3にアップロードしてみた

EmbulkでSQL ServerのデータをS3にアップロードしてみた

FluentdでCSVファイルをS3にアップロードしてみた

FluentdでS3パスを動的に変更してアップロードする(日付)

FluentdでS3パスを動的に変更してアップロードする(タグ名)

FluentdでS3にアップロードしてみた

JPCYBER S3 Driveを使ってWindowsにS3をマウントしてみた

S3バッチオペレーションを使用したGlacierからの復元

AWS CLIでS3に何故かアクセスできなかった件

Glacierから復元するスクリプトを作ってみた

CloudBerry DriveでS3マウントした時のフォルダサイズを調べてみる

CloudBerry DriveでマウントしたS3をフォルダ共有でアクセスできるようにしてみる

CloudFormationを使用してS3バケットを作成してみた

S3インベントリで取得したデータをAthenaからクエリする

S3インベントリでフォルダ単位のサイズを取得してみた

AWS CLIを使用してS3のサイズとオブジェクト数を取得してみた

CloudBerry Driveを使用してEC2にS3をマウントしてみた

CloudBerry Explorerを使用して、EC2からS3にアクセスしてみた