AWS Glue๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ํ•˜๋Š” ์ด์œ ๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”?
๋ถ„์„ ๋˜๋Š” ML ํ”„๋กœ์ ํŠธ์˜ ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” ํ’ˆ์งˆ ์ข‹์€ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ค๋„๋ก ๋ฐ์ดํ„ฐ๋ฅผ ์ค€๋น„ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. AWS Glue๋Š” ๋” ์ €๋ ดํ•œ ๋น„์šฉ์œผ๋กœ ๋” ๊ฐ„ํŽธํ•˜๊ณ  ๋น ๋ฅด๊ฒŒ ๋ฐ์ดํ„ฐ๋ฅผ ์ค€๋น„ํ•  ์ˆ˜ ์žˆ๋Š” ์„œ๋ฒ„๋ฆฌ์Šค ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ์„œ๋น„์Šค์ž…๋‹ˆ๋‹ค. 70๊ฐœ ์ด์ƒ์˜ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์†Œ์Šค๋ฅผ ์ฐพ์•„์„œ ์—ฐ๊ฒฐํ•˜๊ณ , ์ค‘์•™ ์ง‘์ค‘์‹ ๋ฐ์ดํ„ฐ ์นดํƒˆ๋กœ๊ทธ์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ด€๋ฆฌํ•˜๋ฉฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ์ดํ„ฐ ๋ ˆ์ดํฌ์— ๋กœ๋“œํ•˜๋Š” ETL ํŒŒ์ดํ”„๋ผ์ธ์„ ์‹œ๊ฐ์ ์œผ๋กœ ์ƒ์„ฑ, ์‹คํ–‰ ๋ฐ ๋ชจ๋‹ˆํ„ฐ๋งํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
AWS Glue ์†Œ๊ฐœ(01:54)

AWS Glue์˜ ์ด์ 

๋‹จ์ผ ์„œ๋ฒ„๋ฆฌ์Šค ์„œ๋น„์Šค์—์„œ ํฌ๊ด„์ ์ธ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ๊ธฐ๋Šฅ ์ œ๊ณต
ํŽ˜ํƒ€๋ฐ”์ดํŠธ ๊ทœ๋ชจ, ์‚ฌ์šฉํ•œ ๋งŒํผ ์ง€๋ถˆํ•˜๋Š” ๊ฒฐ์ œ ๋ฐฉ์‹, ๋ชจ๋“  ๋ฐ์ดํ„ฐ ํฌ๊ธฐ
๊ฐœ๋ฐœ์ž๋ถ€ํ„ฐ ๋น„์ฆˆ๋‹ˆ์Šค ์‚ฌ์šฉ์ž๊นŒ์ง€ ๋ชจ๋“  ๋ฐ์ดํ„ฐ ์‚ฌ์šฉ์ž ์ง€์›
๊ณต๊ธ‰์—…์ฒด ์ข…์† ์—†์ด ETL, ELT, ๋ฐฐ์น˜, ์ŠคํŠธ๋ฆฌ๋ฐ ๋“ฑ์„ ์œ ์—ฐํ•˜๊ฒŒ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

์ž‘๋™ ๋ฐฉ์‹

AWS Glue๋Š” ๋ถ„์„, ๊ธฐ๊ณ„ ํ•™์Šต(ML) ๋ฐ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ๊ฐœ๋ฐœ์„ ์œ„ํ•ด ์—ฌ๋Ÿฌ ์†Œ์Šค์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์‰ฝ๊ฒŒ ํƒ์ƒ‰, ์ค€๋น„, ์ด๋™ ๋ฐ ํ†ตํ•ฉํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ์„œ๋ฒ„๋ฆฌ์Šค ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ์„œ๋น„์Šค์ž…๋‹ˆ๋‹ค.

  • ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ์—”์ง„ ์˜ต์…˜
  • AWS Glue์—์„œ ์‚ฌ์šฉ์ž ๋ฐ ์›Œํฌ๋กœ๋“œ๋ฅผ ์ง€์›ํ•˜๊ธฐ์— ์ ํ•ฉํ•œ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ์—”์ง„์„ ์„ ํƒํ•˜์„ธ์š”.

    AWS Glue์˜ ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ์—”์ง„ ์˜ต์…˜์„ ๋ณด์—ฌ์ฃผ๋Š” ๋‹ค์ด์–ด๊ทธ๋žจ
  • ์ด๋ฒคํŠธ ๊ธฐ๋ฐ˜ ETL
  • AWS Glue๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์ƒˆ ๋ฐ์ดํ„ฐ๊ฐ€ ๋„์ฐฉํ•˜๋Š” ๋Œ€๋กœ ์ถ”์ถœ, ์ „ํ™˜, ์ ์žฌ(ETL) ์ž‘์—…์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Amazon Simple Storage Service(S3)์—์„œ ์ƒˆ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜๋Š” ์ฆ‰์‹œ ์‹คํ–‰ํ•  ETL ์ž‘์—…์„ ์‹œ์ž‘ํ•˜๋„๋ก AWS Glue๋ฅผ ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

    ์ƒˆ ๋ฐ์ดํ„ฐ๊ฐ€ ๋„์ฐฉํ•  ๋•Œ AWS Glue๋ฅผ ํ†ตํ•ด ETL ์ž‘์—…์„ ์‹คํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ณด์—ฌ์ฃผ๋Š” ๋‹ค์ด์–ด๊ทธ๋žจ์ž…๋‹ˆ๋‹ค.
  • AWS Glue ๋ฐ์ดํ„ฐ ์นดํƒˆ๋กœ๊ทธ
  • ๋ฐ์ดํ„ฐ ์นดํƒˆ๋กœ๊ทธ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋ฐ์ดํ„ฐ๋ฅผ ์ด๋™ํ•˜์ง€ ์•Š๊ณ ๋„ ์—ฌ๋Ÿฌ AWS ๋ฐ์ดํ„ฐ ์„ธํŠธ ์ „์ฒด์—์„œ ์‹ ์†ํ•˜๊ฒŒ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฒ€์ƒ‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ผ๋‹จ ๋ฐ์ดํ„ฐ๊ฐ€ ์นดํƒˆ๋กœ๊ทธ์— ์ €์žฅ๋˜๋ฉด Amazon Athena, Amazon EMR ๋ฐ Amazon Redshift Spectrum์—์„œ ์ฆ‰์‹œ ๊ฒ€์ƒ‰ ๋ฐ ์ฟผ๋ฆฌ์— ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

    ๋ฐ์ดํ„ฐ ์ด๋™ ์—†์ด ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ์ฐพ๊ณ  ๊ฒ€์ƒ‰ํ•˜๋Š” ๋ฐ์ดํ„ฐ ์นดํƒˆ๋กœ๊ทธ๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ๋‹ค์ด์–ด๊ทธ๋žจ
  • ๋…ธ ์ฝ”๋“œ ETL ์ž‘์—…
  • AWS Glue Studio๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด AWS Glue ETL ์ž‘์—…์„ ์‹œ๊ฐ์ ์œผ๋กœ ๊ฐ„ํŽธํ•˜๊ฒŒ ์ƒ์„ฑ, ์‹คํ–‰ ๋ฐ ๋ชจ๋‹ˆํ„ฐ๋งํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋“œ๋ž˜๊ทธ ์•ค ๋“œ๋กญ ๋ฐฉ์‹์˜ ํŽธ์ง‘๊ธฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ด๋™ ๋ฐ ๋ณ€ํ™˜ํ•˜๋Š” ETL ์ž‘์—…์„ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ AWS Glue๊ฐ€ ์ž๋™์œผ๋กœ ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

    ๋“œ๋ž˜๊ทธ ์•ค ๋“œ๋กญ ๋ฐฉ์‹์˜ ํŽธ์ง‘๊ธฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ด๋™ ๋ฐ ๋ณ€ํ™˜ํ•˜๋Š” ETL ์ž‘์—…์„ ๊ตฌ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ณด์—ฌ์ฃผ๋Š” ๋‹ค์ด์–ด๊ทธ๋žจ
  • ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ๊ด€๋ฆฌ ๋ฐ ๋ชจ๋‹ˆํ„ฐ๋ง
  • AWS Glue Data Quality๋Š” ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ๊ทœ์น™ ์ƒ์„ฑ, ๊ด€๋ฆฌ ๋ฐ ๋ชจ๋‹ˆํ„ฐ๋ง์„ ์ž๋™ํ™”ํ•˜์—ฌ ๋ฐ์ดํ„ฐ ๋ ˆ์ดํฌ ๋ฐ ํŒŒ์ดํ”„๋ผ์ธ ์ „์ฒด์˜ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์„ ๋†’๊ฒŒ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

    AWS Glue Data Quality๋กœ ๋ฐ์ดํ„ฐ ๋ ˆ์ดํฌ์™€ ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ์—์„œ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์„ ์ž๋™์œผ๋กœ ์ธก์ •ํ•˜๊ณ  ๋ชจ๋‹ˆํ„ฐ๋งํ•˜๊ณ  ๊ด€๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ณด์—ฌ์ฃผ๋Š” ๋‹ค์ด์–ด๊ทธ๋žจ
  • ๋ฐ์ดํ„ฐ ์ค€๋น„
  • AWS Glue DataBrew๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora ๋ฐ Amazon Relational Database Service(RDS)๋ฅผ ๋น„๋กฏํ•œ ๋ฐ์ดํ„ฐ ๋ ˆ์ดํฌ, ๋ฐ์ดํ„ฐ ์›จ์–ดํ•˜์šฐ์Šค ๋ฐ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์—์„œ ์ง์ ‘ ๋ฐ์ดํ„ฐ๋ฅผ ํƒ์ƒ‰ํ•˜๊ณ  ๋ฐ์ดํ„ฐ๋กœ ์‹คํ—˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. DataBrew์˜ ์‚ฌ์ „ ๊ตฌ์ถ•๋œ 250์—ฌ ๊ฐœ์˜ ๋ณ€ํ™˜ ์ค‘์—์„œ ์„ ํƒํ•˜์—ฌ ์ด์ƒ ํ•ญ๋ชฉ ํ•„ํ„ฐ๋ง, ํ˜•์‹ ํ‘œ์ค€ํ™”, ์ž˜๋ชป๋œ ๊ฐ’ ์ˆ˜์ • ๋“ฑ์˜ ๋ฐ์ดํ„ฐ ์ค€๋น„ ์ž‘์—…์„ ์ž๋™ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

    ๋˜ํ•œ AWS Glue Studio๋Š” ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•˜์ง€ ์•Š๊ณ ๋„ ๋Œ€ํ™”ํ˜• ํฌ์ธํŠธ ์•ค ํด๋ฆญ ์‹œ๊ฐ์  ์ธํ„ฐํŽ˜์ด์Šค๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ค€๋น„ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ ์ค€๋น„ ๋„๊ตฌ์ž…๋‹ˆ๋‹ค.

    DataBrew๋กœ ์‚ฌ์šฉ์ž์˜ ๋ฐ์ดํ„ฐ ์ค€๋น„ ์ž‘์—…์„ ์ž๋™ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ณด์—ฌ์ฃผ๋Š” ๋‹ค์ด์–ด๊ทธ๋žจ์ž…๋‹ˆ๋‹ค.

์‚ฌ์šฉ ์‚ฌ๋ก€

๋Œ€ํ™”์‹์œผ๋กœ ๋ฐ์ดํ„ฐ ํƒ์ƒ‰, ์‹คํ—˜ ๋ฐ ์ฒ˜๋ฆฌ

๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋Š” AWS Glue ๋Œ€ํ™”ํ˜• ์„ธ์…˜์„ ์‚ฌ์šฉํ•˜์—ฌ ์›ํ•˜๋Š” ํ†ตํ•ฉ ๊ฐœ๋ฐœ ํ™˜๊ฒฝ(IDE) ๋˜๋Š” ๋…ธํŠธ๋ถ์„ ํ†ตํ•ด ๋Œ€ํ™”ํ˜•์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ํƒ์ƒ‰ํ•˜๊ณ  ์ค€๋น„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํšจ์œจ์ ์ธ ๋ฐ์ดํ„ฐ ๊ฒ€์ƒ‰

AWS, ์˜จํ”„๋ ˆ๋ฏธ์Šค ๋ฐ ๊ธฐํƒ€ ํด๋ผ์šฐ๋“œ ์ „๋ฐ˜์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์‹ ์†ํ•˜๊ฒŒ ์‹๋ณ„ํ•œ ๋‹ค์Œ ์ฟผ๋ฆฌ ๋ฐ ๋ณ€ํ™˜์— ์ฆ‰์‹œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

ETL ํŒŒ์ดํ”„๋ผ์ธ ๊ฐœ๋ฐœ ๊ฐ„์†Œํ™”

์ž๋™ ํ”„๋กœ๋น„์ €๋‹ ๋ฐ ์ž‘์—…์ž ๊ด€๋ฆฌ๋ฅผ ํ†ตํ•ด ์ธํ”„๋ผ ๊ด€๋ฆฌ ํ•„์š”์„ฑ์„ ์ œ๊ฑฐํ•˜๊ณ  ๋ชจ๋“  ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ์š”๊ตฌ ์‚ฌํ•ญ์„ ๋‹จ์ผ ์„œ๋น„์Šค๋กœ ํ†ตํ•ฉํ•ฉ๋‹ˆ๋‹ค.

๋‹ค์–‘ํ•œ ์ฒ˜๋ฆฌ ํ”„๋ ˆ์ž„์›Œํฌ ๋ฐ ์›Œํฌ๋กœ๋“œ ์ง€์›

ETL, ELT ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ํ”„๋ ˆ์ž„์›Œํฌ์™€, ๋ฐฐ์น˜, ๋งˆ์ดํฌ๋กœ ๋ฐฐ์น˜, ์ŠคํŠธ๋ฆฌ๋ฐ ๋“ฑ ๋‹ค์–‘ํ•œ ์›Œํฌ๋กœ๋“œ๋ฅผ ๋ณด๋‹ค ์‰ฝ๊ฒŒ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

์ƒˆ๋กœ์šด ์†Œ์‹

  • ๋‚ ์งœ(์ตœ์‹ ์ˆœ)
๊ฒฐ๊ณผ๋ฅผ ์ฐพ์„ ์ˆ˜ ์—†์Œ
1 โ€ฆ
โ€ฆ

AWS ์ž์„ธํžˆ ์‚ดํŽด๋ณด๊ธฐ