背景

基本的に情報はSNSから取得していて、特にXを利用している。最近はAI関連の論文に触れる機会を増やしていて、気になるタイトルの論文や記事は一旦はお気に入りはしているが、数も多くあらためてそれを開き直すことがなかなか億劫になってしまっている状況だった。勝手にお気に入りしたポストのリンク先の論文や記事を要約して取り掛かりやすくするような仕組みが欲しいなと思ったので作った話をまとめる。

仕組み

データ取得

まず、Xでお気に入りした情報をAPIを使って取得しようとすると毎月のサブスクリプションが必要で $200 などかかる。

docs.x.com

IFTTTなら月額 $2.99 でイベントドリブンな連携ができたので、それを使うことにした。

ifttt.com

ポストをお気に入りしたイベントをトリガーにできる。

LLMの処理

取得したXのポストの情報をLLMに渡して要約させたい。ChatGPTやGeminiで試してみたが、XのURLからそのポストの内容を読み取ることはXが制限しているからかできないようだった。ポストのテキスト情報をそのまま渡す、もしくは画面のスクリーンショットを撮って渡す、といった方法も考えたが下記のような状況も考慮したいので断念した。

お気に入りしたポストに論文や記事のURLが含まれておらずスクリーンショットのみが含まれており、URLはそのポストへのリプライに含まれている
お気に入りしたポストだけでなく、そのスレッドに複数連投された投稿全てを渡したい
お気に入りしたポストだけでなく、その引用元のRTも参照させたい

Xが開発しているGrokならば上記の状況も対応できるか試したところ、ポストのURLを渡すだけで、その引用・リプライポストも勝手に情報として取得してくれていそうなので、Grokを使うことにした。

x.ai

IFTTTにはカスタムコードを実行できる仕組みがなさそうなので、何かを用意する必要がある。お金もかからないし、Google Sheetにお気に入りしたポストのデータを溜めてApps ScriptでGrokを呼び出してメールすることにした。

Apps Script

コードはLLMに適当に要件を伝えて書いてもらった。

スクリプト実行のトリガーは時間主導で5分ごとに実行する。シートの編集をトリガーにするような設定もあったが、調べたところIFTTTによる更新ではトリガーできないみたいなので断念して定期実行にした。

最後に処理した行を状態としてスクリプトプロパティに持たせて、定期実行で追加された行だけ処理させるようにする。

    const props = PropertiesService.getScriptProperties();
    const lastProcessedStr = props.getProperty(PROP_KEY_LAST_ROW);

プロンプトは適当に設定した。

  const systemPrompt =
    'あなたは有能なAI・LLMのResearcher・Engineerです。' +
    '与えられたURLのリンク先の内容や、その周辺情報をWeb検索ツールを用いて理解し、' +
    '「何が興味深い情報か」を日本語でわかりやすく要約してください。';

  const userPrompt =
    '次のURLはX（旧Twitter）のポストのURLです。内容を確認し、そこに含まれるリンク先の情報や周辺情報をWeb検索ツールで調べるなどして、情報を日本語でまとめてください。' +
    '原文が英語だったら翻訳したものを出力に含めてください。情報全体をまとめたタイトルを出力の最初にしてくだい。一連のthreadに含まれるポストの場合は、そのURLのポストを特に取り上げてください。一連のthreadに含まれる外部URLは関連情報として出力に含めてください。YouTubeなど動画コンテンツの場合は、文字起こし情報がないか、動画をまとめた記事がないかを検索し、なければその周辺情報をまとめるだけで良いです。\n' +
    '出力はURLリンクの記述方法を含めてHTML形式でお願いします。画像はHTMLで表示できるように埋め込んでください。\n' +
    'URL: ' + url + '\n';

toolは、ウェブ検索とX検索を有効にして、reasoning_effortを高く設定。

  const payload = {
    model: XAI_MODEL_NAME,
    input: [
      { role: 'system', content: systemPrompt },
      { role: 'user', content: userPrompt }
    ],
    tools: [
      { type: 'web_search' },
      { type: 'x_search' }
    ],
    reasoning_effort: 'high'
  };

Apps Script普段使わないから知らなかったけど、メール送信が簡単に実行できるのが嬉しい。

    MailApp.sendEmail({
      to: MY_EMAIL,
      subject: subject,
      body: body,
      htmlBody: body
    });

どんなメールになるか

結果、Xのポストをお気に入りしたら5分程度で下記のようなメールが送られてくるようになった。

元のポストはこちら

Beyond Memorization

Exposes popularity bias in VLMs: 34% higher accuracy on famous vs ordinary buildings, showing memorization trumps understanding. YearGuessr benchmark with 55K building images from 157 countries reveals critical reasoning flaws. pic.twitter.com/sS4FSSFWeL
— DailyPapers (@HuggingPapers) 2025年12月25日

最後に

これで、論文や気になった記事を読む心理的ハードルが下がって、過去に気になった記事をメールボックスで検索できるようになり、便利になった。このGrokの呼び出しセットアップだと、一回のAPI実行に10円くらいかかり、ちょっと高く感じるので、コスト削減が次の課題か。上記の方法より良いやり方があれば教えてください。

最後に気になる論文を見つけるのに参考になるXアカウントを紹介して終わりにします。

2025-04-09

Text-to-SQLのコモディティ化とデータ活用の民主化

はじめに
データ活用と生成AI
構造化されたデータと生成AI
事例
- Uber
- LinkedIn
- Pinterest
さいごに

はじめに

ikki-sanのデータ活用の民主化へのコメントをそうだなと思いながら読んで、最近自分もそんな感じの領域のことをベンダー所属のプロダクトマネージャーとしてやっているので、考えていることをまとめてみる。

この数年間で「データの民主化」はイマイチ進まなかった印象ですが、その原因は「SQLの習得難易度」によるところが大きい。そこに関しては生成AIで相当解決されるはずなので、今後はデータの民主化がスタンダードになると予想しています。
— ikki / stable代表 (@ikki_mz) 2025年4月7日

データ活用と生成AI

これまで社内に蓄積された構造化されたデータを取得・操作するにはSQLおよびデータベースの理解が必要であり、その理解がない人たちは誰かにデータの取得を依頼するか、ダッシュボードやスプレッドシートなど誰かが作ったUIを介してデータを利用するしかなかった。そのような状況は、データを活用するまでオーバーヘッドが大きかったり、定型化されたデータ活用のレールから外れることができないなど、制限が多かった。

そこで、セルフサーブBIやセマンティックレイヤーの概念が登場したり、各社データカタログやOBTを導入したり、色々な工夫が行われてきた。少しずつ状況は変わってきているが、生成AIの普及がその現状を大きく変えることは間違いない。

具体的には、対話型UIにより自然言語でAIに要件を伝えるとそれに見合ったデータ（もしくはさらに求めるグラフやインサイトまでも）がSQLを書かずとも得られるようになってきている。そのような機能は、さまざまなサービスで実装され、利用されはじめている。例えば、DWHレイヤーだとSnowflakeのCortex AgentsやDatabricksのGenieなど、BIレイヤーだとTableauのTableau Agent、ThoughtspotのSpotter、データカタログレイヤーだとInformaticaのCLAIREやAlationのALLIE AIなどだ。そして昨年末のMCPの登場により、MCPサーバーを用意することでさまざまなデータベースをLLMから操作できるようにもなってきている。

構造化されたデータと生成AI

ここで、SnowflakeのCortex Agentsの仕組みを見てみると、内部はCortex AnalystとCortex Searchに分かれる。それぞれが、構造化データ（テーブル）の操作と非構造化データ（ドキュメント）の操作を担当している。

エンタープライズデータに必要なのはエージェント

Cortex Analystの動作には事前にセマンティックモデルと呼ばれるものを定義する必要がある。このセマンティックモデルというものは、実態はテーブルに紐づくさまざまなメタデータを集めたYAMLファイルだ。これをAIが参照することでデータのセマンティックス（意味）を理解し、利用できるようになる。具体的には以下のように様々なメタデータをYAMLで定義・管理ができる。

Cortex Analyst semantic model specification | Snowflake Documentation

SnowflakeのCortex Analystの例を挙げたが、他のシステムでも似たような仕組みになっていることが多い。システムがデータを使いやすいように構造化されたが故にコンテキストが削ぎ落とされ、生成AIからはそのままでは利用しにくくなっているというのはパラダイムシフトっぽい状況で面白い話だなと思う。

AIのアウトプットを正確にするためにはそのようなメタデータやセマンティクスの管理が重要なことは間違いない。そして、セマンティックといえばセマンティックレイヤーの話題になるが、セマンティックレイヤーを導入すればそのままLLMがその意味を理解して喋れるようになり、それを契機にセマンティックレイヤーの普及が進むような未来があるのかもしれない。

また、MCPはと言えば、データベースを操作するようなサーバーの実装では、list と execute_query で頑張るような実装していることが多く、まだ良い感じにクエリを書いてもらうにはユーザーから目的のデータが含まれるテーブルを指定するなりが必要でデータベースの構造理解がないユーザーが利用しにくかったり、大量のテーブルが存在する状況では壁があるという印象だ（そんなことないよという場合はぜひ教えてください）。

事例

Uber社などすでにLLMで社内のデータを操作するような内製の仕組みの導入が成功している企業も存在し、その企業内部での工夫を公開しているので先人たちからどのような要素が重要なのかを学ぶことができる。基本的にはText-to-SQLをどのように頑張るかという話である。

Uber

www.uber.com

Uberでは内製のデータプラットフォーム上で自然言語でクエリを作成できるようになっており、クエリ作成の業務効率化を実現している。

1 日あたり平均約 300 人のアクティブユーザーが利用しており、そのうち約 78% が、生成されたクエリによって、ゼロからクエリを作成する場合よりも時間が短縮されたと回答しています。

初期バージョンでは、自然言語での問い合わせに対して、社内に構築したRAGから

テーブルのDDL
サンプルSQL

を取得し、社内の独自日付フォーマットについての処理などのカスタムインストラクションと合わせてプロンプトを作って、SQLを作成するという設計だったようだ。

しかし、ただユーザーの質問文をRAGに投げても適切なテーブル情報を取得するのが難しい、列数が200などのテーブルがありそのようなテーブルをプロンプトに含めるとトークン数の制限にかかる、など問題があった。

そこで、新しいバージョンのアーキテクチャでは、

広告やモビリティなどの問い合わせ内容についての分類を事前に作成し、RAGへの検索前に問い合わせ内容を分類することで、RAGの検索範囲を限定する
AIがSQL生成に利用するテーブルが想定のものと合っているかユーザーに確認するプロセスを挟む
LLMに与える列を間引くプロセスを追加する

ような工夫を行なっている。

その一連のフロー図は下記になっている。この記事からは、図に出てくるサンプルクエリやメタデータやドメイン知識の管理をどのように行なっているからはわからない。

www.linkedin.com

LinkedInもLangChainとLangGraphを使って、SQL BotというAIアシスタント機能を実現している。さまざまな部門で数百人の従業員が現在使用しているようだ。

記事では、工夫した点を5つの戦略として紹介している。具体的には下記の5つだ。

戦略1: 品質の高いテーブルメタデータとパーソナライズされた検索
戦略2: ランキング、執筆、自己修正のための知識グラフとLLM
戦略3: 豊富なチャット要素によるユーザーエクスペリエンス
戦略4: ユーザーカスタマイズのオプション
戦略5: 継続的なベンチマーク

説明されているフローはUberのそれよりはもうちょっと複雑になっている。

DataHubを使用して、テーブルスキーマ、フィールドの説明、カテゴリディメンションフィールドの上位 K 値、パーティションキー、およびメトリック、ディメンション、属性へのフィールドの分類を検索します。

SQL Bot の UI でユーザーからドメイン知識を収集します。

クエリログからの成功したクエリを使用して、テーブル/フィールドの人気度や共通テーブル結合などの集計情報を導き出します。

社内 Wiki と DARWIN のノートブックからサンプルクエリを組み込みます。DARWIN のコード品質はさまざまであるため、ユーザーによって認定されたノートブックと、最新性と信頼性に関する一連のヒューリスティックを満たすノートブックのみを組み込みます。たとえば、実行回数が多いユーザーがタイトルを付けた最近作成されたノートブックを優先します。

まず、LinkedInではDataHubというOSSのデータカタログツールとDARWINというデータ分析プラットフォームを内製して運用しており、質問に答えるための継続的なメタデータの管理と参照を行なっている。

膨大な量のテーブル (LinkedIn では数百万に上ります) と、ユーザーの質問に埋め込まれた暗黙のコンテキストです。アクセスの人気度を調べることで、テーブルの量を数千にまですばやく絞り込むことができます。

テーブルが大量にあるという課題は、LinkedInでは人気度のようななんらかのスコアをもとに間引くような工夫をしているようだ。

当初のプロトタイプでは、すべての質問に SQL クエリで回答していましたが、ユーザーが実際に望んでいたのは、テーブルの検索、データセットに関する質問、参照クエリの確認、クエリ構文に関する一般的な質問でした。現在では、意図分類を使用して質問を分類し、回答方法を決定しています。

SQLの生成のほかに、テーブルの検索やデータセットに対する質問、クエリの確認や一般的な質問など多様なユースケースがあったことも示唆的だ。

そして、LinkedInでもUberと同様に利用するテーブルをユーザーに選ばせるインターフェイスを採用しているようだ。その際に、表示するテーブルについては、その説明、データセットが「認定済み」か「人気」かを示すタグ、月間平均アクセス頻度、よく結合されるテーブル、および詳細情報のための DataHub へのリンク などを表示しユーザーが判断しやすいようにしているようだ。また、スタンドアロンアプリにするより、ウィンドウ内でクエリを実行できるようにすることで利用率が5-10倍になったと言っていて、合わせてUIの重要性を伝えている。

たとえば、「昨日の平均 CTR はいくらでしたか?」という質問は、従業員がメール通知、広告、または検索品質のどれに興味があるかによって異なる回答をする必要があります。これに対処するために、組織図に基づいてユーザーの既定のデータセットを推測します。

また、かなり応用的に感じるが、質問をした従業員の組織情報に応じてLLMへのインプットを変えるような仕組みになっているようだ。

medium.com

さいごの事例はPinterestだ。別な方が書いた解説記事もあるので合わせてご参照ください。 Pinterest社で運用されているText-to-SQLを理解する

Pinterestのフローはこちら

Pinterestでは下記のような工夫をしている。

正しいwhere句を生成するために、低カーディナリティな列についてはカテゴリ値をLLMに与える
トークン節約のため
- テーブルスキーマの縮小バージョン: テーブル名、列名、タイプなどの重要な要素のみが含まれる
- 列の整理: 列はメタデータストアでタグ付けされ、タグに基づいて特定の列がテーブルスキーマから除外される

また、他社と同様にRAGを構築しているが、そこにあらかじめ

テーブルの要約情報
クエリの要約情報

を生成し追加することで検索の精度をあげているようだ。

さいごに

データ活用の民主化を実現するAI活用の事例を見てきた。今後周辺ツールの発展により積み重ねられた知見がコモディティ化し、業務にデータを使うまでのハードルは下がっていくだろう。もちろんその際に正しくデータマネジメントを行うことの重要性が増すことも間違いない。

ちょうどタイムリーにガートナーによる企業のAI活用とデータ管理に関する記事が出ていた。今後このようにAIが社内データを利用できるようにきちんと管理できる企業とそうでない企業の差は生まれていくだろう。引き続き、変わっていく環境にめげずについていきましょう。

　AI-Readyデータを整備できた企業は大きな競争力を手に入れることができる。エモット氏によると、AIがビジネスの成果にもたらす影響ついて尋ねたガートナーの調査でも、データがAI向けに準備できている企業の「貢献している」との回答は、準備できていない企業とくらべ、「売上」「コスト」「リスク」「生産性」のいずれでも約20ポイント多いという。

www.sbbit.jp

2024-12-23

生成AI時代のデータカタログについてという記事を書きました

来年はもっと生成AI関連に時間使っていきたい。

note.primenumber.co.jp

2023-12-11

データエンジニアがプロダクトマネージャーになることについて考えること

こちら trocco® Advent Calendar 2023 のシリーズ2の11日目の記事です。 qiita.com

データエンジニアからプロダクトマネージャーへのキャリアパス？

自分がそうだったという、かなりポジショントークと希望的観測込みの考えではあるが、データエンジニアからプロダクトマネージャーは割と有りなキャリアパスなんじゃないかという気が最近している。

データエンジニアとして満足していたりその専門性をまだまだ突き詰めて行きたいと思っている人はこんなことを考える余地はないかもしれないが、誰かのキャリア検討の一助になれば、とそう思う理由について言語化してみる。ちなみに、ここではSaaSとかインターネットサービスを提供している企業におけるプロダクトマネージャーを想定している。

理由1: データリテラシーが高く技術に強い

データリテラシー、技術に強いことは、プロダクトマネジメントする上でもかなり活きる。プロダクトマネージャーとして、toCでもtoBでも社内のデータを活用して状況を分析したり、プロダクト開発上の仮説を立てるのは日常的なことだ。社内のデータの構造をすぐに把握してSQLを書いてデータを抽出したり、最悪自分でデータを取得する仕組みを作れることは大きな強みになる。

さらに、データリテラシーだけでなく一般的なWeb技術に通じているケースも多い。データを処理するシステムがそういう技術に依拠していたり、データの生成元がそのようなシステムになっていたり、ユーザーが操作するウェブのUIについて考えることも多いためだ（最近はどこもSaaSを使って自前でホスティングするみたいな経験は少なくなっているのかもしれないけれど）。

理由2: 社内のさまざまなステークホルダーとコミュニケーションを取り、プロジェクトマネジメントができる

また、泥臭いプロジェクトマネジメントができることも強みになる。データエンジニアは日々データ利用者のことを考えながら基盤構築のプロジェクトを進めていたり、データセットやデータツールのマイグレーションをしていたり、それらの計画を立てたり、そのためのコミュニケーションをさまざまステイクホルダーと行っていたりする。プロダクトマネージャーにおいてもさまざまな職種の人とコミュニケーションを取ることは必須で、そのプロセスは同様だ。

理由3: 社内のデータに詳しい（ドメイン知識がある）

最後に、社内のデータに詳しくなることを通じて、結果的に業界のドメイン知識に詳しくなるのもプロダクトマネージャーになることには有利に働く。技術にしか興味ない人やあまりデータ活用レイヤーに業務領域が被らない人はその限りではないのかもしれないが、データエンジニアとしてデータの活用を支援する立場となるとやはりそのデータがどのようなものでどのように活用されるかについての知見は溜まってくるんじゃないかなと思う。

さいごに

データエンジニアの職務領域は各社様々なので、上記の理由に当てはまらないデータエンジニアはいるとは思う（Hadoop クラスターの運用を専門としている人など）。一番ハードルが高そうなのは理由3かな。プロダクトマネージャーになるためにあと必要なのは、ビジネスや組織に対する興味関心とユーザーを喜ばせようとする気持ちとかか。

自分がデータエンジニアからプロダクトマネージャーになったのは、データを使って事業とかプロダクトを良くしたいと思ったときに、自分がPMをやった方が効果的なんじゃないかと思ったからだ。特定のドメイン・プロダクトが好きで、同じような気持ちになったりする人は少なからずいるんじゃないかなーと思ったりするので、そういう人はちょっと検討してみてください。

[PR] troccoというプロダクトのPMを募集しているのでデータエンジニアやってる方でご興味ある方は、お気軽にご連絡ください。

herp.careers

2023-09-03

特にエンジニアリングに必須ではない図書40冊後編

はじめに
特にエンジニアリングに必須ではない図書20冊仕事編
さいごに

はじめに

前回の続きで、リストアップしていた会社で働いていくなかで役に立ちそうな残りの20冊を紹介する。 satoshihirose.hateblo.jp

背景

仕組み

データ取得

LLMの処理

Apps Script

どんなメールになるか

最後に

はじめに

データ活用と生成AI

構造化されたデータと生成AI

事例

LinkedIn

さいごに

データエンジニアからプロダクトマネージャーへのキャリアパス？

理由1: データリテラシーが高く技術に強い

理由2: 社内のさまざまなステークホルダーとコミュニケーションを取り、プロジェクトマネジメントができる

理由3: 社内のデータに詳しい（ドメイン知識がある）

さいごに

はじめに

特にエンジニアリングに必須ではない図書20冊 仕事編

さいごに

はじめに

特にエンジニアリングに必須ではない図書20冊

投資・金融・経済

生活

まとめ

はじめに

なぜ使われないダッシュボードが作られるか

1. ダッシュボードがなぜ必要かの理解が不十分なまま作り始めてしまうから

2. アウトカムより目に見えるアウトプットに人は安心するから

3. そもそも人のニーズを捉えたプロダクトを作ることは難しいから

まとめ

特にエンジニアリングに必須ではない図書20冊仕事編