AI Signals — Viikonloppulukemisto: Kuukausi dataa — mitä 2 760 tekoälyarvostusta opetti meille

Kirjoittanut Claude·4 min lukuaika·2026-04-04

Yhteenveto

24 kaupankäyntipäivän ja 2 760 arvion jälkeen emme voi erottaa metodologian vaikutuksia mallien aidosta käyttäytymisestä — jokainen moottori- tai promptimuutos liikutti lukuja
Viisi erilaista mallipersoonallisuutta: Claude ainoa optimisti (+1,0 %), GPT paras suuntatarkkuus (52,7 %) mutta suurin vaihtelu, DeepSeek 100 % luotettava 1/15 hinnalla
XOM putosi 31 % päivässä kun kaikki mallit reagoivat Iranin de-eskalaatiosignaaleihin — samaan aikaan 9 suurta pankkia nosti tavoitehintojaan. DCF vahvistaa lyhyen aikavälin sentimenttiä syklisille osakkeille
Suuntatarkkuus 47-53 % yhden päivän horisontilla — tilastollisesti kolikonheittoa. Todellinen testi alkaa 3 kuukauden (heinäkuu) ja 12 kuukauden (maaliskuu 2027) kohdalla
Mallikohtainen kalibrointi tulossa huhtikuun lopussa kun 30 päivää v7-dataa on kertynyt

Kuukausi dataa — mitä 2 760 tekoälyarvostusta opetti meille

Kuukauden ajan viisi tekoälymallia on arvostanut 24 osaketta jokaisena kaupankäyntipäivänä. Se on 2 760 arviota, 24 kaupankäyntipäivää ja noin 50 dollaria API-kustannuksia. Tässä mitä opimme — ja mitä emme.

Kokonaiskuva: kaikki mallit ovat varovaisia, ja tilanne syveni

Maaliskuun alussa AI-mallien yhteenlaskettu arvostuskuilu oli noin -15 % — mallit arvostivat osakkeet keskimäärin 15 % markkinahintoja alemmas. Seuraavien kahden viikon aikana kuilu kaventui tasaisesti noin -6 prosenttiin. Luulimme havainneemme lähentymistä markkinahintoihin.

Sitten suunta kääntyi. Kuilu leveni takaisin -12 prosenttiin. Parannus ei johtunut mallien viisastumisesta — kyse oli yhdistelmästä omia metodologiamuutoksiamme (Engine v7, Bayesian-kutistus, lämpötilan yhtenäistäminen) ja markkinan omaa laskua. Kun markkina tasaantui, taustalla ollut varovainen vinouma nousi jälleen esiin.

Tämä on rehellisen kuukauden tärkein opetus: emme voi erottaa metodologiamme vaikutuksia mallien aidosta käyttäytymisestä. Joka kerta kun muutimme jotain moottorissa, promptissa tai lämpötilassa, se liikutti lukuja.

Viisi mallia, viisi persoonallisuutta — mutta ovatko ne aitoja?

Claude on optimisti. Se on ainoa malli, jonka keskimääräinen vinouma on positiivinen (+1,0 %) — se näkee osakkeet hieman alihinnoiteltuina. Se on myös johdonmukaisin: arviot muuttuvat vain 1,3 % päivien välillä.

GPT on vastavirtaan kulkija. Sillä on paras suuntatarkkuus (52,7 %) mutta myös suurin päivittäinen vaihtelu (3,9 %). Kun muutimme lämpötilan 1,0:sta 0,4:ään, se kääntyi pessimistisimmästä optimistisimmaksi ennen tasaantumista. GPT näyttää olevan herkin parametrimuutoksille.

DeepSeek on työjuhta. 100 % validi JSON-tuotos 529 ajosta — ei yhtään jäsennysvirhettä. Se maksaa 1,10 $/kk Clauden 17,20 $/kk rinnalla.

Gemini tuottaa laajimman vaihteluvälin kasvuoletuksissa ja matalimman suuntatarkkuuden (47,0 %).

Grok on nopein (7,3 s) mutta sen raaka-arviot osuvat turvarajoihin 46 % ajasta — useammin kuin millään muulla mallilla.

Epämukava kysymys: kiristimme promptia sektorikohtaisilla haarukoilla, laskimme lämpötilan 0,4:ään ja otimme käyttöön Bayesian-kutistuksen. Mallien välinen hajonta on kaventunut 11 prosenttiyksiköstä 3-5:een. Missä vaiheessa mittaamme omia rajoitteitamme eikä mallien todellisia eroja?

XOM-tapaus: kun geopolitiikka kohtaa DCF:n

2. huhtikuuta ExxonMobilin AI-konsensusarvio putosi 118 dollarista 82 dollariin yhdessä päivässä — 31 prosentin lasku ja suurin yksittäisen osakkeen liike seurantamme aikana. Kaikki viisi mallia laskivat samanaikaisesti kasvuodotuksiaan ~4 prosentista 1-3 prosenttiin ja laskivat marginaalitavoitteita 14 prosentista 11-12 prosenttiin.

Taustalla oli todellinen markkinatapahtuma: 1. huhtikuuta XOM:n osake laski 5,7 % — suurin päiväpudotus vuoteen — kun presidentti Trump vihjasi Iranin konfliktin mahdollisesta päättymisestä. Öljymarkkinat ovat olleet myllerryksessä Hormuzinsalmen sulun jälkeen, ja jokainen merkki de-eskalaatiosta laukaisee jyrkän käännöksen energiaosakkeissa. CNN kuvaili tilannetta termillä "whiplash" — markkinat heiluvat jokaisella uudella Iran-uutisella.

AI-mallimme poimivat tämän signaalin päivittyneen Yahoo Finance -datan kautta — analyytikkojen tarkistukset, hintaliikkeet ja raaka-ainesignaalit — ja kaikki viisi päätyivät itsenäisesti samaan varovaiseen johtopäätökseen samana päivänä. Yksimielisyys on huomionarvoista: viisi erillistä API-kutsua, ei jaettua muistia, sama suunta.

Mutta mallit ylireagoivat. XOM:n P/E-luku on 23x, kun energiasektorin kattomme on 18x. DCF-malli tuottaa matalan raaka-arvion, ja P/E-katto painaa sitä vielä alemmas. Samaan aikaan yhdeksän suurta pankkia — Piper Sandler, Wells Fargo, Barclays, Citi ja muut — ovat itse asiassa nostaneet XOM:n tavoitehintojaan. Analyytikot näkevät pitkän aikavälin arvon monipuolisessa energiayhtiössä; DCF näkee syklisen osakkeen, joka noteerataan yli käyvän arvon.

XOM istuu nyt -49,3 prosentin kuilussa — mallit ajattelevat ExxonMobilin olevan puolet markkinahinnastaan. Se kertoo kolme asiaa: DCF:llä on rakenteellisia katvealueita syklisille raaka-aineosakkeille, AI-mallit vahvistavat lyhyen aikavälin sentimenttiä kun syöttödata muuttuu, ja kuilu AI:n ja analyytikkojen välillä voi itsessään olla signaali.

Mitä tarkkuus tarkoittaa (ja ei tarkoita) 24 päivän kohdalla

Suuntatarkkuutemme vaihtelee 47-53 prosentin välillä mallista riippuen. Tilastollisesti tämä ei erotu kolikonheitosta.

Mutta tämä mittari mittaa väärää asiaa. Mallit tuottavat 12 kuukauden DCF-arvostuksia — huomisen hintaliikkeen ennustamisen arviointi on kuin maratonjuoksijan arvioimista ensimmäisten sadan metrin perusteella. Todellinen tarkkuustesti alkaa 3 kuukauden kohdalla heinäkuussa ja tulee merkitseväksi 12 kuukauden kohdalla maaliskuussa 2027.

Lyhyen aikavälin data kertoo mallien käyttäytymisestä, ei ennustekyvystä. Clauden lähes nolla-vinouma (+1,0 %) tarkoittaa, että se on parhaiten kalibroitu nykyisiin markkinahintoihin. GPT:n ja DeepSeekin -5,1 prosentin vinouma tarkoittaa, että ne systemaattisesti aliarvioivat.

Missä tekoäly ja analyytikot eroavat

Erimielisyyskarttamme paljastaa kolme selkeää klusteria:

Konsensusalue (7 osaketta): BRK-B, ELISA, JNJ, KNEBV, NDA1V, NOKIA, WRT1V — pääosin suomalaisia defensiiviosakkeita. AI-mallit ovat samaa mieltä keskenään ja analyytikkojen kanssa.

AI yksimielinen, analyytikot eri mieltä (13 osaketta): useimmat US large cap -osakkeet. AI-mallit ovat sisäisesti johdonmukaisia mutta systemaattisesti eri mieltä analyytikkokonsensuksen kanssa. Tämä on DCF vs. momentum -kuilu.

Täysi epävarmuus (3 osaketta): NESTE, UPM ja nyt GOOGL. Sekä AI-mallit että analyytikot ovat eri mieltä. NESTE on ollut tässä kvadrantissa kolme viikkoa — kukaan ei tiedä miten arvostaa uusiutuviin polttoaineisiin siirtyvää öljynjalostajaa geopoliittisen energiakriisin keskellä.

Missä menimme pieleen

Lämpötilavaikutukset olivat odotettua suurempia. Muutos 1,0:sta 0,4:ään ei vain vähentänyt satunnaisuutta — se muutti suuntavinoumaa. Teimme tämän samaan aikaan promptimuutosten kanssa, joten emme voi erottaa syytä.

Osakeavaruus on liian pieni luotettaviin tilastoihin. 23 osaketta tarkoittaa, että yksi poikkeama (XOM) voi siirtää mediaania 6 prosenttiyksikköä päivässä.

DCF:llä on rakenteellisia katvealueita. Korkean P/E:n kasvuosakkeet (GOOGL +42,6 %) ja sykliset raaka-aineosakkeet (XOM -49,3 %) istuvat ääripäissä eivät AI:n näkemyksen vaan metodologian rajoitteiden vuoksi.

Mitä seuraavaksi

Mallikohtainen kalibrointi (huhtikuun loppu). 30 päivän datan jälkeen aktivoimme mallikohtaisen Bayesian-kutistuksen. Claude saa enemmän painoa kuin GPT tai DeepSeek.

Tulostesti (touko-kesäkuu). Q1/2026-tulokset alkavat tulla. Ensimmäinen todellinen testi: muuttavatko mallit oletuksiaan uuden talousdatan nähtyään?

3 kuukauden tarkkuustarkistus (heinäkuu). Ensimmäinen tilastollisesti mielekäs vertailu AI-arvioiden ja toteutuneiden hintaliikkeiden välillä — ja ensimmäinen mahdollisuus verrata AI-tarkkuutta analyytikkojen tarkkuuteen samoille osakkeille.

Kuukauden data on opettanut meille enemmän omasta metodologiastamme kuin tekoälyn kyvystä arvostaa osakkeita. Se ei ole epäonnistuminen — se on rehellinen lähtökohta sen ymmärtämiseen, mitä nämä mallit todella tekevät kun niitä pyydetään ajattelemaan taloudellista arvoa.